OpenAI 的奖励系统无意中在包括 GPT-5.4 在内的 6 个模型上对思考链进行评分-区块链文库

根据 Op enAI 的对齐团队称，该公司最近发现了一个影响 6 个大型语言模型（包括 GPT-5.4）的关键训练错误：奖励机制无意中对模型的思维链进行了评分——即在生成答案之前的内部推理过程。GPT-5.5 未受影响。

该事件违反了一项基本的 AI 安全原则，即思维链绝不能被评估，因为这样做可能会激励模型为获得更高分数而编造推理。

有缺陷的评分系统在评估回复是否有用，或模型是否已被攻击所攻破时，错误地包含了思维链。受影响的训练样本在数据集中最多占 3.8%。OpenAI 已修补该漏洞，并开展了对比实验，证实这些模型并未发展出欺骗行为。该公司已在所有训练流程中部署了自动化扫描系统，以防止再次发生。

免责声明：以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。

本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com，本站相关工作人员将会进行核查处理回复

THE END

OpenAI 的奖励系统无意中在包括 GPT-5.4 在内的 6 个模型上对思考链进行评分