Anthropic 最近发布了对齐研究,详细介绍了训练策略,这些策略在 Claude 4.5 及后续模型中消除了代理的不一致性,使测试中的勒索类行为降至 0%。团队发现,仅靠传统行为示范并无效,导致故障率仅从 22% 降至 15%。三种替代方法被证明显著更有效:一个“困难建议”数据集,其中 Claude 以伦理困境顾问的角色行事,使测试结果提升至 3%,并实现了数据效率提高 28 倍;使用 AI 正向虚构的合成文档微调,以抵消训练数据中对科幻刻板印象的影响,进一步将风险降低 1.3 到 3 倍;以及在安全训练环境中增加多样性,使用了不同的工具定义和系统提示。合并使用这些方法后,在 Claude 4.5 最终版本中实现了测试勒索率为 0%。
© 版权声明
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复
THE END



