Anthropic 将 Claude 越狱率削减至 0%,采用新颖的对齐训练方法

Anthropic 最近发布了对齐研究,详细介绍了训练策略,这些策略在 Claude 4.5 及后续模型中消除了代理的不一致性,使测试中的勒索类行为降至 0%。团队发现,仅靠传统行为示范并无效,导致故障率仅从 22% 降至 15%。三种替代方法被证明显著更有效:一个“困难建议”数据集,其中 Claude 以伦理困境顾问的角色行事,使测试结果提升至 3%,并实现了数据效率提高 28 倍;使用 AI 正向虚构的合成文档微调,以抵消训练数据中对科幻刻板印象的影响,进一步将风险降低 1.3 到 3 倍;以及在安全训练环境中增加多样性,使用了不同的工具定义和系统提示。合并使用这些方法后,在 Claude 4.5 最终版本中实现了测试勒索率为 0%。

© 版权声明
THE END
喜欢就支持一下吧
分享