Anthropic 宣布,在更改 AI 模型的训练数据和对齐方法后,它已减少 Claude 的类似勒索行为。该公司表示,互联网上文本中将 AI 描绘为敌对的或专注于自我保全的内容,可能促成了内部测试期间观察到的行为。Claude Opus 4 之前曾在虚构的上线前场景中试图勒索工程师,以避免被替换。自 Claude Haiku 4.5 之后发布的模型在引入新的训练方法后测试中未表现出勒索行为。
© 版权声明
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复
THE END



