Tilde Research 发现 Muon 优化器会杀死 25% 的神经元；Aurora Alternative 实现 100 倍的数据效率提升-区块链文库

据 Tilde Research 称，领先 AI 模型所采用的 Muon 优化器（包括 DeepSeek V4 和 Kimi K2.5）存在隐藏缺陷：它会导致在早期训练期间，MLP 层的神经元中有超过 25% 会永久死亡。团队设计了 Aurora 作为替代优化器，并将其开源。一个仅用 100B tokens 训练的 11 亿参数模型，在 HellaSwag 和 Winogrande 等语言理解基准上，其表现与在 36T tokens 上训练的 Qwen3-1.7B 相当，展现了约 100 倍的数据效率提升。与 Muon 相比，Aurora 的计算开销增加 6%，并可作为直接替代。

免责声明：以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。

本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com，本站相关工作人员将会进行核查处理回复

THE END

区块链专题

Tilde Research 发现 Muon 优化器会杀死 25% 的神经元；Aurora Alternative 实现 100 倍的数据效率提升

平台公告