MIT Kaiming He 的团队发布 ELF 语言扩散模型，使用 450 亿训练代币-区块链文库

根据 Beating，MIT Kaiming He 的团队最近发布了 ELF（Embedded Language Flo w s），一种语言扩散模型，它不同于 GPT 类模型所使用的自回归“预测下一个 token”方法。相反，ELF 在连续嵌入空间中进行文本生成，并仅在最后一步转换为离散 token。

在 OpenWebText 的无条件生成基准中，参数量为 105M 的 ELF-B 在 32 步采样下实现了约 24.1 的生成困惑度（Gen. PPL），优于多种离散与连续扩散语言模型基线。值得注意的是，ELF-B 仅需要约 450 亿训练 token，大约比可比方法少一个数量级，而这些方法通常超过 5000 亿 token。

免责声明：以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。

本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com，本站相关工作人员将会进行核查处理回复

THE END

区块链专题

MIT Kaiming He 的团队发布 ELF 语言扩散模型，使用 450 亿训练代币

平台公告