小米开源 OmniVoice，支持 646 种语言的零样本语音克隆模型-区块链文库

据 Beating 称，Xiaomi 的 AI Lab Kaldi 团队已开源 OmniVoice，这是一种零样本语音克隆 TTS 模型，支持 646 种语言。该模型仅需几秒钟的参考音频即可克隆语音特征，并可跨语言工作——同一个声音能够合成普通话、日语、韩语以及其他语言的语音。所有代码、权重和训练数据均在 Apache-2.0 许可下开源。

OmniVoice 采用简化架构，使用单个双向 Transformer，直接将文本映射到离散的声学标记，从而在 PyTorch 中实现比实时快 40 倍的推理速度。该模型在来自 50 个开源数据集的 580,000 小时音频上进行训练。在对 24 种测试语言的评估中，OmniVoice 在语音相似度和可懂度方面优于商业系统；在 102 种语言中，它与人类录音相当或表现更好。

免责声明：以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布，本平台仅提供信息存储服务，对本页面内容所引致的错误、不确或遗漏，概不负任何法律责任，相关信息仅供参考。

本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com，本站相关工作人员将会进行核查处理回复

THE END

区块链专题

小米开源 OmniVoice，支持 646 种语言的零样本语音克隆模型

平台公告

热门信息

狗狗币交易今日价格

狗狗币最新价格

比特币美元实时价格

以太坊兑新加坡元价格

XRP美元计价全面数据

HBAR兑欧元价格

今日周大福最新黄金价格查询周大福黄金首饰多少钱一克

DOT兑港币价格

ETC币最新价格

PUMP兑港币价格

AVAX币今日美元价格走势

冰岛克朗对人民币汇率查询 – 实时ISK/CNY换算工具

比特币兑人民币

比特币价格实时行情美元

STX币最新价格

SAND兑韩元价格

QTUM最新价格

BNB兑英镑价格

ENS最新价格

津巴布韦元对人民币汇率查询 – 实时ZWL/CNY换算工具