据 Beating,OpenAI 在其 Realtime API 中发布了三个语音模型:用于带推理的语音对话的 GPT-Realtime-2、用于实时翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper。GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型,将上下文窗口从 32K 扩展到 128K 个 token,并支持长达 1-2 小时的高密度对话。
与 GPT-Realtime-1.5 相比,GPT-Realtime-2 在 Big Bench Audio 基准上提升了 15.2%,在 Audio MultiChallenge 上提升了 13.8%。GPT-Realtime-Translate 支持 70+ 种输入语言,并翻译为 13 种输出语言。定价:GPT-Realtime-2 的输入为 $32/百万输入 token,输出为 $64/百万输出 token;Translate 为 $0.034/分钟;Whisper 为 $0.017/分钟。
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复



