OpenAI 5 月 7 日(美国时间)在开发者大会公布三款新的 Realtime 语音模型:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper、全部通过 Realtime API 对开发者开放。OpenAI 官方公告说明,GPT-Realtime-2 是 OpenAI 第一个具备 GPT-5 级推理能力的语音模型,能在语音对话中实时推理、调用工具、处理修正,并维持自然对话节奏。
GPT-Realtime-2:context 从 32K 升到 128K、五段推理强度可调
GPT-Realtime-2 的核心升级:
context window:32K 升至 128K tokens
推理强度可调:minimal、low、medium、high、xhigh 五段
Big Bench Audio 测试:high 推理 96.6%、前代 GPT-Realtime-1.5 为 81.4%
Audio MultiChallenge 指令遵循:xhigh 推理 48.5%、前代 34.7%
更大的 context 与可调推理强度让开发者能根据场景在“便宜快速”与“深度思考”之间切换——简单客服可用 minimal 模式控制成本,复杂任务切到 xhigh 换取 GPT-5 级推理品质。
同步发布两款专用模型:Translate 跨语言、Whisper 即时转录
本轮三款新模型分工:
GPT-Realtime-Translate:即时多语语音翻译、支持 70 种输入语言、13 种输出语言
GPT-Realtime-Whisper:低延迟串流转录、边讲边出文字、适用即时字幕、会议记录、课堂逐字稿
GPT-Realtime-2:完整对话 Agent、可推理、用工具、执行动作
Translate 与 Whisper 是针对特定语音应用做模型专门化——翻译与转录的延迟与成本敏感度高于通用对话,用独立模型可优化各自指标。
定价:GPT-Realtime-2 每百万输入 32 美元、输出 64 美元
三款模型的价格结构:
GPT-Realtime-2:每百万语音输入 32 美元、cached 输入 0.40 美元、输出 64 美元
GPT-Realtime-Translate:每分钟 0.034 美元
GPT-Realtime-Whisper:每分钟 0.017 美元
后续可追踪的具体事件:GPT-Realtime-2 在生产环境语音 Agent 的实际采用情况、与既有 GPT-4o 语音模型的 cannibalization 程度,以及 Anthropic、Google 等同业的对标反应。
这篇文章 OpenAI 推 GPT-Realtime-2:把 GPT-5 推理带入语音 Agent、context 升至 128K 最早出现在 链新闻 ABMedia。
免责声明:以上内容(如有图片或视频亦包括在内)均为平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。
本站尊重他人的知识产权、名誉权等法律法规所规定的合法权益!如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到qklwk88@163.com,本站相关工作人员将会进行核查处理回复



