OpenAI 推 GPT-Realtime-2:将 GPT-5 推理带入语音 Agent、context 升至 128K

OpenAI 5 月 7 日(美国时间)在开发者大会公布三款新的 Realtime 语音模型:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper、全部通过 Realtime API 对开发者开放。OpenAI 官方公告说明,GPT-Realtime-2 是 OpenAI 第一个具备 GPT-5 级推理能力的语音模型,能在语音对话中实时推理、调用工具、处理修正,并维持自然对话节奏。

GPT-Realtime-2:context 从 32K 升到 128K、五段推理强度可调

GPT-Realtime-2 的核心升级:

context window:32K 升至 128K tokens

推理强度可调:minimal、low、medium、high、xhigh 五段

Big Bench Audio 测试:high 推理 96.6%、前代 GPT-Realtime-1.5 为 81.4%

Audio MultiChallenge 指令遵循:xhigh 推理 48.5%、前代 34.7%

更大的 context 与可调推理强度让开发者能根据场景在“便宜快速”与“深度思考”之间切换——简单客服可用 minimal 模式控制成本,复杂任务切到 xhigh 换取 GPT-5 级推理品质。

同步发布两款专用模型:Translate 跨语言、Whisper 即时转录

本轮三款新模型分工:

GPT-Realtime-Translate:即时多语语音翻译、支持 70 种输入语言、13 种输出语言

GPT-Realtime-Whisper:低延迟串流转录、边讲边出文字、适用即时字幕、会议记录、课堂逐字稿

GPT-Realtime-2:完整对话 Agent、可推理、用工具、执行动作

Translate 与 Whisper 是针对特定语音应用做模型专门化——翻译与转录的延迟与成本敏感度高于通用对话,用独立模型可优化各自指标。

定价:GPT-Realtime-2 每百万输入 32 美元、输出 64 美元

三款模型的价格结构:

GPT-Realtime-2:每百万语音输入 32 美元、cached 输入 0.40 美元、输出 64 美元

GPT-Realtime-Translate:每分钟 0.034 美元

GPT-Realtime-Whisper:每分钟 0.017 美元

后续可追踪的具体事件:GPT-Realtime-2 在生产环境语音 Agent 的实际采用情况、与既有 GPT-4o 语音模型的 cannibalization 程度,以及 Anthropic、Google 等同业的对标反应。

这篇文章 OpenAI 推 GPT-Realtime-2:把 GPT-5 推理带入语音 Agent、context 升至 128K 最早出现在 链新闻 ABMedia。

© 版权声明
THE END
喜欢就支持一下吧
分享