📰 AI 行业深度 · 2026-05-19

OpenAI 三款实时语音模型:AI 语音交互进入大规模应用阶段

2026年5月7日,OpenAI 通过 Realtime API 发布三款全新实时语音模型,每款针对语音应用的不同核心能力:推理、翻译、语音识别。其中 GPT-Realtime-2 是首个具备 GPT-5 级推理能力的语音模型,GPT-Realtime-Translate 能做 70 种语言实时同传。

🔥 三款模型对比

模型 核心能力 适用场景
GPT-Realtime-2 GPT-5 级推理 + 并行工具调用 复杂语音助手、多步骤任务
GPT-Realtime-Translate 70 语言实时同传 跨语言会议、客服
GPT-Realtime-Whisper 高精度语音识别 转录、字幕

🧠 GPT-Realtime-2 的关键突破

  • 首个 GPT-5 级推理语音模型:不再是"听懂+回复",而是"听懂+推理+执行"
  • 并行工具调用:在对话过程中同时调用多个 API/工具
  • 上下文窗口从 32K 扩至 128K:支持超长对话和复杂任务
  • Big Bench Audio 得分 96.6%:语音理解能力行业领先
  • 支持用户打断和纠正:真正自然的对话体验

📊 实时同传:3.4 美分/分钟的革命

GPT-Realtime-Translate 的定价极具冲击力:

  • 70 种语言实时同传,每分钟仅 3.4 美分
  • Zello 测试:AI 电话客服机器人成功率从 69% 提升到 95%
  • 标志着 AI 语音交互真正进入大规模商业应用阶段

🎯 关键洞察

GPT-Realtime-2 的发布意味着 AI 语音交互从"能对话"升级为"能思考+能执行"。当语音助手能在对话中推理和调用工具,它就不再是"语音版的 ChatGPT",而是"可以用嘴操作的 AI Agent"。3.4 美分/分钟的实时同传,更是直接颠覆了传统翻译服务的商业模式。

关键信息:

维度 详情
来源 IT之家、MarkTechPost、Knightli、AIProductHub
链接 IT之家 · MarkTechPost · Knightli 详解