OpenAI 发布 GPT-Realtime:AI 语音代理进入超逼真对话时代

作为一家长期专注于 IT服务与AI咨询 的公司,Sinokap 始终密切跟踪人工智能领域的最新动态,并结合企业应用场景探索其价值。

2025年8月28日,OpenAI 正式宣布其 Realtime API 正式全面发布(General Availability),并推出了全新语音对话模型——gpt‑realtime。该模型将语音输入直接通过单一模型处理并生成语音输出,从而实现更低延迟和更自然流畅的对话体验。

创新技术与核心优势

1.语音质量跃升

gpt‑realtime 发出的语音更加自然,语调、节奏和情绪表达更为丰富,能够精准执行诸如“以专业语气快速朗读”或“以法式腔调温和表达”等细致指令。

 

2.智能理解力与指令遵循显著提升

它能捕捉非语言提示(诸如笑声),中途切换语言,还能明确区分语气风格(如“干练专业”vs“亲切同理”)等。

 

3.函数调用能力更精准

在调用工具函数方面,gpt‑realtime 在触发时机、函数选择及参数传递上的准确度均有提升。

功能扩展:更强、更广、更实用

新版 Realtime API 除了 gpt‑realtime 之外,还增加了以下关键能力:

1.支持远程 MCP 服务器

开发者可引入外部 Model Context Protocol 工具,无需自行对接逻辑,即可轻松扩展功能。MCP 服务器还可以配置权限和数据隔离,保证企业敏感信息不会直接暴露给模型。

 

典型应用场景

  • 客服 / Call Center:MCP 服务器挂接 CRM 系统,Realtime 语音代理可即时查单、更新客户状态。

  • IT 运维:MCP 服务器接入监控平台,语音对话中可触发脚本或获取实时告警。

  • 知识管理:MCP 服务器挂接企业内部知识库,用户通过自然语言语音提问,实时调取内部数据。

2.图像输入能力

GPT-Realtime 现在支持在同一场实时会话里,和语音/文本一起发送图片、照片、截图。模型会把图片当作对话里的“补充上下文”,从而围绕你眼前的界面或场景进行理解、回答与推理(例如 “这张截图里写了什么?”“图表说了什么?”)。

下面是官方示例结构:

3.支持 SIP 电话拨打

语音代理现在能够通过标准语音协议接入电话系统,这意味着 Realtime Agent 不再局限于“网页端”或“App 内语音”,而是能融入传统电信系统,覆盖更多客户接触点。

4.新增两种声音
在原有的 Realtime 声音库基础上,OpenAI 新增了 Cedar 与 Marin 两种音色,同时对既有声音全面优化。新版声音在 自然度、情感表达、语速控制 方面表现更佳。
5.成本下降 20%

相较之前的 gpt‑4o‑realtime‑preview 模型,gpt-realtime 的价格相较之前的 gpt-4o-realtime-preview 模型下降约 20%,在保持更高性能的同时,总拥有成本(TCO)下降,提升投资回报率(ROI)。

  • 输入音频:从 $40 / 百万 tokens → $32 / 百万 tokens

  • 输出音频:从 $80 / 百万 tokens → $64 / 百万 tokens

性能数据—真实benchmark 支撑

根据 Neowin 报道,gpt‑realtime 在多个音频评测基准上表现全面领先其前代模型,这表明其在语音指令理解、对话推理和工具调用等方面均有大幅跃进。

OpenAI再次引领人工智能行业

从技术到应用,GPT-Realtime 的发布再次证明了 OpenAI 在人工智能交互领域的领头作用。它不仅优化了语音对话的自然性和响应速度,还进一步降低了企业在使用实时 AI 语音代理时的成本门槛。对企业而言,这一更新将推动客服、培训、销售和智能助理等场景进入新一轮升级,帮助组织在客户体验和效率提升之间找到最佳平衡点。

作为对这一趋势的呼应,Sinokap 将在后续继续介绍我们在 AI咨询与企业IT服务方面的解决方案,帮助企业第一时间理解并落地这一前沿能力。

EN