August 29, 2025

OpenAI 发布 GPT-Realtime：AI 语音代理进入超逼真对话时代

consulting@sinokap.com

https://it-support-china.com/

作为一家长期专注于 IT服务与AI咨询的公司，Sinokap 始终密切跟踪人工智能领域的最新动态，并结合企业应用场景探索其价值。

2025年8月28日，OpenAI 正式宣布其 Realtime API 正式全面发布（General Availability），并推出了全新语音对话模型——gpt‑realtime。该模型将语音输入直接通过单一模型处理并生成语音输出，从而实现更低延迟和更自然流畅的对话体验。

创新技术与核心优势

1.语音质量跃升

gpt‑realtime 发出的语音更加自然，语调、节奏和情绪表达更为丰富，能够精准执行诸如“以专业语气快速朗读”或“以法式腔调温和表达”等细致指令。

2.智能理解力与指令遵循显著提升

它能捕捉非语言提示（诸如笑声），中途切换语言，还能明确区分语气风格（如“干练专业”vs“亲切同理”）等。

3.函数调用能力更精准

在调用工具函数方面，gpt‑realtime 在触发时机、函数选择及参数传递上的准确度均有提升。

功能扩展：更强、更广、更实用

新版 Realtime API 除了 gpt‑realtime 之外，还增加了以下关键能力：

1.支持远程 MCP 服务器

开发者可引入外部 Model Context Protocol 工具，无需自行对接逻辑，即可轻松扩展功能。MCP 服务器还可以配置权限和数据隔离，保证企业敏感信息不会直接暴露给模型。

典型应用场景

客服 / Call Center：MCP 服务器挂接 CRM 系统，Realtime 语音代理可即时查单、更新客户状态。
IT 运维：MCP 服务器接入监控平台，语音对话中可触发脚本或获取实时告警。
知识管理：MCP 服务器挂接企业内部知识库，用户通过自然语言语音提问，实时调取内部数据。

2.图像输入能力

GPT-Realtime 现在支持在同一场实时会话里，和语音/文本一起发送图片、照片、截图。模型会把图片当作对话里的“补充上下文”，从而围绕你眼前的界面或场景进行理解、回答与推理（例如 “这张截图里写了什么？”“图表说了什么？”）。

下面是官方示例结构：

3.支持 SIP 电话拨打

语音代理现在能够通过标准语音协议接入电话系统，这意味着 Realtime Agent 不再局限于“网页端”或“App 内语音”，而是能融入传统电信系统，覆盖更多客户接触点。

4.新增两种声音
在原有的 Realtime 声音库基础上，OpenAI 新增了 Cedar 与 Marin 两种音色，同时对既有声音全面优化。新版声音在 自然度、情感表达、语速控制 方面表现更佳。

5.成本下降 20%

相较之前的 gpt‑4o‑realtime‑preview 模型，gpt-realtime 的价格相较之前的 gpt-4o-realtime-preview 模型下降约 20%，在保持更高性能的同时，总拥有成本（TCO）下降，提升投资回报率（ROI）。

输入音频：从 $40 / 百万 tokens → $32 / 百万 tokens
输出音频：从 $80 / 百万 tokens → $64 / 百万 tokens

性能数据—真实benchmark 支撑

根据 Neowin 报道，gpt‑realtime 在多个音频评测基准上表现全面领先其前代模型，这表明其在语音指令理解、对话推理和工具调用等方面均有大幅跃进。

OpenAI再次引领人工智能行业

从技术到应用，GPT-Realtime 的发布再次证明了 OpenAI 在人工智能交互领域的领头作用。它不仅优化了语音对话的自然性和响应速度，还进一步降低了企业在使用实时 AI 语音代理时的成本门槛。对企业而言，这一更新将推动客服、培训、销售和智能助理等场景进入新一轮升级，帮助组织在客户体验和效率提升之间找到最佳平衡点。

作为对这一趋势的呼应，Sinokap 将在后续继续介绍我们在 AI咨询与企业IT服务方面的解决方案，帮助企业第一时间理解并落地这一前沿能力。