
作为一家长期专注于 IT服务与AI咨询 的公司,Sinokap 始终密切跟踪人工智能领域的最新动态,并结合企业应用场景探索其价值。
2025年8月28日,OpenAI 正式宣布其 Realtime API 正式全面发布(General Availability),并推出了全新语音对话模型——gpt‑realtime。该模型将语音输入直接通过单一模型处理并生成语音输出,从而实现更低延迟和更自然流畅的对话体验。
gpt‑realtime 发出的语音更加自然,语调、节奏和情绪表达更为丰富,能够精准执行诸如“以专业语气快速朗读”或“以法式腔调温和表达”等细致指令。
它能捕捉非语言提示(诸如笑声),中途切换语言,还能明确区分语气风格(如“干练专业”vs“亲切同理”)等。
在调用工具函数方面,gpt‑realtime 在触发时机、函数选择及参数传递上的准确度均有提升。
新版 Realtime API 除了 gpt‑realtime 之外,还增加了以下关键能力:
开发者可引入外部 Model Context Protocol 工具,无需自行对接逻辑,即可轻松扩展功能。MCP 服务器还可以配置权限和数据隔离,保证企业敏感信息不会直接暴露给模型。
典型应用场景
客服 / Call Center:MCP 服务器挂接 CRM 系统,Realtime 语音代理可即时查单、更新客户状态。
IT 运维:MCP 服务器接入监控平台,语音对话中可触发脚本或获取实时告警。
知识管理:MCP 服务器挂接企业内部知识库,用户通过自然语言语音提问,实时调取内部数据。
GPT-Realtime 现在支持在同一场实时会话里,和语音/文本一起发送图片、照片、截图。模型会把图片当作对话里的“补充上下文”,从而围绕你眼前的界面或场景进行理解、回答与推理(例如 “这张截图里写了什么?”“图表说了什么?”)。
下面是官方示例结构:
语音代理现在能够通过标准语音协议接入电话系统,这意味着 Realtime Agent 不再局限于“网页端”或“App 内语音”,而是能融入传统电信系统,覆盖更多客户接触点。
相较之前的 gpt‑4o‑realtime‑preview 模型,gpt-realtime 的价格相较之前的 gpt-4o-realtime-preview 模型下降约 20%,在保持更高性能的同时,总拥有成本(TCO)下降,提升投资回报率(ROI)。
输入音频:从 $40 / 百万 tokens → $32 / 百万 tokens
输出音频:从 $80 / 百万 tokens → $64 / 百万 tokens
根据 Neowin 报道,gpt‑realtime 在多个音频评测基准上表现全面领先其前代模型,这表明其在语音指令理解、对话推理和工具调用等方面均有大幅跃进。
从技术到应用,GPT-Realtime 的发布再次证明了 OpenAI 在人工智能交互领域的领头作用。它不仅优化了语音对话的自然性和响应速度,还进一步降低了企业在使用实时 AI 语音代理时的成本门槛。对企业而言,这一更新将推动客服、培训、销售和智能助理等场景进入新一轮升级,帮助组织在客户体验和效率提升之间找到最佳平衡点。
作为对这一趋势的呼应,Sinokap 将在后续继续介绍我们在 AI咨询与企业IT服务方面的解决方案,帮助企业第一时间理解并落地这一前沿能力。
Call Us, Write Us, Or Knock On Our Door. We are here to help. Thanks for contacting us!
如需任何协助,请随时联系Sinokap团队,我们始终致力于为您提供高效、专业的支持。
感谢您与我们联系!