PokerStars扑克官网

OpenAI盛开三大实时音频模型:握别纯文本,AI智能体进入“实时听与做”时期

5月8日新闻,美国功夫周四

作者:潘家冰
颁布功夫:2026-05-29 02:09:13
阅读量:6

OpenAI盛开三大实时音频模型:握别纯文本,AI智能体进入“实时听与做”时期

5月8日新闻,美国功夫周四,OpenAI面向开发者正式颁布三款全新音频大模型 。此举旨在大幅提升语音智能体的交互天然度,并赋予其在实时对话中直接执行工作的能力 。

随着新版API的盛开,OpenAI在逾越传统的“语音转录”与“文本谈天”阶段,向构建具备实时监听、翻译及执行能力的智能体延长 。

本次亮相的三款主题模型别离为GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper 。目前,上述模型均已在OpenAI的开发者测试平台上线 。

具体来看,三款模型在利用场景上各有千秋:

旗舰模型GPT-Realtime-2专攻复杂工作处置 。它不仅能精准挪用表部工具,还能从容应对用户在对话中的随时打断,并在超长语音交互中维持高度的语境(Context)连贯性 。

GPT-Realtime-Translate主攻跨说话沟通 。该模型支持将70多种源说话实时转化为13种指标语言,直指智能客服、在线教育等全球化利用场景 。

GPT-Realtime-Whisper聚焦实时语音鉴别(STT) 。在用户讲话的同时,该模型可同步天生字幕和会议纪要,甚至自动触发后续的工作流更新 。

目前,蕴含在线房地产平台Zillow(ZG.O)、在线观光社Priceline以及欧洲电信运营商德国电信(DTEGn.DE)在内的多家企业客户,正对上述模型进行早期测试 。

定价方面,GPT-Realtime-2的音频输入成本为每百万Token 32美元起 ;GPT-Realtime-Translate与GPT-Realtime-Whisper的计费尺度则别离为每分钟0.034美元和0.017美元 。(易句)

(本文由AI翻译,网易编纂掌管校对)

 

文章点评

未查问到任何数据!

颁发评论

◎欢迎参加会商,请在这里颁发您的见解、互换您的概想 。

最新文章

热点文章

随机推荐

【网站地图】