
刚刚,OpenAI 放出了三个全新的实时语音模型,其中一个翻译模型,能把 70 多种语言实时翻译成 13 种语言输出,每分钟成本 2 毛钱。
同声传译这个行业,现在可能,要迎来它的终局了。
OpenAI GPT-Realtime-201发了什么
这次发布的三个模型,分别对应语音交互的三大场景:对话、翻译、转录。
GPT-Realtime-2,是 OpenAI 目前最强的语音模型,具备 GPT-5 级别的推理能力。它能边听边想,在对话中实时解决复杂问题。可以理解为:一个能打电话的 GPT-5。
GPT-Realtime-Translate,实时语音翻译。支持 70 多种语言输入,翻译成 13 种语言输出,翻译的同时还能保留说话者的语调和情感。
GPT-Realtime-Whisper,实时语音转文字。一边说话一边出字幕,适合做实时字幕、会议记录。
三个模型,三个场景
三个模型都通过 Realtime API 对外开放,开发者可以用 WebRTC、WebSocket 或 SIP 接入。
02能干活的嘴
GPT-Realtime-2 是 OpenAI 推出的第二代实时语音模型,也是目前 Realtime API 中推理能力最强的一个。
OpenAI 对它的定位是:让语音 Agent 从「能聊天」变成「能干活」。
它的几个关键升级:
• GPT-5 级推理:能在语音对话中处理复杂的多步推理任务,不再只是简单的问答
• 更好的工具调用:可以精准地调用外部工具,比如查数据库、调 API,这意味着语音 Agent 可以真正「做事」了
• 自然的对话处理:能处理打断、话题切换,不会因为你插了句嘴就丢了上下文
• 128K 上下文窗口:之前的 gpt-realtime 只有 32K,现在翻了四倍
• 更像人的声音:语音合成的自然度和表现力都有提升,能更好地理解和执行系统指令
用过 ChatGPT 语音模式的应该都很有感受,相比于直接的 chat,语音版的智能很差,几乎不怎么思考,更不会调用工具。
因为工具调用需要时间,语音场景又对延迟极度敏感,所以之前索性就做了一个很简单的版本。能聊天就行,干活就别指望它了。
但现在,这个问题解决了。
GPT-Realtime-2 能边聊边想边调工具了,你说出一个需求,它可以完成日历查找、更新完 CRM,直接动嘴就把事儿办了。
03定价
文本 token 的价格是 $4/$16(输入/输出,每百万 token)。
音频 token 则是 $32/$64。
GPT-Realtime-Translate 的翻译功能单独计价,每分钟 $0.034,大约人民币 2 毛 5。
这个价格后面会详细说,因为它对同传行业,可能会是毁灭性的冲击。
04实际案例
OpenAI 在博客里,提到了几个已经在用的企业:
德国电信正在基于 GPT-Realtime-Translate 打造客服系统,让客户用自己最舒服的语言沟通,模型负责实时翻译。
Priceline在做一个旅行语音助手,旅客落地后可以直接用语音管理行程,语言不通也没关系,模型实时翻译。
Vimeo也在合作中,具体做的是视频相关的实时语音场景。
05视频 Demo
OpenAI 同步放出了一段 4 分钟的演示视频,展示了翻译和语音 Agent 两个场景。
先看翻译功能。
Demo 里一个人用法语发言,模型实时把法语翻译成英语输出,音频直接从笔记本电脑捕获,没有任何后期编辑。
效果可以说是,非常惊艳。
模型会一边听一边翻译,等关键词(比如动词)出现后立即开始输出,听起来像两个人在自然对话。
如果你中途突然切换成德语,模型也能无缝跟上,毫无卡顿。碰到 GPT、OpenAI、computer use 这类技术术语,也一样能准确处理。
再看语音 Agent。
Demo 中对着手机上的个人助手说一句:
“ 我马上有个客户会议,能帮我看一下日程吗?
“ 我马上有个客户会议,能帮我看一下日程吗?
模型会立刻查看日历,回复说 12 分钟后有一个跟 Sablecrest Robotics 的 CTO Alex Kim 的会议。接着让它更新 CRM,把今天的会议摘要和后续步骤录入系统。
这里有个细节:模型在执行这些操作的时候,不是沉默地处理完再一次性给结果,而是会主动跟你说「让我拉一下最新的上下文,然后更新你的 CRM」。
这个「边干活边汇报」的能力叫 preamble,是 GPT-Realtime-2 的一个关键设计。以前的语音 Agent 调工具的时候,用户只能干等着,不知道它在干嘛。
现在它会边推理边跟你说话,体验完全不一样了。
Demo 中称:
“ 语音,现在可以真正成为主要交互界面了。
“ 语音,现在可以真正成为主要交互界面了。
接下来聊聊这次发布里,我觉得可能最值得展开一说的部分。
GPT-Realtime-Translate 这个模型,看起来只是三个新模型中的一个,但它所指向的行业,是一个曾经站在翻译界金字塔顶端的职业:
同声传译。
07塔尖职业
同声传译,也就是「同传」,是翻译行业中公认难度最高、门槛最高、薪资也最高的工种。
它的工作方式上大体是这样的:在国际会议或外交场合,译员坐在隔音的口译室里,戴着耳机听台上的发言,几乎同时把听到的内容翻译成另一种语言,对着麦克风说出来。
台下的听众,则通过耳机接收翻译。
注意是「几乎同时」。
发言者说完一句话,译员大约只落后两三秒。
全球 95% 的高端国际会议,都采用同声传译。联合国安理会、世界经济论坛、G20 峰会,台上领导人侃侃而谈的背后,都有同传译员在口译室里高速运转。
这个职业,日薪过万。
北京市场上,英语同传一天的报酬在 1.2 万到 2.1 万人民币之间。一个译员如果一年接 100 天活儿,年收入可以达到 50 万甚至更高。
但这钱,真的不好赚。
0820 分钟一换
高薪的背后,同传的精神压力其实非常之大。大到了什么程度呢?
同传的高压工作
一般来说,同一语言需要 2 到 3 名译员组成一组,每 15 到 20 分钟轮换一次。
因为人的大脑在同传状态下是满负荷运行的:你要同时完成「听、理解、记忆、翻译、表达」这五个动作,而且不能停,不能回头,说出去的话收不回来。
2009 年的联合国大会上,就发生过一件著名的事。
利比亚领导人卡扎菲上台发言,原定 15 分钟的演讲,他整整讲了 96 分钟。内容天马行空,从「新型流感是某个国家施放的细菌武器」讲到怒撕《联合国宪章》。
他的私人阿拉伯语同传译员在坚持了 75 分钟后,终于心理状态彻底崩溃,当场直接放弃了翻译,并对着麦克风喊了一句:
“ 我受不了了。
“ 我受不了了。
联合国不得不临时调派其他译员来接替。
这个事故在翻译界,也算是一大故事了。
09十年磨一剑
而想成为一名合格的同传译员,门槛高得吓人。
联合国招聘同传,要求英语、法语、俄语、西班牙语的译员必须精通至少三门联合国官方语言。中文和阿拉伯语译员则必须精通英语或法语。
而且,光语言好还不够。你还得通过联合国的同传考试:六场演讲,没有原文稿,涵盖政治、经济、人权、环境等各种议题,不同语速、不同口音、不同风格,一场一场翻过去。
有考生说,光是备考就花了七个月,每天密集练习。
国内的情况也类似。北京语言大学的同传专业每年只招 15 人,三个学期的魔鬼训练,第一学期给稿子翻,第二学期不给稿子翻,第三学期不给稿子也不给译文,直接模拟现场采访。
但,毕业了就能上岗吗?
也未必。客户选人看的是你参加过什么级别的会议,新人……根本没什么机会。
同传培养之路
全球专业的同声传译人才总共也就 2000 多人。据不完全统计,中国的顶级同传也就只有 30 人左右。
这些人,每一个都是十年以上的积累,每一场会议都是如履薄冰。
10两毛五
然后……OpenAI 发了个 API。
GPT-Realtime-Translate,每分钟 $0.034,折合人民币大约 2 毛 5。
一个同传译员一天的报酬是 1.2 万到 2.1 万元。按 8 小时工作制算,每分钟成本大约 25 到 44 元。
AI 翻译 vs 人类同传
AI 翻译的成本,是人类同传的万分之一。
而且 AI 不需要休息,不需要每 20 分钟换人,不会心理崩溃,支持 70 多种输入语言,7×24 小时待命。
更不会吼出那声:老子不干了!
当然了,目前的 GPT-Realtime-Translate 还算不上完美的「同声传译」。
从 Demo 中来看,它已经能在说话者还在讲的时候就开始翻译,会等关键词(比如动词)出现后立即输出。但 OpenAI 的技术文档把它标注为 turn-based:理想状态下说话者短暂停顿,模型处理效果最好。
实际体验介于「逐句翻译」和「同声传译」之间。
偶尔也会出现幻觉,比如产生一些无意义的声音,或者干脆沉默不翻译。
OpenAI 在技术文档里写的是:
“ 随着模型变得更快、更高效,这个延迟会显著降低,翻译会变得更加无缝。
“ 随着模型变得更快、更高效,这个延迟会显著降低,翻译会变得更加无缝。
而且更为关键的是,它在翻译时能保留说话者的情感、语调和语速。
OpenAI 在 Cookbook 文档声称:这让它「比以往任何时候都更接近一个现场翻译」(live interpreter)。
级联翻译 vs 端到端
传统的翻译方案是级联式的:先语音转文字,再文字翻译,再文字转语音。每一步都会丢失信息,语调没了,情感没了,停顿节奏也没了。
GPT-Realtime-Translate 则是端到端处理原始音频,跳过了中间的文字步骤,自然能保留更多声音本身的特征。
同传这个行业,倒不是今天才被威胁的。
字节在去年 7 月发布的豆包同传大模型 Seed LiveInterpret 2.0,已经在延迟和准确率上接近人类水平。科大讯飞的同传产品也做了好几年了。
连联合国妇女署都已经在采购 AI 翻译口译软件。
但 OpenAI 这次不一样。它把实时翻译做成了一个标准化的 API,每分钟 2 毛 5,任何开发者都能轻松接入。
它直接跳过了实验室 demo 阶段,把「杀死同传」这件事,做成了一个可以大规模部署的廉价产品。
11还有 Whisper
GPT-Realtime-Whisper 也顺便聊几句。
Whisper 各位应该不太陌生了,OpenAI 之前就有开源的语音识别模型 Whisper。但这次的 GPT-Realtime-Whisper 是流式版本:一边说话,一边出文字,延迟极低。
适合场景有哪些呢?
实时字幕、会议实时记录、直播实时转写。
如果说 GPT-Realtime-Translate 威胁的是同传,那 GPT-Realtime-Whisper 威胁的就是速记员。
这俩加在一起,会议行业的服务商们,可能要重新想想生存模式了……
12AI 语音基础设施
三个模型,三个场景,可以说 OpenAI 这次是直接把语音 AI 的基础设施一次性铺齐了。
对话有 GPT-Realtime-2,翻译有 GPT-Realtime-Translate,转录有 GPT-Realtime-Whisper。
而拿到这三块积木,能搭出什么样的产品,就看各位的了。
◇ ◆ ◇全国股票配资
要配资网提示:文章来自网络,不代表本站观点。