全国股票配资刚刚，OpenAI 放出三个语音模型，顺便杀死了「同传」

刚刚，OpenAI 放出了三个全新的实时语音模型，其中一个翻译模型，能把 70 多种语言实时翻译成 13 种语言输出，每分钟成本 2 毛钱。

同声传译这个行业，现在可能，要迎来它的终局了。

OpenAI GPT-Realtime-201发了什么

这次发布的三个模型，分别对应语音交互的三大场景：对话、翻译、转录。

GPT-Realtime-2，是 OpenAI 目前最强的语音模型，具备 GPT-5 级别的推理能力。它能边听边想，在对话中实时解决复杂问题。可以理解为：一个能打电话的 GPT-5。

GPT-Realtime-Translate，实时语音翻译。支持 70 多种语言输入，翻译成 13 种语言输出，翻译的同时还能保留说话者的语调和情感。

GPT-Realtime-Whisper，实时语音转文字。一边说话一边出字幕，适合做实时字幕、会议记录。

三个模型，三个场景

三个模型都通过 Realtime API 对外开放，开发者可以用 WebRTC、WebSocket 或 SIP 接入。

02能干活的嘴

GPT-Realtime-2 是 OpenAI 推出的第二代实时语音模型，也是目前 Realtime API 中推理能力最强的一个。

OpenAI 对它的定位是：让语音 Agent 从「能聊天」变成「能干活」。

它的几个关键升级：

• GPT-5 级推理：能在语音对话中处理复杂的多步推理任务，不再只是简单的问答

• 更好的工具调用：可以精准地调用外部工具，比如查数据库、调 API，这意味着语音 Agent 可以真正「做事」了

• 自然的对话处理：能处理打断、话题切换，不会因为你插了句嘴就丢了上下文

• 128K 上下文窗口：之前的 gpt-realtime 只有 32K，现在翻了四倍

• 更像人的声音：语音合成的自然度和表现力都有提升，能更好地理解和执行系统指令

用过 ChatGPT 语音模式的应该都很有感受，相比于直接的 chat，语音版的智能很差，几乎不怎么思考，更不会调用工具。

因为工具调用需要时间，语音场景又对延迟极度敏感，所以之前索性就做了一个很简单的版本。能聊天就行，干活就别指望它了。

但现在，这个问题解决了。

GPT-Realtime-2 能边聊边想边调工具了，你说出一个需求，它可以完成日历查找、更新完 CRM，直接动嘴就把事儿办了。

03定价

文本 token 的价格是 $4/$16（输入/输出，每百万 token）。

音频 token 则是 $32/$64。

GPT-Realtime-Translate 的翻译功能单独计价，每分钟 $0.034，大约人民币 2 毛 5。

这个价格后面会详细说，因为它对同传行业，可能会是毁灭性的冲击。

04实际案例

OpenAI 在博客里，提到了几个已经在用的企业：

德国电信正在基于 GPT-Realtime-Translate 打造客服系统，让客户用自己最舒服的语言沟通，模型负责实时翻译。

Priceline在做一个旅行语音助手，旅客落地后可以直接用语音管理行程，语言不通也没关系，模型实时翻译。

Vimeo也在合作中，具体做的是视频相关的实时语音场景。

05视频 Demo

OpenAI 同步放出了一段 4 分钟的演示视频，展示了翻译和语音 Agent 两个场景。

先看翻译功能。

Demo 里一个人用法语发言，模型实时把法语翻译成英语输出，音频直接从笔记本电脑捕获，没有任何后期编辑。

效果可以说是，非常惊艳。

模型会一边听一边翻译，等关键词（比如动词）出现后立即开始输出，听起来像两个人在自然对话。

如果你中途突然切换成德语，模型也能无缝跟上，毫无卡顿。碰到 GPT、OpenAI、computer use 这类技术术语，也一样能准确处理。

再看语音 Agent。

Demo 中对着手机上的个人助手说一句：

“ 我马上有个客户会议，能帮我看一下日程吗？

模型会立刻查看日历，回复说 12 分钟后有一个跟 Sablecrest Robotics 的 CTO Alex Kim 的会议。接着让它更新 CRM，把今天的会议摘要和后续步骤录入系统。

这里有个细节：模型在执行这些操作的时候，不是沉默地处理完再一次性给结果，而是会主动跟你说「让我拉一下最新的上下文，然后更新你的 CRM」。

这个「边干活边汇报」的能力叫 preamble，是 GPT-Realtime-2 的一个关键设计。以前的语音 Agent 调工具的时候，用户只能干等着，不知道它在干嘛。

现在它会边推理边跟你说话，体验完全不一样了。

Demo 中称：

“ 语音，现在可以真正成为主要交互界面了。

接下来聊聊这次发布里，我觉得可能最值得展开一说的部分。

GPT-Realtime-Translate 这个模型，看起来只是三个新模型中的一个，但它所指向的行业，是一个曾经站在翻译界金字塔顶端的职业：

同声传译。

07塔尖职业

同声传译，也就是「同传」，是翻译行业中公认难度最高、门槛最高、薪资也最高的工种。

它的工作方式上大体是这样的：在国际会议或外交场合，译员坐在隔音的口译室里，戴着耳机听台上的发言，几乎同时把听到的内容翻译成另一种语言，对着麦克风说出来。

台下的听众，则通过耳机接收翻译。

注意是「几乎同时」。

发言者说完一句话，译员大约只落后两三秒。

全球 95% 的高端国际会议，都采用同声传译。联合国安理会、世界经济论坛、G20 峰会，台上领导人侃侃而谈的背后，都有同传译员在口译室里高速运转。

这个职业，日薪过万。

北京市场上，英语同传一天的报酬在 1.2 万到 2.1 万人民币之间。一个译员如果一年接 100 天活儿，年收入可以达到 50 万甚至更高。

但这钱，真的不好赚。

0820 分钟一换

高薪的背后，同传的精神压力其实非常之大。大到了什么程度呢？

同传的高压工作

一般来说，同一语言需要 2 到 3 名译员组成一组，每 15 到 20 分钟轮换一次。

因为人的大脑在同传状态下是满负荷运行的：你要同时完成「听、理解、记忆、翻译、表达」这五个动作，而且不能停，不能回头，说出去的话收不回来。

2009 年的联合国大会上，就发生过一件著名的事。

利比亚领导人卡扎菲上台发言，原定 15 分钟的演讲，他整整讲了 96 分钟。内容天马行空，从「新型流感是某个国家施放的细菌武器」讲到怒撕《联合国宪章》。

他的私人阿拉伯语同传译员在坚持了 75 分钟后，终于心理状态彻底崩溃，当场直接放弃了翻译，并对着麦克风喊了一句：

“ 我受不了了。

联合国不得不临时调派其他译员来接替。

这个事故在翻译界，也算是一大故事了。

09十年磨一剑

而想成为一名合格的同传译员，门槛高得吓人。

联合国招聘同传，要求英语、法语、俄语、西班牙语的译员必须精通至少三门联合国官方语言。中文和阿拉伯语译员则必须精通英语或法语。

而且，光语言好还不够。你还得通过联合国的同传考试：六场演讲，没有原文稿，涵盖政治、经济、人权、环境等各种议题，不同语速、不同口音、不同风格，一场一场翻过去。

有考生说，光是备考就花了七个月，每天密集练习。

国内的情况也类似。北京语言大学的同传专业每年只招 15 人，三个学期的魔鬼训练，第一学期给稿子翻，第二学期不给稿子翻，第三学期不给稿子也不给译文，直接模拟现场采访。

但，毕业了就能上岗吗？

也未必。客户选人看的是你参加过什么级别的会议，新人……根本没什么机会。

同传培养之路

全球专业的同声传译人才总共也就 2000 多人。据不完全统计，中国的顶级同传也就只有 30 人左右。

这些人，每一个都是十年以上的积累，每一场会议都是如履薄冰。

10两毛五

然后……OpenAI 发了个 API。

GPT-Realtime-Translate，每分钟 $0.034，折合人民币大约 2 毛 5。

一个同传译员一天的报酬是 1.2 万到 2.1 万元。按 8 小时工作制算，每分钟成本大约 25 到 44 元。

AI 翻译 vs 人类同传

AI 翻译的成本，是人类同传的万分之一。

而且 AI 不需要休息，不需要每 20 分钟换人，不会心理崩溃，支持 70 多种输入语言，7×24 小时待命。

更不会吼出那声：老子不干了！

当然了，目前的 GPT-Realtime-Translate 还算不上完美的「同声传译」。

从 Demo 中来看，它已经能在说话者还在讲的时候就开始翻译，会等关键词（比如动词）出现后立即输出。但 OpenAI 的技术文档把它标注为 turn-based：理想状态下说话者短暂停顿，模型处理效果最好。

实际体验介于「逐句翻译」和「同声传译」之间。

偶尔也会出现幻觉，比如产生一些无意义的声音，或者干脆沉默不翻译。

OpenAI 在技术文档里写的是：

“ 随着模型变得更快、更高效，这个延迟会显著降低，翻译会变得更加无缝。

而且更为关键的是，它在翻译时能保留说话者的情感、语调和语速。

OpenAI 在 Cookbook 文档声称：这让它「比以往任何时候都更接近一个现场翻译」（live interpreter）。

级联翻译 vs 端到端

传统的翻译方案是级联式的：先语音转文字，再文字翻译，再文字转语音。每一步都会丢失信息，语调没了，情感没了，停顿节奏也没了。

GPT-Realtime-Translate 则是端到端处理原始音频，跳过了中间的文字步骤，自然能保留更多声音本身的特征。

同传这个行业，倒不是今天才被威胁的。

字节在去年 7 月发布的豆包同传大模型 Seed LiveInterpret 2.0，已经在延迟和准确率上接近人类水平。科大讯飞的同传产品也做了好几年了。

连联合国妇女署都已经在采购 AI 翻译口译软件。

但 OpenAI 这次不一样。它把实时翻译做成了一个标准化的 API，每分钟 2 毛 5，任何开发者都能轻松接入。

它直接跳过了实验室 demo 阶段，把「杀死同传」这件事，做成了一个可以大规模部署的廉价产品。

11还有 Whisper

GPT-Realtime-Whisper 也顺便聊几句。

Whisper 各位应该不太陌生了，OpenAI 之前就有开源的语音识别模型 Whisper。但这次的 GPT-Realtime-Whisper 是流式版本：一边说话，一边出文字，延迟极低。

适合场景有哪些呢？

实时字幕、会议实时记录、直播实时转写。

如果说 GPT-Realtime-Translate 威胁的是同传，那 GPT-Realtime-Whisper 威胁的就是速记员。

这俩加在一起，会议行业的服务商们，可能要重新想想生存模式了……

12AI 语音基础设施

三个模型，三个场景，可以说 OpenAI 这次是直接把语音 AI 的基础设施一次性铺齐了。

对话有 GPT-Realtime-2，翻译有 GPT-Realtime-Translate，转录有 GPT-Realtime-Whisper。

而拿到这三块积木，能搭出什么样的产品，就看各位的了。

◇ ◆ ◇全国股票配资

要配资网提示：文章来自网络，不代表本站观点。

全国股票配资刚刚，OpenAI 放出三个语音模型，顺便杀死了「同传」

金配资炒股配资开户又一国家区域医疗中心项目试运营！

厦门配资平台世家大族出身的王皇后，为何斗不过二婚的武则天？单单是不受宠吗

厦门配资平台美国一项两党联合提案将禁止议员进行股票交易

专业配资查询门户高层建筑消防治理再出重拳多部门将部署开展专项整治工作

在线配资交易·加杠网欢迎加入人民海军！2026年海军军医大学招生宣传片发布

正版炒股软件特朗普称白宫附近枪击案枪手“有暴力史”

股票配资专家门户法甲收官战不敌巴黎FC

股市配资行情超声软指标异常之心室强光斑

配资渠道之家 14岁年龄差成鸿沟？萧敬腾林有慧婚后两年现危机，给所有姐弟恋提了个醒

厦门配资平台吉利携手阶跃星辰，发布行业首个座舱智能体

厦门配资平台世家大族出身的王皇后，为何斗不过二婚的武则天？单单是不受宠吗

厦门配资平台北海康成-B持续上涨逾25% 公司向百洋医药发行7497万股新股

厦门配资平台四川拟取消医保参保户籍限制相关实施意见正公开征求意见

厦门配资平台河南云台山景区公告

金配资炒股配资开户 又一国家区域医疗中心项目试运营！

厦门配资平台 世家大族出身的王皇后，为何斗不过二婚的武则天？单单是不受宠吗

厦门配资平台 美国一项两党联合提案将禁止议员进行股票交易

金配资炒股配资开户又一国家区域医疗中心项目试运营！

厦门配资平台世家大族出身的王皇后，为何斗不过二婚的武则天？单单是不受宠吗

厦门配资平台美国一项两党联合提案将禁止议员进行股票交易