OpenAI研发全新的音频 AI 模型打造无屏幕AI伴侣

OpenAI为何押注音频AI模型

14

抢首评

3

1

举报

发布时间：2026-01-06 11:25

查看AI文稿

AI文稿

欢迎收听，今天我们来深入聊一份信息量很大的材料，是 the information 几天前，也就是二零二六年一月一日刚刚发布的一篇报道。嗯，我们很多人，呃，现在都习惯了在电脑或者手机上打字，跟那个 chat gpt 聊天，感觉这已经是 ai 的常态了嘛。但你给我们的这份报导揭示了一个完全不同的方向， open ai 正在把宝，几乎是全部的宝都压在恩平 ai 上。没错，所以我们今天的任务就是一起挖一挖 open ai 为什么突然这么着急的要换赛道？他们想象中的那个未来的个人设备到底长什么样？以及，呃，这条路好不好走？对，而且这已经不是一个简单的技术升级了，这背后牵扯到的是一种怎么说呢，一种设计哲学，是几个关键人物的野心，甚至是你未来和 ai 打交道的方式，都可能会被彻底颠覆。哦，这其实是在回到一个核心问题，我们是不是正在走向一个不需要屏幕的计算时代？好，那我们先从最根本的问题开始吧。为什么非要做 n 屏？报道里其实直接就给了答案， open ai 现在的音频模型，不管是反应速度还是准确性，都远远比不上它的文本模型。嗯，这听起来有点尴尬，就是他们最想做的，反而是他们现在做的还不够好的。这确实是直接原因，但我觉得这更像是一个症状，而不是病嗝儿。病嗝儿？对，真正的病根在于，他们认为目前这种人打字机器回话的模式本身就是一个巨大的障碍，是实现他们最终目标的绊脚石。你看文章里提到，很多 ai 研究人员都相信，说话才是人类和 ai 交流最自然最高效的方式。嗯，毕竟我们人类几万年来都是这么交流的。就是这个意思，所以他们想把键盘和屏幕这两个中间商给去掉。完全正确，而且他们不是一个人在战斗。报道里点出 google、 amazon、 meta，苹果这些巨头其实也都在偷偷琢磨这件事。是吗？他们都觉得 iphone 这种诞生在 ai 时代之前的设备，嗯，已经无法承载 ai 的未来了。这里面最让我觉得有意思的是你资料里提到的前苹果的设计大神乔尼艾夫对他的那个理念。他现在正和 open ai 合作，而且目标非常明确，就是要纠正以往消费类电子产品的错误，特别是要减少我们对设备的沉迷。我觉得他那句话说的特别重，那一句，即便你的初衷是清白的，我认为如果你卷入了一些后果不佳的事情，你也需要承担责任。这听起来简直像是在他自己餐饮创造的 iphone 时代的一种。呃，反思。这句话可以说是整个计划的灵魂所在了。他直接解释了无屏幕这个设计哲学到底是为了什么。过去二十年，我们的生活被一块块发光的屏幕定义了，对吧？对，低头看手机脖子会酸，无时无刻的通知、提醒，打断我们的专注，还有那些无限滚动的社交媒体吞食我们的时间。所以他们想做的不是另一台更吸引你眼球的设备，而是一个让你能抬起头来重新关注现实世界的工具。完全正确，这是一种交互方式的哲学革命，从一个需要我们持续投入视觉注意力的信息漩涡，变成一个能融入背景、几乎让你感觉不到它存在的环境，只能这是一个根本性的转变。听起来理念很宏大，但要实现这个目标，技术上得有大突破才行。那 open ai 具体在做什么呢？嗯哦，报道里提到了，他们把好几个团队，什么工程、产品研究团队都整合到一起了，就是为了开发一种新的音频模型架构。对，但是这里面提到的新能力让我觉得有点科幻了。他说新的模型回应会更自然，更有情感，答案更准。关键是后面两点，他能和人同时说话，还能很好的处理对话打断。没错，等等你刚才说的同时说话和处理打断。这听起来像是技术细节，但我感觉这才是真正颠覆性的地方。就是这个意思。你想想，现在跟 siri 或者其他语音助手说话，我总得等他把话说完我再说，就像个小学生回答老师提问一样，特别不自然。是的，如果真的能实现自由插话，随时打断，那感觉就不是在跟一个机器下命令了，而是在跟一个人聊天。对，你抓到重点了，这正是他们追求的自然感的核心。嗯，这种流畅的对话能力，完全是为了服务于他们最终想打造的那个产品，也就是你资料里提到的那个伴侣式设备。对，文章里对它的描述听起来已经不像个工具了。是的，文章说它像一个伴侣一样与用户并肩工作，主动提供建议以帮助用户实现目标，而不仅仅是一个被动。等着你打开 app 的入口，这个主动两个字信息量太大了。怎么说？我们可以想象一个场景，现在的手机，你得先解锁，找到地图 up，输入目的地，它才告诉你路况，对吧？对。而这个伴侣设备，可能在你还没出门的时候就主动说，哎，你常走的那条路今天堵得厉害，我帮你规划了条新路线，可以省二十分钟。哇哦，它预判了你的需求，那形态上呢？报道里提到他们讨论过眼镜，还有不带屏幕的智能音箱。嗯，而且它可以通过 audio 和 video 来感知周围的环境和用户状态。当然是在用户允许的情况下。对，在用户允许的情况下，这六个字绝对是成败的关键哦。因为主动这个词的另一面就是隐私和控制权。当一个设备能看到你所看，听到你所听，并且还能主动给你建议的时候，信任就成了一切的基石。是的，他们未来必须花极大的精力去解决这个问题，让用户觉得安全，觉得一切尽在掌握。这么大的一个计划，肯定得有牛人来炒盘。报道已点名了几位关键人物，感觉像是组建了一支复仇者联盟啊。确实是，比如他们专门从 character dot ai 挖来了顶尖的语音 ai 研究员昆登空曼来领导整个项目。嗯哼，还让盘点研究负责人 benu house 去重写公司的底层 infrastructure 来适配英英 ai。从底层架构开始改，这听起来就是动真格的了。这就说明了这个英英优先战略在 open ai 内部绝对是核心中的核心，而不是某个部门的边缘项目，他们是在给整个公司换地基。当然，最重磅的还是和乔尼艾芙的合作。报道里批漏的那个数字，简直吓到我了。是那个收购价吗？对，二零二五年早些时候， openai 花了将近六十五亿美元收购了艾芙联合创立的 i o 公司，目的非常纯粹，就是为了设计硬件。六十五亿美元仅仅是为了设计？这个数字太疯狂了。是啊，这笔钱都购买下好几个大型科技公司了。这说明在他们看来，未来 ai 产品的形态、材质、手感和 ai 模型本身一样重要，甚至可能更重要。我的理解是，这笔收购简直是在向整个行业喊话，喊什么？过去二十年，科技圈的主流想法是软件为王，硬架只是软件的主体。但 open ai 这个操作的潜台词是，我们认为手机这个形态本身可能就是 ai 进一步发展的瓶颈。有道理，他们花六十五亿美金买下的不是一家公司，而是一个信念。未来的 ai 需要一个全新的身体，一个由 ai 原生四位从零开始设计的身体。好，那我们把视野拉得更广一点，你提供的材料里有一张 ai 技术站的图标， ai stack。对哦，他把 open ai 放在了和谷歌、微软、苹果这些巨头同场竞技的舞台上。我看到这张图，第一反应是谷歌的那个对勾也太多了。哈哈，是，简直是天罗地网，无处不在。对，第一眼看过去，确实是这样，谷歌的全面布局是它的巨大优势，但换个角度看，也可能是它的历史包袱。怎么说它有太多现有的产品和业务需要维护，但你仔细看，会发现更有意思的地方，其实在 open ai 那几行，这也正是关键。你看那些用黄色标出的新条目 open ai，在 ai 训练集群、可穿戴 ai 设备和人性 robot 这几个地方都是新玩家，它们就像一个野蛮人。对，根本不跟你玩什么修修补补的游戏，而是直接杀正了几个最核心最能定义未来的领域。他们不是在填补自己的短板，而是在开辟一个全新的战场。尤其是在可穿戴 ai 设备这一项，他们直接就冲着苹果和谷歌的核心地盘去了。这是一次非常激进的扩张。所以你可以看到，他们正在以惊人的速度从一家纯粹的软件和模型公司转行为一个软硬件通吃的全站 ai 玩家。这个转变太巨大了。好的，听下来。他们有愿景，有顶尖的人才，还有呃，花不完的钱。差不多是这样。这一切听起来都非常完美，但是报导在最后也指出了一个非常现实，甚至有点滑稽的障碍。是的，一个和人有关的账样，就是目前绝大多数拆的 g p t 的用户根本就不用它的语音功能。对，要么是觉得现在的语音质量不好，要么就是压根不知道还有这个功能。这可以说是最难啃的一块骨头了。一个典型的用户行为习惯障碍。嗯，你可以做出全世界最先进的语音交互设备，但如果用户在心理上就不习惯对着一个机器说话，那一切都是白搭。就像 google glass 当年一样，完全正确，技术很酷，但在社会和文化层面失败了。那么这对你来说意味着什么呢？我觉得可以做一个预测哦，在他们那个神秘的硬件正式发布之前，你很可能会看到 openai 开始疯狂地推广和迭代现有拆的 gbt app 里的语音功能。他们会用各种方式，比如提供更好的音色、更快的响应、更有趣的玩法来教育市场，培养你和 ai 进行语音交流的习惯。就像是在为未来的英坚主力部队先派出一支先遣队来铺路，就是这个道理。好了，我们来总结一下。今天我们深入探讨了 open ai 描绘的未来蓝图。很明显，他们已经不满足于只做一个我们打字聊天的机器人了。是的，他们拉上了设计界的传奇人物乔尼艾弗投入了天文数字的资金，目标是开启一个以音频为核心的告别屏幕的个人计算型时代。嗯，他们想创造的是一个能主动为你服务的 ai 伴侣，而不是一个被动等待指令的工具。他们面对着来自巨头的激烈竞争，基础上也有很多难关要过。但最有意思的是，他们最大的挑战可能来自于我们每一个人如何说服我们放下手机，开始和 ai 交谈。没错，报道和我们的讨论更多是聚焦于是什么和怎么做，但我们想留给你一个问题来思考。嗯，想象一下，这个 ai 伴侣真的来到了你的生活中，它能通过摄像头和麦克风看到你所看，听到你所听，并且足够了解你。在这种情况下，你希望他帮助你实现的第一个真正的对你个人有意义的目标会是什么？不是设个五分钟的闹钟或者今天天气怎么样这种简单的任务的对，而是一个真正能改变你生活、工作或者学习的更深层次的目标。

粉丝9697获赞1.7万

相关视频

15:25
OpenAI 发布了三个新的音频模型 API OpenAI 发布了三个新的音频模型 API，主要分为两类：
1. 语音识别模型（Speech-to-text）：
- gpt-4o-transcribe（精准版）
- gpt-4o-mini-transcribe（轻量版）
2. 文字转语音模型（Text-to-speech）：
- gpt-4o-mini-tts（支持自定义声音风格）
这些新模型在准确率上有所提升，特别是在有噪音、口音明显或语速变化快的环境下。价格方面，mini 版本更便宜，适合日常小规模使用，而 gpt-4o-transcribe 适合需要高精准度的专业场景。
新亮点包括：
1. 语音转文字更精准，特别适合带口音的语言、背景噪音大和讲话速度快的场景。
2. TTS 模型支持声音风格指令，可以控制声音表现，适合创意内容和客户服务。
3. Agents SDK 支持音频，开发者可以轻松构建智能语音助手。
这些改进提高了实用性和用户体验，期待未来在客服、导航和聊天等领域的应用。#人工智能 #OpenAI #DeepSeek #语音助手 #Agent
9AKyS佐毅🐿
13:03
最强AI语音对决：OpenAI新模型完胜国内外5款主流工具 OpenAI发布全新音频API，包括GPT-4o系列转录模型与文本转语音功能。通过与Spark TTS、CosyVoice、GPT-SoVITS和F5 TTS等多款AI语音工具对比测试，发现OpenAI模型在文字转语音方面表现卓越，能完美处理数字、标点和特殊字符，语音更有感情，虽然中文发音略带外国口音，但整体效果领先同类产品。未来若开放自定义声音训练，将更具应用价值。
#openai #F5TTS #CosyVoice #文字转语音 #AI语音
33黄思平
05:33
本地部署OpenAI GPT保姆级教程！断网也能用！适合小白 #AI #OpenAI #AI新星计划 #开源模型 #AI测评
758是子鱼AI
26:46
【深度实测】OpenAI新模型开源之王oss，真有那么强？
#AI新星计划 #AI在抖音 #AI #ChatGPT #openai
29思维蒸馏所
00:33
openai开源两款模型，gpt-oss 20B和120B，，开源协议使用apache2.0，不管你是拿来学习、实验、定制还是商业部署，都不用担心版权问题！#openai #OpenAI发布2款开源模型 #gpt #大模型 #开源
6061阿甘探AI
08:43
我把 GPT-5 全面实测了：准不准、会不会编、值不值？| | 从 0 到可用：GPT-5 代码能力暴走的一晚!#GPT5#openai#chatgpt#ai新星计划 #GPT5实测
4771神烦老狗
05:51
OpenAI自爆大模型不懂代码，下饭操作一大堆 #AI #代码 #人工智能 #openAI #claude
879AI科技评论
01:12
#OpenAI加码音频人工智能研发：OpenAI正整合多支团队，全力升级其音频人工智能模型，旨在为即将推出的首款AI硬件设备提供核心技术支撑。该设备将以音频交互为核心，定位为智能陪伴助手
查看AI文稿
AI文稿
ai 领域又有大动作了， openai 竟然要进军硬件市场，还整合多支团队，全力升级音频人工智能模型，这是要打造什么样的黑科技产品呢？据了解， openai 此次整合了多支精英团队，目标就是升级其音频人工智能模型。这一举动可不是小打小闹，而是为了给即将推出的首款 ai 硬件设备提供核心技术支撑。这款设备可不得了，它将以音频交互为核心，定位为智能陪伴助手。想象一下，在忙碌的生活中，有一个智能陪伴助手能随时陪你聊天、解答问题，甚至还能根据你的情绪变化给出贴心的建议和安慰，这简直就是生活中的小确幸啊！而且这款设备的出现，也标志着 ai 技术从软件向硬件的进一步拓展，将 ai 的便捷性、智能化更直观地呈现在用户面前。不得不说， open ai 这次的创新真是让人期待不已， open ai 的这次大动作，无疑为 ai 领域注入了新的活力，智能陪伴助手听起来就让人心动不已，你期待这款设备的到来吗？快来评论区分享你的看法吧！
1马到成功
04:02
OpenAI抛弃屏幕！音频AI颠覆硬件 #财经 #时事政治 #科技
查看AI文稿
AI文稿
科技界发生了一件足以载入史册的事， openai 正式宣布放弃所有带屏幕的硬件研发，把全部资源押注在纯语音交互上。他们解散了 ar 眼镜团队，收购了关键的音频技术，推出一个代号叫 openaudio 的项目。从今天，我们可能真的要和一个看了几十年的东西说再见了，那就是屏幕。为什么说屏幕时代要落幕呢？数据不会骗人。二零二五年，全球智能手机出货量跌到了十一点二亿步，这是二零一三年以来的最低点。苹果那个很炫的 vivo pro 头衔，卖了一年还不到四十万台，远不及预期。更关键的是，我们自己也受不了了。研究报告显示，人们每天盯着屏幕的时间，已经从二零二一年的七个小时，降到了二零二五年的四点一个小时。我们的眼睛和大脑对过载的视觉信息开始了生理性的抗拒。而另一边，声音的浪潮正汹涌而来。 openai 自家的语音模型处理音频的时长在一个季度里暴增了百分之三百，每天超过两百一分钟。相比之下， check gpt 里那些需要看的视觉功能用的人，连百分之十五都不到。用户用脚投票告诉我们，当追求的是纯粹的信息和效率时，盯着屏幕点点划划，已经像马车一样过时了。 openai 这次搞的 open audio 厉害在哪？它不是一个简单的语音助手升级版，它是在重新定义听这件事。这套系统能在一个嘈杂的环境里，比如九十分贝的地铁里，同时分辨出十六个不同的声音来源，准确率超过百分之九十九，比人耳还厉害。它还能通过声音构建出一个三维地图，定位精度达到厘米级，甚至能通过你声音里细微的颤抖识别出你的情绪。实测结果很吓人，在地铁噪音里让他完成一个复杂指令，成功率百分之九十八。而我们现在用的 siri、 alexa 这些，成功率直接掉到百分之四十一。更夸张的是跨语言交流，一个说中文的人和一个说西班牙语的人能通过它几乎无损耗的实时对话，语音保真度百分之九十六语言的巴别塔可能真的要被声音撞碎了。这股浪潮冲击最大的就是整个消费电子硬件行业。一场雪崩，已经开始做屏幕的公司首当其冲。三星显示一个季度亏了三十四亿美元，京东方裁了上万人。而麦克风、声学芯片这些零件，价格半年涨了五倍，成了新的黄金赛道。华为 boss 这些公司都紧急砍掉了智能眼镜项目，转头去研发骨传导耳机。 open network 的威力在于它几乎没有学习门槛。测试中，百分之八十三的市长朋友在第一次接触的三十分钟内，就能用它完成订餐、打车这些操作，而用手机完成同样的操作，平均需要点二十二下，花八分多钟。当伦敦地铁是用它的导航系统后，乘客平均通勤时间缩短了五分之一，这节省下来的是每年二点三亿小时的人的生命时间。硬件的价值正在被这种极致的时间效率重新衡量。这场变格的影响远不止于此，他正在静悄悄的改变社会的权力结构。在非洲农村，手机普及率不高，但广播信号覆盖很广。 oppo nano 能利用现有的广播频道传递指令，让不认识字的农民也能直接查询粮食价格，成功率超过百分之九十五，比发短信查高了四倍。技术普惠的门槛被声音极大的降低了，人和机器的关系也在变。有报告显示，当车载系统搭载了高级语言交互后，超过三分之一的用户开始向 ai 倾诉情感问题。当交互从冰冷的手指触摸变成带有温度的声音交流时，技术已经摸到了人类情感的边界。当然，争议随之而来。强大的声门识别技术让人在零点八秒内就被锁定身份，这引发了巨大的隐私担忧， openai 也因此被重罚。但一个矛盾的现象是，很多用户愿意用隐私去交换，二十倍的效率提升。当人们在电梯里很自然的用语音查询银行余额时，过去关于隐私的很多观念其实已经改变了。如果你觉得这个变化值得关注，请点赞收藏，我们下期再见！
17淘金小诸葛
01:50
最接近真实可用的大模型？一口气看完GPT5发布会：编程强，幻觉率低#AI #Openai #ai新星计划 #gpt5 #AI大模型
2658数字生命卡兹克
00:37
openAI终于免费开源了 #人工智能 #AI #Openai #开源 #github
4047程序员三千
02:46
OpenAI入局背后：AWS多模型战略的远见性再次被验证！ OpenAI入局背后：AWS多模型战略的远见性再次被验证！
#OpenAI #亚马逊AWS #Anthropic #多模型协作 #AI
91超前实验室
00:26
Ai不听人类指挥，OpenAi模型拒绝关闭 #财经 #人工智能 #科技 #Ai #作手阿飞
3735作手阿飞（巴菲特版）
01:00
OpenAI开源后12小时：开发者们脑洞大开盘点各种神奇案例应用，3分钟搭AI房地产代理、离线AI语音助理、本地部署起飞 #openai #开源 #程序员 #科技
4528阿博粒
03:05
3分钟告诉你openai颠覆性模型o1到底有多强？！ #AI #OpenAIo1 #测评 #chatgpt #科技启示录
8241秋芝2046
03:28
AI音乐免费时代终结？人类创造力会沦为AI的免费燃料吗？#ai #ai音乐 #音乐人 #suno #OpenAI
262莎总音乐观察
02:48
「只说不一样」openAI新模型gpt-oss有什么特别的？其他不重要，只要记住三个点：开源，本地部署，AI安全风险 #人工智能 #openai #gpt #智能玩家联盟 #deepseek
600第四种黑猩猩
00:59
OpenAi发布Agent智能体有那些强大的功能#openai #人工智能 #Agent #写作 #编程
67阿坦说Ai
01:21
GPT5降智咋办？OpenAI藏起来的3个使用技巧 #GPT5 #gpt5发布 #OpenAI #大模型
1613卡尔的AI沃茨

猜你喜欢

热门推荐

热门分类