二零二五年十二月十一日, openai 发布了最新的 gpt 五点二模型。在众多的机准测试之中啊,有一个数字格外的引人注目,就是 arc agr 二, 它从 gpt 五点一的十百分之十七点六跳涨到了 gpt 五点二的百分之五十二点九,整整有三倍的提升。 arc agi 被认为是测试 ai 真正智能推理能力的黄金标准,它测的不是你背了多少知识,而是你是否能像人类一样,面对从未见过的问题,快速推理出答案。 有人认为 g p t。 五点二离真正的通用人工智能又近了一步,有人认为 g p t。 五点二是在刷榜。这样的一个分数到底意味着什么? ai 是 否正在逐渐学会思考,我们离通用人工智能到底还有多远?欢迎大家收看我们今天新一期的视频。 首先, a r c a g i。 到底想测什么?二零一九年, caris 之父 foshua shelley 在论文 on the matter of intelligence 提出了一个根本性的问题,仅仅测量特定任务的技能不足以衡量智能,因为既能受到鲜艳知识和经验的强烈调节,无限的鲜艳知识或者训练数据,允许实验者为系统购买任意水平的知识,这掩盖了系统自身的泛化能力。 那用人话就是说,你死记硬背的知识其实不能够体现你这个 ai 系统,它是否真的有人那样的智能,那它提出来了一个新的智能的定义啊,也就说,系统的智能应该体现在在一系列的任务上啊,你可以通过技能去获取效率, 需要考虑的是通过知识去创造新的方法,而不是通过经验来死记硬背。基于这样的一个定义,它设计了 abstraction and reasoning corporas。 核心的设计原则是对人类来说很简单,对 ai 来说非常难。 这个方式类想测的呢,是一个叫做流体智力的东西,也就是说,当人或者说 ai 面对全新的问题时,他是否能够举一反三的进行推理,而不是这种精体智力依赖于你之前积累的知识或者说是经验来得到一个结果。 那在二零二零年首届 cargo 比赛中,冠军的 ai 团队只达到了百分之二十一的准确率,远远低于人类百分九十八的准确率。 那给大家简单看一下这个 a r c 的 题目长什么样。首先他给了三个例子啊,这个例子如果人去判断,他就是一个非常简单的例子,就是把这个图形填到这个色块里啊,这个图形填到这样的一个色块里,这样的图形填到这样的一个色块里。 那最终我们这边得到的这个图案,就应该是把这个图形填到这样的一个色块里,把这个图形填到这样的色块里。所以大家可以看到啊,人们解决这样的问题其实非常的简单和直观。 虽然这种题目对人来说非常简单啊,但是对 ai 来说,其实它不是直接把图片输入题目啊,它是把相对应的题目呢转化成数组表示,然后把这个数组输入给模型,然后让模型去做这样的一个判断。那这地方就有点像前几代的 ai 啊,它们能写正确的代码,但是它们却写不了好看的代码, 因为他们不知道这样的一个代码到底对应的是一个什么样的视觉。那翻开 a r c a g i 二的任务列表,你会发现很多的任务都是和我们上面所介绍的视觉空间变换相关的啊,去识别这个物体的对称性啊,看一下它应该摆在哪啊。 最初设计这些任务的时候啊,对于纯文本模型来说,他们是训练,分布之外的就是模型,从来没有见过什么是旋转,什么是对称,但是现在的多模态训练已经完全不一样了。 open i 在 发布 gpt 五点二的时候,特别强调了它有着更强大的图像感知能力和对于多模态输入的处理推理能力啊。 那我们可以猜测哈, gpt 五点二的这种提升,与其说是推理能力的提升,不如说是他终于开始看见这些概念了。 更值得一提的是,就在前几天啊,一个六人小团队 politic 拿下了 a r c a g r 二的榜首,它达到了百分之五十四的准确率啊,甚至超越了 g p t 五点二。最有趣的是,它们不是一个做模型的公司,它们这地方用的模型完全就是 gemini 三 pro, 他们唯一做的改动就是去改动了这个 a 阵的调用啊。你如果仔细去看它的 prompt 是 怎么写的,它里面清晰地写到了,是吧?我们要使用可视化的技术帮助分析啊,注意突出的视觉特征,识别任何的对称性。那考虑使用 c v 二处理,这个对象的检测,边缘的检测, 这个就是一个很明确的信号。这一套 agent 的 处理方式不是在增强从零开始推理的能力,不是在增强举一反三的能力。它就是在说,请你直接调用你训练过的你知道的视觉概念, 所以他们之所以能拿到百分之五十四这样一个最好的分数,恰恰是最大化的利用了预训练的记忆。 而且我们可以通过另外一个例子来。反正上面的结论啊, cloud opus 四点五被公认为是最强的推理模型之一啊,尤其是写复杂代码呀,多部的这种推理啊,大家的实际体感其实都是很强的。而且呢,在没有经过任何修饰的情况下, cloud opus 四点五在 a r c 的 这样的一个测试级上,是比 germline 三点零 pro 要更强的。那从这个角度来讲, poetic 对 模型质量的提升应该在 opus 四点五上会更强。但是实际的实验结果是, german 三点零 pro 加上 poetic 的 这样的一个关键词达到了最高分,而 opus 并没有特别大的提升。 如果 poetic 的 refinement loop 是 通用推理方法的增强,那给 opus 用上同样的方法,它也应该大幅提升才对。 所以,其实这里的实验结果证明了,让这个榜单大幅的进步,不是由于真正的推理能力变强了,而是模型的视觉能力变强了。那,那现在让我们回到开头的问题, 榜单骗人吗?并没有啊,他这个数据是真实的啊,这个测试也是公正的。 g p t 五点二刷榜了吗?也没有啊,因为这个数据级本身就是很难作弊的。那外推的能力大幅提升了吗?也没有啊,这样的提升主要来自于多模态域训练覆盖了测试的概念, 所以分数是真的,进步也是真的,但进步的实质并不是这个地方榜单想要测的那个东西,所以这并不是一个虚假宣传的故事啊,这只是一个关于测试精准保质期的故事。 很多时候我们看到能力的提升,尤其是像这样大幅度的提升,其实我们都得静下来思考一下,他所提升的是否是真的我们想要的东西,就像我们一直强调的,技术是限性的,但媒体的关注度可能是指数性的, 而那个真正能测量机器智能的精准测试啊,也许还没有被开发出来。那以上就是我们这期视频的全部内容,如果你觉得我们的视频做的还不错的话呢?欢迎点赞、收藏、转发、订阅、评论我们的频道,这对我们来说非常重要,感谢你的收看,祝你学习顺利!
粉丝2153获赞9452

就在刚刚,掐着 gpt 五点二上线了,不出意外各种补榜吊打 jimmy 三,不然他也不会拿出来。不过现在这些榜单看看就行了,强不强还得自己来测。这次 gpt 五点二的官方报告中着重强调了他解决日常工作的能力, 所以我们将从这四个维度来测试 gpt 五点二。好,咱们立刻开始。首先,我们让他制作一份二零三零年 ai 发展趋势 ppt, 我 这一等就是五十四分钟, 不过质量是实打实的,从信息收集、背景图片的选择、整体排版布局到具体内容都可以称得上制作精良。所以我可以理解为什么他需要五十四分钟, 因为这是一个人两到三天的工作量。接下来我们测试 excel, 我 让他预测英伟达未来五年的财务报表,然后进行估值。他又运行了整整三十四分钟,但最终的表格让人非常准确合理,而且 excel 公式都是写好的, 你改任意一个数字,表里相关联的数字都会自动更新,整体制作质量不亚于专业金融从业者,好评。第三关,图片理解, 我扔给他一张电脑主机的图片,让他把里面的配件全部标注出来,整体几乎没有问题,就是右侧玻璃上反射的风扇被他当真了, 可以给到八十分。最后来看看代码开发能力,我让他制作一个栗子特效圣诞树,还能一键切换成圣诞老人。我感觉挺漂亮的,还可以旋转让我们切换成圣诞老人。咦, 怎么出来个天线宝宝?好吧,估计也就这水平了。总体感觉和 jammy 三最大的差别就是在长任务上掐的 gbt 五点二明显拥有更强大的 agent 能力, 可能就像在文档里说的那样,它更适合帮助我们完成复杂的日常甚至专业的工作。好啦,今天的初步测评就到这里,关注阿朱,我们将带来更加详细的 g b t 五点二和 gemini 三的横向对比。

gbt 五点二发布了,毫不意外再次图榜,各项指标都达到了最高,山姆奥特曼特别强调,此模型在日常工作中更加的可靠, 也就是说更适合我们打工人了。但是每月二十美元的价格还是有点小贵。我已经开好 tim 套餐了,想上车的来找我吧!

兄弟们听清楚, ai 又一次改命了! open ai 十周年,没讲情怀,直接甩王炸! g p t。 五点二刚上线,各大 ai 精准测试全榜,途观 gemini 的 领先,一句话被碾压! 这次不是一个模型,是三把刀,刀刀砍生产力!第一把 g p t。 五点二, instant, 打工人专属外挂, 写文档翻译做规划,以前一下午,现在几分钟?第二把 g p t。 五点二, thinking 专业人士核武器,几十万 token 的 合同,论文报表一口吃完还不出错!股权清算模型精准加排版都专业!第三把 g p t。 五点二, pro, 科研与硬核编程的神 a m e 二零二五,数学竞赛满分,科学问答正确率百分之九十三点二,真正恐怖的是数据!在四十四个职业评估里, g p t。 五点二, thinking 百分之七十点九,任务打赢或持平,专家速度快十一倍,成本不到百分之一。 投行新人熬几天的模型,他直接秒出,得分还从百分之五十九冲到百分之六十,老毛病也被真治了,幻觉率直降百分之三十!看图看硬件更准! 多轮工具调用,一站式跑完,安全也兜住,心理风险识别更到位,未成年人敏感内容自动上锁。重点来了! spt 付费用户已逐步上线,价格没涨, gpt 五点一还能再用三个月!这不是升级,这是写!转! open ai 十周年,这一刀,不是更新模型,是把 ai 生产力的天花板又抬高了一整层!打工人这次真的开挂了!

同志们被詹姆的三吓到的 gbt 五点二终于来了,都在说他这个比上一代强到离谱,反正各个榜单又是霸榜。另外迪士尼还砸十亿送两百个漫威角色随便用,反正我用了感觉不出来什么区别。呃,和这个詹姆的三相比, 我觉得这次最重要最重要的更新是他这个幻觉力降低了百分之三十多,查数据的话就再也不用那么一直反复的核对了。这肯定核对的次数少了吗?我觉得这个是挺好,直接是提高了一个生产力啊。 另外重点是迪士尼砸了十亿跟欧 openai 合作,两百个漫威角色随便用。明年初起啊,估计你输一句给这个 sorry, 输一句钢铁侠在纽约街头救梦,可能 sorry 就 直接给你生成短视频了,这个版权问题再也不用担心。


就在今天,国内和国外 ai 圈两个重大事件,看似各说各话,但却联手为我们揭开了一个残酷而崭新的现实。下面,宝金将带各位创业者、投资人老板一起穿透信息迷雾,洞见现实规律。 open ai 发布了 g p t 五点二,它很强,在编程数学的精准测试上又刷新了成绩。但硅谷的媒体和投资人反应却出奇的平静。为什么呢?因为一个共识正在形成一个天花板,检验一下的天速场合 已经从令人仰望的峭壁,变成了大家都能涉水而过的浅滩。而几乎在同一时间, tcl 全球技术创新大会给出了另一份答案。他们没有炫技,而是晒出了一张价值超过十亿元的 ai 效益账单,并发布了覆盖制造到终端的十大场景。而这声巨响,在太平洋对岸却几乎听不到。 这就是今天我要和各位创业者老板总结现实规律。投资人们聊的一场被绝大多数人忽略的静默。 ai 革命正在悄悄地发生,它的主战场不再代码的竞技,而在我们家里的客厅、厨房,在每一件消费电子产品的重生之中, tcl 的 ai for real 不是 一个口号,而是一条清晰的行动路线图。 它告诉我们 ai 最大的价值,不再是回答一个经验的问题,而是沉默地解决一个存在了十年的老问题。是 工厂里 ai 视觉系统取代人眼,从每秒流过上百个零件的产线上,精准地挑出那个微米级的瑕疵。这不是功能,这是印钞机, 它直接对应着每年数千万的量利提升和成本节约。当 ai 在 研发、生产、物流每一个环节都开始结算价值时,意味着什么?意味着消费电子产品的本质正在被重新定义。 过去的逻辑是,我造一个硬件,然后想办法为它增加一些智能功能。电视就是屏幕加芯片,加一些语音助手,手机就是摄像头加芯片,加一个装在你口袋里的 app 商店。但未来的逻辑是,从第一张设计图开始。这个产品就是为了与 ai 共生而化的。 它的每一个传感器、每一处结构、每一行底层代码,都在为一种全新的、自主的智能交互做准备。想象一下我们家的下一台电视, 他不再是一个需要我们寻找遥控器、费力输入关键词的显示设备。当你看上他,他就知道你是谁,并根据你此刻的情绪、昨天的观看习惯以及家里其他人的偏好,自动为你排列好一个独一无二的界面。 他甚至知道孩子该看教育内容了,会自动调暗客厅灯光,他发现你在跟着健身课程运动,会联动空调和音响,创造最佳环境。这时,电视是什么? 它是一个家庭场景的智能中书,一个感官与数据的融合体。它的核心价值不再是那块屏的物理参数,而是它理解、调度、满足整个家庭需求的能力。这就是我所说的家庭场景 ai 价值结算中心。它结算的不是金钱,而是每个成员的注意力、时间和满意度。而手机呢? 它可能会从我们手中的万能遥控器退化为一个身份验证与紧急干预的终端。大多数日常交互将由房间里无处不在更懂场景的专用 ai 设备完成 这场 ai 的 改革将席卷一切,从冰箱、空调到一盏灯,未来的家电将不再是需要你设置操控的电器,而是能感知、预测并自主服务的生活单元。那么,这场革命对我们创业者、投资人、老板意味着什么?三个必须看懂的战场转移。 第一,供应链的战场转移。核心竞争将从谁能拿到最先进的芯片,转向谁能设计出最懂 ai 的 硬件架构。传感器布局、功耗控制、端侧计算单元的设计 将成为新的核心技术壁垒。就像电动汽车重构了汽车供应链一样, ai 原生设备将重构电子制造业。第二, 产品定义的战场转移。产品经理的终极问题将从我们需要加什么功能,变成我们需要为用户省略掉哪个步骤,极致的目标是让产品本身消失,让体验无缝复现。谁定义了下一个品类的 ai 原生交互范式,谁就掌握了王权。第三,用户体验的战场转移。评价标准将从流畅度、分辨率 变为主动服务准确率、场景无缝切换率。用户是在为省心付费,为时间付费,品牌忠诚度将建立在 ai 对 你生活理解的深度之上。所以,回到今天的这两个大件事, open ai 的 gpt 五点二是就绪式最后的呼喊。 他告诉我们,通用模型的工具时代顶峰已见,而 tcl 的 十亿元账单是新开始。他宣告,基于垂直场景软硬一体的 ai 价值时代全面开启。对于投资者,是时候把目光从大模型公司移向那些拥有深厚制造业根基,正在用 ai 彻底重构自身产品的消费电子巨头, 以及为这场革命提供新动力的,比如专用传感器端测 ai 芯片、新型交互技术的初创公司。对于创业者最大的机会不在于做一个更酷的 ai 应用,而在为一个具体的家庭或生活场景重新发明一个全新模式的旧产品。这场 ai 革命之所以静默, 是因为他不会在发布会上一鸣惊人,但他会在未来五年无声地替换掉你身边每一件电子产品,并在此过程中催生下一个万亿市值的巨头。转发给你身边正在寻找下一个确定性机会的朋友。在评论区留下你认为最先被 ai 原生思维重塑的家电产品。我是子宇创的宝金,我们明天见!

为了打好饲料猪,我这个中灯花了不少钱。首先是这张五菱新生态的显卡,他让我这个视力得到极大的提升,原来我根本看不见人在哪,现在哥们我从中控直接看到火箭发射区买的最值的一个东西啊,就这个红 机的 e d r 五的六千赫兹的冰刃,这两张内存条,我当时买的时候是一千块钱三十二 g, 现在涨到两千五了,我觉得他在饲料猪里面定位一个小金,因为他现在我拆了卖了,我就能去 ktv 吃两天果盘。 我把这些硬件都提升到一个地步之后,我发现我打枪马的厉害,就是我瞄的人在这,打的人在这,我根本打不住,我就反思是不是我这个鼠标垫不对了,我原来用的就是这种啊,买电脑送的鼠标垫,大家可能都用过,然后呢,我买了一张代位的 hehera, 是 什么 heavy 什么的, 但是因为我打游戏是手腕流,我手腕老在上面蹭蹭了就发现你看这边手腕蹭的就特别特别白,老铁这全是汗,然后我给它翻了一边,用了一个月,这边白白的也全是汗,我这个大汗手,我确实是没招了,而且布垫子大家都明白啊,它这个使用手感最佳寿命就是一个月。然后偶然我了解到了 a i m 的 这个镀膜, 这个垫就太有说法了,我当时问客服,我说你这是玻璃垫吗?他说不是,我是镀膜垫,镀膜垫,老铁们,他的这个材质啊,就是仿制这个玻璃垫的,我拿鼠标给大家展示一下,你看老铁真的特别滑哦,你看这个滑动程度, 丝滑程度,哎,有人说了,那你说他这个太滑了好不好。跟枪老铁你就去看吧,现在的 fps 大 手的冠军玩家基本上都是玻璃垫。为啥?因为他虽然短期内你可能不适应,但是你用多了之后打人就嘎嘎准,嘎嘎准, 这个肌肉记忆一旦形成,老铁天下无敌,而且最重要的它耐脏。就因为这张鼠标垫,我现在练的跟枪呀拉枪,第一个是准,第二个是快,我觉明 k d 也就来到了二点五,我现在都能当护航了。太有说法了老铁。
