粉丝3613.0万获赞16.7亿

好,大家好,我是小刘,今天我们一起来看一下那个 openai 最新发布的 gdp 五点五模型,那这个模型呢,也是今天中午开启了第一轮的内测,那我们可以看到就是以 已经上线了,但是他只是短暂的上线,我把这个项目做完之后,他突然就下线了,那我就很有意思哦,对吧?但是我们可以从这次发布的这些呃类似的模型的型号,可以大致的判断出我们的一些呃,就是后面的动作,比如说像这个五点五模型呢,适合当前的复杂任务、项目分析、长任务,这是目前 cba 的 最强模型。 其次就是五点四 pro, 这是一个新加的模型啊,之前只有五点四,它现在有个五点四 pro, 还有一些其他的小模型,比如说像这个 o a i 二点一,还有一下这个这什么 g b t, 还有一些这些模型,那这些模型我觉得跟编程没相关哦,但是呢你可以去体验一下特殊的模型, 那主要是这些模型的一个型号,那我想是不是有小伙伴跟我遇到一样的情况,结果我去网上找了一圈,我发现很多小伙伴跟我遇到一样情况,也遇到了这个类似模型。那我呢就 基于这一次公开的这个五点五的这个模型呢,做了一些小项目,所以和大家分享一下。然后呢这个看一下这个 gp 五点五的一个实际的效果, 那你现在看到就是这个 gdp 五点五模型的一个实际效果,这是那个生成出来了一个我们正常的记忆的一个圆形图,比如说一个散卡吧,大家可以看到,对吧?那我们这里呢可以创建卡片,并且呢这里可以切换不同的风格,他只用了一句题词,就是帮我生成了四个不同的风格, 并且呢这个 gdp 五点五呢,还把这些风格的每一个结果呢给他进行了渲染,就大家可以看到每一个结果里面他都可以去进行点击,并且你可以选择答案,还可以选择翻转,就是说他这个圆形图是可交互的,只用了一句话,你看是不是?然后并且呢每一个圆形图都很清晰,没有任何问题,基本上是一遍过, 所以可以看到 gpt 五点五模型,我觉得还是非常的惊艳,因为当时今天中午我刷了很多次,不仅刷了这一次,所以我一次性做了十几个圆形图啊,所以今天大家可以看一下,这是第二个圆形图,也是一样的,和刚刚那个唯一的区别可能就是它这个变成了, 嗯,变到了侧边吧,变到了侧边进行展示,那其他的就是比如说我们还有散卡三,那第三个这也是 gpt 五点五生成的一个圆形图,其实我们可以看到,对吧?就是呃,整个的 寻寻图还是非常的惊艳,然后呢,我们可以看到 u i 细节还原的也是非常的到位,还有就比如说这个,对吧,这个这个 风格他也是还原的很,很 nice, 嗯,所以说这毕竟五点五模型,嗯,本身上来说是相当于五点四的一个进阶版本嘛,确实不错,很多小伙伴说吊打 oppo 十点七,我觉得没有,可能是前端能力相对来说强一点吧,那这还有一个远景度,这也是五点五的, 嗯,这些原先同事都是通过我随机的形式去进行生成的,生成的一个结果实际上,嗯,还是很不错的,大家可以自行去啊盘究。好吧,那就是整个的 gdp 五点五模型的一个讲解,比如说像我们的这个 这些原型图按排序的话,那就是这样子,比如说首先是 g d 五点五排最前面,五点四 pro 排第二,五点三 cox, 第三,那其次往下就是按照这些原型排序,那也是我,我让他自己去介绍这个排序,用五点五模型生成的一个 排序介绍。那他也是给了一个大致的推荐好吗?那这是本期视频的全部内容呢?我是小刘,我们下期再见。

一分钟看完一周 ai 大 事。 open ai 率先上线下一代大模型,编码自主行动和网络安全打平。 methos 智商一百四十五, agi 测试刷新记录,产品均实测体验给到吭叉。 gpt 不 再说,稳稳接住你这些油腻话,对模糊提示的理解也更强。 codex 输出速度飞快,成功率超高,完美逆袭 cloud code。 openai 这波绝地反击,重新赢回用户注意力。奥特曼还开麦嘲讽 mythos 恐吓营销用来提高身价,网友,拉平你俩半斤八两。 openai 全量上线下一代图像模型,他会先理解需求,规划构图、 联网搜索找参考生,成完还会自己检查一遍,保证不穿帮,真实度吊打全场。奥特曼放话,这是一次史诗乐声联动视频模型,将 a i g c 又往前推动了一大步。 ai 演员迎来爆发,明星价值归零,视频创作从摄像机时代跑步迈入算力时代。 google 在 发红色警报,创始人亲自带队搞攻坚,目标是提升 gemini 编码能力。 gemini 在 三傻中已掉队, gpt 和 cloud 已经左脚踩右脚,开启自我进化。 codex 和 cloud code 内部代码采用率接近百分百,目前 google 只有百分之五十。 timmy 发布最强开源大模型,参数规模一万亿,综合跑分仅次于 sasa, 主打编程和智能体。开源阵营迈入第一梯队。 deepsea 终于发布了 v 四,参数规模来到一点六万亿,综合跑分跟阿里刚发布的千问 max 一 桌。 office 三件套全量上线智能体并成为默认模式。 ai 从聊天助手进化成执行主体,直接动手搞定所有操作文件办公,正是迈入智能体时代, go 发布最强深度研究,不仅能全网搜,还能吃透私有数据原声,支持图表和信息图生成,半天就能搞定,半个月才能做出来的专业研报。 google 开源视觉设计规范技能 agent 读完立刻变身专业设计师,直接按品牌规范输出细节,严谨的 ui, 再 再也不用扣细节,直接进项目落地。研究员开源 ai 研究员自己查论文、写代码、做实验,根据实验结果改进自己,成功发现一百个新的神经网络架构,还进化出更高效的强化学习算法。 ai 终于踏上了自我进化的飞轮, 可能是研究员的最后一次开源啊!研究员开源游戏制作智能体,给他一个想法, ai 就 能从零撮出来一个可玩的网页游戏,从策划美术到代码测试,一条龙搞定。 google 发布最强图像分割模型,动动嘴就能分离出任何你想要的部位。 ltx 开源 hdr 视频 laura 把 ai 生成的视频转成高动态范围的 hdr ai 视频,终于能后期调色了! ai g c 创作者狠狠马住 odyssey 发布最强世界模型,支持无限时直播,还能实时互动改编剧情。楚门的世界真的来了! 字节开源最强三 d 模型,先搭结构,再补细节,一句话就能生成带关节、能交互的三 d 资产,能无缝接入仿真和游戏工作流。工程师研发出最强乒乓球机器人,跟 下棋的阿法狗一样,在虚拟环境里左右互搏,强化学习,穿越回真实世界,完胜乒乓球,奥运选手留给人类的体育项目不多了!

openai 凌晨发布了 gpt 五点五,你没有听错,前两天 check gpt image 二点零才刚刚更新,今天 gpt 五点五又来了。不知道什么时候开始, openai 已经有点那种日更博主的味道了,这更新速度跟 open core 都快有了一拼。 但更有意思的是,这次 g p t。 五点五一出来,隔壁 and forp 也坐不住了。前段时间很多人一直在吐槽 cro 变笨了,一开始他们还否认故意削弱模型,结果今天他们发了博客承认了这件事。他们说 cro 最近确实出现了质量问题, 而且这些问题不是今天才发现的。那既然不是今天才发现的,为什么偏偏在 g p t。 五点五发布的这个结果演突然把这件事情说出来呢?这个时间点,你说完全巧合吧,也 也不是不行,但我只能说, ai 圈现在的竞争已经不止是模型能力在打架了,连发布节奏、舆论窗口、用户信息都开始是战略的一部分了。那今天的这条视频,我们不止看 g p d。 五点五又强了多少,最重要的是要看清楚一件事,它到底对一人公司有什么实际的意义。 那么先看这次的更新,真正值得普通人关注的。更准确的说,它确实变得更强了,但没有明显的变 变慢,而且做同样复杂的任务,他还更省 token。 这就有意思了,因为过去很多大模型升级,经常有一个老毛病,脑子变大了,动作就变慢,能力变强了,我们的钱包就变薄, 所以你用的时候会很矛盾。但 g p t 五点五这次的更新,重点恰恰就是往真实工作上面去,靠你写代码、查资料、分析数据、整理文档、做表格、调用工具、跨软件执行业务,这些都越来越好用了,这些对于医院公司来说是明显的利好啊。 g p t 五点五这次的测试结果,我挑几个不 人最相关的给大家翻译一下。先说第一个变化性能升级,有一个叫 gdp roll 的 测试,它测试的是 ai 能不能完成真实世界里的专业知识工作。你不是让它背唐诗,也不是让它算一道奥数题, 而是看他能不能像一个专业人士一样,把一个具体的任务完成并且交付出来。这是 g p t 五点五,在 g d p 榜上拿到了百分之八十四点九,这个分数对比了一下 crump opens 四点七四、百分之八十点三,这个差距说明了什么呢?说明 g p t。 五点五在真实任务上更稳了, 这跟一人公司是非常相关的,因为我们每天面对的工作基本不是标准题,客户不会跟你说,请根据以下五个条件,生成一份结构完整、语气自然能转化的方案。客户只会跟你说,你能不能帮我把这个改得更好一点呢? 然后甩给你一堆资料,让你自己去猜。所以,一个更稳的 ai 助手,真的能帮你少走很多弯路。再看 o s world verify 这个测试,它测试的是 ai 能不能在真实电脑环境里面干活, 不是光在聊天框里给你建议,而是真的去看界面,点按钮,找位置,操作软件,把任务 往下推进。 g p t 五点五这次拿到了百分之七十八点七,而 crow office 四点七呢,是拿到了百分之七十八,差距不算很大,但方向呢,很明显,大家都在往会用电脑的 ai a 准方向走了。这也是为什么 open call 创始人加入 open ai 以后,大家会特别关注 open ai 的 a 准能。 因为 ai 已经从聊天模式慢慢过渡到了任务模式。以前你问他一句,他回你一句,现在你给他一个目标,他开始帮你推荐一件事了,在整理数据文档,调用代码文件,夸工具、处理任务,这些能力,他都在变强。 那我们再看看代码能力,这种数据呢,也很有意思,在 turbo bench 二点零上, g p t 五点五是百分之八十二点七, call overs 四点七呢,是百分之六十九点四。这个测试呢,主要是体现 ai 自己进电脑干活的能力,比如说执行命令行看报错、改问题,再检查有没有修好这一块呢? g p t。 五点五 明显更强,但换到了 s w bench pro, 结果呢,就反过来了, chrome os 四点七是百分之六十四点三,而 g p t。 五点五是百分之五十八点六。它测试的是 ai 会不会在真实项目里 show bug, 不是 写一段小代码,而是在一堆真实的代码里 找到问题,并且把它改对。看到这里,你会发现,并没有所谓的最强模型和谁吊打谁,只有更适合你的使用场景。 g p t 五点五更像一个执行力很强的工程助手,而 crow office 四点七更像一个修代码很稳的老程序员。那我们再看第二个变化,是效率的提升。这其实是很多人会忽略的问题,因为大家一看到模型更新,就很喜欢问一句, 到底聪明了多少,但真正影响你天天能不能用得起的是另外一个问题,就是它做完一件事,到底消耗了我多少 token? opi 这次说的很直接啊, g p d。 五点五比 g p d。 五点四更贵,但是呢,它更省 token。 a p i 的 调研价格是每百万 token 输入是五美元,输出呢,是三十美元。而 cran office 四点七,每百万 token 输入是五美元,输出是二十五美元。我们单看输出价格, g p d 五六五确实是贵一点的,但是你不能只看标价,你要看它完成同样的任务到底消耗了多少 token。 就 像你请人干活,一个人报价是便宜一点,但是呢,干一半返工三次,另外一个人报价是贵一点,但是呢,一次就能交付完成。你最后算账,你会发现,反而是单价更贵的,更省钱。 ai 也是一样的,如果 g p t。 五点五真的能用更少的托管完成同样的任务,那它贵一点就不一定是真的贵了。所以这次 g p t。 五点五的效率升级,我觉得比单纯的跑分更值得关注,尤其是对一人共事,因为你每天不是在实验室里跑车, 你是在算账。一条内容能不能快点出来,一个方案能不能少改两轮,一个客户的资料能不能快速的整理成可交付的版本,一个活动的流程能不能从脑子里的乱线变成一份可执行的表格呢?这些地方省下来的不只是偷更,还有你 的时间。那再说一下第三个变化,就是工作能力的提升。这次 g p d。 五点五很适合干一种活,就是那种不是一句话就能完成的任务,比如说写一篇深度的文章,分析一个行业,整理一堆资料,从零开始,搭建一个活动方案。因为你要反复跟他周旋,他还很容易忘记你前面说过了什么。 但是 g p d。 五点五明显更适合处理这种多轮对话的复杂场景,你能跟他长时间的保持上下文的对话,他也能够更稳定的调用工具,能够自己检查自己的工作,也能在任务还没结束之前继续往前推进。那关于综合排名, artificial analysis 这次把 g p d。 五点五放到了 intelligence in this 的 第一名,领先的第二名足足有三分,这确实是挺猛的。那他们同时也提到了一个问题, g p d。 五点五的支持能力确实更强了,但换绝率呢,也 不低。什么意思呢?就是他可能很会解决你的问题,但是呢,他不知道的问题,他也可能很会编答案 给你。所以千万不要尽信大模型,尤其是那些法律啊,财务啊,医疗啊,投资这些。你可以让他帮你查资料,做出稿,列出风险,但最后该核验的地方呢,你自己一定要把 关。这是 g p d。 五点五的发布,我觉得对医院公司真正的启发不是 open 又赢了,而是普通人的 ai 使用方式要改变了。过去你用 ai, 你 把它当成搜索框,你问一句,他 打一句,再后来,你把它当成写手,写文案,写标题,写脚本。但从 g p d。 五点五这个阶段开始,你更应该把它当成工作流理的执行节点。你做活动就让它跑活 活动流程,你做咨询就让他跑客户诊断的流程,你做内容就让他跑选择题、资料、脚本、发布文案以及复盘这一整条链路,这才是 g p d 五点五帮助艺人公司最重要的地方。我们不是要把 ai 当玩具,而是要把它塞进自己的业务流里面。一个环节被 ai 接住了,你就 轻一点。几个环节被 ai 接住了,你就开始像一个小团队了。模型经常会更新,但谁能把 ai 塞进自己的生意里,谁才是真正的吃到了红利?认同的一箭三连。那我后面的更新呢?还会基于 check gpt image 二点零 以及 gpt 五点五给大家拆解一些可以落地的商用场景。记得关注我,咱们一起把一人公司跑出来。 ok, 以上就是今天的所有分享,我们下期再见!

我朋友在半个小时之前呢,发布了新的模型 gbt 五点五,终于发布了,千呼万唤始出来,心情非常的复杂,因为 deepsea 也要在最近发布模型,但是你看这一周,卡罗德四点七, deepsea 五点五他们同步发布了,太快了,搞不好 deepsea 就 要翻车。但是我提个建议啊, 你可以先不发布,这样的话永远不会。我们来简单看一下他们的介绍,隆重推出 gbt 五点五,可以 更快理解你的意图并承担更多的工作。擅长编辑代码和调试代码,增强了在线搜索,分析数据,创建文档、电子表格、操作软件等。那这次主要更新呢?说白了,我看了他们的一些演示以及一些小更新,主要还是为那个 agent 服务。我们看一下这个评分,奔驰 mark 相较于五点四呢,还是有非常大的提升, 对比 cloud opus 四点七呢,也是完全的不慌。下面是他们做的几个例子,一个是太空任务应用程序,一个是地震追踪器,地牢游戏,三 d 游戏,我们看一下他们的演示, 中规中矩啊,地牢游戏呢? 哎呦我去,这他妈是他做的,这资产他肯定升成不了啊,肯定得是自己做的, ok。 三 d 游戏呢 啊,这,这才是他真实的水。他这个提示词呢,也比较简单,使用 siri js 制作一个三 d 游戏,内容为 ufo 射击,玩家需要操控坦克击落头顶飞过的 ufo。 他 们在这里呢,还准备了一些马屁精给他们拍马屁的内容 啊, sorry, 我 改一下措辞,就是内测人员对这个模型的评价,当然是好评,作为一个背书使用,什么意思?然后这里呢,已经开始自卖自夸了, g p 五点五之所以在编程方面表现出色, ok, ok 啊,下面是处理文档。果然他们还是忘不了这个办公,应该是在裤带子中使用,今天 g p t。 五点五向拆 g p t 的 裤带 plus、 pro 以及企业用户推出, 我们将很快将 g p t 五点五和 pro 集成到 api 中。也就是说,现在暂时没有发布 api 的 上下文窗口呢,是四百 k。 同样的,提供快速模式生成令牌的速度呢,提升一点五倍,但费用也增加二点五倍。我靠,更贵了,对于 api 开发者而言,每百万输入 token 是 五美元,输出 token 是 三十美元。我靠,这么贵啊, 三十美元确实有点贵啊,希望他们能对得起这个价格。 ok, 下边还有东西吗?下边没了。总之,这就是他们发布的这个模型,登录到你的菜鸡秘地官网,或者更新一下你的 app 端,应该就能看到推送。但是呢,我没有收到推送,很可惜, 还是五点四啊,等推送之后呢,第一时间给大家做评测视频。没错,这个又是一条新闻视频,我恨新闻。

chat gpt 可能已经偷偷变强了,没有发布会,没有公告,甚至连一句更新说明都没有。但一批 chat gpt pro 用户突然发现它变快了, 而且不是一点点,是体感及飞跃。有人直接说速度像翻了几倍。还有人开始怀疑 g p t。 五点五是不是已经在后台偷偷跑了。先别急,我们把事实和传闻分开说。首先,已经确认的事实, open ai 在 二零二六年三月五日正式发布了 g p t 五点四,官方给了几个非常关键的点, 更快、更省、 token 推理更强。同样的任务用更少计算就能完成。在一个涉及三万个房产网站的真实测试里, gpt 五点四第一次尝试成功率达到百分之九十五,三次内直接百分之一百,同时速度提升大约三倍, token 使用量减少了百分之七十,又快又省还更稳,这才是最可怕的升级。那么为什么大家开始怀疑是 gpt 五点五? 因为现在的 gpt 五点四 pro 表现有点强到离谱。很多人发现它在前端编码、 ui 复刻,甚至 sbg 和三 d 生成上突然出现了质变级提升。甚至有测试中模型为了做到百分之百还原 ui, 直接选择从图片里裁切元素塞进代码里。这是什么行为? 这已经不是单纯执行指令了,而是在动态寻找最优解路径,很像人类工程师的取巧。再看另一条公开信息, openai 下一代模型代号 sport 已经在三月二十四日完成预训练。 sam 奥特曼说,距离发布只差几周。 greg brockman 说,这是一个不是渐进升级,而是泛式变化的模型预测,市场甚至给出一个数字,六月底前发布概率超过百分之九十, 所以目前没有任何官方确认 g p t。 五点五已经上线。所以更合理地判断是现在你用到的变强版本,可能是 g p t。 五点四的持续优化,也可能是更强模型的小范围灰度测试。这波真正值得警惕的不是 g p t。 五点五到底来了没,而是 open ai 已经开始进入一种新节奏, 不再高调发布,而是悄悄升级。等你发现的时候,工作方式已经被改掉了。以前你觉得 ai 是 工具,现在它开始更像一个不说话但一直在进化的同事。当然,照这个速度继续下去,很可能你就没有同事。

openai 终于发布了 gpt 五点五,这很可能是目前我见过最强大、最高效的编程模型。接下来带大家看看它有哪些新特性。我们还会通过机准测试 来看看它到底强在哪里,并对比 clodopost 四点七以及 clodmisos 预览版,以了解它真实的水平。最后,再通过几个演示,看看它在实际生产环境的表现。 首先最直观的一点是,这个模型专为编程工作流而生,它们的重心依然是编码与开发场景, 尤其是针对 codex 的 应用,因为这是它们的战略核心,它们压住该模型,将主攻 codex 编程。它们正致力于力推 codex 这款超级应用。你会发现这款模型非常高效,也就是能产出高质量的内容,且仅需更少的 token 就 优于市面上多数模型。 正因如此,它是我见过最高效的模型之一。我稍后会展示几张图表,带大家直观感受一下。若只看精准测试,我们可以对比一下 g p t 五点五和五点四。 再看看我们今天讨论的 oppo 四点七。在终端性能精准测试中,我们甚至可以看到 oppo 四点七,它是大概上周或许四五天前发布的,得分是百分之六十九点四,而 g p t 五点五为百分之 八十二。另外,你还会发现,即便是在通用工作能力评估中,也就是针对通用任务的测试里, g p t 五点五也以百分之八十四点九对百分之八十的优势再次领先。 再看浏览器环境性能测试,八十四对七十九。前沿数学测试,五十一对四十三, t 二四组三十五对二十二,网络安全测试则是八十一对七十三。全面来看,结果确实令人惊叹。 该模型在多数情况下表现更出色,甚至可以说全面领先 oppo 四点七。它的性能确实优于 oppo 四点七, 但我觉得它真正的亮点在于极高的效率。如果我们参考 ai 分 析指数,这是十项评估的加权平均得分,实际上是由外部机构进行的。 可以看到,横轴展示的是输出 token 数,纵轴则是平分。尽管 token 消耗更小, gpt 五点五在各方面均能输出更高质量的结果。我们来看看具体例子。以 cloud opus 四点七为例,要达到百分之五十一点八的智能指数, 它大约消耗了一千一百五十万个 token。 反观 open ai 的 模型,同样达到五十一点八的指数, 却仅需七百万 token, 这意味着 token 消耗差了四百万之多。这种情况在各项测试中都表现一致。整体来看都是如此,毕竟数据越靠左越好, 位置越靠上越好。从各项指标来看, g p t 五点五正好印证了这一点,显示出极高的效率。这并非孤立,即便在终端性能精准测试中对比 g p t 五点四, 也能看出该模型在消耗更少 token 的 同时产出了更高质量的结果。这一点之所以重要,有两个原因。首先,这证明了模型非常智能,因为它能高效利用 token, 同时也展现了其强大的性能。而更重要的是,它能帮你有效控制计算成本,谁也不想花大价钱,却只换来平平无奇的结果。但如果能用更少的 token 产出更高质量的结果, 无论对开发者还是模型工作流,这都是效率的提升,所以这绝对是效率最高的一款模型。在性能表现和输出能力上,他无可挑剔。看看他们展示的这些演示,你可以看到这是一款三 d 游戏,它是用新模型构建的,我们正见证着更多它在功能改进上展现出的巨大潜能,特别是在游戏开发领域, 你会发现这种进步是全方位的,这正是它直观重要的原因,因为它与 codex 功能深度绑定。这个模型显然是专为,尤其是针对 codex 中的编程工作流。这次更新显然压轴于此,至少我是这么理解的。横向对比其他模型来看, 在通用工作能力评估中, g p t。 五点五以百分之八十四点九领先,而 clodopus catalgi 为 cartantoppu sun。 至于行业专家,不好意思,但 ai 现在的水平恐怕已经在实际工作中,它们确实远超行业专家, 毕竟这是近期模型发布的一个共同趋势,但依然证明了该模型在该领域独占鳌头。在 r k r 评测中, g p t。 五点五现已登顶, 这也在预料之中。官方博克发布的测试数据早已印证了这一点,并不让人意外。既然能在此项夺冠,在 agi 测试中自然也稳居第一,但真正的关键在于将其与 antropica 的 mesos 模型进行对比。 大家普遍认为这个模型性能非常强悍, m i t o s 可能略占优势,在软件工程专业精准测试中。但要注意,目前这个模型已公开,而另一个并未公开, 所以我们现在仅是基于 anastropic 的 官方说法,这点需要留意,但看看软件工程专业水准测试, g p d 五点五十五十八分,对方是七十七分。 而在终端性能水准测试上,他们在 g p q a damon 的 上几乎打平,仅领先了约一个百分点。 而在人类终极考试中,领先优势更大,大约是十五比十二。但这些测试足以证明,该模型即便已向公众开放,其性能依然极其强悍, opus 四点七依然稳居第一,至少从目前的纸面数据来看,它还无法与 gpt 五点五抗衡。而在对比未公开的 midos 模型时, 它则略逊一筹。但这仅仅是基于 ansorepic 的 官方说法,毕竟没几个人真正上手测试过该模型。而我们对比的另一个模型则是公开可用的,我们大家都能亲自上手测一下。大家现在看到的这个我的世界画面 是由 g p t 五点五在 extreme hype 模式下生成的,这是我头一次见到的。最直观的感受是画面看起来特别清晰,比起我之前见过的所有生成片段都要细腻,看起来完全能玩,可以自由移动,能和游戏世界互动。 设计元素有点出入,跟原版我的世界不太一样,但如果稍微包容一点的话,这大概就是我们所能看到的,绝对是我见过最棒的我的世界生成效果了。可能有人会问,为什么我的世界生成测试如此重要, 因为它能全方位测试模型的视觉能力,包括代码生成、世界构建、移动逻辑和交互等各方面。所以我认为这是个非常重要的测试,只在建立精准认知,当然还需要更多测试以全面了解模型能力。 但仅从对比深沉的表现来看,与 opus 四点七、 gpt 五点四等模型相比,这台模型绝对是当之无愧的。第一,我还决定用 codex 来测测这台新模型,如果你装了 codex 应用,记得先更新,还要记得把模型选成最新的 gpt 五点五。 我特意开了极高模式,想看看它的极限在哪里。我给他布置的任务很简单,让他写出一个完整的、可玩性强的基于浏览器的单文件。 h t m l 太空射击游戏要求用 h t m l 五画布,并加入特定的视觉风格和三 d 角色来丰富场景。 他大概运行了十六分钟,他完成了自我测试并试玩了游戏,还进行了一些优化,最终得到了这个成品,看起来效果相当不错。这就是游戏的实际运行画面。我来启动一下,大家就能看出这个新模型有多强大了。我可以自由移动,这些就是敌人。 你们看,所有物体都有动态效果,连屏幕都在震动,我能同时打三个。第二波来了,这里有多个关卡,还有连杀机制,顶部有实时追踪技能也更多了,我简直是超模般的存在。说真的,接下来是更危险的敌人, 看我怎么收拾他们。我理一下,哦,那不是他的功能,那是敌人。我刚才把自己玩死了,不过没关系,你看他这样移动起来非常灵活。 这游戏做的确实好,而且它只撑了大概十六分钟。我给了它一个简单的提示词,它竟然真给生成出来了。说真的,这模型确实高效,我带大家看看它用了多少 token? 其实没用多少,完全没给我设什么限制,我先自杀重开一下, 还是说我太强了,我再试一次,看速度等级提升了 哦,还有其他观察啊哦,现在开始有点难度了,看我得躲开这些东西。这其实还挺好玩的。说真的,我不只是哦,只剩最后一条命了, 不过这确实是我的新纪录,看吧,确实挺好玩的。这次生成只用了大约三万个 token。 你 们看到的其他 token 消耗其实是我之前随手测试时产生的, 但单就这次生成只用了三万个 token, 而且我还有百分之六十一的额度剩余,我只用了一个简单的提示词就做到了。现在的模型确实越来越强了,而 gpt 五点五这个模型绝对是我目前见过效率最高的, 建议大家去试用一下,亲自测试并做出些成果。欢迎在评论区分享你们对这些新模型的看法。

备受期待的 gpt 五点五发布了本视频,我将带大家深入了解它,看一看公告和精准测试。正如大家所料,模型正推向 chat、 gpt 和 codex, 你 们今天就能用上它了, 官方称之为新一代现实世界智能能驱动智能体理解复杂任务,学会使用工具并完成工作,这标志着办公方式的重大改革。 有趣的是,这次发布其实是从 codex 开始介绍的,部分原因是该模型在现实工作中表现极佳。 上周,他们刚宣布了 codex 的 电脑控制功能,应用场景已不再局限于编程环境。 gpt 五点五不仅擅长编代码,还能搜索、分析数据并创建文档表格。 精准测试显示其智能大幅提升,但运行速度一样快。 但值得注意的是,完成相同的 codex 任务时,它消耗的 token 数量大幅减少,这是最重要的改进之一。跑分高是一回事,但高效利用上下文则是另一回事。我们来看看精准测试。大家应关注 gdp well, 它衡量智能体在现实任务中的表现。该测试包含四十四个专业领域, 模型,得分高达百分之八十四点九。接着是 osword 模型,需实际操作电脑点击和导航,它得分百分之七十八点七,超过了人类基准线。这再次提醒我们, 讨论重点已变为还有什么工作是 ai 无法端到端完成的。当你拥有能操作键盘鼠标的系统时,问题就变成了, 还有哪些知识型工作是这些系统无法胜任的?该模型的定位完全侧重于实际应用场景。这是个聪明的策略,因为大家在工作中越来越依赖它。无论是编代码、做调研,还是分析数据,或是创建文档和表格,这些任务现在都能轻松处理。 可以说,办公需求正被逐步覆盖。在人工分析智能指数中,你可以选择在任务上投入多少精力。而在智能编程方面,该模型在终端测试中表现出了极高的上下文利用效率。简单来说,它能用更少 token 换取更强性能。 伯克中展示了几个精彩例子,比如这个关于猎户座二号任务轨迹的交互应用,它在完美运行模拟。此外还展示了一个地牢游戏生成 虽然简单,但细节如挥动武器、血条和敌人模拟等都体现了复杂的技术实现,比如敌人会主动靠近,这些都体现了技术的多样化。 最后还有一个三 d 坦克游戏,证明了其三 d 能力。接下来看看现实工作演示。首先是金融建模,你可以操作复杂的 excel 表格,模型能理解并与之交互。 难点在于模型必须能够顺畅处理那些庞大的数据表,为此,模型需编辑高效代码,利用上下文更新数据并确保逻辑正确。 codex 中另一个有趣的功能是浏览器操作能力,你可以用它做软件测试,它能像人一样点击和输入。它还扩展到了广泛的计算机控制能力,非常值得关注。下面看一些具体的评估。 现在的模型公司都专注于现实工作,具备智能体能力后,模型能干到什么程度?不出所料,这又是一次巨大飞跃。但编程方面需注意,虽然它在演示中表现出色,但深挖数据会有不同发现, 比如在 sweet bench pro 中, opus 四点七仍领先,所以不同测试中结果互有胜负。在 terminal bench 上它表现不错,但在 sweet bench pro 上仍逊于 opus。 变体方面, gpt 五点五 thinking 将些多数付费用户开放, gpt 五点五 pro 则用于更难的问题。注意,某些变体仅限特定等级。 规格方面,消费级产品提供四十万 token 窗口。 gpt 五点五也有快速模式,虽成本高,但响应更快。 api 价格比五点四贵,输入每百万五美元,输出三十美元。 pro 变体输入三十美元,输出一百八十美元,对比上一代 输入价格几乎翻倍。 g p t 五点五比五点四价格贵了一倍。官方解释说,虽然价格高,但模型更聪明,且更节省 token。

千呼万唤的 deepsea v 四发布了,而且就在同一天,酝酿了一个多月的 open edge gpt 五点五也在同一天发布了。 v 四这个模型呢,有这么几个大的亮点,第一大亮点呢,就是之前它在模型公开的那几个核心技术都用上去了, mhc 的 技术, ingram 的 技术, mega m o e 的 技术, f p 四和 f p 八的混合低精度训练的技术,这几个来讲都用上了,而且还有推理的 du pass, 所以 说呢,小时候就觉得 deep sec 这次发布呢,非常的正常,而且我们看跑分,基本上来讲跟这个 cloudsonnet 四点六是齐平的一个水平, 距离这个 op 四点六四点七事实上来讲还是有那么一段距离,可以说是一流的模型第一梯队的,但是确实来讲不算是一个顶尖的模型,国内当前的这个顶尖的大模型 是不可能一跃超越美国最顶尖的模型成为这个全球 number one 的。 第二点呢,就稍微出乎意料的呢,有两点啊,第一点就是它的这个 pro 的 这个版本的模型一点六万亿参数,这个参数量太大了,之前普遍认为这一次的发布会达到万亿就一万亿, 因为上一个版本 v 三点二呢,是一个六七 e b 六千七百一十个亿,这一次呢,大家觉得一万亿是不是就行了?结果没想到直接给你干到了一点六万亿,而且呢,它还发了一个 flash flash 这个模型两千多亿啊,就是这个高低配确实是一个太高,一个有点太低,可能也是为了缓解 deepsea 本身的自有算力的这么一块,那它没有那么多的自有推理算力,租的话,它可能也不想租太多的算力吧。再有一点,稍微比较让大家 呃略改遗憾的呢,就是之前一直传出来说它是一个多肽的模型,但这次呢,发现它依然是一个纯文本的语言大模型。处于第一集团的这些模型里边儿,不管是美国的还是中国的,呃,应该是只剩这个 deepsea, 它是一个纯文本的模型。现在连 kimi 这个 minimax, 清华智普其实都是多门肽模型了,至少是支撑图文多门肽的。但是呢,可能背后呢,显露出来了一些,比如说数据端的一个制约,算力端的一个制约。尤其进入到四月份之后, deepsea r one 的 核心开发者郭达雅被这个字节 c 的 团队挖走了。 就在最近这半个月,梁老板正式开始开放这个融资下盘啊,阿里腾讯现在都疯狂的准备投它现在的这个估值,传说 用十天左右的时间,现在已经干到两千亿了。背后呢,说明 ai 大 模型的这个研发训练真的是海量的烧钱,因为它如果现在不再从外部去拉更多的钱进来,既解决不了算力的问题, 也解决不了核心团队的这个流失的问题。说完了 deepsea 之后呢,咱们再说这个 open 的 gbt 五点五。 gbt 五点四这个模型呢,在前一阵儿被谷歌的 gmi 三点一 pro 给盖过去了,被这个所谓的 cloud opus 四点六和四点七给盖过去了。那么短短两周的时间,马上五点五的模型,五点五的模型,至少现在来讲,看核心评测,它又回到了全球的 number one。 所以 说呢, open ai 虽然呢,现在领先的优势不像头些年那么大, 但是呢, openai 始终是作为全球人工智能发展里这个牌桌上最重要最重量级的玩家。小时候是看了很多网上的一些测评以及呢 deepsea 本身发出来的技术文档。可以说呢, deepsea 在 一年多之前成为中国大模型走向全球一流的一个发起者, 小赵是相信在二零二六年甚至未来,他也绝不是一个最终的终结者。未来呢,一定会有更多的大魔性的团队和厂商推动中国的这个大魔性向前前进。

爆棚牙彻底疯了!别再刷前天的 g p t, 因为这二了,那已经是老古董了。就在昨天, g p t。 五点五突然空降,不仅成为全球王座,还顺手终结了所有大模型的悬念。然而这次 g p t。 五点五到底强在哪?数据不会骗人,又在最硬核的 colex 编程测试里, g p t。 五点五在复杂逻辑下的爆头率比 cloud 四点六降低了整整一截。 前你用 gpt 五点四或者 oppo 四点七,遇到长文档多 a 阵写作时, ai 经常会失忆或者乱码。但五点五现在的逻辑缜密程度是指哪打哪,几乎没有瓶颈。在日常办公场景上,让 ev 之二先画出极致 ui 五点五幅的逻辑,实现这种视觉与代码的深度协同,让那些还在靠文本堆积的友商显得像上个世纪的产 物。在这个 gpt 再次领先的今天,这不是升级。如果你还没试过五点五,那你可能正在被这个时代所抛弃。

而今天呢我们要聊的呢是 openai 刚刚发布的这个最新一代的大模型 gbt five five 啊,我们会跟大家一起聚焦啊,这个模型到底有哪些新的亮点,包括它在不同的领域到底能够做什么?以及呢?大家可能很关心的就是这个模型的价格,包括它未来的发展到底会怎么样? 听起来内容很丰富,那我们就直接开始吧。咱们第一个要聊的呢是 g p t five five 的 模型亮点,就说这个模型到底有什么独特的优势啊?尤其是在这个智能体的能力上面,它到底比以前的那些版本,或者说比其他的一些同类的产品强在哪里? 它的最大的突破呢?我觉得就是它的这个智能体的能力,就是它可以一步到位地去解决非常复杂的多步骤的任务,就用户只要给一个大概的需求, 他就可以自己去规划,说我要怎么一步一步地实现这个需求,然后自己去调用各种工具,比如说查资料啊,或者是写代码啊,或者是做计算啊,都可以自己完成。听起来就像是有一个助手,他完全可以自己上手干活了,对,没错,然后他在这个 toro bench two 零上面呢,它的准确率是百分之八十二点七,这个就比同类的其他的模型要高出来一大截,而且他的这个 多工具的调度的这个 m c p atlus 上面,它的这个分数也比上一代要高出了百分之八,就它是真的可以做到这种多工具的协调,而且是非常非常准确的。在实际的企业使用当中,比如说像 nvdia, 他 们就直接就是把这个 调试的时间从几天一下子就缩短到了几个小时,就是真的是这种自动化的效率的提升。对,然后还有就说这个新版的这个模型在这个解决复杂问题的时候,到底它的这个性价比有多高? 它最大的优势就是它用的 tokens 非常非常的少,它可以比上一代少用百分之四十到六十的 tokens 就 完成同样的 codex 的 任务,然后它的这个单 token 的 延迟还可以保持不变, 所以它整个的这个处理的速度和效率其实是非常非常高的,比如说用起来又快,然后又省钱。对,没错,就比如说像那个 artificial analysis, 他 们测的就是它这个达到这个行业最顶尖的水平,只需要竞品一半的花费。 然后呢企业如果是用这个 a p i 的 话,标准的这个输入是每百万 tokens 五美元,输出是三十美元,如果你是用这个 pro 版本的话,就是更高的这个性能,那它的这个费用也会相应的提高,但是它也支持这个批量的和这个缓存的这个优化,所以就是说你用下来的话,这个复杂的任务的成本会明显的下降。 哎,那这个 gpt five five 在 这个多模态的理解上面,还有这个事实的准确性上面,包括这个安全方面都做了哪些升级呢?就是它现在原生的就可以处理文本、图像、音频和视频,就你可以给它一段视频,然后配上声音,再加上一些文字的说明,它都可以一起去理解, 这个就远远超过了上一代只能处理文本和图片的这种啊,那这个确实挺厉害的,就是它的这个事实的这个错误率也大幅的降低了,就是它的这个幻觉比上一代减少了将近百分之六十, 在那种专业的测试里面,它可以达到百分之九十二以上的准确率。它也加入了这种多层次的这种安全防护和这种实时的监控,也经过了很多很多实际的案例的这种对抗的测试,所以它在这个企业和科研这种 对安全性要求比较高的场景下会更加的可靠。那我们来聊第二个部分,就是这个 g p t five five 在 一些实际的行业场景里面的表现到底怎么样?嗯,对,我们先来聊第一个行业吧,就是软件开发这个东西到底给开发带来了哪些改变?就是它可以直接去理解 比较复杂的开发的需求,然后他可以自己去从头到尾完成这个写代码测试,甚至是部署。就整个的这个过程都是自动的。比如说有人用他在二十分钟之内就搞定了一个三 d 游戏的开发,包括他的这个场景的搭建和逻辑 就全部都搞定了。还有人用它连续工作了七个小时去开发一个铁路的模拟系统,对它都没有出现任何的问题,听上去像是有一个不知疲倦的搭档帮你自动完成了大部分的工作。没错没错,而且它在这种复杂的工程任务里面,它的准确率可以飙到百分之八十二点七。 然后呢,它的这个修复 b u g 的 能力也比上一代要强,它可以自动地去审查代码,自动地去重构,包括它的这个。呃, codex 这个平台上面有超过百分之八十五的开发者都在使用, 所以大家的反馈就是说这个东西真的是让他们的开发效率提升的非常非常明显,有的时候甚至可以把几天的活压缩到几个小时。那你觉得 gbt five five 在 科学研究领域会有哪些比较亮眼的用法呢?呃,我觉得最有意思的是它可以帮 数学家去解决一些非常非常前沿的问题哦,是吧?对,比如说它帮解决了一个困扰了几十年的一个数学难题,叫拉姆奇数。 哦,这个东西就是它,而且它是用一种全新的方式去证明的,然后呢,这个证明也是被这个领域的专家和这个形式化的工具去验证了,是正确的。哎,那这个模型在处理这种海量的科研数据的时候会有什么样的表现?就是它可以在基因表达数据里面 很快的就分析出来一个结果,这个结果可能原来需要几个月的时间,现在可能就需要几分钟就可以分析出来。然后他也可以去根据你给的一些很模糊的需求去生成一些非常高质量的学术的插图,包括一些啊论文的写作,包括一些实验方案的辅助设计,就他已经成为了很多科研团队里面不可或缺的一个 搭档。那你觉得 gpt 五五在企业办公和日常的工作场景里面会带来哪些实际的变化?呃,它其实可以自动地去完成很多跨软件的操作哦,比如说它可以帮你从 整理数据到生成一个报告,然后再到制作一个 ppt, 全部都可以自动完成。对,包括一些很复杂的流程,它都可以自动地帮你完成,包括它的准确率可以达到百分之九十八,就非常非常准确。听上去像有一个效率专家在帮大家分担琐事,没错没错没错,就是它可以让 比如说财务团队可以很快地去审核完成千上万的税务表格,然后市场团队可以自动地去生成周报、月报,包括客服团队可以自动地去处理一些非常复杂的多步骤的请求,就是大家都可以去节省出很多时间去做一些更有创造力的事情。 所以这也是为什么有很多企业都觉得这个东西简直就是一个必备的一个数字。员工我们接下来就聚焦在成本和未来展望这两个维度。我们先来聊一聊大家最关心的 gbt 价格到底是怎么定的,然后它跟之前相比有什么变化? 它的这个 api 的 价格呢,是每百万 token 输入是五美元,然后输出是三十美元,这个价格其实是比上一代直接翻了一倍哦,对,但是它的这个 pro 版本呢,就更贵了, pro 版本的输入是三十美元,输出是一百八十美元。 但是呢,如果你是一个大用户,你是可以有批量折扣的哦,对,就是你量大的话,可以打到五折哦,那确实这个价格比以前高了不少啊。没错没错没错,但是因为它这个模型呢,在处理复杂任务的时候,它用的 token 要比上一代少百分之四十到百分之九十五, 所以它虽然单价上去了,但是你整体的这个花费其实可能并没有怎么变,甚至可能还更低了。对,尤其是在这种多步骤的和这种需要很高的智能的这种工作上面,它的这个性价比其实是 提升的非常明显的。对,你觉得 g p t five five 会给整个行业带来哪些新的变化和趋势?这个模型我觉得它会推动整个这个 ai 领域,从这种 传统的这种辅助的工具,像这种自主的工作伙伴进行一个转型,就是他会成为这个企业的一个数字员工,真正的参与到你的业务流程当中,那这个时候他会大幅的提升你的这个生产效率,确实是一个确实是一个非常大的改革。然后呢他也会带动这个 芯片的需求和这个数据中心的需求大幅的增长。那这个时候呢,整个这个半导体行业就是从二零二五年到二零三零年,这五年的复合年率会超过百分之二十。同时呢因为它的这个高门槛和这个分层的这种调用的策略, 也会让这个开源的模型和这个国产的模型都迎来一个新的机遇,那大家在这个全球市场上面的竞争也会更加的激烈。对,那你觉得 g b d five five 到底会在哪些行业最先产生这种颠覆性的影响呢? 我觉得就是他会首先在那些需要处理非常复杂的任务,或者说需要很高的智能的这种行业里面,首先产生一个立竿见影的这种降本增效的作用。然后呢随着这种硬件和这种 ai 模型的不断的协调升级,我觉得可能在未来几年内, 这个 ai 会像水和电一样渗透到我们生活的方方面面,那新的产业和新的商业模式也会不断的涌现。 那我们人类可能会从一些重复性的工作当中解放出来,更多的去做一些创新的和决策性的事情。好吧,今天我们聊聊这个 g p t five five 带来的一些新的突破和它的一些实际的应用。嗯,确实,这个模型 在智能体多模态和这个实际的效率上面的提升确实让人感觉到啊。可能 ai 的 下一波浪潮已经离我们不远了。好吧,那就是这一期播课的内容了啊,感谢大家的收听,我们下次再见。拜拜。

今天 ai 圈直接双王炸,一边是 open ai 发布新一代模型 gpt 五点五,另一边中国团队 deepsea 同一天上线 deepsea v 四预览版。但真正的变化不只是谁更强,而是方向变了。 deepsea v 四直接把百万字上下文做成标配,同时通过新注意力机制大幅降低计算和显存成本。一句话,更长、更便宜、更能干活。 而在能力上, deepsea v 四 pro 也已经逼近顶级闭源模型 v 四, flash 则主打性价比,推理能力接近,但成本更低。 更关键的是, agent 能力明显提升, ai 不 只是回答问题,而是开始替你做事。当 gpt 五点五继续冲击上线, deepsea v 四在拉低门槛, ai 竞争正在从谁最聪明变成谁更好用、谁更便宜、谁更像员工。

大家好,我是 kitty, 五点五正式发布了,我体验了几个小时,发现非常不错。据官方介绍, gbt 五点五在编辑调试代码,在线研究数据分析,创建文档和电子表格操作软件, 画工具协助直至完成这些领域表现出色。五点五的速度呢,和五点四差不多,但是智力能力更高。三木介绍, api 价格呢,输入是五刀,输出是三十刀,那这个价格呢,是要比 opt 四点七还要再贵。 但是三木也说了,因为它的智力能力提高了,所以每个任务的 talk 数量却是要少于五点四的, 并且即将开放的 api 呢,它的上下文长度最长是一百万的一个 token。 这位博主呢,整理一个表格,将五点五和 cloud 未推出来的 missiles 进行一个对比,我们可以看到 shadow 半指二点零还是 gpt 五点五更强一点。 而 osword 微软的得分呢?呃,是 cloud missiles 得分更高。但是因为 gpt 五点五现在就可用, 所以呢,目前 gpt 五点五就是啊,目前公开最强的模型 gpt 五点五在 aic, agr two 的 榜单上得分也是相当高。这次 codex 也有了一些不错的更新,比如说,我们可以通过 at broad use 插件, 然后使 codex 呢直接与它右侧展示出来的啊, web 应用交互测试点击。最要特别指出来的一点是, codex 呢,现在的插件是非常丰富的, 如果说你的电脑里之前也安装了 antisocopy 的, 呃,相关文档的 skill, 如果你在提问里说调用某个 skill, 那 他可能会调用你之前电脑里面 别的版本的 skill。 如果你想让 gpt 五点五发挥最好的能力,那就需要 at open i 自己提供了相关的文档, 比如说他的 documents, 还有呃 excel 表格。有一位提前使用了五点五的博主呢, 他分享了使用呃 gbt 五点五的体验。他认为五点五在编程方面有了跨越式的进步,而且非常利于交流,在他们的工程师基准测试中获得了非常高的一个分数。 此外呢,他们认为五点五是一位非常优秀的写作者,但是五点五也有一些不足。在计划质量方面,五点五仍然逊于 opt 四点七。他认为最好的方式呢,就是让 opt 四点七做计划,然后让五点五去执行。 在前端,在前端和全站产品开发上,五点五仍然逊于 office 四点七。还有,如果说你在没有计划的情况下进行 web coding 的 时候,它的表现呢,不如 office 从今天开始 plus pro 呢?啊,用户就可以使用 gpt 五点五 cking 了。 如果你要在 costas 里面使用它们的快速模式的话,成本也会更高。五点五和五点五 pro 的 价格大家可以在这里看一下。除了编码五点五呢对日常工作的提升也是非常非常大。此外呢,呃 gpt 五点五在科学研究与技术研究工作流中 也显示出进步。之前有观众问,如果是做一些研究的话,那用什么模型,那我这里的话就无脑去推荐。 gbt 五点五 pro 官方也展示了一些例子,无论是在遗传学、数据分析方面,生物信息学 还有一些啊数的新证明等方面,都是表现的非常优秀。现在就来看一下我使用 gbt 五点五实现的一些案例,我们目前看到桌面上有 比较多的鱼,那这些鱼呢,就是我通过啊,让五点五帮我去生成一个 micros 桌面透明水族箱应用,它呢是九分钟就帮我完成了这样的任务, 速度特别快。之前这个任务呢,我也让别的啊 ai 编程工具来完成过,那为什么没有在我的视频里呈现过,主要是它们构建的速度比较慢, 还有会,而且容易出现很多错误。我们看一下它完成的功能,首先是透明无边框 floating 级别的桌面浮窗,它在运行的时候呢,我在下方这里输入文字,对它是啊,没有影响的,当我鼠标点击画面任何一个地方 啊,这里会掉出鱼食,然后鱼的话它会过来去吃鱼食。这是一个菜单栏的 macos 应用, 当你在办公觉得无聊的时候,这样的一个水煮馆应用呢,就可以很好的啊,陪伴你。 再接着呢,我就提示他,让他检查一下这个 app 有 没有性能问题,然后告诉我确实是有些性能问题,于是他就将默认的帧率降到三十 fps, 也做了一些其他的调整。最后我发现应用程序里呢啊,它没有图标,那我这里呢,就直接 at image 键,让它去生成一个图标,这样的一个图标效果呢啊,我个人不是特别满意,但是它的能力还是存在的,整个流程十几分钟啊就能处理好。 接着呢,我让五点五根据图片来做一个安卓应用,这两张图片呢,我之前是让 gbt image 二来生成的,那我在这里呢,就直接让它根据图片生成安卓应用, 他处理了四十二分钟告诉我已经成功安装到我的手机上了,在我手机上呢,画面就是这样子的,当时我点击首页发现点击记录收藏我的就会出现这些内容。 但是我后来发现,当我点击这里的更细小的图标的时候呢,他就没有内容展示, 所以我就知道了,他只是做了一个非常简单的模拟。接着我就提示他,我说应用里的图标都无法点击,你有没有做功能。然后他告诉我,上一版只把底部导航做成了可点击, 里面的搜索分类,头像、卡片等都是 canvas 画出来的静态元素,没有绑定命中区和行为。所以他又花了十分钟来帮我去啊做一版优化。但是我们可以看到啊,他只是出现了一个提醒,实际的功能 跳转还是没有做。那我觉得在这里可以反思的是,一开始给他的提示呢,要非常明确, 要让它把功能做进去,而不是做一个简单的模拟。不然花了四五十分钟之后啊,虽然说界面做的挺漂亮的, 但是呢啊功能是基本没有的。最近让 gbt 生成图片,然后再根据图片创建应用非常火,我先让 gbt 啊调用图片生成工具来给我一些方向,等我选定之后呢,再制作啊理发外包页面。 他一开始生成这四张图,其实这四张图感觉都挺一般的,那为了节约时间呢,我在这里选择了 b, 他 生成的页面啊,质感还是非常强的,如果真有一个理发页面,他的装修呢啊做成这样,我们看到的种样式,那我觉得还是非常时尚的。 在之后我就让他参考图片去生成外围应用,可以看到五点五他目前的设计水平是要比之前的其他版本是要好了非常多。再看服务预约 理发的流程呢,最后有一些护理信息,整个页面的话看着还是非常不错的,但是也是可以明显看出他这里偷懒了。 呃,引用的图片呢,是他之前生成的一个呃作为创意参考的图片,而没有再重新调用。呃图片生成工具,再生成符合的图片。再看一下五点五在完成一些日常任务的时候的表现, 在这里呢,我给他一个任务,说我有一个模糊的想法,想要启动一家小型在线业务,销售定制三 d 打印的 nasa 主题珠宝,需要他从市场研究,供应商采购、网站构建、营销策略 等等,要规划整个流程。最终呢,他,呃思考了四分多钟就给我回答了,说商品定位是什么,产品线是什么,然后法律合规,底线等等,市场判断等等, 内容还是非常多啊,就是查看的时候呢,不是特别友好,所以我就按照他的 presentations 查检,让他把以上内容都生成 ppt。 以前使用 gpt 内置的 ppt 技能的时候,它的生成速度是特别慢的,因为它花了很长时间在它的啊文字溢出啊边界检查方面, 但是今天在体验五点五的时候就发现这个速度是要比之前快了很多,几分钟之后就可以帮我完成这样的啊 ppt, 这是它最后生成的效果,总共十四页啊,这是封面 第二页呢,他说先做可验证的小业务。第三页呢是机会,说是高级定制,并且要考虑合规, 然后首发是做什么?他非常强调合规是这门生意的第一道产品设计,然后供应链是怎么一个情况?还有单件经济模型, 预算,网站建设,呃,营销策略等等,可以看到它的呃各种 ppt 样式还是比较丰富的, 文字溢出什么情况的话也基本上是没有,所以可见,呃, gpt 现在的能力是更强了。再接着呢,我将 deepsea 最新开源的仓库,让它探索 调用图片生成工具来生成通俗的科普介绍书,至少四张图。接上五点我就开始探索了,他说他会潜克隆仓库。 然后呢,他发现有个很关键点说,啊,这个仓库本身没有论文 pdf。 看到这里的时候我才反应过来,我在一开始给他的这样的一个链接里面, 我,我这里其实写错了,我其实是想让他探索仓库。 gbt 呢,他自己根据这个仓库里面的内容,然后找到了一篇论文。啊,这是去年四月份的论文,并且把论文下载下来,然后他抽取一些信息, 最后生成五张图片,这是他最终生成的通俗科普介绍书,搭配 gbt image 二呢, 生成的质量是相当相当高的。之后我又让五点五从特斯拉投资者页面研究啊,最新的一个季度的财报,下载 pdf 和 excel 文件, 将关键指标提取到新的表格里,并且创建丰富的图表页面。 gpt 呢,他先去下载资料, 然后呢,他,呃发现他有三个 skill。 最终呢,他生成了这样的一个啊 html 页面,并且截图,他自己去检查了一下,那他通过一米二是最终生成了这几张图片, 这几张图片质感还是非常好的啊,稍微遗憾的就是是英文显示改成中文会更好。那我们看到它的交付物呢,并且它对一些重要信息啊,也是填入到一个 excel 表格里了, 关键指标分析啊,这里也有最终生成这样的丰富图标页面,我们可以看到它生成的这个页面 啊,有些文字是多余的,不过这在 qq 里面也没有太大关系。我们可以很方便的选择批注工具,然后选中某一块,然后在这里加一些内容,比如删去,让它删去就可以了。 在下方我们会看到各类数据图标做的还都不错啊,唯一的问题呢,就是中英文夹杂 看着不是特别好,但是他图标的样式呢,还是非常不错的。接着呢,五点五做一个格式化乐谱编辑器应用,这个乐谱呢可以。嗯,先播放一首小星星。 那我可以先点击橡皮,比如说把这几个都给删掉,然后在这里呢选择音符,添加二分的,或者添加四分的,然后或者是八分的,再点击听一下, 导出的话,在这里也是行得通的。那我觉得五点五呢,在这个任务上完成的还是不错的。我们在 control 里还有一点可以需要注意的是,在它的右边的侧边栏, 它有一个概览,概览里面我们会看到它的进度,生成结果,还有用到了哪些工具。接着我让五点五生成一个纤夫拉船的场景。 这个任务我最近经常让不同的模型来做,包括我们很多国产的模型 g、 p、 t。 在 制作过程中,它会不停地截图,然后最终告诉我生成好了 它。在生成好之后,我还让它生成 playwrite 脚本,录制整个画面生成幺零八零 p 的 视频,这是它最终生成的视频。我们来看一下效果。 我个人觉得他在这个任务上做的是非常非常好的。那我们可以看到整个画面里的水流啊,流动是挺有规律的。 在这里做的船只呢,呃,也质感也非常不错,非常像古代的船只,各种运输船。然后我们在前方呢,还可以看到不同的啊,纤夫在这里拉船, 可能稍微有点问题的是这里的绳子和船没有连接好。同样呢,我们在这里也可以看一下它的盖栏里面用到了哪些技能,它会用 permit 技能呢来呃,验证它。呃,做的这个项目怎么样? 然后它会自己去调整,看下五点五生成的马卡龙色花海。五点五在这里生成的画面里呢,蝴蝶非常漂亮, 颜色是有多款颜色的,包括它下方的这些花朵,我们也能看出是有不同的颜色。当我调整右边的不同颜色主题的时候, 那薰衣草浪漫的这个色彩我个人也是非常喜欢的。当我去调整颜色主题的时候,会发现呢,它是整体啊,背景画面是有个调整, 而不是整个花的颜色直接换成单一的颜色。那我觉得他在这里做的还是非常不错的。蝴蝶呢,嗯,色彩也是缤纷多彩, 非常美丽。他生成的效果我个人是觉得啊,最近测过里面啊,最好的一个生成效果了。那他不是一下子就生成,我们最终看到了结果的。比如说他在一开始看到了这样的画面,没有各种花草, 然后他就开始去调整,第二次截图,发现也是没有,于是又是第三次,第四次不停的去调整自我迭代速度,还是啊非常快的。在之后呢也会切换到手机状态,进行一下预览, 最终告诉我是完成了这样的一个页面。我也让 gbt 呢创建了一个三 d 模尺,这个例子我在五点四里也尝试过,我们可以看到现在呃五点五生成的画面 是要比之前要好很多了。右侧呢,我们可以切换一下模尺的颜色,那下方呢,有几个预设?我先让它生成呃球形, 那它生成的话不是特别像球形,再生成一下眼镜蛇 啊,也不是特别像,可以点击模尺上的任意一点,让它做逆转或者是顺转, 功能还是比较健全的,整体我还是会给它一个很高的评分的。最后再来看一下 g p t 五生成的一个 remotion 动画视频, 我就是将呃 gpt 五点五的它的博文链接直接发给 kolex, 让它生成两分钟左右的视频,并且我说画面要有冲击感,但它最终做出来的画面实在是太有冲击感了,待会我们看一下, 那首先看一下它处理过程,它先探索啊获取信息,然后呢它就开始写分镜,写好之后它说呃总长一百二十秒, 然后之后呢就开始去组装了,并且在生成过程中我们会看到一些预览,他生成的这个风格是这样子的,这还不够震撼,然后我们再看这个界面是不是非常有冲击力, 他真的是非常喜欢这种初野风格。最后就以这两分钟的冲击版的视频来哦,让大家回顾一下 gbt 五点五, whoa whoa?


哈喽,大家好,欢迎收听我们的播客啊。今天咱们来聊一聊 oppo 刚刚发布的这个拆 gbt 五点五, 看看这个最新的版本到底带来了哪些变化,然后也来对比一下目前市面上其他的大模型,看看表现究竟怎么样,包括对于我们普通人来说,这个新版本到底有哪些实用的新功能。好啊,那咱 们第一个要聊的呢,是这个拆的 gbt 五点五的升级亮点啊,就是这个全新的智能和效率的突破啊, 这个是大家都很关心的,我也很好奇这个新版在自主能力和智能表现上面有哪些让人惊讶的地方。这个新版的他是可以 直接接受一个比较复杂的任务,然后他自己会去规划说我要分几步走,嗯,甚至他会自己去调用一些工具,嗯,来完成这个多步骤的操作。 ok, 对 他这是一个很大的提升,就他的自主性, 对,包括它在一些比如说 terminalbench 二点零这种测试里面,它的这个分数是比上一代要高出来将近百分之九啊,这是一个非常大的提升,而且它是超过了人类的这个极限的。 哇,那真的很厉害,就是它已经不是说像以前一样,就是只是在一个限定的领域里面去做一些问答。没错没错,而且它在这个 os world verify 的 这个测试里面,它的这个成功率也有百分之七十八点七, 就它已经可以做到像一个专业人士一样去操作电脑,然后去完成一些任务。而且它在这个 gdp well 这个评测里面,它有百分之八十四点九的任务都可以达到或者超过行业专家的水平。 ok, 对, 这个就真的是这个智能的泛化性就真的是非常强了。然后呢就是说这个新版呢在使用成本和效率上面到底有多大的优势?这个它是可以做到。就是同样的任务,它用的 tokens 会大幅的减少, 然后它的这个成本每百万 tokens 已经降到了钱袋的三十分之一,这个是非常夸张的一个数字,它的这个输出的速度和能源效率都提升了将近五十倍, 天呐,听起来对企业来讲太有吸引力了,没错没错,而且它是跟这个 nvidia 的 这个最新的硬件是深度血统的,所以它可以做到,就是这个大型的工程团队可以非常高效的去使用它。 比如说他们有上万的这个员工在用它来进行这个代码的调试,那这个时候他们的这个周期就从几天变成了几个小时,然后这个复杂的实验也可以在一天之内就完成。 ok, 对, 这个就真的是让 ai 的 大规模的应用变得非常的可行。 然后呢这个新版的在多模态和这个科学研究这两个领域又有哪些突破呢?这个它是可以原声的支持图像、语音和视频的输入。 然后呢它也可以直接的去生成这种可交互的三 d 的 内容,这个就比之前的那种只能是文字或者是说简单的图片的这种结合就强大太多了。哦,那这个确实这个能力就一下子把这个应用场景就拓展了很多,没错没错没错,然后呢这个模型它还可以自己去参与 这个定力的证明哦,在这个 gynbench 上面,它的这个分数也是比上一代有非常大的提升。 在这个 bigxbench 上面,它也是刷新了这个记录。它在这个最难的这个 frontier math 的 这个测试里面,它的这个准确率也是远远的超过了上一代,它甚至可以去帮助科学家们去发现一些全新的数学定律, 所以这个就是真的是让 ai 真的 成为了科研的一个强力的助手。我们来进入第二个部分,我们来聊一聊这个 chat gbt five five 在 编程领域跟其他的一些竞品到底表现有什么区别。就这个模型,它在这个 terminal bench two 点零上面,它是拿到了百分之八十二点七的准确率。那这个分数呢, 是不仅超过了上一代的这个 gbt 五 four, 而且它也把这个 cloud opus four seven 和这个 gemini three one pro 都远远地甩在了后面,看来差距还是挺明显的哈。 对,不过在那个 swbench pro 上面,就是这个 cia 六 oppo 四 four seven 还是稍微领先一点点。但是呢,这个 gpt 五五它是用了更少的 tokens, 然后在真实的项目当中,它其实表现更稳, ok, 对, 包括它在这个多文件的重构啊,还有这个自动调试啊,这方面都是要比这个 gemini three one pro 要强的。所以就是说整体的实用性上面,还是 gpt 五五更胜一筹。那在知识性工作和这个科学研究这两个领域呢?这个叉 gpt five five 和其他的一些主流的大模型 又拉开了多大的差距呢?这个在这个 gdp well 这个评测里面,它是包含了四十四种不同的职业啊,然后它的这个准确率是百分之八十四点九,那这个也是超过了这个 cloud opus four seven 的 百分之八十点三,那这个 gemini 三 one pro 就 只有百分之六十七点三。 哦,这差距真不小啊。然后在这个科学研究方面的话,就是这个 bigxbench 上面它是百分之八十点五,这个也是刷新了记录啊。 ginbench 上面它是百分之二十五,包括在这个最难的这个 frontier math 上面,它也能达到百分之三十五点四, 就是都要比这个 cloud 和 gemini 要高。就是在这种复杂的推理啊,包括这种跨学科的这种任务上面, gpt 55 都是明显占优势的。 哎,那我想知道,就是这个叉的 gbt five five 和其他的一些主流的大模型相比的话,在这种实际的落地啊,包括这种多智能体协助上面,到底谁更有优势? 这个你看就是他们的这个实际应用就好了嘛,就是 opi 自己的员工有百分之八十五都在日常使用这个 gbt five five, 哦,那包括他们在这个财务啊,市场啊,客服啊各个方面都已经有非常显著的提升了效率, 那这个是比 cloud, opus four seven 和 gemini 瑞 one pro 都要高的。嘶。哦,这么高的内部使用率,确实很有说服力啊。然后更厉害的是它可以原生的去操作电脑, 它可以支持这种多智能体的协助,它的这个上下文窗口可以扩展到四十万甚至是一百万。 tokens 就是 它的这种 多任务的能力啊,包括这种复杂的软件的操作能力都是要领先的,那这个是 cloud 和 gemini 目前还没有办法达到的。 然后咱们来来到第三个部分啊,咱们来聊一聊这个新功能到底给我们带来了哪些便利啊?具体来说,这个 chat gpt five five 的 这些新功能到底给我们的日常生活和工作带来了哪些便利呢?就是现在的这个 ai 可以 同时处理 图片、语音、文档,嗯,就你比如说你要写一个什么教程啊,然后你把你的截图啊和你的这个说明都混在一起, 他都可以帮你自动的去排版,嗯哼哼,你要问一些很复杂的问题,他也可以通过不同的文件类型来给你综合的回答。对,这个确实很方便,就日常的一些操作就变得很高效了。然后他还可以直接帮你完成一些任务,比如说你要写一个报告,嗯,你就把你的要求告诉他,他就可以自动帮你生成一个初稿, 你要整理一些资料,他也可以帮你自动整理好,包括他可以帮你在你的电脑里面自动执行一些操作,嗯,比如说你要整理一些文件啊,或者是说你要做一些数据的分析啊,他都可以自动帮你一步到位。对,那这样的话就真的是帮我们节省了很多的时间。 你觉得就是这个新版的这个 ai 具体会在哪些日常生活和工作的场景当中,会给我们带来最明显的效率的提升呢?比如说写文章啊,或者是说写一些社交平台上面的内容,那他可以直接帮你从你的一些笔记啊,或者是说一些杂乱的资料里面帮你生成一个成品, 那这个时候你就可以直接,比如说像我现在要写一个东西,我可能就几分钟就可以写好一个成品出来,那你这个时候你就可以大大提高你的效率 啊。确实,对,那像这种内容创作这一下就变得轻松很多了。对,然后包括你要做一些呃安排日程啊,或者是说整理一些会议纪要啊,他也可以自动帮你同步到你的日历里面, 你要做一些呃学习上面的一些,比如说帮你梳理一些知识点啊,帮你做一些,甚至帮你做一些这个财务的预算啊,或者是说帮你处理一些家庭账单啊,都可以,他可以帮你直接生成一些代码,帮你解决一些技术问题, 那这个时候你就会发现其实很多很繁琐的操作都可以自动完成了,那你就会节省很多时间。那你觉得就是这个新版的这个 ai 在 易用性和安全性上面有哪些比较亮眼的改进?就是它的这个对话的方式会更自然, 然后他的这个反应速度其实跟老的版本差不多,但是他的这个输出的内容会更精准,他也会自己去检查自己的一些错误,包括他会告诉你哪些地方他是不知道的,他也会给你一些很友好的建议,就告诉你说你可以怎么来优化你的这个提问,哦, 这样的话用起来就确实省心很多嘛。对,然后现在就是呃 plus 以上的用户都可以使用这个新版的 a p i 也很快就会开放,它的这个价格也降下来了,就是它的这个使用门槛也低了,同时它也加强了这个数据的保护, 就是他不会说你随便问一些敏感的问题他就会拒绝你,所以这个也是让你用起来更放心一些。对,今天我们聊聊这个 chat gpt 五点五带来的一些新的变化和突破。嗯,从智能和效率的提升,到多模态和实际应用,再到易用性和安全性, 可以说这个版本真的是重新定义了 ai 能为我们做什么,所以未来他肯定会让很多行业和我们的日常生活都发生巨大的变化。好了,这就是本期节目的全部内容,感谢大家的收听,我们下期再见。拜拜。

今天凌晨, gbt 正式发布了最新大模型五点五版本,官方说这是两年研究成果的结晶,是思维方式的一次重大转变, 而不是增量更新。那五点五的定位很清晰啊,是面向真实工作场景驱动 agent, 最大的亮点是模型可以真正的操控电脑,点击截图填表,测试工作流, 然后根据结果不断迭代,直到任务完成。在编程方面提升也很明显, toyota 奔驰二点零编程精准测试中, g b t 五点五超越了 cloud mesa, 也就是面向 b 端的那个大模型,实战反馈也很炸裂。高级工程师测试 g b t 五点五能提前发现问题,而且之前所有模型都搞不定的复杂代码合并 他也能搞定。在没有源代码,只能依靠界面操作时, gpt 五点五的表现已经超过上一代有源代码辅助的成绩。另外,在速度上, gpt 五点五也有了巨大的提升。 speedrun 的 高级工程师精准测试里,让模型按高级工程师标准重写质量较差的代码库。 gpt 五点五最高成绩六十二点五分,同档的 ops 四点七只有三十出头, 那真人高级工程师基本在八十五到九十分,也就是说 gpt 五点五已经接近人类高级工程师百分之七十的水平,速度还要快一倍。目前已经对所有的会员用户开放了,这次升级可以说已经全面超越了 cloud。 那 我自己体验了一下,最大的感受就是他比之前会说人话了,不再像以前一样说一堆废话套话了。 接下来我们来测试一下他操控电脑的能力,让他打开 qq 音乐,播放一首周杰伦的晴天, 这个过程还是有点慢啊。 哦,他现在打开了,但是他给我弹授权, 我所有的授权实际上都打开了,但是我不知道他为什么会弹,看一下他下一步会怎么做。他显示没有拿到授权, 看他能不能成功。他只播放了我当前的歌曲,并没有输入我要求他播放的歌曲。好,他这里已经到输入框了,但是还没有输入正确的文字,非常慢啊, 这里终于成功了,他输入了周杰伦的晴天, 他是通过截屏,然后识别图片里的内容,一步一步操作,所以实际上目前所有的智能体还没有办法完全像人类一样来控制鼠标 成功播放。 ok, 我 们能看到他确实能完成操作本地软件的任务,但是过程会很慢。至于他写代码的能力,之前就已经很厉害了,那这次从数据上看,又有了一个巨大的提升。 另外,最新发布的 emoji 二,说实话,这几天我用下来,我有被震撼到,而且他的提示词也很简单,他自己会去思考,你给他提示词,他需要查的资料。我让他生成一张奥特曼和 a 社 ceo 在 抖音直播 pk 互喷垃圾话的照片,大家可以感受一下啊。 而且他的细节处理的非常好,没有任何一个错别字。他的能力已经完全超越了谷歌的 banana, 尤其是这种,比方说我让它生成生成一幅漫画,画面很逼真, 像这种照片。这就是一张老照片,非常恐怖,目前已经真假难辨了。坦白讲,我真的不敢想象 g p t 六点零的时候会是什么样。