就在今天, oppo 啊隆重推出了 g p t 五点二模型啊,是目前迄今为止最强大的一个专业知识型模型啊,我们来看一下。首先是评测啊,在各大的评分版当中,不管是 sw 用来写代码或是处理一些 表格数据竞赛等等问题上啊,尤其是它这数学竞赛啊,二零二五年已经达到了百分之九十九点四的分数啊。 然后还有各大领域的评测,首先就是比如说这个是专家级的水平,可能就只有百分之五十左右,但是呢, gpt 五点二 cking 模型啊,能够达到百分之七十的分数啊, 这以前是 gpt 五 cking 的 模型,是只有百分之三十八的分数啊,它在做数据表格上明显的提升啊,比如说我们之前使用到五点一,那它就是表格是这种, 但我们使用到五点二之后呢,注册表格就是更加的美化啊,还有股权架构啊等等之类的,就是各种各样的图形优化吧,嗯,先看做出这种图形是这样的,但五点二呢,做出来就这种排版更加清晰啊。 好, sw 就是 专门用来写代码的一个测试的计算书,它也是遥遥领先啊。目前啊,再看一下,它这个是掩饰了一个 海浪的模拟啊,比如说我们这个海浪的高度啊,我们可以调整提高。然后还有这个观影啊,观影的效果我们点开始暂停啊,他只需要一句话就能帮我们直接去进行生成啊,你看他这个是提示, 就这几句简单的提示语啊,就可以了,并且现在在幻觉率上更加的完善,因为他以前的话可能会胡乱说,或者是编造一些不实的信息,但现在呢, 就是给你的回答更加的准确性。而它的上下五万现在更加的优化啊,就是比如说它有十万个字符,对吧?一共有二十五万个 token, 它能够实现接近于百分之百的准确率啊, 所以说用它来去进行分析,一些调研报告啊,数据,或者是几百页的 ppt 等等之类的都可以使用到它,还挺不错的。而且呢,它现在已经 全部上线了,更新了三个模式啊,一个是 autos, 还有一个 ins, 还有一个 tokyo, 这个就是最强的一个模型啊,如果大家也想使用的话,可以点击我主页的置顶作品找到我。
粉丝1.3万获赞35.9万

g p t 发布了这个最新的这个五点二版本,那么在介绍中呢,我看到了一句非常重要的话,他说这个 g p t 五点二新品是迄今为止最适合真实场景与专业工作的模型, 这句话其实就是代表了就是 g p d 五点二,它是个非常强大的一个综合模型啊。但是我们关注的是编程方面的,那么它在下面的话,专门对这个编程啊,这个编码方面做了一个介绍,他说在这个 s w e 编程这个测试里面,然后取得了这个五至五点六的这个成绩,然后 也是非常高,比五点一高了很多。然后他他这边还特别强调了一下,就是说在前端的开发能力上进行了很大的提升。那么我们就来看一下,就是他他在这个前后端编程里面到底有没有提升,那我之前其实对五点一是经过测试的,那么前端是一塌糊涂。 ok, 那 我们现在进入测试阶段,那么现在分为这个前端和后端测试,那前端呢?我准备了两个测试,那一个呢是一个这样的一个斗地主的游戏啊,那么这个测试其实有两个非常重要的目的,第一呢是这个测试这个界面 啊,第二呢测试这个前端的逻辑,因为我们不仅要他要做的好看,最起码逻辑要对,对不对?斗地主这个游戏其实有些复杂的,他的规则是非常多的,那么如果能把大部分的这个规则去实现的话, 那说明前端能力是非常强的。那等我它出来结果之后,我们可以用这个 cloud opus 四点五和它对比一下,看一下谁的效果是更好,那么我们使用酷来 x 来进行这个测试啊,然后我们可以选择就是啊这个啊,五点二,然后选择它的这个最高这个尺寸来进行一个测试,然后呢我们把这个 提示词直接复制过去啊,终于好了啊,一开始我选的是这个尺寸,是这个 high 这个尺寸,但是太慢了,真的太慢了,我只能把它调回这个中中这个尺寸,然后才顺利的去把这个东西搞完 前,这个效果上还行,我们来玩一下,看他能不能,能不能有把这些规则都实现了。传统音乐音效, 但是没有背景声音啊,背景声音是没有关闭,那我们来玩一下看游戏开始叫地主,但是这个没有选择叫还是不叫 出,请选择要出的牌,这个还是不太行,还是不太行过,请选择要出的牌,完全出不了, 我选出不了。我们来看一下这个啊, opus 四点五,这 opus 四点五当时我是用这个 coso 那 直接一把就一把就输出的,一把就输出,然后的话这个效果是非常不错的, 叫地主不抢不抢。嗯,随便出一个三带一,对三带二,不出不出。 解释一下,顺子不出顺子这个是能玩,这个是能玩,虽然说这个这个样子有点有点问题啊。我们再来看一下我当时用这个界面,三 pro 做的这个,那这个界面就就非常不错 啊,这个界面设置的不错,但是它这个规则上是没有那个 opus 四点五遵守的好,就它有些就是这个敌对玩家啊。出牌的话这个规则是很单一的规则是很单一的,没有那个牌型宠物啊,你看我出错牌了,但是这边拉不到, 连对声音啊什么的都是很正常过,所以在这个前端这个这一部分,是啊,我觉得是比这个 oppo 的 四点五和这个啊,这个 gm 三 pro 都是不如它。 接着我们来进行第二个测试,那第二个测试是纯的这个页面,这个效果测试,那也很简单,就是做一个企业的官网,那第一个其实更强调的是我这个强大的逻辑能力的实现能力,那第二个就是我们的真实的就是我要做一个企业官网,看他做出来的效果是怎么样,那提示词也很非常简单, 那这个我在 g m 三 pro 也也用它来做了一个这样的官网灯,我们对比测试一下,还是一样的,我们是个空的项目,然后我们把提示词输给它,这次我们还是一样选择这个 j p t 五点二啊,中型尺寸, ok, 他 这边已经生成完成了,然后这里是代码的这个结构啊,也是按照我们的指令啊,使用 nex js 来搭建,那生成速度也比较快,因为我们选择了这个中型的尺寸啊,我们来看一下最终的效果,打开是这个样子的啊,给人的感觉还是比较的清爽啊,然后这边是一个首页, 一个热门产品啊,点开是这样的产品的页面分类 啊,关于我们联系,然后这边有个报错,好,我们先先不管啊, 我们看一下就是 gmail s 三 pro 来生成的这个页面,你看整个页面给我们的感觉就是会有很多这种动态的东西,动态的元素, 这个是我使用 antigravity, 然后的话也是同样提示词啊,选择这个 jimmy 三 pro 来生成的。我觉得在这个页面展示效果上和这个交互上是比这个 jpt 五五点二要好很多, 这边都会有,都会每个页面都有一些这样的效果。所以从前在前端的对比上啊,目前 啊,在我个人的测试里面,我觉得这个 g p d 五点二十不如这个 g m 三 pro 的, 那我们接着测试它的后端,那后端测试呢,是我在之前的模型中经常用来做测试的一个场景啊,那这个场景就是做一个这样的用户支付 啊,和这个退款的这样的两个接口,那这个支付呢,是包含了这种微信支付和这个余额的支付。这个测试目的呢,是测试大模型在对这个微信支付或整个支付的环节,从发起到毁掉接收这个 流程的完成,是不是能够在很少人的对话中去完成这样的一个,嗯,逻辑代码的编写。 那第二个就是对这个需求进行了一个间接的需求,就说啊,在前面产生大量代码这个基础上,因为对话记录已经很长了, 那么让他继续升级这样的功能,在原有这个支付基础上,然后增加更多的支付的通道。那这个其实考验的就是啊,第一是大模型在很长的上下文 的前提下,能不能去做更好的设计,做扩展的设计。那第二呢,就是在现在已经完成的基功能的基础上去进行优化,因为其实第二个间接的需求是去改变,第一个 本来是支持微信支付,现在要支持更多支付,那按照我们的设计肯定是接口啊,抽现成啊,对吧?把原来的接口替换掉,那这里面其实都是考验了这个大模型对这个代码的理解啊,对这个历史啊,这个上下文记录的一个质量的一个考察。 所以呢,那前面呢啊,我是用这一套测过了很多大模型啊,基本上测出来的效果啊,跟大部分人这个呃,效果是差不多的,那我使用的是这个 java 的 框架,我使用的空的项目啊,那也定义了一个这样的一个 java 开发规范, 那目前已经全部测试完了,测试完之后呢,其实啊,他跟这个五点一啊,就是我们测了好几个模型,之前啊,跟五点一其实差不多,都是在三轮对话 就完成了这两个工作。那第一个需求完啊,支这个微信支付的话,是通过这个两轮对话啊,就完成了,那么间接的需求升级呢,那通过一轮对话就完成了,目前啊, opus 四点五啊,五点一, code x 和这个 gpt 五点二,那么都是 都是在三轮计划完成,那苏联的四点五十进行了四轮计划才完成。所以说这方面后端编码的这个能力上啊,目前的话,我觉得这个这几个模型都是非常优秀的。那整个测试下来之后啊,啊,我在使用这个啊 high 这个尺寸的时候 太慢太慢,别说我在测试第一个的时候,就光这个逻辑的编写啊,就花了九分钟,他还没出来,所以我不得不把它切换成这个中型尺寸了。那么我在测测测试这个后端,因为后端很注重逻辑啊,我就把它切回到这个啊,焊的这个尺寸啊,这个时间是非常非常长的, 所以总结来看啊,就对比一下我之前的测试啊,那么目前看下来就是 g p d 五点二,因为它其实不是一款专门用来编程的模型,因为 oppo ai 公司是有专门的编程模型,比如说 codex 系列,所以呢,它更是一种通用的这个呃 模型啊,在解决你的日常里面各种其他的非编码,这种可能会更出色一点,所以呢,目前测试下来的效果就是目前五点二跟五点一 q 的 x 我 觉得差不多,甚至前端的还比它差一些, 所以呢,我还是比较期待这个 g p t 五点二 codex 就 专门的这个编程模型,可能就是在这个 g p t 三 pro 或者跟 oppo 四点五上能能够去做一些更深入的对比,或者说差距会更少一点,但是它在这个后端代码的逻辑能力编写上其实也是非常优秀的,跟五点一 codex 啊这个持持平的。那么在整个测下来,我自己的心得体会就是什么呢?就是这些好的大模型啊,在完成这些大部分基础任务上已经是非常完美的,就很难去测试这个模型的上限。就比如说我是这个后端测试这个场景啊,这个微信支付的场景,其实模型已经基本上 在三轮都能完成这样子,那好的模型在三轮就完成了,那么我就没办法去 用更好的办法去测试这个模型上线就测不出来,可能需要大量的去真实场景去编码去,你自己才能感受到这个模型是好还是坏,就是靠这种 某个场景去测试,我觉得目前在模型目前这个阶段,或者说后面的发展阶段是已经很难去客观的去评测了,那以前模型可能差,比较差的时候,你可能用一两个场景就能验出来,但现在模型好了, 你的场景我们在生活中或者在编码工作中能碰到的场景,对于这些模型来说已经能够很轻松的去胜任了。所以呢,这个测试其实我觉得 后面所有的升级的模型测试很可能都是 s, 就 这个后端能量都是 s 了,没办法,就是让它能体现出来就是更强,除非你有大量的项目去做一个平均值。 我觉得后面的话可能就是这个后端测试这个意义不是太大了,不是太大了,那么目前,但是目前的话局限性还是在这个上下文,就是上下文的长度,如果说出现就说我的这个需求,三轮对话变成一轮对话就完成,那么这个 对于于提升的应该不是说是模型的能力,而是上下稳的能力,那 ok 呢?整体来说 gpd 五点二是在是一个非常好用的通用模型,但是在编码上目前我觉得还是不如这个 open i 的 codex 自己的这个专门的编程模型可以, 所以呢大家也可以根据情况自己去测试去选择。 ok, 那 本期视频就到这,如果你关注这个 ai 编程的话,可以多多关注我。

在 openai 成立整整十年的这一天啊,发布了 gpt 五点二,这个名字呢,好像只是一个小版本的更新对吧?从 gpt 五点一到五点二而已,但是从 benchmark 和刷分板凳上呢,相比于之前呢,有巨大的更新,可以称之为啊跳跃。 gbt 五点二呢,也是 openai 狙击 jimmy 三点零的一部戏。我们先来看看有哪些更新,这些刷分如何呢?首先, gbt 五点二 thinking 在 多项指标上都超越了 cloud office 四点五和 jimmy 四点零数学竞赛的 aimee 二点二零二五呢,直接刷到了百分之一百。 这里值得一提的是,最后这个指标叫 gdp vel, 就是 这个指标呢,其实跟 gpt 没什么关系啊,这个是测量行业专家对于大模型输出结果的偏好程度, sam 奥特曼也是专门发了推特去说明,这个指标 也代表了呢, gpt 五点二在这个指标上遥遥领先于其他的一个模型,尤其是相比于 gpt 五点一上有飞跃的提升,从百分之三十八点八到百分之七十点九,这就意味着呢, gpt 五点二可以更好地帮助我们提升工作效率。 针对 gpt 五点二,如何提升我们的工工作效率,官方也举了几个例子啊,第一个就是 workforce planner, 就是 人力规划和预算。第二个呢,是让 gpt 五点二扮演投行的分析师,做股权结构表的瀑布分析。相比于 gpt 五点一呢,这个 gpt 五点二 正确的完成了所有的计算。第三个呢,是这个项目的管理, gpt 五点二呢,可以输出这样的直观展示的干的图,相比于 gpt 五点一,那直观上面它有更好的 visualization 的 效果。另外值得一提的呀,是 jimmy 五点二的代码能力 在 swebench pro 上面呢,超越了 cloud opus 四点五,我们可以在这里看到啊,这个 swebench pro 的 上面的一个指标达到了百分之五十五点六。 a cloud, 呃, opus 四点五呢,只有百分之五十二,我们直接看一下官方给出的一些例子啊,这些代码编程的例子,首先第一个啊,它做了一个海浪的模拟 ocean wave simulation, 你 可以调节这个风速,还有海浪的这个高度。还有一些观影 来看,这个是作为圣诞的贺卡,有一些互动的感觉,然后你可以点这个 shake 来进行震动。 还有像这个呢,是一个打字的游戏,就是那个字母像会落下来,然后你就可以去 通过打字练习打字的游戏。幻觉问题呢,这次也做了优化,评估了整个 ai 响应的这个错误率啊,被判定为错误或不准确的比例呢,只能从之前的百分之八点八也下降了百分之六点二。 长文本能力啊,也是 gpt 五点二的一大更新,对于文案从业者来说不失为一大助力啊。 openai m r c r 的 v 二版本,这视帧测试中呢,相比于 g p t。 五点一,在长达二十五万 token 的 长度下呢, g p t。 五点二依然可以保持接近百分之百的一个匹配准确率, 这足以说明 g p t。 五点二的一些长文本的一些能力啊。另外呢,我们可以看一下它的输入 token 的 数量,首先在 context window 就是 上下文这个窗口呢,它可以达到四十万,然后输出的最大的 token 可以 达到十二万八千。 然后域训练的数据也是非常新的,截止到二零二五年八月三十一号的这个域训练数据,虽然能力有提升,但是大家在使用的时候呢,还是建议大家带着质疑的眼光去看待呃, gpt 五点二输出的结果因因为毕竟幻觉问题还是存在的。 另外呢, gpt 五点二今天开始慢慢推送给了付费用户,如果你是付费用户,在左上角还没有看到 gpt 五点二呢,代表还没有推送给你。接下来呢,我就给大家简单演示一下 gpt 五点二到底怎么样 进入 cherry gpt 啊,左上角呢,你会发现它变成了 gpt 五点二下拉呢,你可以选择 auto, instant 和 thinking 三种模式。在 legacy models 里面呢,你会发现有 gpt 五点一的以前的模型,还有 gpt 五这些之前的一些模型 我自己也测试了很多啊,主要呢给大家看一下几个对比。首先第一个呢,相比于 gpt 五点一啊, gpt 五点二倾向于马上给出答案,不喜欢啰嗦, 而且人性化的一面更弱了。你发现他给出的答案呢,没有情绪化,活人感比较少。应该这么说,我拿两个例子给大家对比一下。首先第一个就是大家看到的这个,基于我给的食材去推荐菜谱, 那么 gpt 五点二 instant 呢,给出了一个韩式和西式融合的料理,这道料理的名称叫泡菜熔岩鸡腿局,他也给出了具体的做法步骤,所需的食材等等。最后有吃法的建议。 然后说啊,如果你想把它改成下角的小锅,龙卷的版本或空气炸锅的版本,可以给出直接对应的做法。你看这些文字描述呢,你就觉得它就是一个非常书面的,然后很冰冷的一种感觉。这个是五点二 incident, 我 们来看一下五点一的 incident, 同样的 prompt, 他 给出了也是差不多的菜, 就是龙岩泡菜之乡鸡,也是韩式西式融合料理,那给出的是所需的食材,还有制作步骤,你会发现制作步骤的它的描述呢,更偏口语化一点,你看,比如说像把泡菜推到锅边, 还有这种吃的,都很绝,他给出了风味亮点。最后呢,这个建议呢,也是更有情绪化的,更有口语化的一个版本。 我们再来看看让他扮演乔布斯,人工智能让人变懒,看乔布斯的角度,他会怎么去回答这问题,或者有什么看法? gpg 五点二的 instant 呢,就是一个冷冰冰的回答,他就说懒惰不是人工智能带来的发明,而是人类一直更省力的方式啊,叭叭叭。他说了这么多,你会发现他就是一个很书面的,很冰冷的一种感觉。 但是如果我们看一下 gpt 五点一 instant, 你 会发现它就更有情绪,比如说懒惰,别把责任推给工具,真正的问题是什么?制造噪音,还有这种疑问句或者设问句,然后那,那你感觉它是更情绪化的啊。从这个角度来说,我是更喜欢 gpt 五点一了,因为它给你的感觉更有更有亲切感,更像一种人类回答的一种感觉。 第二个,我们来看一下 gbt 五点二的代码水平啊,既然分数都刷到了第一了,这个 s w e bench pro, 那 我们在实战对比一下。拿两个例子,首先第一个我做的是用一个单一的 html 文件去渲染一个三 d 的 飞行模拟器, 这是我输入了 prompt, 然后采用了 syncing 模式输出来的代码。结果呢,也不是一次性生成的,中间又出现几十 bug 啊,我让它进行了一个修复,比如说我点击按钮,它没有开始运行, ok, 最终成品是大概是这样,这个渲染的结果,我们直接来体验一下,点击这里, 好,这个是它做的一个飞行器,我觉得都不像飞行器,然后你可以按它的这个进行操控,我觉得一般般吧,没有符合我的预期。同样的 prompt 呢,我输入给了 jimmy, 进行了一个对比,它一次性就帮我搞定了,没有出现 bug。 好, 我们直接点击屏幕开启飞行器。哎,这个就非常像飞行器的概念, 我就直接给你造了一个小飞机加速俯仰翻滚,这个操作的物体呢,也是飞行器的概念,但是 gpt 五点二呢,没有达到我预期,比较普通。同样的 prompt, 我 给到 jimmy 整体的前端啊,还有玩起来的感觉都更不错。 ok, 这是第一个例子,来,再看一下第二个例子,第二个例子呢,我是让他做一个互动式的教育的模拟啊,去解释一下关合作用,然后这个是 gpt 五点二,给到这个结果非常的丰富, 你可以去体验这个有学生的操作区,你可以进行体验光照的强度,不同的光照强度下,它右边是有不同的反应的,做一个模拟,还有二氧化碳的浓度,它做一些模拟曲线 啊,这个感觉还是很不错的,你可以进行一些操作,下面也有具体的数量,整体进行一个模拟。 ok, 这个是,呃, gpt 五点二给到我的结果,同样的 prompt 呢,我给到了 jimmy 三, ok, 这个是他输出的结果,他输出的结果挺炫酷的,你点击开始实验。同样的,左侧呢,他就有这个光照能源强度可以进行调整,然后他就会有提示说光照作用受限于最稀缺的资源木桶效应。右边呢,就有限制的因子,比如说当前就缺水,你就给他去补水就好了。 当然,呃,相对于 shift gpu 五点二来说, jimmy 输出的结果,这个相对于简单了。然后 jimmy 五点二输出的一次性输出的结果是更为复杂的,而且啊,整个功能也更加丰富。就这个例子来说, jimmy 五点二输出的效果啊,它是更好的。 但从我的多次实践和测试来发现呢, g t 五点二在 app 前端编写代码的时候容易过度思考,有时候呢,甚至会出现这样的超出文档允许长度范围的一个错误,导致无法输出结果。比如我这个屏幕上展示的例子, 那么如果你的 prompt 里面带有这个 reason auto think, 就是 要深度思考这些字眼呢,过度思考就更容易出现。总的来说啊, g p t 五点二目前呢,没有达到我的预期,还不能让我从 jimmy 三点零 pro 就 切换过来。 ok, 这个就是这期内容的分享了,如果你觉得还不错呢,记得点赞、收藏和关注,我们下期再见。

成 gbt 五点二系列模型呢,低调上线了,它发布呢仅有一篇技术 博克和 ceo 三毛特曼在社交媒体上的一句简短的宣告,但是相比以前如此寒酸的发布呢,却抛出了一个相当炸裂的应用。在此系列当中呢, gbt 五点二发布了三个版本,用于日常 对话的 g p t。 五点二,英斯特,擅长深度任务代码长文档的 g p t。 五点二芯片以及能解决高强度难题的 g p t。 五点二 pro。 在 此次发布的技术博克当中呢, g p t。 五点二拿下了各大测试榜单的第一, 也就是挽回了之前被超越的颜面了啊,由于篇幅的问题呢, 著名的测试了啊,有兴趣的同学呢,大家也可以找我去拿这个详细的数据的内容啊。首先是在数学领域的 a r m。 一 二零二五的这个测试当中呢, g p d。 五点二已经达到了满分,领先之前的 jimmy 三点零百分 之 j p d。 五点二,分数为百分之五十五点六,领先 jimmy 三点零 pro 百分之十二点三。在 a r c a g i。 二的图像推理测试当 当中呢,更加离谱了啊, g p t。 五点二整整领先了这么耐,三点零 pro 百分之二十一点八,不是啊,怎么这个差距是越来越大了啊, g p t。 五点二说实话还是有点东西的, 但是是不是真的厉害,感兴趣的朋友呢,可以去官网啊,或者是调取 api 的 方式 的验证一下到底是真厉害还是假厉害。来说一下报告中其余有趣的一些案例吧。首先呢,利用 g p t。 五点二芯片 生成电子表格和换灯片,在复杂程度和格式方面呢,都有所提高,这是真的上班牛马的福音了啊,那在技术文稿当中呢,甚至上传了 g p t 五点二做的几个演示页面,还真别说,他居然还可以实时交互,这波操作 实属有点顶级了啊。那更离谱的是什么呢?他居然在报告中对比了 g p d 五点一和 g p d 五 点二的视觉理解,即使在低质量的这种图像上呢, g p d 五点二也能够识别主要的区域与每一个主键真实位置大致匹配的这个框架。不过说实话,除了这个换灯片,以上的测试体验对我来说就像芯片厂子告诉我,我的手机新 性能又提升了。嗯,听了以后呢,嗯,确实提升了,但是我所用的用处就除了刷抖音,我感觉没别的了。接下来就像一些幻觉数据工具调用、想象推理等等一些细碎的,大家可以直接来找我要详细 的数据吧。最后我们还是聊聊价格啊, gdp 五点二,看起来价格就比五点一贵了零点五美金, 但是呢,这个 gbt pro 呢,就贵的有点离谱了啊,整整贵了二十倍。但是呢,贵肯定是有贵的道理,这句话能不能体现在 gbt 身上我们就不得而知了啊。总之呢,保持期待,毕竟人家十周年,总不能说泼人家冷水吧啊,感兴趣的同学可以去体验一下吧。

就在今天, oppo 啊隆重推出了 g p t 五点二模型啊,是目前迄今为止最强大的一个专业知识型模型啊,我们来看一下。首先是评测啊,在各大的评分版当中,不管是 sw 用来写代码或是处理一些 表格数据竞赛等等问题上啊,尤其是它这数学竞赛啊,二零二五年已经达到了百分之九十九点四的分数啊。 然后还有各大领域的评测,首先就是比如说这个是专家级的水平,可能就只有百分之五十左右,但是呢, gpt 五点二 cking 模型啊,能够达到百分之七十的分数啊, 这以前是 gpt 五 cking 的 模型,这只有百分之三十八的分数啊,它在做数据表格上明显的提升啊,比如说我们之前使用到五点一,它就是表格是这种, 但我们使用到五点二之后呢,注册表格就是更加的美化啊,还有股权架构等等之类的,就是各种各样的图形优化吧。嗯,先看做出这种图形是这样的,但五点二呢,做出来就这种排版更加清晰啊。好, sw 就是 专门用来写代码的一个测试的计算书,它也是遥遥领先啊。目前啊,再看一下,它这个是掩饰了一个 海浪的模拟啊,比如说我们这个海浪的高度啊,我们可以调整提高。然后还有这个观影啊,观影的效果我们点开始暂停,那他只需要一句话就能帮我们直接去进行生成啊,你看他这个是提示, 就这几句简单的提示语啊,就可以了,并且现在在幻觉率上更加的完善,因为他以前的话可能会胡乱说,或者是编造一些不实的信息,但现在呢, 就是给你的回答更加的准确性。而它的上下五万现在更加的优化啊,就是比如说它有十万个字幅,对吧?一共有二十五万个 token, 它能够实现接近于百分之百的准确率啊, 所以说用它来去进行分析,一些调研报告啊,数据或是几百页的 ppt 等等之类的都可以使用到它,还挺不错的。而且呢,它现在已经 全部上线了,更新了三个模式啊,一个是 autos, 还有一个 ins, 还有一个 tokyo 啊,这个就是最强的一个模型啊,如果大家也想使用的话,可以点击我主页的置顶作品找到我。

openai 刚刚扔出了十周年王炸 gpt 五点二,这不是简单的升级,这是 ai 第一次真正意义上骑在了人类专家的头上。牛马打工人终于有救了。先说最吓人的数据,在一个叫 gdp wow 的 全新评测里,覆盖了销售、会计、急诊、排班等四十四个职业。 结果呢? g p t。 五点二在百分之七十点九的任务中,表现直接碾压或者至少持平顶尖人类专家。他的干活速度比专家快十一倍,成本却不到专家的百分之一。老板花几万块雇人干的活儿,现在他几分钟秒杀程序员朋友们坐稳了。在最硬核的 s w e bench pro 测试里, g p t。 五点二拿下了百分之五十五点六的高分,连前端三 d 界面都能手拿把枪。最关键的是,他的幻觉率暴跌了百分之三十八啊! 以前 ai 一 本正经胡说八道,现在他能读懂两百五十六 k token 的 超长文档,准确率接近百分之一百。这意味着你可以把几十份合同论文甩给他,不仅不会看晕,还能给你精准抓住漏洞。而且这次他的眼睛亮了, 视觉错误率砍半。给他一张模糊的主板照片,他也能把主要原件的大致位置框出来,远比上一代靠谱。更神的是他的智能体能力,比如处理航班延误。以前的 ai 只能陪你聊两句, 现在的 g p t。 五点二能自己去跨系统改签,安排座位、申请赔偿,全程不用你插手,这才是真正的自动驾驶及工作流。 open ai 的 数据显示, 重度用户每周能省下十个小时。朋友们, g p t。 五点二 thinking 版本今天已经向付费用户开放了,千万别把这当成 ai 取代你的危机,这是你指挥一支世界级专家团队的机会,拥抱这个超级个体的时代吧。你觉得呢?评论区聊聊。

六十秒 ai 周报 gpt 五点二开启专家级革命,芯片博弈暗流涌动, gpt 五点二震撼发布 open vi, 推出 stinking 与 pro 版本,在四十四种职业评估中,百分之七十点九案例持平或优于人类专家,效率提升十一倍,成本不到百分之一。 ai 从此告别草稿助手,直接交付完整可用的专业文件,自主研究成为标配。谷歌深度研究代理功能升级,并向开发者开放 api, 基于 gemini 三 pro 的 ai 可自主制定计划,搜索、验证生成,待完整引用的深度报告,幻觉率大幅降低。 cloud 融入工作流,在 slag 中 at cloud 即可直接写代码修 bug, 开 p 二上下文自动同步实现聊天及编程。 mstr 开源双模型发布 d fstr 二代码模型,性能直追顶尖模型,而成本更低,其轻量版可本地运行,并推出开源 c l i 工具 mstrv 视觉模型学会办事。智普开源 glm 四点六 v 核心突破在于图像驱动工具调用,看到街拍能自动比价,导购看到设计稿能直接生成前端代 码。特朗普批准 h 两百对划出口,但附加百分之二十五销售分成就批次限制复杂审查,本质是高价可控的商业放行,意在平衡利润。技术与地缘政治 性能暴涨,成本反降。 gbt 五点二虽单头肯定价上涨,但因效率飞跃,总任务成本可能更低。开源模型亦大幅降价,推动技术普及。关注前沿,紧跟时代,我们下周再见!

这句话听起来很矛盾,但这就是二零二五年底 ai 给我们上的最现实一课。 open ai 刚刚发布了这个号称最先进的模型, 说它更贴心,更像你的工作伙伴,能帮你做 ppt、 分 析数据、写代码,为你创造经济价值。但翻开技术报告,另一组数据让我后背发凉。在覆盖四十四个职业的权威测试中, gpt 五点二在百分之七十点九的任务上达到了行业专家水平, 而且速度是人类的十一倍以上,成本连百分之一都不到。这意味着什么?意味着他一边微笑着递给你工具,一边正在悄无声息的重新划定职场价值的边界。我们先感受一下他的温柔。 这次 openai 把 gpt 五点二分成了三个版本,快速的 instant, 深度思考的 thinking 和专业空间的 pro。 这设计本身就很人性化,他想无缝切入你工作的每一个场景,无论是日常查询、翻译,还是处理上百页的报告,进行复杂的数学推理,甚至是编辑和调试专业代码,他都承诺能像一个得力的资深同事一样帮你搞定。 他的目标很明确,把你从那些枯燥重复的搬砖活理解放出来。他对着所有疲惫的事交给我,你去从事更有创造性的部分吧。 这个承诺极具诱惑力,因为它精准的戳中了我们对于效率提升和 work life balance 的 所有渴望。但接下来就是温柔的背面,绝对的残酷。那组百分之七十点九、十一倍成本百分之一的数据, 不是一个轻飘飘的科技突破,而是一把冰冷的经济标识,它开始精准丈量许多我们曾经以为的专业壁垒。想象一下一个金融分析师的核心技能,搭建财务模型, 一个程序员的核心能力,编辑和调试代码。现在,一个 ai 工具不仅能做,而且在精准测试中得分超越前代,错误更少。对企业而言,决策逻辑会变得非常直接。一份分析,是让一个高薪团队做一周,还是用几乎可以忽略的成本让 ai 在 几小时内生成一个专家级草案? 当效率差拉开十倍以上,成本差达到百倍量级时,商业的理性选择不言而喻。替代可能不是立即的裁员,而是新人成长路径的陡然收窄。更深刻的一层在于, 它进行的是一场对维脑力劳动的清洗。 gpt 五点二的进化,淘汰的不是劳动本身,而是那些可以被标准化、流程化的思考环节。 填报表、做基础 ppt、 查资料、写格式文书、审核标准条款,这些构成了无数职场人的日常,也曾经是很多人的职业基石。 让 ai 能以更高的质量和稳定性接管这些,我们每个人都被迫面对一个灵魂拷问。剥离掉这些执行层的工作。我的不可替代性到底在哪里?是更深度的战略洞察?是跨领域的创新整合,还是对人情世故的微妙把握?竞争的门槛被 ai 强行拔高了,未来可能会迅速分化为两类人, 一类是 ai 驾驭者,擅长指挥 ai 协同作战并做出关键决策。另一类则是其工作内容恰好落在 ai 能力覆盖范围内的潜在被优化者。这种分化残酷而真实。所以你看, gpt 五点二的悖论就在于此, 越努力模仿人类、理解人类、服务人类,就越清晰地映照出我们现有工作模式中那些脆弱可被替代的部分。他用提升效率的温柔承诺,执行着重置价值标准的残酷筛选。这不是一场人类与机器的战争,而是在 ai 定义的新规则下,每个人如何重新定位自己价值的生存探索。 他要求我们必须从操作工转向架构师,必须把真正的创造力、批判性思维和复杂决策能力打磨成我们新的护城河。 你觉得你准备好迎接这场不可避免的深度竞争了吗?如果你也想更清晰的看透技术改革背后的个人发展逻辑,点赞、收藏、关注,我们一起在变化中寻找确定性。欢迎在评论区留下你的行业,我们一起聊聊他面临的机遇与挑战。

兄弟们听清楚, ai 又一次改命了! open ai 十周年,没讲情怀,直接甩王炸! g p t。 五点二刚上线,各大 ai 精准测试全榜,途观 gemini 的 领先,一句话被碾压! 这次不是一个模型,是三把刀,刀刀砍生产力!第一把 g p t。 五点二, instant, 打工人专属外挂, 写文档翻译做规划,以前一下午,现在几分钟?第二把 g p t。 五点二, thinking 专业人士核武器,几十万 token 的 合同,论文报表一口吃完还不出错!股权清算模型精准加排版都专业!第三把 g p t。 五点二, pro, 科研与硬核编程的神 a m e 二零二五,数学竞赛满分,科学问答正确率百分之九十三点二,真正恐怖的是数据!在四十四个职业评估里, g p t。 五点二, thinking 百分之七十点九,任务打赢或持平,专家速度快十一倍,成本不到百分之一。 投行新人熬几天的模型,他直接秒出,得分还从百分之五十九冲到百分之六十,老毛病也被真治了,幻觉率直降百分之三十!看图看硬件更准! 多轮工具调用,一站式跑完,安全也兜住,心理风险识别更到位,未成年人敏感内容自动上锁。重点来了! spt 付费用户已逐步上线,价格没涨, gpt 五点一还能再用三个月!这不是升级,这是写!转! open ai 十周年,这一刀,不是更新模型,是把 ai 生产力的天花板又抬高了一整层!打工人这次真的开挂了!

宝坤们快来,我带你们一起了解最新 g p t 五点二都有那些炸裂更新我莫有惊喜啊!第一,最强反击全面超越 jemmy 三 pro, 重新夺回 ai 领域的性能领先地位。第二,这次提供三大版本,分别是 instant、 速度、 thinking、 深度 pro 最强。第三点呢,经济价值,核心目标是释放经济价值,能显著提升企业用户效率,表现超越行业专家。第四,长上下文支持,高达四十万个 token 超长上下文窗口,确保复杂任务下的信息解锁准确。 第五,可能性提升,胡言乱语幻觉概率大幅降低,模型输出监控更稳定更可信。最后呢,视觉回归,重新引入原生图像输出支持,是 gpt 四以来首次重大的视觉能力更新。 关注我的宝子们都知道, cherry 总是会第一时间接入最新模型,这次也不例外。想要第一时间体验的朋友记得评论区留言哦!

兄弟们, gbt 不要再用免费版了,一定要开这个 plus 版的,一定要开 plus 版本的,真的是太强大了,而且他最近刚刚更新的这个 gbt 五点二,我刚才试了一下哦,他现在已经可以去完整的帮我改这些代码了, 比起免费版的在那里等待花这一百多块钱真的太值了。我这个号呢在那里等待花这一百多块钱,真的太值了!我这个号呢是新开的一个优惠,只要一百三十九, 大家可以自己来这个充值平台操作啊,他这里首充的话只需要幺三九,还是挺划算的啊,有需要的自己来这里购买就好了。

就在今天,恰点 gbt 推出了他们最新一代的模型 gbt 五点二,是一个领先的前沿模型啊,为专业的工作和持久运行的智能体而打造它。这一次最大的一个亮点的话是他们号称超越了整个人类的一个专家,他们搞了一个 gdp 的 一个专业能力精准测试, 这次的评分相交于他们上一代的模型,有大幅度的一个领先。那第二个的话就是他们的一个 agent 的 能力嘛,从思维到最终去产生行动这块提升也非常明显,后续去做一些 agent 的 话,提升应该也比较明显。那今天的内容主要分为两个部分,第一个部分 就讲一下官方的一些啊, bootstrap 参数。那第二个部分我会用我最近做的一个真实项目,然后去对比 gpt 五点二跟 cloud, office 四点五它们的编程水平到底怎么样,我会按代码行及一行一行去对比它们生成代码,让大家看一下到底怎么样啊,看完这个视频就知道了。 ok, 下面我们来看一下整个的一个榜单哈,其实榜单每次我做这种新模型的评测榜单,大家就看一看就得了,但是还是可以看一下他们比较关键的三个吧。第一个是这个软件工程的,这个哈,他相较于 cloud 是 有百分之三点几的一个提升啊,提升不是特别明显。 那第二个的话是这一个就是数学竞赛这一块要拿的,拿出来说一下哈,他们 g t g p t 五点二是得到了一个一百分,就是相当于一道题没错, 然后 cloud 的 话是九十二,这一个它提升是挺明显的,所以说对一些专做数学推理啊研究的人应该帮助很大。 g p t 五点二, ok, 那 下面一个比较关键的是我们刚说到了这一个 啊, g d p 他 们最新的一个测试,他们新加的这个是测试的一个啊,就是测试四个职业,去找里面的一些人类专家出来出一些测试题,出完之后拿 g p t 五点二去跑,跑完之后然后去评分,评分出来的话他们的整个结果是达到了七十分 啊,已经相当于说顶尖整个顶尖行业的一个专家的水平了哈,那同样我们可以看到他其他的就是他们拿上一代的模型去对比,上一代的模型的话是 三十八分,然后跟 cloud 比的话, cloud 是 六十分,就提了十分,其实也不是特别明显。那下面的话就是他这一次发布会着重讲了他的一些帮助,一些其他行业的人去啊,怎么提升他们的工作效率,不管是从财务啊,法律啊,做 ppt 啊等等,还有他的一些逻辑推理嘛,刚刚我们也看到他数学这一块有一个测试得了一百分, 还有就它的一个幻觉力相较于上一代模型降低,那这个的话对于我们去做项目啊,写代码呀,以及你去写域的都有非常大的一个帮助,那还有的话,它的那个上下文 也相较于上一代有一定的提升。看完这个简单的一个汇总的话,我们来看一下整个编程实测吧。之前有朋友在评论区说,很多的一些就是专门做大面积评测的哈,就一直一直去测前端,那我其实大部分的测试都在测后端,那今天也不例外,我们就直接测后端,因为前端的话我觉得像 q 的, 然后 g、 p、 t 他 们的模型其实都没有那个谷歌那个强。好,我们来看一下我们今天的整个编程实测的一个任务哈,一个任务的一个背景是什么呢?如果熟悉后端的朋友应该比较了解这个 prome 修斯哈,它是主要是为了监控你一个代码的一些指标的,你可以在代码里面去买点,买点完了之后你可以结合 官网哪儿去做一些啊?就是类似这样的监控报表嘛。对,那整个的一个需求的话,就是我们有一个非常老的项目,就还在我手上有在维护的,然后这个项目是一六年搞的,但是他没有去接各种指标。那今天我们的一个核心的目标就是我们有几个这样的一个就是服务吧,可以理解的就是代码吧,让他去 帮我们把这代码加上一些 http 的 一个指标,还有数据库的一个指标,连接词的一个指标,然后给再给他加上一些就是一些约束哈。我们大概的一个提示词,我们也可以简单来给大家看一下啊,就是背景给它说清楚,然后当前采用的架构以及我们的一些,就是服务的一些清单嘛,还有数据库相关的一些信息, 就是题的词都描述清楚了,然后我们来去看整个 gpt 五点二到底怎么样啊?已经用 curl off, 四点五已经把这个东西推到线上去,目前跑起来看没有任何问题,从它打标、 买点,最后到帮我们生成那个 java 的 一些查询语句,就整体就这样子,看起来也没有什么太大的问题哈,那下面我们就来看一下它真实的一个代码的一个情况哈,那右边代码的话是那个 gpt 五点二写的。 首先给大家看一下这一个项目哈,它其实不是一个玩具项目,它是一个就真实跑在线上的项目,它代码其实特别大,因为看这个名字就知道嘛,是一个比较重的一个押注项目。那我们先看它给我们打的一个就是写的一个代码吧,就是一个指标的一个代码啊。那 cloud 这边呢?就是它分为了一个主要的一个指标代码,以及关于 http 的, 然后数据库的,然后业务指标 啊,还有它暴露给那个 server 来采集的一个代码,我们一个一个去对比,首先看 color 这边的一个核心代码哈,然后这边的话,这个就是去做一些设置 app 嘛,这个没什么好说的,那下面就是它的一个 指标,就它定义的一些指标,那相较而言,在 gpt 五这边它没有通过这样的设计,它是在它的主要搞了一个 common 点 py 的 一个文件,就是主要为了去粗俗化 一些跟这边差不多的一些代码吧,但是他这边实现的话,其实是有点小瑕疵的,比如他搞了一个就是现成那个是 reading 进来,其实我这个项目是基于 i o 的, 这个其实是没必要搞进来,我感觉没必要搞进来哈,就看起来我还是会选这边哈,这个代码就没什么好对比,对比的那个力度也不大, 那他的指标定义是放在就每一个模块下面的,比如他在 h d、 b 定义的一些指标,然后然后再去做下面的处理,那么下面我们来去对比他们在处理 h、 d、 b 指标上到底有什么区别哈。 ok, 来看一下吧,这个的话是他为了需要去排除一些路由,不参与你这一个就是路由的计算,那下面的话没什么好说呢,看他这边啊,他这边也差不多这个函数去把你的 u r l 让他不要膨胀嘛。 ok, 那 下面这段代码有必要给大家讲一下,就是我们通常不管你用什么框架,他都会有一些就是中间键嘛,你可以在中间键里面做拦截请求,然后做去打字啊,去买点啊各种。那他这块的实现的话就是 g p d 五点二的实现,我认为肯定是没有 cloud 的 这边。好的哈,那他这边的话是写了一个函数, 然后他从我传给了他的一个 hander 里面去获取,用 python 的 这个获取,获取它的一个属性啊,这种写法我觉得真的就是虽然有点 python 的 风格,但是我觉得这样维护性不太好。说实话 看下面代码啊,那你再来看一下 cloud 四点五写的呢,就是从这个代码就看起来很像人类写的,就是我感觉哈,就是他搞了一个积累哈,搞了一个积累之后呢,然后去重写了,就是你正常的一些应用框架的一些就是关键的函数嘛,比如这个就是我们一个请求打进来之后,他必须要走的一个就是方法啊,然后下面的话就是你结束要走的方法。 这种代码看起来就是就简单,这一点你应该都会去觉得 call 的 off 四点五的代码写的要要比这边好一点,我们有一个 acp 的 代码,就是我们所有的收口都会进到这个文件里面来去执行,那我们来对比一下这两边它的一个区别。 看到 cloud 的 这边哈,它是写了一个方法哈,一个方法的话,它是去记录你的一个操作类型时间,然后然后去调用 pro 修饰的这个指标,然后去做一些加减嘛,就做一个加减,然后做一个异常处理。 看这边啊,这边他又是从这种导入,其实这种导入我感觉就感觉实现的有点不太喜欢,那这个缺少一个日制, ok, 那 对于具体的查询的话,这一块其实大差不差吧?就记个时嘛,记个时,然后完了之后在整个最终结束的时候去埋个点, 我还是会选这种 ok, 所以 我们通过简单的一些代码的对比你就能看出来,他在这个实线上,虽然说他的那个评测分数很高,但是他的代码实现 还是没有 cloud 那 么工程化,虽然他也能完成任务,但是写工程化代码我觉得还是 cloud of 四点五要强一些,这只是我展示了就是这个项目下面的一部分哈,还有就是他真正要去集,集成到就是整个 app 里面去,其实也能发现他这边的代码就是 gpt 五点二会稍微次一些哈,那这个就是 代码层面的一个测试嘛,我们来看一下他的那个评分的一个情况哈,那评分的一个情况的话,就是我刚刚是我人为的去觉得就是我人工嘛,站在我自己的角度说,啊,卡尔的 off 四点五,然后他的写的代码要强一些,那我把两份代码都让同一个 ai, 让他去 利用美业行代码,然后最终来给出我们的一个整个的一个评分。通过这个结果看,卡尔的 off 四点五也是要比恰尔 gdp 五点二要高一点的,然后高了零点四分吧, 那它主要的话是在这几个维度吧,就是代码质量评分,就是一些模块化呀,然后一些错误处理啊,还有一些就是最佳实践啊,还有指标命名啊等等。那下面的话是一些综合性的分析,就是它还是真的是有趣,扫所有的代码,然后给出了一个 比较完美的一个对比吧,然后就是每一方都有它的一个特点吧,但我是比较,就是据我的就是一个经验来看的话,我还是比这个 ai 给的一个优势,然后恰了 gdp 五点二的一个优势, 那它也指出来两方的一个不足。 ok, 那 下面详细对比我们就不一个个的展开去看了啊,它有去做就是具体的详细对比。 那最终的结论的话, ai 也是建议就是 pro 的 off 四点五这个代码是在本人的一个测试里面是要领先的,就它这种代码工程的一个质量,以及你 prometheus 的 一个实践,以及你业务观测的一个业务可观测性嘛,它都是要优于那个 d p t 五点二了。我记得我之前有一期也出过一个视频,就是说 一个标准的一个,就是我们现在一个外部定制的一个工作流是怎样子的哈?如果有条件的话,你可以在 jimmy 三点零 pro 上去做你的前端代码哈,比如说写 ui 打地基完了之后,让 cloud 四点五去写后端做工程化,如果遇到一些代码修不了的,你可以让恰当的 gpt 去修,你可以有一个奇效哈。 所以说整体看的话,这个模型的一个能力的话,主要还是在它扩展了,就是其他行业的一个 能力吧,就是在编程这块他的提升不是很明显啊,那这个能力应该是是他们这一次提升最大的一个明显啊,最大的一个就是提升的地方吧。好,那这就是我这一期的视频评测的全部内容了,如果大家喜欢我的评测内容的话,可以给我一键三连点个赞啊。然后如果想要这一个报告以及其实是原码的,可以给我点个关注。

ppt 五点二更新了一个超级实用的新功能,只用一句话就能生成一份完整的 ppt。 你 只需要给他一个预设的主题,比如二零二三年 ai 在 医学科研中的新趋势, 选择五点二拼音模型,提交之后什么都不用管,大概半小时左右,一份有主题结构、有清晰逻辑、有配图、有设计、有排版层次的完整 ppt 就 直接生成了。生成的 ppt 支持一键下载,可以手动二次修改,并且所有的内容都附带真实可查的参考文献和引用链接,权威可靠,不是胡编的, 更关键的是,它还支持你上传的文档自动生成。汇报型的 ppt, 从小题到成稿,全流程交给 ai 科研打工人。终于不用再为 ppt 通宵加班了,赶紧去试试吧!
