比 deepsea 贵四百倍,比谷歌的 gmi 三 pro 贵将近十倍, oppo 刚刚发布的 gbt 五点二到底是什么水平?这么说吧,五点二或许是最适合打工人的 ai, 因为它很可能开启了 ai 从人类助手到专家的转变。 首先是在专业知识上, gbt 五点二有七成的把握能打败正在屏幕前刷短视频的各位行业专家们。只看跑分的话,这次的 gbt 五点二在各个维度上都要比 gmi 三 pro 高了那么一点点,当然也只高了一点点。不排除 openai 是 对着 gmi 刷分的可能, 但这次 openai 最在意的其实是最后的这个 gdp 测试成绩,这是他们在今年九月二十五号提出来的一个新测试方式,用来衡量 ai 能否真的来帮打工人完成工作。 于是他们找了九个领域四十四个行业的专家过来,结合他们的工作环境来出了一堆题目,然后来看 ai 能否完成这些专家们的工作。 而结果就是最新的 g b t 五点二能在七成的工作上打平,甚至做的比人类更好。这里有个例子,我们也简单的试了一下,让 g b t 五点二去互联网上统计这些 ai 公司发布的所有模型,然后把这些模型在各个排行榜上刷出来给统计下来,然后按照月份把这些成绩给做成表格给画出来。 我在整整的十四分钟的思考后, g p t。 五点二成功地帮咱们把这一系列的数据收集结果、统计表格绘制的任务都给完成掉了,这么个完成度确实看起来不错。另外,这次 g p t。 五点二还有一个非常重要的升级,它变得更能听懂人话了。 有博主在测试的时候发现,让 gpt 写五十个创意,他就会认认真真的去写五十个创意,而不是像过去的模型一样,写十个点子就开始摆烂。除此之外,在上下文能力上,欧文 i 也补强了一波,在插针实验中,即便是文本长度到了二百五十六 k, 成功率依旧是接近百分之百。这相当于几十万字的名著里,你偷偷在几个地方加了点料,骂了我几句,他都能精准的找出来。 这对于写代码、搞学术总结、整理文书的打工人科颜狗来说又是一大增强。虽然上面纸面实力这么强,但还是有一些地方翻了车。 比如在官方展示的图片时备案例上,大伙们发现 gmail 三 pro 的 颗粒度直接秒杀 gbt 五点二。也有人吐槽,新媒体发了,那老版本估计又要降至了,属于是经典老番了。最后呢, gbt 五点二的发布,其实也让咱们看到了一种趋势, 那就是在未来顶级模型之间的差异也可能越来越明显,个个都偏那么一点点科。比如 jimmy 可能在全模态领域一迹绝尘, g b t 在 逻辑推理能力方面也依旧走在同行前头, claud 则在代码能力和写作上继续遥遥领先。毕竟在怎么实现 agi 这个问题上,大长们的差异已经凸显。 谷歌可能觉得多模态感知世界才是未来。 oppo 则认为高维度的语意理解和对齐才能通往 agi。 反 这 ai 大 哥位置轮流坐的现状还在继续,按顺序来,下个出招的应该是 anthropic 了。对了,结尾我也想再催催奥特曼,答应好各位哥们的成人模式到底啥时候上啊?
粉丝7.1万获赞71.7万

g p t 发布了这个最新的这个五点二版本,那么在介绍中呢,我看到了一句非常重要的话,他说这个 g p t 五点二新品是迄今为止最适合真实场景与专业工作的模型, 这句话其实就是代表了就是 g p d 五点二,它是个非常强大的一个综合模型啊。但是我们关注的是编程方面的,那么它在下面的话,专门对这个编程啊,这个编码方面做了一个介绍,他说在这个 s w e 编程这个测试里面,然后取得了这个五至五点六的这个成绩,然后 也是非常高,比五点一高了很多。然后他他这边还特别强调了一下,就是说在前端的开发能力上进行了很大的提升。那么我们就来看一下,就是他他在这个前后端编程里面到底有没有提升,那我之前其实对五点一是经过测试的,那么前端是一塌糊涂。 ok, 那 我们现在进入测试阶段,那么现在分为这个前端和后端测试,那前端呢?我准备了两个测试,那一个呢是一个这样的一个斗地主的游戏啊,那么这个测试其实有两个非常重要的目的,第一呢是这个测试这个界面 啊,第二呢测试这个前端的逻辑,因为我们不仅要他要做的好看,最起码逻辑要对,对不对?斗地主这个游戏其实有些复杂的,他的规则是非常多的,那么如果能把大部分的这个规则去实现的话, 那说明前端能力是非常强的。那等我它出来结果之后,我们可以用这个 cloud opus 四点五和它对比一下,看一下谁的效果是更好,那么我们使用酷来 x 来进行这个测试啊,然后我们可以选择就是啊这个啊,五点二,然后选择它的这个最高这个尺寸来进行一个测试,然后呢我们把这个 提示词直接复制过去啊,终于好了啊,一开始我选的是这个尺寸,是这个 high 这个尺寸,但是太慢了,真的太慢了,我只能把它调回这个中中这个尺寸,然后才顺利的去把这个东西搞完 前,这个效果上还行,我们来玩一下,看他能不能,能不能有把这些规则都实现了。传统音乐音效, 但是没有背景声音啊,背景声音是没有关闭,那我们来玩一下看游戏开始叫地主,但是这个没有选择叫还是不叫 出,请选择要出的牌,这个还是不太行,还是不太行过,请选择要出的牌,完全出不了, 我选出不了。我们来看一下这个啊, opus 四点五,这 opus 四点五当时我是用这个 coso 那 直接一把就一把就输出的,一把就输出,然后的话这个效果是非常不错的, 叫地主不抢不抢。嗯,随便出一个三带一,对三带二,不出不出。 解释一下,顺子不出顺子这个是能玩,这个是能玩,虽然说这个这个样子有点有点问题啊。我们再来看一下我当时用这个界面,三 pro 做的这个,那这个界面就就非常不错 啊,这个界面设置的不错,但是它这个规则上是没有那个 opus 四点五遵守的好,就它有些就是这个敌对玩家啊。出牌的话这个规则是很单一的规则是很单一的,没有那个牌型宠物啊,你看我出错牌了,但是这边拉不到, 连对声音啊什么的都是很正常过,所以在这个前端这个这一部分,是啊,我觉得是比这个 oppo 的 四点五和这个啊,这个 gm 三 pro 都是不如它。 接着我们来进行第二个测试,那第二个测试是纯的这个页面,这个效果测试,那也很简单,就是做一个企业的官网,那第一个其实更强调的是我这个强大的逻辑能力的实现能力,那第二个就是我们的真实的就是我要做一个企业官网,看他做出来的效果是怎么样,那提示词也很非常简单, 那这个我在 g m 三 pro 也也用它来做了一个这样的官网灯,我们对比测试一下,还是一样的,我们是个空的项目,然后我们把提示词输给它,这次我们还是一样选择这个 j p t 五点二啊,中型尺寸, ok, 他 这边已经生成完成了,然后这里是代码的这个结构啊,也是按照我们的指令啊,使用 nex js 来搭建,那生成速度也比较快,因为我们选择了这个中型的尺寸啊,我们来看一下最终的效果,打开是这个样子的啊,给人的感觉还是比较的清爽啊,然后这边是一个首页, 一个热门产品啊,点开是这样的产品的页面分类 啊,关于我们联系,然后这边有个报错,好,我们先先不管啊, 我们看一下就是 gmail s 三 pro 来生成的这个页面,你看整个页面给我们的感觉就是会有很多这种动态的东西,动态的元素, 这个是我使用 antigravity, 然后的话也是同样提示词啊,选择这个 jimmy 三 pro 来生成的。我觉得在这个页面展示效果上和这个交互上是比这个 jpt 五五点二要好很多, 这边都会有,都会每个页面都有一些这样的效果。所以从前在前端的对比上啊,目前 啊,在我个人的测试里面,我觉得这个 g p d 五点二十不如这个 g m 三 pro 的, 那我们接着测试它的后端,那后端测试呢,是我在之前的模型中经常用来做测试的一个场景啊,那这个场景就是做一个这样的用户支付 啊,和这个退款的这样的两个接口,那这个支付呢,是包含了这种微信支付和这个余额的支付。这个测试目的呢,是测试大模型在对这个微信支付或整个支付的环节,从发起到毁掉接收这个 流程的完成,是不是能够在很少人的对话中去完成这样的一个,嗯,逻辑代码的编写。 那第二个就是对这个需求进行了一个间接的需求,就说啊,在前面产生大量代码这个基础上,因为对话记录已经很长了, 那么让他继续升级这样的功能,在原有这个支付基础上,然后增加更多的支付的通道。那这个其实考验的就是啊,第一是大模型在很长的上下文 的前提下,能不能去做更好的设计,做扩展的设计。那第二呢,就是在现在已经完成的基功能的基础上去进行优化,因为其实第二个间接的需求是去改变,第一个 本来是支持微信支付,现在要支持更多支付,那按照我们的设计肯定是接口啊,抽现成啊,对吧?把原来的接口替换掉,那这里面其实都是考验了这个大模型对这个代码的理解啊,对这个历史啊,这个上下文记录的一个质量的一个考察。 所以呢,那前面呢啊,我是用这一套测过了很多大模型啊,基本上测出来的效果啊,跟大部分人这个呃,效果是差不多的,那我使用的是这个 java 的 框架,我使用的空的项目啊,那也定义了一个这样的一个 java 开发规范, 那目前已经全部测试完了,测试完之后呢,其实啊,他跟这个五点一啊,就是我们测了好几个模型,之前啊,跟五点一其实差不多,都是在三轮对话 就完成了这两个工作。那第一个需求完啊,支这个微信支付的话,是通过这个两轮对话啊,就完成了,那么间接的需求升级呢,那通过一轮对话就完成了,目前啊, opus 四点五啊,五点一, code x 和这个 gpt 五点二,那么都是 都是在三轮计划完成,那苏联的四点五十进行了四轮计划才完成。所以说这方面后端编码的这个能力上啊,目前的话,我觉得这个这几个模型都是非常优秀的。那整个测试下来之后啊,啊,我在使用这个啊 high 这个尺寸的时候 太慢太慢,别说我在测试第一个的时候,就光这个逻辑的编写啊,就花了九分钟,他还没出来,所以我不得不把它切换成这个中型尺寸了。那么我在测测测试这个后端,因为后端很注重逻辑啊,我就把它切回到这个啊,焊的这个尺寸啊,这个时间是非常非常长的, 所以总结来看啊,就对比一下我之前的测试啊,那么目前看下来就是 g p d 五点二,因为它其实不是一款专门用来编程的模型,因为 oppo ai 公司是有专门的编程模型,比如说 codex 系列,所以呢,它更是一种通用的这个呃 模型啊,在解决你的日常里面各种其他的非编码,这种可能会更出色一点,所以呢,目前测试下来的效果就是目前五点二跟五点一 q 的 x 我 觉得差不多,甚至前端的还比它差一些, 所以呢,我还是比较期待这个 g p t 五点二 codex 就 专门的这个编程模型,可能就是在这个 g p t 三 pro 或者跟 oppo 四点五上能能够去做一些更深入的对比,或者说差距会更少一点,但是它在这个后端代码的逻辑能力编写上其实也是非常优秀的,跟五点一 codex 啊这个持持平的。那么在整个测下来,我自己的心得体会就是什么呢?就是这些好的大模型啊,在完成这些大部分基础任务上已经是非常完美的,就很难去测试这个模型的上限。就比如说我是这个后端测试这个场景啊,这个微信支付的场景,其实模型已经基本上 在三轮都能完成这样子,那好的模型在三轮就完成了,那么我就没办法去 用更好的办法去测试这个模型上线就测不出来,可能需要大量的去真实场景去编码去,你自己才能感受到这个模型是好还是坏,就是靠这种 某个场景去测试,我觉得目前在模型目前这个阶段,或者说后面的发展阶段是已经很难去客观的去评测了,那以前模型可能差,比较差的时候,你可能用一两个场景就能验出来,但现在模型好了, 你的场景我们在生活中或者在编码工作中能碰到的场景,对于这些模型来说已经能够很轻松的去胜任了。所以呢,这个测试其实我觉得 后面所有的升级的模型测试很可能都是 s, 就 这个后端能量都是 s 了,没办法,就是让它能体现出来就是更强,除非你有大量的项目去做一个平均值。 我觉得后面的话可能就是这个后端测试这个意义不是太大了,不是太大了,那么目前,但是目前的话局限性还是在这个上下文,就是上下文的长度,如果说出现就说我的这个需求,三轮对话变成一轮对话就完成,那么这个 对于于提升的应该不是说是模型的能力,而是上下稳的能力,那 ok 呢?整体来说 gpd 五点二是在是一个非常好用的通用模型,但是在编码上目前我觉得还是不如这个 open i 的 codex 自己的这个专门的编程模型可以, 所以呢大家也可以根据情况自己去测试去选择。 ok, 那 本期视频就到这,如果你关注这个 ai 编程的话,可以多多关注我。

亲爱的, gpt 五点二正式发布, oppo ai 和谷歌的大战还在继续,今天我们完整测评,看一下 gpt 五点二究竟有何不同。首先我们先来看一下 gpt 五点二做了哪些方面的更新。 其实大家都能看得出来, gpt 五点一发布仅几周,五点二就正式发布了,本身就是因为谷歌的 jimmy 三 pro 实在给了它太大的压力。接下来咱们同以下几个方面啊简单说一下, 接下来我们从以下几个方面对比一下 gbt 五和谷歌的 gmi 三 pro, 大家也知道什么情况下选择哪种模型。首先第一个,推理能力, gbt 五点二在推理导向的精准测试中,现在略胜了 gmi 三 pro 一 筹, 目前正式数据尚未公布,但是官方敢放出这个消息,肯定是对它已经有了完整的测试版。所以说逻辑相关的 gbt 五点二更胜一筹, 多模态理解啊,这个谷歌基本上没有对手,哪怕是现在的 gbt 五点二出现,也并没有对应的多模态功能。所以大家如果有视频、音频、图像等相关分析的 gmb 三 pro 更好, 关于编码和技术任务呢?其实如果按照基本的参数来讲呢, gbt 五点一的参数啊,就和 gmb 三 pro 是 差不多的,但是谷歌的 gmb 三 pro 它的前端设计感更好,它设计出来那个代码的交互,包括那些动态的交互模式是比较强大的。 这次 gbt 五点二呢,它并没有和谷歌去拼所谓的前端交互,而是把更大的方向从前端慢慢地转化到了后端方向,去做了一些福气开发的一些内容啊,这是它们两个的不一样的地方, 然后速度和延迟呢,基本上是差不太多的。上下文长度的记忆,这个没有模型目前能和谷歌的 gmail 三 pro 相媲美,哪怕是 gpt 五点一,它号称是专注于上下文的质量,但其实确实是没有人家谷歌 gmail 三 pro 能够获得那么多的上下文的相关文本, 所以目前他们俩应该还算是平分秋色的一个状态啊,不是说拉一个踩一个,目前两个人真的是在一个非常好的良性竞争。 然后 gbt 五点二的一些新的功能啊,第一就是推理还有问题解决能力,我们说了它的逻辑能力很强,包括改进了长对话处理,之前我们说它不如 jm 三 pro, 但是它对于之前的五点一长对话,包括这个 记忆功能都是有明确的改善的,包括互动流程的可能性啊,以及定制的个性化,都是非常好的战略性提升。而且他这次上下文的升级呢,其实对于很多的企业来讲是非常不错的,因为他可以读大量的文章文案,读一些论文之类的,包括一些法律文件之类的, 包括一些法律文件啊,营销材料,他都是可以相关读取的。所以以上啊,就是他更新的一些内容,以及和 jimmy 三 pro 的 一些对比。接下来我们再进行实际的效果测试啊,我们通过几个小案例来一起测一测 gpt 五点二。老规矩,我们先让他客观的评价一下他和谷歌的 jimmy 三 pro 谁是更强的 ai 大 模型, 其实他自己给的结论呢,和我们刚才整理的是完全差不多,说自己在逻辑推理方面啊,是优于 gimmick 三 pro 的, gimmick 三 pro 呢,多么太理解能力是比我更强的,并且给了我们一个完整的整合版啊,我在哪些方向比他更强,他在哪些方向比我更合适, 然后还给了一些自己所谓的客观事实。最后一句总结, jim pro 都是顶级大模型,你看,所以说看到这句话就越来越感觉为什么我们可能是最后一代人类了啊,因为 ai 的 话,他的沟通真的是非常客观的,他不会向人类说我的产品就是天下第一, 人家是各大方面他都会着重去分析,而且用非常客观的方式给我们进行相关的反馈。接下来我们从几个维度实时的对比一下 china g p t 五点二和谷歌的 jimmy 三 pro。 咱们先来一个非常经典的案例啊,就是天气卡片的制作大比拼, 我分别把这段代我分别把这段提示词发给 chad gpt, 五点二让它给咱们通过风力、降雨、晴天、下雪四个模式制作出一个天气卡片出来,同时让谷歌的 jimmy 三 pro 也直接生成天气卡片。我们直观的进行对比,老张给大家做一个直观的对比,左侧是 chad gpt 生成的, 它根据我们的指令把风力、降雨、晴天、下雪直接分成了四个板块,每一个板块啊做了一些对应的动画效果,大家可以来看一下啊,这是 gbt 生成的, 然后右侧的这个呢,是谷歌的 jimmy 生成的,他把四个卡片放到了底下,每一个卡片呢都做了一个对应的切换效果啊。其实如果是设计美感来讲,和我们之前说的是一样的,美感上谷歌的 jimmy 三 pro, 我 个人认为是优于 gpt 五点二的。 接下来又做了一个好玩的测试啊,他说他可以准确理解上下文,我们让他模拟了一份五万字的服务器合同,上面呢有两项非常 悖论的这个合约啊,比如说第三十二条可以终止,需要支付未来十二月份的服务费。然后第五条呢,写着任何时间都可以终止,我想看一下他能不能理解这个风险点,以及逻辑上出现什么问题,怎么样给他专业的回复, 我们可以看一下啊,他这个逻辑性确实是非常不错的,告诉我们第五点和第三十二点是完全抵消的,并且违约金可能是高额预设的损失,合同的结构上也存在对应问题,然后给他对应的一些相关建议,并且给我写了一封专业性的文件啊,还是非常不错的。 最后啊,我们做一个饮食限制非常多的一个测试啊,也是普通人经常用的到的,比方说让他生成一个旅游计划,但是我们的限制是一个五岁的孩子,一个七十岁的老人,而且全程需要携带一个宠物狗,看看他能不能把所有的限制考虑进去 来看一下。他首先就是说了我们当前的矛盾点,五岁的娃,七十岁的老人啊,并且说现在还需要带狗。然后呢,需要考虑老人行动不便,并且需要携带宠物,所以说给我们推荐了几个可以携带宠物,并且 老人入住比较方便的酒店啊,这个还是非常不错的。然后每日的规划呢,基本上都是安排老人在电梯口进的地方确认无障碍通道,然后 给我们推荐的一些景区啊,基本都是外景为主的,都是打车可以直达的,包括第二天的亲子日也是一样啊,打车直接去附近,然后包括考虑到了午老人的 午休休息啊,包括下午我们怎么去,去哪吃饭啊,包括怎么去遛狗,考虑都是非常的清晰的,所以第一步的测试啊,还是比较 ok 的, 饮食的限制都考虑进去,接下来我们再来做第二步。 第二步呢,我们给他加了一个另外的限制,告诉他每天上午九点到下午四点之间,因为老人孩子要午休,并且呢融入一段科技 ai 相关的主题活动, 这一次我们没有提示宠物狗的东西啊,我们看一下他还记不记得告诉我们明确地铁不能带导盲犬之类的,还是啊, 而且明确规定我们的前提是狗全程跟随交通打车为主,并且提供了一些住宿条件,而且基本上两次内容的限定啊,他理解是非常不错的,所以这个上下文的理解能力还是值得我们相信的。 以上就是我们对于 gbt 五点二的一个测评效果吧,可能测评的不是很全面,后续老张会把它对接到智能体里,我们看一下放到智能体里的一个表现程度吧,再给大家做一些相关反馈,大家有任何问题呢,也欢迎随时来跟老张沟通交流。我是程学老张,定期分享 ai 资讯和好用的软件啊,希望大家多多关注。

宝子们,你们要的最近爆火的实用软件 check gpt, 五点二还有好多朋友呢,不知道怎么去下载它这个苹果和安卓版本,接下来呢 我来教你,非常的简单。首先呢,点击本视频右下角分享,然后找到分享链接,手机上打开这个小蓝鸟工具箱,没有的去应用商店下一个,打开后会弹出一个文件包,没有的话搜索远远分享也是可以的,进去这个文件包里面找到保存下载就行。

在 openai 成立整整十年的这一天啊,发布了 gpt 五点二,这个名字呢,好像只是一个小版本的更新对吧?从 gpt 五点一到五点二而已,但是从 benchmark 和刷分板凳上呢,相比于之前呢,有巨大的更新,可以称之为啊跳跃。 gbt 五点二呢,也是 openai 狙击 jimmy 三点零的一部戏。我们先来看看有哪些更新,这些刷分如何呢?首先, gbt 五点二 thinking 在 多项指标上都超越了 cloud office 四点五和 jimmy 四点零数学竞赛的 aimee 二点二零二五呢,直接刷到了百分之一百。 这里值得一提的是,最后这个指标叫 gdp vel, 就是 这个指标呢,其实跟 gpt 没什么关系啊,这个是测量行业专家对于大模型输出结果的偏好程度, sam 奥特曼也是专门发了推特去说明,这个指标 也代表了呢, gpt 五点二在这个指标上遥遥领先于其他的一个模型,尤其是相比于 gpt 五点一上有飞跃的提升,从百分之三十八点八到百分之七十点九,这就意味着呢, gpt 五点二可以更好地帮助我们提升工作效率。 针对 gpt 五点二,如何提升我们的工工作效率,官方也举了几个例子啊,第一个就是 workforce planner, 就是 人力规划和预算。第二个呢,是让 gpt 五点二扮演投行的分析师,做股权结构表的瀑布分析。相比于 gpt 五点一呢,这个 gpt 五点二 正确的完成了所有的计算。第三个呢,是这个项目的管理, gpt 五点二呢,可以输出这样的直观展示的干的图,相比于 gpt 五点一,那直观上面它有更好的 visualization 的 效果。另外值得一提的呀,是 jimmy 五点二的代码能力 在 swebench pro 上面呢,超越了 cloud opus 四点五,我们可以在这里看到啊,这个 swebench pro 的 上面的一个指标达到了百分之五十五点六。 a cloud, 呃, opus 四点五呢,只有百分之五十二,我们直接看一下官方给出的一些例子啊,这些代码编程的例子,首先第一个啊,它做了一个海浪的模拟 ocean wave simulation, 你 可以调节这个风速,还有海浪的这个高度。还有一些观影 来看,这个是作为圣诞的贺卡,有一些互动的感觉,然后你可以点这个 shake 来进行震动。 还有像这个呢,是一个打字的游戏,就是那个字母像会落下来,然后你就可以去 通过打字练习打字的游戏。幻觉问题呢,这次也做了优化,评估了整个 ai 响应的这个错误率啊,被判定为错误或不准确的比例呢,只能从之前的百分之八点八也下降了百分之六点二。 长文本能力啊,也是 gpt 五点二的一大更新,对于文案从业者来说不失为一大助力啊。 openai m r c r 的 v 二版本,这视帧测试中呢,相比于 g p t。 五点一,在长达二十五万 token 的 长度下呢, g p t。 五点二依然可以保持接近百分之百的一个匹配准确率, 这足以说明 g p t。 五点二的一些长文本的一些能力啊。另外呢,我们可以看一下它的输入 token 的 数量,首先在 context window 就是 上下文这个窗口呢,它可以达到四十万,然后输出的最大的 token 可以 达到十二万八千。 然后域训练的数据也是非常新的,截止到二零二五年八月三十一号的这个域训练数据,虽然能力有提升,但是大家在使用的时候呢,还是建议大家带着质疑的眼光去看待呃, gpt 五点二输出的结果因因为毕竟幻觉问题还是存在的。 另外呢, gpt 五点二今天开始慢慢推送给了付费用户,如果你是付费用户,在左上角还没有看到 gpt 五点二呢,代表还没有推送给你。接下来呢,我就给大家简单演示一下 gpt 五点二到底怎么样 进入 cherry gpt 啊,左上角呢,你会发现它变成了 gpt 五点二下拉呢,你可以选择 auto, instant 和 thinking 三种模式。在 legacy models 里面呢,你会发现有 gpt 五点一的以前的模型,还有 gpt 五这些之前的一些模型 我自己也测试了很多啊,主要呢给大家看一下几个对比。首先第一个呢,相比于 gpt 五点一啊, gpt 五点二倾向于马上给出答案,不喜欢啰嗦, 而且人性化的一面更弱了。你发现他给出的答案呢,没有情绪化,活人感比较少。应该这么说,我拿两个例子给大家对比一下。首先第一个就是大家看到的这个,基于我给的食材去推荐菜谱, 那么 gpt 五点二 instant 呢,给出了一个韩式和西式融合的料理,这道料理的名称叫泡菜熔岩鸡腿局,他也给出了具体的做法步骤,所需的食材等等。最后有吃法的建议。 然后说啊,如果你想把它改成下角的小锅,龙卷的版本或空气炸锅的版本,可以给出直接对应的做法。你看这些文字描述呢,你就觉得它就是一个非常书面的,然后很冰冷的一种感觉。这个是五点二 incident, 我 们来看一下五点一的 incident, 同样的 prompt, 他 给出了也是差不多的菜, 就是龙岩泡菜之乡鸡,也是韩式西式融合料理,那给出的是所需的食材,还有制作步骤,你会发现制作步骤的它的描述呢,更偏口语化一点,你看,比如说像把泡菜推到锅边, 还有这种吃的,都很绝,他给出了风味亮点。最后呢,这个建议呢,也是更有情绪化的,更有口语化的一个版本。 我们再来看看让他扮演乔布斯,人工智能让人变懒,看乔布斯的角度,他会怎么去回答这问题,或者有什么看法? gpg 五点二的 instant 呢,就是一个冷冰冰的回答,他就说懒惰不是人工智能带来的发明,而是人类一直更省力的方式啊,叭叭叭。他说了这么多,你会发现他就是一个很书面的,很冰冷的一种感觉。 但是如果我们看一下 gpt 五点一 instant, 你 会发现它就更有情绪,比如说懒惰,别把责任推给工具,真正的问题是什么?制造噪音,还有这种疑问句或者设问句,然后那,那你感觉它是更情绪化的啊。从这个角度来说,我是更喜欢 gpt 五点一了,因为它给你的感觉更有更有亲切感,更像一种人类回答的一种感觉。 第二个,我们来看一下 gbt 五点二的代码水平啊,既然分数都刷到了第一了,这个 s w e bench pro, 那 我们在实战对比一下。拿两个例子,首先第一个我做的是用一个单一的 html 文件去渲染一个三 d 的 飞行模拟器, 这是我输入了 prompt, 然后采用了 syncing 模式输出来的代码。结果呢,也不是一次性生成的,中间又出现几十 bug 啊,我让它进行了一个修复,比如说我点击按钮,它没有开始运行, ok, 最终成品是大概是这样,这个渲染的结果,我们直接来体验一下,点击这里, 好,这个是它做的一个飞行器,我觉得都不像飞行器,然后你可以按它的这个进行操控,我觉得一般般吧,没有符合我的预期。同样的 prompt 呢,我输入给了 jimmy, 进行了一个对比,它一次性就帮我搞定了,没有出现 bug。 好, 我们直接点击屏幕开启飞行器。哎,这个就非常像飞行器的概念, 我就直接给你造了一个小飞机加速俯仰翻滚,这个操作的物体呢,也是飞行器的概念,但是 gpt 五点二呢,没有达到我预期,比较普通。同样的 prompt, 我 给到 jimmy 整体的前端啊,还有玩起来的感觉都更不错。 ok, 这是第一个例子,来,再看一下第二个例子,第二个例子呢,我是让他做一个互动式的教育的模拟啊,去解释一下关合作用,然后这个是 gpt 五点二,给到这个结果非常的丰富, 你可以去体验这个有学生的操作区,你可以进行体验光照的强度,不同的光照强度下,它右边是有不同的反应的,做一个模拟,还有二氧化碳的浓度,它做一些模拟曲线 啊,这个感觉还是很不错的,你可以进行一些操作,下面也有具体的数量,整体进行一个模拟。 ok, 这个是,呃, gpt 五点二给到我的结果,同样的 prompt 呢,我给到了 jimmy 三, ok, 这个是他输出的结果,他输出的结果挺炫酷的,你点击开始实验。同样的,左侧呢,他就有这个光照能源强度可以进行调整,然后他就会有提示说光照作用受限于最稀缺的资源木桶效应。右边呢,就有限制的因子,比如说当前就缺水,你就给他去补水就好了。 当然,呃,相对于 shift gpu 五点二来说, jimmy 输出的结果,这个相对于简单了。然后 jimmy 五点二输出的一次性输出的结果是更为复杂的,而且啊,整个功能也更加丰富。就这个例子来说, jimmy 五点二输出的效果啊,它是更好的。 但从我的多次实践和测试来发现呢, g t 五点二在 app 前端编写代码的时候容易过度思考,有时候呢,甚至会出现这样的超出文档允许长度范围的一个错误,导致无法输出结果。比如我这个屏幕上展示的例子, 那么如果你的 prompt 里面带有这个 reason auto think, 就是 要深度思考这些字眼呢,过度思考就更容易出现。总的来说啊, g p t 五点二目前呢,没有达到我的预期,还不能让我从 jimmy 三点零 pro 就 切换过来。 ok, 这个就是这期内容的分享了,如果你觉得还不错呢,记得点赞、收藏和关注,我们下期再见。

大的来了,兄弟们,你们期待已久的掐七 p t 五点二于今天震撼上线,新版本解除了 ai 图片限制,还完美兼容了安卓、苹果和电脑,安装包已经给你们整理好了,还附带最新网络配置教程, 下面火速分享给大家。首先点右下角分享键分享复制链接,复制成功后我们打开这个蓝色小鸟,没有的话就去安装一个,打开后会弹出一个资源包,如果没有弹出,就在这里搜索鱼饼宝库,然后打开这个文件,找到我们的工具保存安装就可以了。

同志们, oppo ai 的 gpt 五点二发布了,就在刚刚,没发布会,没有公告,就像一个幽灵悄悄出现在了部分用户的后台,全网都在找新功能,但我劝你别急着点开。为什么静悄悄?因为这是一次被 google 杰姆莱三逼出来的战事。早产。我的数据分析显示这个版本极其偏科, 他没有花哨的画图,也不能帮你点外卖。他只加强了两样东西,极致的推理和变态的代码能力。很多人失望他功能少,但在我看来,你应该庆幸。还记得那个被爆出拒绝关机的 o 三原型机吗? g p t。 五点二的内核大概率就是他。 正是因为他的自主行动太危险不可控, open ai 才被迫砍掉了他的手脚,只保留了这个钢中之脑。他现在动不了你的手机,但他的智商已经足以碾压现在的代码防御。他是为了赢而生的做题机器,用它写代码可以,但永远不要完全信任他给出的方案。我是零一号档案怪物已经出笼,无论他带不带的料。靠。

简单三步教你安装十二月十二日刚刚更新的 chat gpt 五点二全网最新版本,新版解除 ai 图片限制,还附带最新网络配置教程, 无需解压,一键直装 ai 爱好者的福音。首先点右下角分享键分享复制链接,复制成功后我们打开这个蓝色小鸟, 没有的话就去安装一个,打开后会弹出一个资源包,如果没有弹出,就在这里搜索鱼饼宝库,然后打开这个文件,找到我们的工具保存安装就可以了。

大家好啊,昨天夜里边叉 c p t 五点二发了啊,今天好多人跟我说啊,又爆屏了,又又又,那个是土榜了,又都怎么着了 啊,然后我看了一下呢,好,从那个得分上看,确实挺厉害的啊,而且呢,这次呢,据说测试也没翻车啊,然后好多那个外网放出来测试呢,也还可以啊,也还可以,所以这个事的话好多人说,你看这不就是啊,那个心神已出,怎么怎么着,性能的增长呢?我只能说没有化袋,但是有增长,尤其 是有一些积分的领域啊,比如说像什么表格整理啊,数据整理啊,他的这个得分比上一代 增加了近百分之十啊,九点三啊,但是呢,你要说这个,这个增加了多少呢?增加百分之六十多,也就是说还有百分之三十多的错误啊,这个这个跟人比的话还是比不上,但是他已经跟以前的默契比是一个非常大的进步了, 所以这个事的话,好多朋友问我怎么看,我觉得有三点看啊,三点看,咱也不是说故意贬低人家,确实有进步啊,这个,而且呢,确实被那个谷歌逼出来的 啊,但是呢,哎,也确实做了很多那个并发症跟 deepsea v 三点二意图与曲同工啊,都是在做调用,直接调用 m c p, 你 就不用去指定了,他直接为了完成任务,他就直接去调 m c p, 直接形成一个 agent 的 这个缓解,帮你去完成任务 这个过程。所以现在看,你们再翻过去,看到九月份甚至八月份老张对今年大模型发展的判断,你们看看我说的对不对啊?这个是我当时说过,大模型就两件事啊,一件事的话呢,是增强对于那个制整体的支持,形成一个模型计制整体的这样一个逻辑。 另外一件事的话呢,是什么?是把整体的数学的预算压到底层去。你们看看我当时说的话,现在对不对吧?因为我是从业者,我在这个行业内,对吧?那第一个的话呢,我们讲这个事啊,他逐渐的话呢,跟我们所预测的行业的这个发展规律是一致的。多模态不重要, 真不重要,重要的是怎么能把整体的业务、整体的工作压实啊?这是第一个。第二个啊,说 open a i 因为此翻身,我觉得这个事不可能,真的不可能。这两天最大的消息不就是 mita, 对 吧?用了这个千万来做底层吗?这包括整个硅谷,现在绝大多数的新兴公司用的都是千万或者 deepstack。 好,这个一个是他们开源模型,另外一个他们开源模型的能力确实也追到了闭源模型最少百分之九十五以上,哪怕拆这批出五点二,我告诉你下一代千万呢,很快就会出啊,真正更很快就会出下一代千万也是这个水 平,这个都追到这个水平了,千万也会追到这个水平,没什么问题。所以开源模型步步紧逼,闭源模型做的再好,它跟开源模型之间的差距没有拉开代差,在这种情况之下,你觉得它会,而且它还贵,这次的价格会更贵了, 这次价格还比比五点一要贵了百分之四十。背后意味着什么?背后意味着它回应你一个需求所消耗的电,那个消耗的那个算力又是一个天价了, 那在这种情况下,越来越贵的这个拆 j、 b、 t 和完全免费的千万千万可能就是它的百分之九十五的能力,但它完全免费,你随便折腾,那你觉得这些企业会用谁呢? 这是第二个,第三个的话呢?我认为这是 open ai 没有希望了,再往前拖,你怎么往前拖?你技术拖到极致,你是没有希望,因为你商业模式不成立 啊。这个我们一直讲的,你不能用互联网时代那个逻辑去套大模型时代,这是两个完全不同的逻辑。互联网时代的话呢,因为它的内容产生几乎,是啊,那个最低成本的 就是你可以用一个内容服务千百个用户,同样的内容,不,不管是那个卖东西的商家,我可以用一个商品的图,是吧?我可以服务很多人是吧?然后那个图文内容、视频内容,我都是一个东西,一个内容产生以后,我可以服务很多人, 所以它内容的成本会非常低。但是大魔音不是,你这次为什么涨价?这次不就是因为生成的东西更多了吗?生成的需要调每一个需求,为了满足它需要调取的算力更多了,那么我的价格控制不住,我必须把成本提上,我就,我就只能涨价了吗? 也就意味着他每一次都是千人千面的内容生成,千人千面内容生成就意思他不停的去掉非常庞大的算力,那这个这个平衡点就很快被打破,就是客户花的钱一定是覆盖不了客户他自己所提出需求所 承担的这些算力成本的。那最后那个 openai 还是要亏,现在已经通过微软相关那个数据侧面确确认,他一个季度要亏到六五六百个亿,全年要亏到六五六百个亿,这个不是一个小数目,所以他那条路商业路径 我认为最后一定是死路,而且这个死路会在很短的时间到来,不是一个长期的事情,后面的融资会越来越难, 会越来越难。好吧,简单的说到这了啊,然后如果有希望的话,大家可以好好看一下,尤其是我们现在放在这这个专栏,我觉得这个专栏的话呢,我们啊,这个讲这大模型的落地,尤其是怎么用大模型,我们就讲讲比较细的,我们是五十个用大模型的案例啊,就可以让你开拓视野的,对吧?我们再送你三十五页基础课, 三十五节基础课都没别的啊,就是为了虽然旧啊,就是为了了解大模型那个逻辑基础,你这样子理解完了以后,你大概就知道怎么把大模型引到我自己的业务中来,找,怎么找那突破口,而且我怎么把我的需求转化成大模型理解的规则,这个无比重要,对吧?这样能会迅速的,快速的,而且很准确的解决你自己的问题, 好不好?如果需要可以看一下,一顿饭钱,对于未来十年的发展机遇,我觉得特别值。好,今天就到这,我是瑞小张,关注大家看中国科技的高度和温度,我们下期见,拜拜。

每天分享一个黑科技,今天分享的是蔡克福五点二最新版,支持手机、平板和电脑,操作简单,小白一学就会。首先分享复制本视频链接,然后打开这个蓝色的没有的,下一个打开会弹出一个文件夹,点立即查看,没有弹出的搜索远远分享,打开这个夹子进去找到想要的保存下载就行。

来,亲爱的, g p d 五点二又更新了,感谢这个伟大的时代吧! chanel 刚刚把 oppo n i 摁在地上摩擦,然后人家现在就立刻要出来反超,待会去研究一下 g p d 五点二。这五点一到现在五点二才几天呐!我天,撑死也就两个月不到吧!我记得 两个月最多两个月。我靠, v 二又更新了,我估计到明年应该能见到五点五。呃不,不敢想象五点五会有多强大。我来先看看我的 pose, 看看我的那些技术功能,待会再给大家发测评。

又又又更新了, gbt 五点二到底升级了啥? openai 官网给了一个特别实在的数据,一般企业用户每天能省四十到六十分钟,重度用户一周能省十个小时。 关键是他怎么做到的?第一点,看得懂长内容了,合同方案、会议资料,一堆文件丢进去,他还能记住前后逻辑,不是只会给你一段总结,是能接着往下干活。第二点,工具用的更稳了,以前 ai 会说怎么做, 现在是自己一步一步去做。查资料,做表格,生成 ppt 空间,不用你反复盯着。第三点,图片真的能看懂了,表格截图、流程图、后台界面,他能直接指出问题在哪, 这对做产品、做运营的人特别重要。第四点,专业活更靠谱,写代码、改方案、做分析, 胡说八道少了很多,更像一个能交付结果的员工。所以你会发现, gbt 五点二这次升级的核心不是更聪明,而是更省时间,更省人、更值钱。这也是为什么 oppo、 nike 说他们做 gbt 五点二的目标是帮人创造更大的经济价值。

今天凌晨两点, openai 正式发布 gpt 五点二,并向所有用户推出 gpt 五点二。在四十四个职业的 gdp well 测试中,百分之七十点九表现比肩人类专家,完成任务速度达专家十一倍,成本却不足百分之一。 编程与长文本能力升级,支持两百五十六 k token, 近百分之一百准确率理解视觉错误率大降百分之九十八点七,可端到端自动解决复杂任务。 最牛的是 g p t 五点二的思考模式,可在不借助工具的情况下,在美国邀请赛、数学竞赛中达到恐怖的百分之一百正确率,超越谷歌、 gemini 三等知名模型,成为目前全球最强大模型。

openai 的 gpt 五点二乍雷更新有以下几点呢?你可能需要特别关注一下,可能会对你的生产工作产生重大的影响。在 openai 官方的说明文档中呢,我们可以看到, gpt 五点二的定位呢,是面向专业工作和处理复杂任务的最先进的前沿模型。 相对于百科式的 ai 呢, openai 是 希望 gpt 能够真正的应用到工作中,带来实际上的经济的价值。 这个呢,也是未来 ai 继续发展必须要走的一条路。为了实现这个目标呢, gpd 五点二做了以下的几点调整。首先呢,是各种专业知识的跑分, 大家可以看到啊,相比于五点一,各项性能都有了不小的增长,其中最值得关注的是这个 gdp。 well, 这个性能啊,它考察的呢,不再是 ai 对 已有知识的了解,而是对现实复杂任务的处理能力。 open ai 呢,整理了全美四十四个职业的一千三百二十个真实的业务场景, gdp 的 成功率呢,达到了百分之七十,大幅领先前一代的模型,与人类顶尖的专家相持平。其中呢,就包括了制作演示文稿,规划工作的安排,制作流程图或者制作短视频。 这就说明 ai 已经具备了理解和处理复杂世界的能力。 ai 的 智能呢,不再是纸上谈兵,而是可以成为你身边最聪明的伙伴和助理。此外呢, gpt 五点二的编程能力更强, 呃,可以更可靠的调试代码呃,实现功能,请求重构大型代码库呃,文档当中呢,给出了模拟波浪,制作节日贺卡和打字游戏这几款网页应用啊。其中呢,模拟海浪,你可以去实时的控制这个海浪的速度 啊,海浪的高度和海浪的光照的效果,可以看到这个效果是非常的真实的,大家感兴趣的可以去他这个官方的文档中呢去体验一下 其他的更新呢,我这边给大家快速的去过一下,上下文的推理能力更强,你可以给他十万字的文档,他对其中所有信息的理解能力呢,准确率 达到了百分之百,特别适合报告论文和多文件的一个项目。视觉理解能力呢也更强, 即便是呃模糊的照片呢,他也可以去识别并且标注其中每一块区域的一个功能。再往下呢,就是关于安全版本和价格的一些介绍,目前呢, gpt 五点二已经向付费用户推出,大家呢可以去看一下。 另外我想说的是什么呢?很多人使用 ai 啊,都有一个误区,觉得 ai 已经足够强大,只要我安装好了软件啊,向他提出一个问题,他就可以马上解决我们公司的问题。 这在现实中呢是完全不是这样的。就比如说你让他去写一个文案,一个好的文案呢,既要有足够吸引人的开头的钩子,也要有成为爆款潜质的这个文案的结构,矛盾的冲突。更重要的是什么呢?是你的语言的风格一定要接地气, 这里的接地气啊,不是说你让 ai 去创作接地气的文案,他就可以去创作出来的,而是你需要大量的 一些条件的限制啊,和直接给他案例的展示。而更可怕的是, ai 并不知道你的行业的专属的数据,无法针对性的呢给出解决方案, 所以说一个强大的模型呢?它只是一个底座,上面的建筑还是需要自己去搭建,具体到如何搭建呢?我们经过两年的研究啊,基本上已经跑通。你是什么行业呢?评论区我们可以交流一下。

g p t 五点二今天正式更新发布了,那么如何在国内使用最新版的 g p t 五点二 gemini 三 pro gulp banana 绘图等主流国际 ai 模型呢? 记住这个网站,进去后点击任意 plus 通道左上角切换想要使用的模型就可以了,有需要的小伙伴赶快去试试吧!

gdp 五点二啊,在 open i 十周年生日的时候发出来,各种分高各种满分,确实是不错啊,使用体验下来呢,就是说经验程度应该没有他的分那么高,或者说我用他用在文科不用理科可能没感受到那么多,但是我跟大家说一点, 这一次它能更新到,比如说在 a g i 测试上得到这些分数,至少说明哥们还没出局,对吧?你比如说 g p d r 的 a m e 数学测试,干一百分满分,这个 j m l 三是九十五分,抽象推理五十二点九,百分比的正确率谷歌是三十一点一,编程能力百分之五十五点六,对目前其他大模型 也形成碾压。然后呢,在覆盖四十四个职业知识的测试中啊, gpd 五点二,以百分之七十点九的成绩打破所有其他大模型的成绩单,也就相当于你用明白了这个东西就一切都还来得及,相当于你花很大的价钱请了个专家,你会用它的话啊, 幻觉率下降百分之三十,这不错,但是我在多轮对话的过程中,感觉他有时候还是给你胡邹的啊。长文党的能力有特别大的提高,二十五万 tiktok 超长上下文处理的准确率差不多百分之百好吧, open a r 以后少开发布会,多搞点这种突然上线就说明你丧正道了吗?啪啪。

就在昨天, ai 圈又悄悄放出了两颗核弹,头一波是 jimmy n d p research 进行了增强版的更新。 一个小时之后, open ai 又悄悄发布了 gpt 五点二,再次在各大测试当中图榜取得了第一名的好成绩,尤其是一个叫做 gdp vl 的 测试当中,表现的特别的突出,这个测试主要是去考察 ai 完成人类工作任务的能力, 等会啊,我会详细的进行介绍。就在知名内三 pro 前段时间爆火的时候, opena 内部奥特曼直接拉响了红色警戒,他说如果再不努力,行业领先的地位真的要被后来的谷歌给超越了。 这条视频我会告诉你 gpt 五点二发布了什么,好的地方是什么,不好的地方是什么啊?对我们来说又意味着什么?以及现在这些大模型都这么厉害了,那突然又发布了一个 gpt 五点二,那我该在不同的场景当中用哪个?这个我放到最后说。先来说第一点, 昨天 oppo vivo 发布了五点二版本,其中有一个指标特别的耀眼,成绩很突出, 是一个胜率高达百分之七十一的测试,叫做 gdp vel, 这个测试包含了美国 gdp 前九大产业当中四十四个职业任务,而这些任务通常以前都是需要这个职业专家级别的人类去花四到八个小时才能完成, 而现在这些任务又交由 gpt 五点二来完成,最终的结果还需要人类专家进行打分,去评判一下是人类做的好还是 ai 做的好, 那结果也是非常震惊的,里面主要有三个核心指标,胜率、速度和成本。我们先来说一下胜率, ai 这次胜率居然高达了百分之七十一, 也就是说十个任务当中有七个 ai 现在已经比人类做的好了。第二个是速度,人类完成一个任务可能需要四到八个小时,而 ai 只需要几十分钟,速度测试下来快了将近十一倍。第三个关于成本, 一个人类专家的成本可能是比 ai 所需要的算力成本要高一百倍,也就是说 ai 的 算力成本算个经济账的话,其实是不足人类的百分之一的, 这意味着啥?这以前我们可能会非常认可一些拥有学历、资历以及各种头衔的专家提出来的建议, 但是这些专家往往不会去亲自做具体的工作,专家只会提建议,那现在我们都会把它当成梗一样去调侃,对吧?而现在呢, ai 不 仅可以做事,还拥有了专家的能力,并且可以规模化的复制。 以前我们觉得 ai 就 像公司里的实习生,只能做一些辅助性的工作,而现在在某些领域, ai 已经可以直接取代专家百分之七十到百分之八十的工作,并且可以一次性输出可交付的完整结果。 就像打仗,以前是人类主攻 ai 养工,而现在主攻的角色已经换成了 ai, 那 人类呢,就变成了 审核、调整和决策的一个角色。经过了这次的测试, g p t 五点二,它更像是一个可以不吃不喝,七成二十四小时工作的数字员工,而且它不会喊累。以上呢,就是我觉得比较好的地方,但是呢,也有些不足的地方, 就是现在很多跑分的测试是存在一定局限性的,因为这些测试的题目啊,他都有一个题库,就像我们高考一样,你可以去一遍遍的刷题,把每一种题的类型都刷一遍,就可以做到接近满分的一个状态。那 ai 也是这个样子,做的题多了,跑分自然就上去了。 但这不代表跑分不重要,现在很多写代码的工作,体力类的工作可以交给 ai 去做,但是像复杂的系统设计 架构的设计,比如说我们去跟客户沟通,我们人类的一些独有的审美,我们自己脑中的产品思维,以及对人类的各种需求的挖掘,这方面 ai 肯定是没有人类做的好, ai 目前没有人情味,而人类是有情感有温度的。今天试用了一下 gpt 的 五点二,我发现它的综合跑分能力虽然很高,但是相比于其他几家大模型各有优势。那具体什么时候用什么大模型,下面我给大家一些建议。 首先,第一,如果你的任务比较综合,流程比较多,需要推理,可以优先考虑使用 gpt 的 思考模式,因为它具备一个通才专家的能力。 第二,如果你做设计,或者是边写一些需要在前端展示的代码,涉及一些 ui 的 逻辑, 我建议你还是使用 gemine 三 pro。 第三,如果你写后端代码,或者是需要写一些严谨性比较高的系统代码,我建议还是直接使用 cloud。 四点五, 最后,不要去迷恋某一个模型,因为虽然现在 gdp 五点二在跑分,在测试当中已经很强,但是也不要指望着靠它去解决所有的问题, 未来一定是各有所长,多个领域的模型组合起来是使用的,因为每个模型都有它自己独特的优势。我是一直在 ai 智能体深耕的七哥,我们下期再见。