粉丝7253获赞52.7万

就在今天凌晨, oppo i 刚刚发布了 gpt 五点四,本来是准备入睡的,那我养的小龙虾给我推了一条更新消息,于是乎直接把睡衣换了,直接开干。那今天的话,花几分钟时间讲清楚它到底升级了什么,再附带一个编程实测。 好,下面我们看一下它的五大核心升级。第一个是上下文窗口,由原来的五百 k 变成了 em, 这一个的话对于你去做一些 长任务,复杂任务有很大的帮助。那第二个的话就是操作电脑的能力也增强了,那这个的话桌面端的 q d agent 也会有很大的帮助。第三个的话,就在恰点 g p 它这个聊天应用中原来的思考过程嘛,就它的 sync 你 是不能去中途去修改的,现在你可以随时打断 补充需求,调整方向。第四点的话,它是有一个更高的托管效率以及更快的响应,响应这块的话我刚刚用 q d x 去实测了,确实是有提升。 那第五个的话,就是它把 codex 的 能力直接合并到了这个 gpt 五点四这个模型里面,什么意思呢?意味着后续是没有 gpt 五点四 codex 的, 直接是 gpt 五点四一个模型就搞定了, 不要像原来那样搞得比较乱。而且现在它新增了一个 fast 的 mini, 我 刚也试了,这个 mini 让你的整个编码速度提升的特别快, 但是你的消耗也是成两倍的一个增长。下面我们来看一下它整体的一个跑分情况,跟几家模型对比来看的话,提升不是特别明显,但是也有一些排到了第一。那跑分的话,其实我们就稍微去看一下就行了,因为 你真实的,不管你在编程实战还是他接触到 a 技能里面,还是在看实际中的表现嘛,对不对?我们直接到编程实战环节,还是同样的 prom 哈,如果熟悉我的老粉都知道这两个项目,在这一次不管是国内的顶尖模型还是国外的顶尖模型,我们都拿这两个项目去做测试同样的 prom。 然后这一个项目是稍微比较复杂的,国内的模型的话它没有做到一次性去把整个任务完成,那国外的模型的话, cloud off 四点六以及 g p 五点三, codex 它做到了,但是 jimmy 三点一 pro 它没有做到,第二个它会稍微比较简单一点。好,我们来开始实测,这次我用的是 codex 这个 app 上去做实测啊,提示词也是跟之前测试是一样的, 并且我们开启了这个 fast 模式,也就说它的整个速度是比较快。对于这个比较复杂的项目啊,就是我们把这个图片 a 帧的项目加上一个认证体系,从另外的项目里面迁移过来,并且做了一个落地页,也是之前那几期视频有测过的。我们来看一下它一个完成结果, 总共是做了三十二个文件的一个修改代码,行数是三千多行,从这个也能看出来,整个任务其实是比较复杂的,他的上下文都快跑满了。我们来看第二个项目,就是给这个 skills agent 是 一个终端 ui 嘛,给他加一个呃,外部 ui 也是一个考验他权重的能力,这个的话他改了十八个文件,大概是两千多行代码, 下面我们来看评分结果,我们来看第一个项目是跨项目迁移认证体系,也就是说给这个图片 a 镜头加一些功能嘛,从另外一个项目里面迁移过来,整体的评分标准是来自于两个,第一个是我人工去看它整个功能的完整程度,第二个是我们把它四个项目所做的代码 用顶尖模型去互相 review, 最终得出来一个评分。那整体看的话,这一次 g p t 五点四,它在这个项目上它的表现是比 oppo 四点六要好的,但是在 g p t 五点三 q max 的 时候的话,它是没有 oppo 四点六好的。 ok, 那 接下来三点一 pro 的 话,它是最差的。 好,我们来看第二个项目的一个评分,就是给这个 skills agent 加上一个终端 ui, 考验它权重的能力,那这块的评分的话,其实它给的有点保守了,为什么呢?因为 给我的一个体感哈,就是它这块的一个 ui 比上一次还要好,但是因为它这块没有去体现 ui 嘛,所以说它的评分的话稍微有点落后,但体感的话是更快, ui 更好了,那代码质量的话, a l u 之后的话是没有这个好的好。我们回过头来进行一个总结,我觉得这次最大的亮点哈,就是第一个, 这个上下文窗口变长了。第二个就是他这个快速模式非常非常有用,如果经常用 codex 的 朋友的话,就应该知道他之前是特别慢嘛,那你用这个 fast 这一个命令之后哈, 他的速度确实比之前快了,但是你的消耗也更快了,那这样子就会对 codex 的 会有更大的冲击,因为之前我几期视频就说过, codex 的 不再成为我单独的一个 coding 的 选择,现在就是我在 codex, 然后 codex 的 互相来回去切换,甚至有时候我还会用那个 open code 再加上欧曼 open code 结合起来去做扣顶开发。好,这就是本期视频的全部内容了,如果你觉得视频做的不错,可以给我一箭三连,大家拜拜。拜拜。

这波更新直接把 agi 往前推了一大步,朋友们,今天真的太热闹了,被 jamming 和 claudia 了整整一个月的 openai 直接憋出了一个王炸, gpt 五点四 一夜之间所有竞品的神话都被碾碎。这个视频我就用两分钟的时间带你看一下这个模型到底有多颠覆。首先是原声操控电脑, gpt 五点四已经能像人一样通过视觉鼠标和键盘操控你的电脑,包括快速填表、单发邮件、排日程等等。比如这个,他正在把右边的资料填到左边的系统里面,画面我并没有做任何加速。 还有这个,他正在用金妙给团队成员发邮件,并将会议日程分发给其他成员,你觉得这个速度和熟练度怎么样?其次是全能办公, gpt 五点四这次重点提升了创建和编辑文档、电子表格和演示文稿的任务功能。有人认为他的 ppt 已经做的比设计师美, excel 算的比分析师还要准。这里可以看一组对比。 这个是 gpt 五点二做的 ppt, 这个是五点四的。很明显,五点四具有更丰富的视觉效果以及更强的图纹美观性,整体的审美有了不小的进步。 还有这两个表格,可以看到五点四的格式呈现效果更加直观,还区分了文字重点,仿佛一个成熟的文员。值得一提的是, gpt 五点四的幻觉率暴降了百分之三十三,错误率也砍掉了百分之十八。第三是推理编程合体, gpt 五点四在编程测试中已经达到了百分之五十七点七的准确率,超过了 codex, 并且支持一百万 token 的 上下文聊天窗口, 你可以让他来自主开发角色扮演类游戏,在这个过程中,他会自己一边玩一边优化迭代自身代码,优化视觉效果和交互设计,所以小白也能开发属于自己的游戏了。 除了这几个核心升级点, g p t。 五点四这次网络搜索能力也迎来了暴涨, pro 版的准确率冲到了百分之八十九点三,直接反超 cloud, 在 视觉理解能力上也直接突破六千像素的行业极限,再细微的细节都能精准捕捉。还新增了中途可调需求的功能, 你随时能打断调整思路,完全不会打断模型本身的深度思考。所以在我看来,目前几乎没有任何短板的 g p t。 五点四, 这次恐怕并不是简单的升级,而是 ai 生产力的一次里程碑式改革。当他把每一条线都拉到顶尖水平之后,就会用行动来告诉你,谁才是通往 agi 的 路上最可能的终极 boss。

hello, 大家好,我是温特妙,我们来体验一下 openai 刚刚发布的 gpt 五点四,它的一个全新的功能啊, computer use, 我 们来看一下它的一个官方网址。啊啊 啊,在通过 codex app 或者是 api 的 话呢, gbt 五点四它是支持原声操控电脑的这个能力的,并且它是 openai 的 首个支持这个能力的一个通用大模型。 比如说它是可以呃,通过打通过就是打开其他的 app 来执行一系列的啊,复杂的一个工作流。比方说它可以帮我们打开, 打开微信 app, 帮我们来回复微信消息,帮我们来那个整理微信消息啊,比如说它也可以打开可用浏览器啊,比如说 打开一个玩游戏的页面,帮我们来玩这个游戏啊,他也可以帮我们比方说,呃,打开我的一个 b 站页面,来帮我回复用户的私信和那个评论。 然后他还可以啊,就是打开一个网站,比如说打开 pinterest 的 网站,按照我的一个要求,帮我来找找我需要的一个图片。 ok, 那 我们直接上手体验一下吧。哦,还有一个,还有一个升级啊,很大的一个升级,他的一个上下文从那个四百 k 升级到了 em 啊,也就是说他的一个上下文能力是之前的一个二点五倍。 好,那我们现在就直接来体验一下啊,我们直接创建一个空的文件夹啊,给大家看一下,我在这里创建了一个可用 sof 文件夹啊,我先把这些之前的内容删掉啊,创建一个空的一个文件夹就可以了,然后通过这个 ai 的 啊添加新项目,把这个文件夹添加进来,添加进来之后呢,在这里面直接和他聊天就可以了啊,比方说我,嗯,跟他说啊,帮我打开可用浏览器访问聘锤斯特网站 啊,搜索猫咪的一个图片啊,然后帮我,嗯,挑选一张好看的图片保存在当前文件夹啊,我这个需求没有准备啊,比较含糊。 嗯,我检查一下, ok 直接发给他啊,比较含糊,没没没有,就是说让他给我挑选一个嗯,什么风格的图片啊?但是呢,因为 我把这个这个打开啊,但是因为它是通过浏览器打开的啊,就是 pinterest 的 对吧? pinterest 的 这上面我已经登录了的,所以的话其实它打开的这些图片都是和我的偏好是很一致的 啊。然后如果大家第一次使用这个功能的话呢?嗯, 他是他是这样的,给大家讲一下,第一次使用这个功能的话呢,他会要求一系列的一个权限啊,你把权限全部给他就可以了啊。然后你这个模型的话呢,你必须要选嗯, gbt 五点四啊,或者最新的模型也都是可以的啊,因为 gbt 五点四是第一个 首次支持啊, computer 柚子的这个 open ai 家的一个大模型啊。 然后这边的话呢,还可以选择速度,速度的话呢,选 fast 的 会更加快啊。 ok, 他 在帮我来找图片,帮我保存啊。然后,嗯,还有一个地方要注意啊,就是如果大家第一次用的话啊,比如说我现在是 让它打开 core 浏览器来帮我做一些任务啊,对吧?它里面会涉及到一个脚本,脚本的一个使用,脚本的一个使用的话呢,我把这这个这个放到这边啊啊,涉及到 ok, 他 又问我要权限啊? ok, 给他啊,涉及到脚本的一个使用的话呢,他需要还需要在 chrome 浏览器的一个上面的一个菜单栏里面啊,在这个显示页面 开发者,对吧?这里把这个也勾上允许 apple 事件中的 javascript 啊,就是说允许, 呃,允许 code x 在 浏览器里面来执行这个脚本指令啊,这样的话它的一个任务会完成得更加顺利一点。 ok 啊,等他来操作啊,因为因为还因为他这还是第一个版本吧啊,所以的话呢是有点慢,执行速度是有点慢的啊,他已经拿到了一个原图地址了啊,然后他你看他用过用这个刻指令来 把这个图片保存到我们当前的一个文件夹啊。 啊,正在执行啊,其实它就是通过一系列的脚本来完成这些。呃,电脑操作的啊,所以它的一个通用性是很强的,就是说它是支持所有的一个 app 的 啊,像有些 app 比如说微信 app 啊,微信 app 不 可能去开放这些 api 给他的。那他是怎么做到的呢?他是通过一个打开微信 app, 然后他去截一张图,截图之后他会来定位到他所需要的一个功能区域,然后再模拟鼠标点击去实现对应的一个事件。 ok, 已经处理好了啊,他给我保存了一个这张图片啊,那我们再来看一下他的一个其他的能力啊。嗯,比如说 我想让他来帮我回复 b 站的一个评论啊啊,然后这个这个的话呢,我为了方便,我不希望我每次都告都给他讲一堆东西,所以的话呢,我一开始我就告诉他, 我让他来帮我创建 agent 点 m d 文件啊,因为 code x 在 执行任务的时候,每次他都会来读这个文件的啊,这样的话,我一些重复的话我就不用给他说了。我告诉他 啊,这是我的 bilibili 啊,我告诉他啊,帮我打理 bilibili 用户的一个回复与私信,然后这是用户的一个回复页面啊,把这链接给他啊,防止他不知道在哪里。因为他是一个通用的一个大模型吗?他需要处理的信息太多了,太广泛了啊,他可能不一定 知道这个回复页在哪里啊,并且如果,如果他不知道的话,他去找的话会费很多功夫,所以我直接给他 啊, ok。 然后呢,我又让他完善了一下,我让他每条回复啊,让他更新一下 id 字母 d, 每条回复要带上尾缀拜扣的 x app gpt 五点四啊,这样的话,用户收到这个回复的时候,知道这条回复不是我发的, 然后每条回复呢,要写到日记里面去啊,这样的话呢,嗯,就更加他做的什么事情我都知道啊。然后他给我更新了,更新好了之后是这样子的啊,这样子的,其实我也没有看,我也没有看,你看工作方式,他给我讲讲好了啊, 他已经默认我已经登录好了的,他默认我已经登录好了的。然后呢,回复的一个原则,他也写好了,我想改的话,我在这里改也可以啊,但是呢,我没有做任何修改。 然后呢,比如说涉及到垃圾信息的话呢,他要先征得我的同意再回复啊,包括这些什么一些邀约啊,一些乱七八糟的东西啊,都都得这样子。 ok, 那 那那现在的话我就可以让他来执行任务了啊,比方说我, 我让他来执行,帮我回复最新的评论啊,打给他把这个小窗打开,这样我我们大家可以来看他是怎么怎么怎么操作的 啊,你看他直接用我给他的链接打开了,打开了,他来看第一条评论是哪一条啊?他先来确认一下, ok 啊,他已经,嗯他,他说然后啊,因为这个评论我已经回复过了啊,我之前让他执行过一次啊,所以的话,你看他还很聪明,他说 这个评论他已经回复过了的。日记记录在这里啊,我们来看一下看一下这个日记啊,日记的话其实在这里啊在这里啊,本人是 u x 设计师,然后您代码基础想学习 web coding 啊,这些可以学习吗?然后 他给我的回复就不是我自己的回复,他说可以学啊,并且你有这个 u x 背景是很有优势的啊,这这么一些 东西啊。啊,那那那我们再,再来继续啊,再来继续,来给大家看一下他的一个玩游戏的一个能力。 code x 啊,玩游戏的一个能力啊。 ok, 我 们还是继续用用这个画好了啊,直接新开一个回话啊,在这里帮我玩一下可用打开的扫雷游戏啊。我,我现在打开的是一个扫雷游戏,我让他帮我玩一下 啊,同样,我为了方便大家观看的话呢,我还是把这个拖到这边来啊,把这拖小一点好了。这样子啊,这是一个扫雷游戏, 看一下它啊,它现在的话呢,它处理这些任务是很慢的,因为因为这是它的第一个正式支持 computer use 的 一个版本嘛,它的速度是很慢的, 但是呢,我觉得就是以这个状态发展下去的话,到下一个版本那我感觉他都可以去做那个,他都可以去代练了啊,就就比方说我们开很多个页面,对吧?让他帮我们在游戏里面来打金币, ok, 然后呢,其实我我我觉得可以这样子,就是每次他成功帮我们执行好一个任务之后呢,我们让他帮我们更新一下 啊,或者如果像我这个项目我都没有创建一些 md 啊,这玩游戏的项目,你可以让他创建一下 md, 帮他更帮你更新一下,这样的话呢,他下次就会少踩很多坑,不然的话你看他在, 他在他的脚本在一个一个执行啊,他执行了很多脚本,他都是尝试性的去实现这个任务,他得他可能得从一百种方式里面 找到一种合适的方式才行啊。但是你更新了 index dm 低了之后呢?后续的话他直接就拿他的成功的方式放在最前面啊,他可能一直接拿第一种方式一试就成功了就可以了。 你看页面变量隔离比预想的要严格。他还他还讲出来这个任务啊,他遇到了什么问题啊,他要怎么解决,都是完完整整的在这个思考过程中说出来的。 ok, 然后然后等一下的话呢,我还让他帮我来回复一下微信消息啊 啊,他要确定一下当前的一个盘是不是新开的,到底是已经玩到一半了还是新开的,如果是玩到一半了,可能他再要看一下当前的一个局势啊,当然我这个盘是新开的, 你看他执行了各种脚本文件啊,其实大部分脚本文件都是都是,都只是一个试错。 嗯,等他,等他完成, ok 啊,他终于理清了终于理清了啊,已经在扫雷了, 读取展开后的局面开始解啊,又在开始解这个,解这个雷了 啊。其实好像,好像,我如果把它变成超高的话,像还快一点啊变成超高好像快一点。为什么呢?因为它的一个思维更会更加神秘一点啊,它解决问题会快一点,只是回复变得慢一点而已。 嗯,你看他通过他不需要做图像识别了,他直接瞬间给你打出来,因为他之前他在尝试用图像识别来解这个问题,但是实际上的话呢,因为我们打开的是网页嘛,他可以直接通过 就是读源码的方式,因为网页它是可以,对吧?在 chromium 里里面,你是可以通过检查通过 f 十二检查来获取网站的一个源码的啊,所以它已经直接报文完成了。 ok, 我 不用开下一局了啊,我,我可以再让他帮我玩一下飞机大战啊, 帮我继续玩飞机大战这个游戏 发送, 然后我,嗯,我好像不能多操啊,这里有一个问题不能多操,因为他他他要打开对应的一个页面啊,所以的话,如果我让他这会帮我回复微信消息的话呢,可能不是很方便, 但是可以给大家看一下啊给大家看一下啊,微信消息啊,回复微信消息。我也是新建了一个 index html 的, 但是我说的非常简单,我直接让他帮我创建 index html 文件用于回信微回复微信 app 啊,他就已经创建好了对吧创建好了之后呢我同样让他就是每条回复都带上尾缀啊,并且啊写上日期啊对吧然后嗯你看 啊帮我回。那他这样这样子啊写了啊 ok 完成了 action dm d 了之后呢我让他帮我回复啊回复的话呢其实是已经回复成功了的啊我我重新开个绘画框。 嗯那我这边玩游戏的把它停掉好了啊停掉 帮我打开微信 app 然后定位到第一条绘画框啊然后回复里面的消息 啊用高算了啊因为这个东西应该主要是涉及到一个图像识别 发送吧啊发送把这窗弹出来啊。因为 啊 ok 他 在思考啊然后他要处理微信消息和处处理核核循消息还不一样啊。因为因为处理核循消息的话他是通 啊他打开了处理核循消息的话呢他是可以通过脚本通过那个读取网页的一个原码来执行一些任务的但是呢他要去 操作微信消息的话呢他有一个问题啊微信是不可能开放这些 a p i 的 微信 app 的 话对吧?那他只能去通过一个图像识别啊,通通过图像识别的一个 窗口。哦哦等一下等一下停止一下啊停止一下有个坑啊。因为因为我现在在录视频我是我是有打开了多个窗口的啊我我我是有多个 屏幕所所以的话呢他他默认打开的屏幕是在第二块屏幕啊对对对,他帮我挪过去了啊我重新给他说啊。嗯微 微信 app 的 话就在当前屏幕处里啊不要挪到其他的屏幕去 啊。因为我这个是特殊情况所以我给他解释一下啊。 ok, 那 不然的话,他给我挪到了另外一块屏幕,我录视频的话,大家就看不到了。为了方便演示一下, 你看啊,他的话,他的执行操作会非常慢啊,因为他打开了之后呢,他得通过 截图的一个方式,他得通过截图的方式来获取当前屏幕的一个信息。 然后呢,他截完图之后呢,他又得通过 ocr 文字识别啊,来识别对应的一个文字来定位到对话框啊,包括包括如果你让他在指定的群里面回复也是可以的,指定的群里面,他可能会定位到这个搜索框来搜索这个群 啊,搜索好这个群之后呢,对吧?他他进每进入一个新页面,他都得进一次,就是视觉啊,进行计算机视觉来识别这个信息啊,所以的话会非常非常慢,所以给大家简单演示一下啊。 啊,他还是要拉到我的我的这个麦克屏幕上去啊,大家可能看不到啊,可能会看不到啊,等一下,等他回复好了,我我我再给他拉出来 啊,已经可见了啊。啊,因为因为我,我现在大家看到的屏幕的话是副屏啊,他,他目前的话我没有跟他讲清楚。卧槽,他已经在掉我的鼠标了, 那我鼠标不能动啊,我鼠标不能动, 等一下啊, 这个是会有点麻烦的, 因为因为微信这种 app 的 话,它的一个隐私保护, 隐私保护它是做的非常那个做的很严,所以的话会麻烦一点啊,如果,比如说,如果让我们让它打开 xcode 啊,去执行一些操作的话呢,它会快很多很多 啊。你看啊,这是他的一个操作流程, 他会,他会执行各种脚本啊,打开搜索框,粘贴完整打开, 他发了一条消息,但是发错了发了一条消息,但发错了啊 啊,之前的话我有测试过,就是他是发的消息是对的啊,可能是因为我的这个屏幕的一个原因,我可以给大家 展示一下。好了啊,因为,因为我现在是双双屏,双屏话可能有点问题,我把它停掉,停掉我给大家展示一下啊。嗯,我让他回复一下啊 啊,比如说他在一个,他在我的一个微博 qq 的 群里面给我回复了一句这样的一个话 啊,比如回复了 open ai, 呃,已经发布了 chat gpt 啊,什么什么拜扣的 xapp 五点四啊,这个话就是他回复的, ok? 呃,那我们 就是今天的一个分享,就到这里感谢大家的一个观看啊,欢迎大家一见三年啊,对我的视频鼓励,感谢感谢。

ai 圈获赢巨变, gpt 五点四建在弦上,从内部测试到代码意外泄露,线索平线,其三大乐声引人注目。一是极限推理模式 可谓难题,调用更多算力深度思考数小时。二是上下文窗口翻倍至一百万, copy 甚至获达两百万,让长文档与代码库分析成为可能。三是传闻中的永久记忆,通过持久化状态实现跨绘画记忆,或将 ai 从聊天机器人推向全自动代理。新技能 从代码生成到视觉解读,从速度到深度 gdp, 五点四的每一条线索,都预示着一场颠覆性的能力跃迁。

obni 这次等于把大模型彻底重新定义了。今天凌晨, obni 正式发布 gpt 五点四,把编程推理、计算机操控、网页搜索和百万 token 上下文全部整合进同一个模型,成为第一个官方原声内置电脑操控能力的通用大模型。 它能像人一样自主操控鼠标、键盘,打开软件、处理文件,跨软件完成工作流。原理其实很简单,模型会先读取电脑屏幕截图,理解当前界面,再决定下一步鼠标点击或键盘输入,一步步完成操作。不过这些动作通常是在云端或沙盒的虚拟电脑环境中进行,而不是直接控制用户本机 在电脑操控测试中,成功率达到百分之七十五,超过人类平均水平,并且支持最高百万头,肯上下文,能轻松读完几千页文档。 在覆盖四十四个职业的 gdp 专业测试中,百分之八十三的任务达到或超过人类专家水平。投行及表格建模得分百分之八十七点三,事实错误率降低百分之三十三,编程、搜索推理全面登顶。说到这大家可能就困惑了,听着有点耳熟,都能操控电脑,都说能干活,那不就是 agent 吗? 并不是, agent 是 能干活的爱角色是外挂插件独立模块需要额外配置调试,会面临不稳定、任务完成率低的情况,它不是模型本身自带的。 而 gpt 五点四是把 a 阵能力直接焊死在模型里,不需要调用什么插件,模块理解加规划加操作加验证,全在一个模型里,原生自带,天生就会。如果说现有的 a 阵是改装车, gpt 五点四就是原厂超跑,这就不得不提最近大火的龙虾 open core。 但 open core 并不是模型,是开源智能体框架,它自己是没有大脑的,需要你接入 gpt 跨等模型才能变成干活的助理。 所以你甚至可以有一个大胆的想法,用欧本靠接入 g p t。 五点四,既享受 g p t。 五点四的超强推理,又能借助欧本靠本地部署的优势,实现数据隐私可控和自定义操作。当然,能力强也意味着贵。官方定价标准版输入二点五美元,输出十五美元,为百万头肯 购版更是高达输入三十美元,输出一百八十美元。更有意思的是, ai 云服务创起 hyperbarack 的 c t o 吐槽这哥们儿是他见过思考最过度的模型,你随口一句嗨,他能琢磨五分十八秒直接烧掉八十美元。目前 g p t。 五点四 thinking 只对 plus 和 pro 用户开放,免费版基本无缘。 有人说这是史上最智能、最接近了 g i 的 模型,我倒觉得 g i 远不远不知道,但那个只会聊天的 ai 时代,是真的翻篇了。

opencloud 的 天选模型 jpt 五点四发布了。创始人 peter 加入 openai 三周后, jpt 五点四到处都是它的转映,甚至整个工作模式与 opencloud 非常相似。五点四拥有一 mini 上下文,代码能力领先 cloud gemine, 不 光把推理、编码、智能体等能力通通焊在一个模型里,还引入新能力,原生的计算机使用 jpt 五点四,从此可以像人一样直接使用电脑操作软件, 发邮件、批量填表单、跨应用完成任务都难不倒他。在桌面操作精准测试中,成功率百分之七十五,超过了人类的平均水平。仅靠截图理解网页的成功率、做工具调用能力都创新高, 直接帮你把一整件工作都做完。五点四的编程能力也继续提升,并且能力提升和效率优化同时发生。不仅拥有五点三 code 的 超强编程能力,还具备领先的世界知识和使用计算机的能力, 在处理长任务时逻辑更有条理,成功率显著提升。新推出的实验性功能,让五点四的编程体验上新台阶。在担任 web 或 electron 应用时,支持边写代码边测试自己的应用,同时担任开发者和测试员两个角色。 有博主不到半小时写了 minecraft 提示词,运行流畅。也有教授一条提示词就生成了整三维空间场景,全程没有报错。它还支持中途打通功能,发现偏差便可及时止损。不过也有网友吐槽, g p d 五点四是最爱过度思考的模型,你好,一句嗨,模型就开始认真推理,直接烧掉了它八十美元。 目前 gpd 五点四可以在 api 和 codex 中使用 api 标准版的价格差不多是 cloud opus 的 一半,你会去体验一下吗?关注机器之心,探索 ai 世界!

兄弟们,就在昨天,奥特曼连夜发布了 gbt 五点四模型,它的功能更强大,看来他们也感受到了近来三点一的压力啊,兄弟们强烈推荐兄弟们上手使用, 告诉大家一个一分钟搞定体验最新模型的方法啊。首先我们打开这个网站啊, 然后进入到平台首页,根据自己的需求啊选择咱们第一个 点击这个,他们支持两种方式啊,看根据自己的需求来,兄弟们一定要填写自己的联系方式啊,方便他们平台对你进行售后支付。完成之后,咱们回到首页,点击这个第一个按钮, 将他们刚才发送给你的 cdk 卡密输到这里面,这是我刚才自己购买给大家做演示用的啊,点击验证, ok, 没问题。第二步,咱们先登录自己的 gpt 账号,一定要登录自己的 gpt 账号啊, 然后点击这个第二个蓝色按钮,打开页面,全选复制,这是你账号的 token, 一定要全选复制啊,不能漏复制粘贴到这里,点击验证, 稍微等待几秒钟, ok, 一定要确定好是不是自己要充值的账号,这边点击知道了,然后点击开始充值,等待几秒,充值完成即可。

一分钟看今日 ai 大 事! ai 短视频时代即将结束, utopi studios 发布长视频生成模型 pi, 可制作接近一分钟时长的视频动画。 根据剧情大纲,在故事自然发展的同时,相同角色环境和视觉风格在多个镜头中保持一致,适应不同的视频风格。 另一边, ai 视频模型 ltx 二点三升级,重点在视觉保真度和运动稳定性上,细小的纹理也能清晰可见,适应大幅度动作,首尾针衔接相较合理自然。 再来撸嘛,一口气放出两张牌,其一,统一生成模型 uni, 一 把语言图像、空间推理放进同一套架构,一个模型,想把推理理解和视觉创作全包。 其二,上线 ai 设计智能体 luma agents, 支持团队协助与 ai 一 起做广告分镜,设计整套创意流程。 三 d 世界模型上, inspio 开源 world fm 实时生成,可互动三 d 世界,还能直接文字进行常见修改,手机即可体验 模型圈 openai 甩出 gpt。 五点四,真的能上手做事的 ai 助手,他能像人一样直接操作电脑,一次记住超长内容最多支持一百万上下文,看项目长资料也不容易丢信息。 再加上更强的代理编码和工具搜索,等于给 ai 装上了会找工具、会写代码、会自己动手的全套能力。今日还有以下信息值得关注, ever ai 每天带你了解 ai 新鲜事!

gbt 五点四昨晚发布了,这是 openai 目前最强的模型,也是过去几年里面变化最大的一次更新啊。这条视频呢,会有点长,大家耐心看完就能彻底搞明白它到底更新了什么。现在啊,每隔几天我们就能看到更强的模型,每家的 ai 都在进化。但 gbt 这次的更新到底解决了什么实际问题呢?对我们普通人有什么影响呢? 我们先从最基本的讲起啊,就是以前你用 check gpt, 本质上你是在跟问答机器人在对话,你问他答,他能给你很好的答案,但他的能力呢,就被框在了那个对话框,就像孙悟空,有很强的能力,但是被五指山压住了。 但今天这个更新呢, g p d 五点四之后呢,就等于把这个五指山给搬走了,它可以跳出对话框来了。 g p d 五点四是 open i 第一个原声,支持操控电脑的通用模型,它自己现在可以移动鼠标,自己可以敲键盘,打开应用,填表,发邮件,安排日程,完成一整套的工作流程, 不需要你在旁边一直盯着。例如你告诉他让供应商把报价发过来,然后呢,把回复的报价整理成表格,然后安排下周的会议,那你说完关掉屏幕就可以了,就可以去干别的事情了,他自己就可以全部搞定。 openai 还用他从头开发了一个主题公园模拟游戏啊,设计地图,生成资产,写代码,测试游戏逻辑,全程没有人的介入,他自己就会发现 bug, 自己修,自己验证。你只用说一句话,过半个小时一个完整的游戏就开发好了。 以前啊,我用 gpt 来操作浏览器,或者是用它来操作 excel 表格呢,它的准确率和速度,说实话不敢恭维。但这个五点四的新版本啊,在实际操作电脑完成任务的考试中呢,第一次超过了人类平均水平,它的成功率有百分之七十五,而人类平均只有百分之七十二点四。 但有人会说啊,操控电脑是一回事,但鼠标点的再快,也不能说明它可以干好更难更专业的活,对吧?于是 open i 就 搞了一套叫 gdp value 的 评测,就是覆盖美国 gdp 贡献最高的九个行业,里面呢,有四十四种职业,比如有会计、律师、同行分析师、医生、销售工程师等等。 让 ai 去做这些职业的真实工作,再让人类专家来打分, gpd 五点四的结果是,百分之八十三的情况下, ai 做的跟专业人士做的一样好,甚至更好。 而上个版本的 gpt 五点二呢,是百分之七十一。也就是说啊,公司里大部分以前白领做的工作啊,看起来需要很高智商才能完成的活啊。现在 gpt 五点四也可以做了。你可能会说啊,别扯了,那种假大空的 ppt, 它能做,真正需要判断力的活,它能做吗? 我们来看真正有难度的博,他能做到什么程度?先看投行建模任务,就是投行初级分析师做的那种财务模型。 gbt 五点四的得分是百分之八十七点三,上一代是百分之六十八点四,提升了将近二十个百分点。那法律文书、法律 ai 公司哈比测的他, 在他们落班评测里呢, gbt 五点四得分是百分之九十一,他们说他在处理复杂交易分析和查长篇合同这件事情上,比其他任何模型都强。 那还有一个大家最关心的幻觉率,就是 ai 一 本正经胡说八道的概率, g p d 五点四,单条陈述的错误率降低了百分之三十三,整体回答含错误的概率降低了百分之十八,那总的来说就是能力更强,错误更少了。 因为还有一个让人抓狂的点,就是你发出了一长串指令,等了半天,结果出来呢,方向全错,只能重来。那这次 gpt 五点四呢,也给解决了,他在干活之前呢,就会先给你一个计划,告诉你我打算分几步走,你觉得哪步不对呢,你就可以直接打断他,就会马上调整,再接着跑,不用等到最后发现错了又重新来。 还有一个改进呢,普通用户可能体感不深,但是用它来搭工作流的人会很在意,那就是成本。以前 ai 同时接很多的工具干活,每次干活前呢,都要把所有的工具的说明全部加载进来,那又是又慢又贵啊。五点四呢,也改进了,就是用到哪个工具才去找那个工具的说明,用完它就释放节省头肯, open ai 撤了一批任务啊,这个改动让成本降低了百分之四十七,那同样的活价格现在砍了一半。 另外它现在一次性能读进去的内容也变多了,最高呢支持一百万托肯,也就是你把三体一二三部还有各种研究资料全塞进去,它都给你一口气读完,然后给你一个综合的分析。 说了那么多啊,那我们现在能用吗?那 gpt 五点四 thinking 呢?从今天起,面向 plus 和 tips 用户就开放了,替代原来旧的 gpt 五点二 thinking。 那 gpt 五点四 pro 呢?是面向 pro 用户和企业用户的。好了,我要把我的龙虾模型分析一下了,下期见。

哈喽,大家好,我是培培文呢,我们的 gpt 已经更新到五点四了,而且已经替代了默认的五点二。那五点四的 gpt 其实在这个思考过程中,特别是这个默认的 thinking 模式,它会更稳更快。同时呢,在这个做的版本中,它会更细致, 对于一些复杂任务,像一些比如说表格创建、前轮代码换轮篇困难、数学文档理解、指令遵循等等, 还有一些工具可能会更好一点,同时它更适合一些常用的工作,比如说一些超长上下文的理解之间呢,包括你这个任务对话,还有一些像这个呃安全能力和深度解锁能力也提高了一些啊。我们这个 g b t 五点四最最炸裂的一点就是说你要是点进它这个 codex 页面, 我们可以看到它是现在已经更新了这个 codex 应用,还有可以在你的终端上,包括在你的 ide 中尝试了。 就是说 gbt 五点四的这个 codex 啊,它是首个完全实现在网页版或者说直接能应用到你的终端中的大厂的 ai 模型的代表啊。应该说之前包括像 cool 的 或者 opencloud 龙龙虾这些,它其实都不是官方的这个应用,是吧?所以说很多东西你需要本地部署,但是现在呢,你可能只需要下一个 codex 应用,或者说直接点击在你的终端上试用,然后它会有一个简单的教程, 你跟着去学习,然后简单的几步就能去实现你在本地的这个 codex 的 这个呃,做类似这种 a 阵的这种效果了。 所以说我觉得这个 gpt 五点四,它其实也是一个非常厉害的一个进步啊,就是大厂它已经把这个 ai 智能体压缩到一些极限了,就说普通人或者说再去做点小东西, 可能远远不如你花个,比如说首月花个二十四块钱直接充个 plus, 甚至说你包个年费什么的,就是就很厉害,对吧?那咱们真这期的这个教程啊,咱们就先说到这里,感喜欢的话赶紧去体验一下吧。

再看一下我最新尝鲜的这个 g p d 四五点四的这个版本,大家都网传说它可以直接去操控网网页什么的,实际上是不可以的 啊,它需要有两个前提,一个前提是你要去是美区,然后去下载一个叫 check gbd windows a a p p 的 一个功能,它这个东西它只通过微软商店分发,而且大陆这边目前是无法下载的,包括你用题什么的。 其次啊,这个是它的回答啊 啊,他推荐说,实际上如果你真的要使用 它进行一些电脑网页的操作的话,还是用 oppo core, 至少到目前为止,虽然 oppo core 的 老大加入了 oppo ai, 但是 目前还是 oppo oppo core 的 整个啊操作电脑端的这种能力会远远远远领先。

万万没想到, openai 刚发布的 gbt 五点四,在自己操控电脑完成任务这件事上,成功率已经超过了人类。就在凌晨, openai 发布了 gbt 五点四,他做到了一件以前所有通用 ai 都没做到的事。自己操控电脑,不是帮你出主意,也不是帮你写代码,而是真正的能看懂屏幕、移动鼠标、点击按钮, 一套完整的工作流程自己端到端搞定。研究人员给他布置了一批真实的桌面任务,打开软件,处理文件化应用,完成工作流。结果, gpt 五点四的得分是百分之七十五,而人类测试员的平均分才只有百分之七十二点四。这意味着,屏幕前的你,可能电脑用的还没他溜。 欧派雅演示里,他自己打开邮件,读取内容、切换日历、创建日程,全程不需要人插手,浏览器使用也一样。 研究人员找来了一百三十六个真实网站,让他完成购物、订票、填表这类日常网页操作,他完成了百分之九十二。而就在一个月前, adripic 旗舰模型 cloud up 四点六完成的百分之七十二点七, 还被认为是这方面最强的选手,现在两者已经不在一个量级。看到这儿正养着龙虾喷 cloud 的 朋友可能已经反应过来了,你家的小龙虾需要的不就是一个像 gpt 五点四这样的会用电脑,会用浏览器的大脑吗? 不过这次更新,有人欢喜有人心疼啊。网友雨辰君用 gpt 五点四 pro 做了个测试,就跟他说了一句,嗨,我是 darryl。 等了将近六分钟, gpt 五点四 pro 回了一句,你好, darryl, 很 高兴见到你,我能为你做些什么? 这一句话花了他将近六百块钱。从 gpt 五点三到五点四,时间不到一个月,而每次更新 a 能干的活就又多了一块。你现在做的事情里,还剩下几块属于你自己。

紧急加更一条视频唱的 gpt 五点四也是在昨晚偷偷的上架了,另外是可以控制电脑,但是先别着急,因为这个去买 它这个可以控制电脑,不是说你买了 plus 或者 pro 之后就可以直接在网页端给他一个指令,让他去控制你的电脑了,他不是这样的, 它这个控制电脑是怎么一回事呢?是得开发者通过叉的 gpt 五点四的 api 结合其他工具来实现的。比如说你要 gpt 五点四给你关闭一个网页, gpt 会先调用截屏工具截个屏看一看,他会找到网页的关闭按钮在哪里,之后把这个关闭按钮的坐标传给点击工具,之后再让这个点击工具去点击关闭网页的按钮。 他不是说可以在网站上一键完成的,他是等你把截屏工具和点击工具都配置好之后,他才可以完成的。 我估计他这个功能以后主要是在 curser 或者一些其他的软件上实现的,他不是网页端就可以完成的。 ok。

呃,五号啊,就是 o i 发布了这个 g p t 的 五点四,那么这个五点四的话有什么特点呢?就是官方称,就是它是目前啊面向专业工作推出的能力最强,效率最高的一个潜能模型之一啊, 那么我们看一下它的核心哈,首先第一个就是它是首个可以直接操作电脑的一个功能,那么也就说内置的操作电脑的一个能力啊,因为 呃这些首歌啊,对 g p t 来讲,那么五点四它是呃不仅是上传写代码,那么也可以根据那个屏幕截图啊,发出鼠标跟键盘的操作指令,那么使那个自成体能够操作电脑,并且在呃不同的应用层层次之间呢?它是之前复杂的一个工作流程啊, 那么这个我就想到了,就是说如果这个能力哈,未来就增强的话,那么 a rpa 啊,这个未来它还有没有存在的一个价值跟比较啊啊?这块就是操控电脑这一块的一个,呃,有没有可能被取代掉了啊? 那第二点的话,就是一个呃双模型的一个特点,就是它同样是提供的 finn 跟 pro 的 两种模式,那么 p l 的 模模型它是面向的需要在复杂任务中实现最大性能的这么一个用户,那么 finn 呢?它是 能够在生产模型之前给出个思考规划,那么用户可以在生产过程中调整任务的方向,那么从而减少多人对话提,提高这个结果跟需求的一个匹配度啊, 那么事实的准确性,那么在多项的评价中表现是优于前板哈,那么事实准确性方面也是有所改善的,就是呃没有出那么多幻觉, 那么上下文,那么现在的话是支持的一千一百万啊,一百万透坑的上下文,并且是可以调用那个 play right 这种酷哈,可以操作那个浏览器还有桌面应用哈, 那么第二个我们思考的话就是说如果,呃,且不说就是五点四操作电脑能力的一靠谱啊。首先我们思考的就是说如果用这种方式啊,这种他的成本啊,因为我们知道这个整个大模型的话啊,尤其是国外的那几家, 他的那个头肯的费用啊,一个使用量是非常大,第二个头肯费用也不便宜啊,那么从长按角度看,他能够持续的去使用的一个关键,那应该是符不符合 ip 的 一个原则啊, 这也是呃,我们目前考虑它的一个呃能力就使用的一个一个长期的,一个使用的一个 一个可行信号,对吧?大家说从整个模型的发展来讲,他肯定是未来模型能力越来越强,费用越来越便宜啊,这也是大趋势啊,但是从大的环境啊,就是也是算力嘛,算力成本,算成本是否能够降下来,对吧?因为未来的话万物皆癌,这个这个成本肯定是要考虑的 好啊,那么大家在使用 g p t 五过程中有什么心得的话也可以啊,在评论区给我留言,那么本期的分享就到这里。

五点四已经真的在帮我干活了,天,早上 oppo 五点四发布了,然后呢,是最强的专业 工作模型,它不仅能写代码,分析数据,还能跨软件操作电脑,复杂的工作流 更重要,他还在疯狂的这个融资,疯狂的烧钱啊,这一次最大的变化不是写作,更不是聊天哈,而是自己啊, ai 自己会操作电脑了,什么意思呢?我一一会给大家演示一下啊。本来要叫小助理帮我做这个,有一个,这个微信聊天记录 对不对?这个有八十三个文件对不对?八十三个文件,你如果要手动把这个文件的聊天记录变成文字版,这是图片截图,是不是很麻烦,对不对?用工具安装工具,那我就叫车的 gpt。 五点四, 你帮我把桌面上有个文件,这个文件夹叫智慧物物业 ai 升级,把文件夹,把里面的微信聊天截图,把里面的聊天对话提成提取出来,变成文字版,并输出文本文件为零三零六点 t o t。 然后呢,他就开始干了,他就说就开始那个 你看他就分析,分析完之后他说没有找到,然后完了之后他说能不能直接打包啊?或者是把文件夹直接传给他,然后我就我就找打包了,打包就上传了,上传了就开始处理,他就用这个自己去思考去处理,你看到没有? 处理图片必提取文件啊,这个全程我没有参与啊,我只只是传告诉他这个这个这个需求,然后完了之后他说最好把整个打包点,这个我传给他,然后呢就传给他,他就可以开始工作了,你看在检查文件内容大小啊, 好,把我生成下载好了。你看啊,看看能不能下载。这已经好了啊, 所以它这个 token 的 成本也降下来了。所以说我不知道是不是这个 opencloud 的 这个创始人去了这个 openai 公司。那现在把这个里边一起嫁接进去,然后看它打开,你看它转了,它真的转出来了,哈哈哈哈,我的天呐,它真的全部转出来了 哦。啊?这个能想象吗?这个真的是惊呆了我们人尾动要弄多久?

欢迎大家收看三十岁买卡老马农挑战下班搞艺人公司。今天已经大概是第九天了,说实话有点记不清是第几天了, 今天花了非常多的时间在研究这个 gbt 五点四,非常有意思,然后所以我这期视频呢,就会讲讲 gbt 五点四它这个新的特性到底有哪些。然后为什么我自己觉得这个还是不太适合用来做小龙虾的底层模型? gbt 五点四这次主主要会有三个不同的特性,第一个呢,是说它开始终于支持这个一百万上下文窗口了,也算是跟 jammer 或者 opus 这样子的一一线模型对齐。 第二个呢,是说它现在会有更强大的这种完成啊复杂工作流程的任务的流程,比如说像,像 coding, 对 吧?我们都知道以前的 gbt 分 就 codex 版本和不是 codex 版本的,那现在呢,这个版本里面,他们把这两个联合在了一起,让五点四这个模型理论上来说就既可以 作为一个很好的 chat bot, 也可以用来作为一个 agent 大 脑。然后最后一个呢,就是一个最重磅的消息啊,就是他们其实现在 gpd 五点四支持一个所谓的叫 computer use 的 这么一个特性,就是说它可以像素级的去理解你的电脑屏幕上面发生的事情,并且知道怎么去移动鼠标,怎么去控制键盘,然后来控制你的电脑,像人类一样操纵你的电脑。 然后很多人看到这几个特性就很兴奋嘛,他们就会说 gpd 现在是一个最适合用来做小龙虾大脑的这么一个底层模型, 我也很兴奋啊,我把自己的这个已经退定多年的 g p t 的 定员又捞了回来,然后第一时间去试用了一下,但目前为止我感觉还是比较的一般的。还是主要有两个理由啊,第一个就还是它确实有点太贵了,它自己的价格呢,在 g p t 本来的这个一线的档位上面,又提高了大概百分之二十左右,是两块五的 input 和十五块的 output。 那这个价格呢?是比这个堪比天价的 open 四点六是还是便宜不少的,但还是对我来说,因为有点太贵了。我自己的小龙虾呢,其实已现在已经用习惯了,就是 kimi 和 mini max 的 这种国产模型,我觉得用的也挺好的,所以 g p t 四五点四的价格呢,大概是我现在使用价格的六到七倍。 然后要说第二点,我认为其实比较更加重要一点,就是说其实大部分人的用小龙虾的使用方式,我认为其实都不太需要这么复杂这么高级的大脑。说真的, 我观察了一下市面上面大部分朋友用小龙虾的这个具体使用场景啊,基本上都是啊,我在这边去收集点信息,在那边去看点什么新闻,然后总结成日报,或者总结成一个什么呃消息,然后每天早上推定时发送给我,或者说可以帮我去管理一下邮件,帮我写一封邮件,或者帮我写一封这个,管 理一下我的订阅这种东西。那这些已经现有的这些使用场景呢?我觉得第一是既不是用不到它这个 computer user 的 能力, 又不需要那么多复杂的编排的功能。 g p d 五点四还有个特殊的功能,就是它可以去做 tool search, 就 如果你给他很多工具的话,他不会一下子全部漏到他的他的这个上下文窗口里面去,而是会去进行一些挑选,但其实很多人的小龙虾我觉得都不需要这么多复杂的这个 tool search 的 功能。 那最后呢,也给大家一个个人精选啊。最近是发现了一个宝藏模型叫 jammy 三点一 flash flashlight, 那 这个是呃,谷歌前两天发的这个模型啊, 非常非常的快,是极度蒸馏了这个 gm 三点一 pro 的 能力,然后价格也是非常非常便宜。然后他的能力上呢,是能够做非常快速的响应一些文本的一些回应啊,他不能做很复杂的这种编排的这种比如工具的编排,但是对于一些文本的响应是非常好用的。 对于如果对你来说是小龙虾只是用来做一些总结啊什么的,我觉得这个这个模型会是一个你可能会去想考虑使用的模型。 好了,今天主要再讲一讲自己玩各种模型的这个经验总结啊,希望对大家有帮助啊,我们在短期的未来呢,其实我自己也会去多去玩一玩欧本卡,因为我觉得欧本卡其实是一个对于艺人公司来说非常好用的一个东西,很多老板都在研究嘛,对吧,我也想去研究一下这个东西。 如果有朋友想看这个艺人公司的老板到底是如何用欧本卡来给自己提效的,那么可以在评论区扣个一啊,我下期可以单独讲一讲。喜欢这期视频的话呢,请点赞收藏,我们下期再见。

今天主播手把手教你下载三月六日最新更新的叉 g p t 五点四,并且支持安卓、苹果和电脑五点四版本,可直接操纵设备完成任务,而非仅给建议,简单免费。主包已经打包整理好了,首先点击本视频右下角分享按钮,分享视频链接, 然后打开这个蓝色小鸟,没有的可以抓一只,打开后就会弹出资源包,没弹出来的话在上方输入小球宝箱都是可以的。找到热门资源包二,再找我们需要的右下角保存下载就可以了。

openai 深夜放大招了, g p t。 五点四突然炸场,直接干翻 jemmy 和 cloud, 还解锁了原声操控电脑的神技能打工人这下是真的要紧张了。就在三月六号凌晨,被压了一个月的 openai 终于出手,直接发布 g p t。 五点四旗舰模型,不仅上线 chat g p t 的 thinking 和 pro 版本,开发者端还同步开放 api 和极速版版本,直接跳级到五点四, 只因实现了推理和编程的河流式跨越,全维度实力直接拉满。最牛的是 gpt 五点四,成了 openai 首个能原声操控电脑的通用模型,识别界面点键鼠操作软件,网页样样行,发邮件、排日程、填表格全自动化,电脑操作成功率百分之七十五,比人类还熟练,直接把克拉的 opus 四点六甩在身后,视觉感知也大升级, 能识别超高清图像,解析文档定位,点击的精度直接拉满,办公效率直接翻倍!而且这波 g p t。 五点四十真的无端版 g d p v l 胜率百分之八十三,笔尖行业专家做 p p t x l 比专业人士还厉害, 国行建模测试得分百分之八十七点三,编程数学抽象推理全刷新记录,网络搜索能力直接反超 cloud 工具,使用更智能,新增的工具搜索功能,让 toker 用量砍了百分之四十七,处理多部任务又快又准。更贴心的是,它把推理和编程能力融在一个模型里,不用来回切换。 toker 效率最高,极速版生成速度还快了百分之五十, 甚至能凭一段提示词直接做出三 d 场景回合制游戏。这些复杂应用幻觉率也大降,单独出错概率比 g p t。 五点二少了百分之三十三,还支持对话中途调整方向,不用推倒重来,沟通成本直接省了。当然,实力涨了,定价也涨了。 g p t。 五点四标准版输入二点五美元,百万 token pro 版更是到了三十美元, 甚至有人发一句嗨就花了八十美元。贵是真的贵,但抢也是真的抢。这波 g p t。 五点四直接全方位碾压竞品,让 open ai 重回 ai 王座,也让我们看到 ai 离真正的通用人工智能又近了一大步。知识性反攻的颠覆真的来了,我是王朝,关注我,每天为你分享最前沿的 ai 新闻!