
ppt 五点四更新了,我们来看一下它到底有哪些强大的更新的点啊。首先第一个就是制作 电子表格能力提升这个读取文献以及做一些 ppt, 对 吧?这个画面的质感 大家看起来怎么样?这个是之前五点二。第二个呢就是能够操作我们的电脑去进行发送邮件啊,以及批量的去录入一些信息数据资料啊。然后呢,他能操作我们的电脑,就我们给他一个指令,他就能去进行操作。现在我现在正在使用它 来帮我们制作一个 ppt, 他 现在正在创建一个虚拟的电脑来去进行查找。如果大家也想使用到 ppt 啊,用来写作科研,做数据分析等等,都可以点击我主页的置顶作品找到我。

哈喽大家,三月五日呢, open 也紧着放了一个大招, check gpd! 五点四是正式上线了,那最离谱的功能更新是,它现在原声就能操控你的电脑,因为它能直接读懂你的电脑屏幕,看屏幕,动鼠标,敲键盘, excel 翻阅浏览器。以后呢,你再也不用自己一点点 动手呢,去,点来点去,那他直接会像一个真人助理一样去帮你干活,双手彻底解放,效率呢,就直接就起飞了,上下文的窗口直接拉到了一百零五万个 token, 再长的报告,再复杂的项目呢,一次性呢,都给他干翻了! 以前呢,要分好几次才能聊清楚的东西,他现在一口气呢,全部吃下啊!这种更新呢,还是比较变态的, 那金融人和上班族呢啊,直接就疯掉了!官方推出的叉 cpt for excel 插件大白话,就能让他帮你去做报表,做财务模型,情景分析,准确率呢,冲到了百分之八十七点三,比上一代的四十多一点呢,翻倍都不止 啊!以前熬夜加班才能搞定的活呢,现在是几分钟一杯咖啡的时间呢,就能给你安排的明明白白。 编码自动化,工作流全面进化,错误率暴降,速度呢,还快了百分之四十七。编程小白呢,秒变大神, 日常重复工作,直接一键自动化。现在 plus 和 pro 的 用户呢,已经可以直接切换到 chatbeat 五五点四 thinking 用了。

hello, 大家好,我是温特妙,我们来体验一下 openai 刚刚发布的 gpt 五点四,它的一个全新的功能啊, computer use, 我 们来看一下它的一个官方网址。啊啊 啊,在通过 codex app 或者是 api 的 话呢, gbt 五点四它是支持原声操控电脑的这个能力的,并且它是 openai 的 首个支持这个能力的一个通用大模型。 比如说它是可以呃,通过打通过就是打开其他的 app 来执行一系列的啊,复杂的一个工作流。比方说它可以帮我们打开, 打开微信 app, 帮我们来回复微信消息,帮我们来那个整理微信消息啊,比如说它也可以打开可用浏览器啊,比如说 打开一个玩游戏的页面,帮我们来玩这个游戏啊,他也可以帮我们比方说,呃,打开我的一个 b 站页面,来帮我回复用户的私信和那个评论。 然后他还可以啊,就是打开一个网站,比如说打开 pinterest 的 网站,按照我的一个要求,帮我来找找我需要的一个图片。 ok, 那 我们直接上手体验一下吧。哦,还有一个,还有一个升级啊,很大的一个升级,他的一个上下文从那个四百 k 升级到了 em 啊,也就是说他的一个上下文能力是之前的一个二点五倍。 好,那我们现在就直接来体验一下啊,我们直接创建一个空的文件夹啊,给大家看一下,我在这里创建了一个可用 sof 文件夹啊,我先把这些之前的内容删掉啊,创建一个空的一个文件夹就可以了,然后通过这个 ai 的 啊添加新项目,把这个文件夹添加进来,添加进来之后呢,在这里面直接和他聊天就可以了啊,比方说我,嗯,跟他说啊,帮我打开可用浏览器访问聘锤斯特网站 啊,搜索猫咪的一个图片啊,然后帮我,嗯,挑选一张好看的图片保存在当前文件夹啊,我这个需求没有准备啊,比较含糊。 嗯,我检查一下, ok 直接发给他啊,比较含糊,没没没有,就是说让他给我挑选一个嗯,什么风格的图片啊?但是呢,因为 我把这个这个打开啊,但是因为它是通过浏览器打开的啊,就是 pinterest 的 对吧? pinterest 的 这上面我已经登录了的,所以的话其实它打开的这些图片都是和我的偏好是很一致的 啊。然后如果大家第一次使用这个功能的话呢?嗯, 他是他是这样的,给大家讲一下,第一次使用这个功能的话呢,他会要求一系列的一个权限啊,你把权限全部给他就可以了啊。然后你这个模型的话呢,你必须要选嗯, gbt 五点四啊,或者最新的模型也都是可以的啊,因为 gbt 五点四是第一个 首次支持啊, computer 柚子的这个 open ai 家的一个大模型啊。 然后这边的话呢,还可以选择速度,速度的话呢,选 fast 的 会更加快啊。 ok, 他 在帮我来找图片,帮我保存啊。然后,嗯,还有一个地方要注意啊,就是如果大家第一次用的话啊,比如说我现在是 让它打开 core 浏览器来帮我做一些任务啊,对吧?它里面会涉及到一个脚本,脚本的一个使用,脚本的一个使用的话呢,我把这这个这个放到这边啊啊,涉及到 ok, 他 又问我要权限啊? ok, 给他啊,涉及到脚本的一个使用的话呢,他需要还需要在 chrome 浏览器的一个上面的一个菜单栏里面啊,在这个显示页面 开发者,对吧?这里把这个也勾上允许 apple 事件中的 javascript 啊,就是说允许, 呃,允许 code x 在 浏览器里面来执行这个脚本指令啊,这样的话它的一个任务会完成得更加顺利一点。 ok 啊,等他来操作啊,因为因为还因为他这还是第一个版本吧啊,所以的话呢是有点慢,执行速度是有点慢的啊,他已经拿到了一个原图地址了啊,然后他你看他用过用这个刻指令来 把这个图片保存到我们当前的一个文件夹啊。 啊,正在执行啊,其实它就是通过一系列的脚本来完成这些。呃,电脑操作的啊,所以它的一个通用性是很强的,就是说它是支持所有的一个 app 的 啊,像有些 app 比如说微信 app 啊,微信 app 不 可能去开放这些 api 给他的。那他是怎么做到的呢?他是通过一个打开微信 app, 然后他去截一张图,截图之后他会来定位到他所需要的一个功能区域,然后再模拟鼠标点击去实现对应的一个事件。 ok, 已经处理好了啊,他给我保存了一个这张图片啊,那我们再来看一下他的一个其他的能力啊。嗯,比如说 我想让他来帮我回复 b 站的一个评论啊啊,然后这个这个的话呢,我为了方便,我不希望我每次都告都给他讲一堆东西,所以的话呢,我一开始我就告诉他, 我让他来帮我创建 agent 点 m d 文件啊,因为 code x 在 执行任务的时候,每次他都会来读这个文件的啊,这样的话,我一些重复的话我就不用给他说了。我告诉他 啊,这是我的 bilibili 啊,我告诉他啊,帮我打理 bilibili 用户的一个回复与私信,然后这是用户的一个回复页面啊,把这链接给他啊,防止他不知道在哪里。因为他是一个通用的一个大模型吗?他需要处理的信息太多了,太广泛了啊,他可能不一定 知道这个回复页在哪里啊,并且如果,如果他不知道的话,他去找的话会费很多功夫,所以我直接给他 啊, ok。 然后呢,我又让他完善了一下,我让他每条回复啊,让他更新一下 id 字母 d, 每条回复要带上尾缀拜扣的 x app gpt 五点四啊,这样的话,用户收到这个回复的时候,知道这条回复不是我发的, 然后每条回复呢,要写到日记里面去啊,这样的话呢,嗯,就更加他做的什么事情我都知道啊。然后他给我更新了,更新好了之后是这样子的啊,这样子的,其实我也没有看,我也没有看,你看工作方式,他给我讲讲好了啊, 他已经默认我已经登录好了的,他默认我已经登录好了的。然后呢,回复的一个原则,他也写好了,我想改的话,我在这里改也可以啊,但是呢,我没有做任何修改。 然后呢,比如说涉及到垃圾信息的话呢,他要先征得我的同意再回复啊,包括这些什么一些邀约啊,一些乱七八糟的东西啊,都都得这样子。 ok, 那 那那现在的话我就可以让他来执行任务了啊,比方说我, 我让他来执行,帮我回复最新的评论啊,打给他把这个小窗打开,这样我我们大家可以来看他是怎么怎么怎么操作的 啊,你看他直接用我给他的链接打开了,打开了,他来看第一条评论是哪一条啊?他先来确认一下, ok 啊,他已经,嗯他,他说然后啊,因为这个评论我已经回复过了啊,我之前让他执行过一次啊,所以的话,你看他还很聪明,他说 这个评论他已经回复过了的。日记记录在这里啊,我们来看一下看一下这个日记啊,日记的话其实在这里啊在这里啊,本人是 u x 设计师,然后您代码基础想学习 web coding 啊,这些可以学习吗?然后 他给我的回复就不是我自己的回复,他说可以学啊,并且你有这个 u x 背景是很有优势的啊,这这么一些 东西啊。啊,那那那我们再,再来继续啊,再来继续,来给大家看一下他的一个玩游戏的一个能力。 code x 啊,玩游戏的一个能力啊。 ok, 我 们还是继续用用这个画好了啊,直接新开一个回话啊,在这里帮我玩一下可用打开的扫雷游戏啊。我,我现在打开的是一个扫雷游戏,我让他帮我玩一下 啊,同样,我为了方便大家观看的话呢,我还是把这个拖到这边来啊,把这拖小一点好了。这样子啊,这是一个扫雷游戏, 看一下它啊,它现在的话呢,它处理这些任务是很慢的,因为因为这是它的第一个正式支持 computer use 的 一个版本嘛,它的速度是很慢的, 但是呢,我觉得就是以这个状态发展下去的话,到下一个版本那我感觉他都可以去做那个,他都可以去代练了啊,就就比方说我们开很多个页面,对吧?让他帮我们在游戏里面来打金币, ok, 然后呢,其实我我我觉得可以这样子,就是每次他成功帮我们执行好一个任务之后呢,我们让他帮我们更新一下 啊,或者如果像我这个项目我都没有创建一些 md 啊,这玩游戏的项目,你可以让他创建一下 md, 帮他更帮你更新一下,这样的话呢,他下次就会少踩很多坑,不然的话你看他在, 他在他的脚本在一个一个执行啊,他执行了很多脚本,他都是尝试性的去实现这个任务,他得他可能得从一百种方式里面 找到一种合适的方式才行啊。但是你更新了 index dm 低了之后呢?后续的话他直接就拿他的成功的方式放在最前面啊,他可能一直接拿第一种方式一试就成功了就可以了。 你看页面变量隔离比预想的要严格。他还他还讲出来这个任务啊,他遇到了什么问题啊,他要怎么解决,都是完完整整的在这个思考过程中说出来的。 ok, 然后然后等一下的话呢,我还让他帮我来回复一下微信消息啊 啊,他要确定一下当前的一个盘是不是新开的,到底是已经玩到一半了还是新开的,如果是玩到一半了,可能他再要看一下当前的一个局势啊,当然我这个盘是新开的, 你看他执行了各种脚本文件啊,其实大部分脚本文件都是都是,都只是一个试错。 嗯,等他,等他完成, ok 啊,他终于理清了终于理清了啊,已经在扫雷了, 读取展开后的局面开始解啊,又在开始解这个,解这个雷了 啊。其实好像,好像,我如果把它变成超高的话,像还快一点啊变成超高好像快一点。为什么呢?因为它的一个思维更会更加神秘一点啊,它解决问题会快一点,只是回复变得慢一点而已。 嗯,你看他通过他不需要做图像识别了,他直接瞬间给你打出来,因为他之前他在尝试用图像识别来解这个问题,但是实际上的话呢,因为我们打开的是网页嘛,他可以直接通过 就是读源码的方式,因为网页它是可以,对吧?在 chromium 里里面,你是可以通过检查通过 f 十二检查来获取网站的一个源码的啊,所以它已经直接报文完成了。 ok, 我 不用开下一局了啊,我,我可以再让他帮我玩一下飞机大战啊, 帮我继续玩飞机大战这个游戏 发送, 然后我,嗯,我好像不能多操啊,这里有一个问题不能多操,因为他他他要打开对应的一个页面啊,所以的话,如果我让他这会帮我回复微信消息的话呢,可能不是很方便, 但是可以给大家看一下啊给大家看一下啊,微信消息啊,回复微信消息。我也是新建了一个 index html 的, 但是我说的非常简单,我直接让他帮我创建 index html 文件用于回信微回复微信 app 啊,他就已经创建好了对吧创建好了之后呢我同样让他就是每条回复都带上尾缀啊,并且啊写上日期啊对吧然后嗯你看 啊帮我回。那他这样这样子啊写了啊 ok 完成了 action dm d 了之后呢我让他帮我回复啊回复的话呢其实是已经回复成功了的啊我我重新开个绘画框。 嗯那我这边玩游戏的把它停掉好了啊停掉 帮我打开微信 app 然后定位到第一条绘画框啊然后回复里面的消息 啊用高算了啊因为这个东西应该主要是涉及到一个图像识别 发送吧啊发送把这窗弹出来啊。因为 啊 ok 他 在思考啊然后他要处理微信消息和处处理核核循消息还不一样啊。因为因为处理核循消息的话他是通 啊他打开了处理核循消息的话呢他是可以通过脚本通过那个读取网页的一个原码来执行一些任务的但是呢他要去 操作微信消息的话呢他有一个问题啊微信是不可能开放这些 a p i 的 微信 app 的 话对吧?那他只能去通过一个图像识别啊,通通过图像识别的一个 窗口。哦哦等一下等一下停止一下啊停止一下有个坑啊。因为因为我现在在录视频我是我是有打开了多个窗口的啊我我我是有多个 屏幕所所以的话呢他他默认打开的屏幕是在第二块屏幕啊对对对,他帮我挪过去了啊我重新给他说啊。嗯微 微信 app 的 话就在当前屏幕处里啊不要挪到其他的屏幕去 啊。因为我这个是特殊情况所以我给他解释一下啊。 ok, 那 不然的话,他给我挪到了另外一块屏幕,我录视频的话,大家就看不到了。为了方便演示一下, 你看啊,他的话,他的执行操作会非常慢啊,因为他打开了之后呢,他得通过 截图的一个方式,他得通过截图的方式来获取当前屏幕的一个信息。 然后呢,他截完图之后呢,他又得通过 ocr 文字识别啊,来识别对应的一个文字来定位到对话框啊,包括包括如果你让他在指定的群里面回复也是可以的,指定的群里面,他可能会定位到这个搜索框来搜索这个群 啊,搜索好这个群之后呢,对吧?他他进每进入一个新页面,他都得进一次,就是视觉啊,进行计算机视觉来识别这个信息啊,所以的话会非常非常慢,所以给大家简单演示一下啊。 啊,他还是要拉到我的我的这个麦克屏幕上去啊,大家可能看不到啊,可能会看不到啊,等一下,等他回复好了,我我我再给他拉出来 啊,已经可见了啊。啊,因为因为我,我现在大家看到的屏幕的话是副屏啊,他,他目前的话我没有跟他讲清楚。卧槽,他已经在掉我的鼠标了, 那我鼠标不能动啊,我鼠标不能动, 等一下啊, 这个是会有点麻烦的, 因为因为微信这种 app 的 话,它的一个隐私保护, 隐私保护它是做的非常那个做的很严,所以的话会麻烦一点啊,如果,比如说,如果让我们让它打开 xcode 啊,去执行一些操作的话呢,它会快很多很多 啊。你看啊,这是他的一个操作流程, 他会,他会执行各种脚本啊,打开搜索框,粘贴完整打开, 他发了一条消息,但是发错了发了一条消息,但发错了啊 啊,之前的话我有测试过,就是他是发的消息是对的啊,可能是因为我的这个屏幕的一个原因,我可以给大家 展示一下。好了啊,因为,因为我现在是双双屏,双屏话可能有点问题,我把它停掉,停掉我给大家展示一下啊。嗯,我让他回复一下啊 啊,比如说他在一个,他在我的一个微博 qq 的 群里面给我回复了一句这样的一个话 啊,比如回复了 open ai, 呃,已经发布了 chat gpt 啊,什么什么拜扣的 xapp 五点四啊,这个话就是他回复的, ok? 呃,那我们 就是今天的一个分享,就到这里感谢大家的一个观看啊,欢迎大家一见三年啊,对我的视频鼓励,感谢感谢。

说实话兄弟们现在升级一切的 g p g plus 会员真的非常的简单了,而且我们在自己的手机或者电脑上面就可以操作,现在我有一个账号就需要升级到 plus 会员,因为普通版的次数实在是太少了,已经不能满足我自己的这个需求了, 所以我现在需要自己升级一下切的 g p 的 plus 会员。接下来就给大家讲一下我们自己怎么去订阅 g p t 的 plus 会员。首先我们需要在浏览器里面打开无痕模式, 然后在 g p t 的 官网登录上自己需要订阅 plus 会员的账号,接着我们在同一个浏览器里面打开这个网站,网站里面有很多订阅切的 g p t plus 会员的渠道, 但是我一般都是会用这种官方正规的充值,因为我自己的账号会有很多资料比较重要。 点开这个商品,然后我们可以用某信或者智某宝购买一张这种切的 gbt plus 会员,一个月兑换卡密,购买了以后网站它会自动的给我们发货一张卡密,然后我们就可以在商品的详情里面,这里面会有一个充值网站, 从这个地方点进充值网站里,注意我们每次进来这个网站的样式可能有所不一样,但是它的整个的充值步骤是一样的,我们只需要按照网站的教程一步一步来操作。首先第一步就是卡密叫验,我们需要把刚刚购买的卡密粘贴到这里, 然后点击开始验证,验证好了以后,接着就要绑定我们的账户,所以说需要获取我们的托管代码,我们就可以点这地方获取托管代码, 进入到代码页面后我们全选,然后复制一下,复制之后把我们刚刚复制的粘贴到这里, 现在我们就可以继续继续以后确认一下充值的账号,这一步主要是防止充值错误,所以说需要核对一下这个账号是不是我们自己的,如果没问题的话我们就可以开始充值了, 现在我们就耐心等待一下网站去处理,嗯,处理好之后它会提示我们已经充值成功,然后我们回到切的 gps 官网里面检查一下,注意回到网站之后它不会自动的变,需要我们刷新一下, 刷新了以后我们再来检查一下,现在我们已经有一个 plus 的 标志了,然后去升级套餐里面看一看啊,现在我们的套餐已经是尊贵的 plus 套餐了。 对了,现在给大家讲一下,目前切的 gba 官网已经更新了新的 ui, 所以 说模型这边可能不会显示,需要我们自己点进去,然后点击配置,自己选择需要使用的模型。 这个订阅切的 gpt plus 会员的方法就非常的适合我们这种对自己的隐私或者账号安全有一定要求的用户,如果有需要自己去订阅 plus 会员的话,可以按照这个方法自己去尝试一下,百分之百是能够成功的。

map 二是一款零门槛、免费为主的地图可识画工具,常用于专业地图制作,在国内历史圈中广泛使用,但其中很多功能大多数人都不知道,这里我将进行详细介绍。声明,视频中称不实用的部分仅为个人意见,可能还会出现遗漏内容。 本软件还有部分付费内容,请谨慎购买。本次讲解为手机版,有些手机可能使用不了, 进入软件内会出现五个大选项,第一个为创建地图,第二个为软件的辅助功能,第三个是你保存过的地图,第四个为调色板,第五个没有太大用处,可忽略。制作地图时点击第一个橙色按钮 创建地图。第三个可以对你以前保存过的地图进行更改或使用。进入创建地图界面,可以看到很多的地图模板,分为各种,想要更轻易的找到,就可以使用上方的分类来找。有两种分类方式,这边直接给出中文翻译, 此外还可以进行搜索,但要求必须输入英语。接下来选一个地图,我这里随便选一个进行讲解,我们用的就是下方的五个主要功能。 先说第一个, map 这里第一个可以更改背景颜色, 第二个是开关边框显示, the swedes, the russians and the austrians。 第三个是边框颜色, 切记要把边框显示打开才能显示边框颜色,如果觉得不清晰可以使用第四个,调节边框粗细选项中越往下越粗。第五个调节地图的颜色。 第六个我也是搞了半天也没搞明白,但应该没有太大作用,累赘,这里自己看吧,就不解说了,理解一下,谢谢! x 值中这个功能在一些地图里是没有的,它可以显示大边界, 颜色就不用多说了。 switch tool 点击一次即可涂色 erase color, 点击一次即可擦除 color by state 区域性覆盖涂色,没有与之相反的擦除 color multiple。 触摸屏幕的地方都可涂色及滑动涂色 erase multiple 滑动擦除, 剩下的分别是识别、取色、展示和隐藏。 徒立,这里就是对其的修改,可命名和删除, 这个就是图力,可给他移动位置放大缩小,如果不想看到,可以直接移除屏幕外。下载地图就是保存成图片,也可以用截屏代替。我们主要讲保存地图。 c 保存匿名之后就会出现在麦芒 这边。我们来到第二个软件辅助功能,付费内容虽能体验更多,但这边不建议买,因为贵。付费内容中文翻译如下, 这个地方可以改基础地图样式,这八种免费,剩下的为付费内容, 其他的没有太大作用,可忽略。 这里就可以看保存的地图了,如果你保存的地图很多,也可以使用分类来找, 调色板就不多说了。

我认为 g p g 五点四新品模型就是针对 openclaw 这一波浪潮新做的一轮努力,也是 openclaw 的 创始人被招入 openai 之后进行的首个重要模型的更新。 这个表我觉得做得还真的挺不错的,它会考虑业务的整个流转漏斗的环节。我真正要请这样的数据分析师以前来给我做这样完善的表格。啊。我真正要请这样的数据分析师以前来给我做这样完善的表格。我真正要请这样的邮件。 一封封读哦,我明显感觉到它这一版的 agent 在 五点四 thinking 的 加持下变得更加智能。四十八小时 open ai 连发五点三、五点四两个模型。为什么 open ai 近期的发布升级这么密集? 最新发布的五点四 thinking 真的 是最强的专业模型吗?大家好,欢迎来到玲姐说 ai 这期视频啊,和大家聊聊 gpt 的 最新发布。我会先和大家讲讲 openai 近期密集发布的原因点,背后的真实原因是什么,以及最新发布的五点三、五点四两个模型,它们的侧重点和差异点在哪里?背后的意图是什么? 最后啊,我会重点去讲讲五点四 thinking 模型它的升级点在哪里。并且啊,我会用一系列真实的案例去测评对比 这个模型和以往的模型,它的生成的结果的差异点在哪里?在我们用户真实的使用体感上面,这个模型能不能给我们带来切切实实的升级感受? 最近啊, openai 就是 在一个多事之秋的这么一个状态, jimmy 三点一 pro 给他带来的红色警报还没有解除,最近 openai 又因为和国防部的事情闹得是沸沸扬扬,出现了一大批用户卸载的浪潮。 詹姆奥特曼在和国防部的表态中,在这一轮预示加的模型里面啊,它是最不讨喜的, 既不像 antisorbic 的 ceo 一 样坚持到底,坚持他的两条原则和底线,又不像马斯克这样,我也不藏着掖着,我就直接同意你的所有条款,反正大家知道我本来就是这样的人。一方面是 open ai 里面的公司拒绝将大模型用于战争的用途, 另一方面是山姆奥特曼接受了美国国防部的相关条款。这一波操作让很多用户从 open ai 转向 antisorbic, 直接把苹果的免费榜里面的 cloud 的 下载量顶到了前面。实际上山姆奥特曼也挺无辜的,他是没有办法,如果你在他那个角色,你也 只能这么干。他的所有的策略其实都来源于一句话,叫做谁都不敢得罪。他现在是什么业务都想要,因为本身他自己没有现金流的业务, 国防部本质上对他来说就是一个客户,国防部提的要求也是客户的要求而已。 詹姆奥特曼一方面要讨好普通的大众用户,一方面也要讨好像国防部这样的大型客户,他哪个客户都不敢丢。他原来是曾经的带头大哥,但是他现在后面的人越来越强了, 但是现在这个阶段,他画饼也画不动了,又没有其他的故事,造血又造不出来,那他能怎么办呢?他只能什么业务都要接,什么用户都想要,谁都不敢得罪。 这就是为什么山姆奥特曼在这一次国防部的表态中呈现出这么一种状态,看起来像齐强,但实际上是他这个阶段的无奈之举,现在他缺的核心不是缺钱啊, 现在他搞的很多这种呃,融资也好啊,又获得了这个几千亿美元的这个投资也好,大家也看透这个玩法了,无非是左手倒右手 啊,这个还不是最关键的,实际上他缺的不是钱,他现在最怕的是丢失他老大的地位。你想想,从以往的事件一系列回顾,他一直都是 ai 界的引领者,在我心中他是一个非常厉害的 ai 原声公司, 堪比 ai 界的苹果。大家回忆一下 gbt 四发布的时候,堪称 ai 的 苹果 iphone 时刻。 gbt 四 o 是 引领时代的吧,那个时候四 o 的 深度模型非常的流行,而且整体的效果非常的好, 包括它后面出的 sora 的 模式,虽然说它一直在画饼,后面 v o 三把整个的饼给圆上了,但是整个的方向模式它是处在了一个引领的地位,包括后续它出的 sora 二的这个模式啊,以及它的 app 整个的人脸录入的玩法有多么的引领潮流。 但是时至今日, gemini 三点一的模型起来了,而且谷歌本身它的业务很强大,它就有很强的现金流。 osmotic 别看它用户量没有多少,但是它的大部分业务的客户都是企业用户,它的每年的收入有十亿甚至几十亿美金。 grog 就 更别说了,马斯克可能不能从单纯的 x a i 的 模型里面赚钱,但是它本身这个模型是它做 a g i, 做 spacex, 做特斯拉的这个基建,它有很多地面的部队,在物理能力这一段,现在其他的模型公司还没有谁比它的整个的布局更加丰富。所以 open ai 现在最害怕的就是失去他老大的位子,如果老大的位子丢了就完了。这个就是为什么 open ai 连发两个模型的原因,它们的危机感实在太强了, 按照以前的尿性,不得慢慢挤牙膏呀?五点三,挤一下,过一下,再挤个五点四。但是他现在实在等不了了,四十八小时内连发两个模型, 只能代表他现在非常担心自己老大的位置丢掉。但是一切皆有可能,就看 open ai 后面还有什么大招。对于一个这个原生 ai 公司啊,我觉得它仍然是有无限的可能。 先来看一下,在三月三号的时候, openai 发了 gpt 五点三 instant, 它这个标题啊,就明确了这个模型的定位,叫做 smoother more useful, everyday conversation, 就是 它更加侧重于日常对话,更加流畅,更加直接,更加有用。我们可以看一下,在这个产品的说明里面,它也明确地对比了一下这个模型它的特点。比如它这里举的例子, 提出一个同样的问题,能否帮我计算一个超远距离射箭场景的轨迹?在五点二里面,他会说很多原因啊,是的,我可以处理,然后会跟你讲讲原理。在五点三里面,他会直接告诉你怎么计算整个轨迹。我自己也使用了一下五点三, 但是我的体验来说,如果说我在处理自媒体相关的事情,呃,处理一些文档,处理一些给客户的资料的时候,我会发现五点三其实并不好用, 它更多地偏向于适用于你的日常对话,你就需要一个直接的答案,简短的答案,或者说你仅仅是希望你帮它快速地搜索一些具体的信息,你只需要 what, how 和 why, 你 需要的少,并且这个问题不复杂,也不需要去形成过多的专业判断的时候,我自己体验下来,五点三确实是比较好的,它比较快。 我们在用 gpt 的 时候啊,它最近是我的主力模型,因为 joe 奶三可能用户比较多,我经常无缘无故用到一半被弹出来,就是有一点恼火,只有隔一段时间我重新进入才能够恢复对话,但是 gpt 最近可能放的比较松吧, 然后我用的时候基本上没有任何弹出的这么一个情况,较验也比较少。那么 thinking 的 时间很长,基本上我发给他一个复杂的对话, 过好长一段时间它才能给我回话啊,至少我要等一等,中间我要切换,但 instant 五点三,我们能很快的得出答案,但是这个答案深度是不深的,它仅仅限于日常的绘画。再看它这个例子啊,官网举到的一个例子啊,说为什么我在旧金山找不到爱情, 如果是以往的模型啊,他就首先要跟你讲,这并不是你的错,然后讲讲各方面的原因。这个问题呢,也是存在普遍性的啊,先说一堆的铺垫,之后再跟你讲讲为什么你找不到爱情 这个五点三呢,它直接告诉你原因,就不铺垫了,直接直奔主题。那我对于我日常绘画或者我搜索信息的时候啊,这个是没毛病的,但是我们希望做一些 deep research 的 工作,做一些笔头工作的时候,这个我觉得是不可用的。 嗯,至少我给他任何工作的内容去处理,我觉得它还不是简单的以前我们说的那种参数更小的模型,那种 flash 模型, 这个推理链的这个长短,这个更多的是它把整个的行为风格和整个的系统提示词、回答方式和侧重点整体的做了改变。再看五点四,五点四这个模型是三月五号发的,也就是和五点三就隔了两天。 在这里的介绍里面啊,也可以明确地看出五点四的定位叫做 design for professional work, 就是 专为专业工作设计的。在这里是不是就能看出了两个模型的端倪? 五点三是侧重于日常的对话,更顺、更短、更直接。五点四是侧重于专业的工作,让整个的交付可以直接用于工作。 如果大家对五点二的发布以及我的解读还有印象的话,会记得在五点二的时候,他就搞出了一个指标,叫做 gdp will, 就是 选了在这个 gdp 里面占核心的贡献值比较高的一些职业, 看这些职业里面所交付的工作的专业性,来对比各个模型的能力如何。 这个指标是从五点二开始提出的,而现在他再重新定义这个模型,就是把五点四的特点和集中点落脚在 professional work, 在 后面他在讲五点四的优越性, 也会核心去强调这个指标。当然这个指标它肯定是做了重点优化的,就是五点四在这个指标上啊,是优于其他模型的。哎,就这个 gdp value, 它是百分之八十三,而 gpt 五点三 context 还有 gpt 五点二是百分之七十。 gpt 五点四实际上在用另一套话语体系,也就是它在处理长任务、文档、 ppt、 excel 专业任务上面,它是更优的, 它也是在讲明一件事情啊,模型在处理日常绘画和处理专业工作上,这是两个不同的产品目标,而这一点在 g p t 五点三和五点四这个两个模型的发布的时候做了一次定义和分层,这个在之前是没有的, 之前更多的是定于 flash 和 pro, 或者是说普通和 syncing 这样的模式去区分模型的,而这一次是以目标,以最后的交付目的 来对模型进行分层的。现在你打开 gpt 的 对话框,你就会看到有五点三、五点四 syncing 的 拆分,而在原来的 legacy 的 model 里面,它把五点二也拆分为了五点二 instant 和五点二 syncing。 待会儿在后面的测评里面,我就会去对比一下五点三、五点四以及五点二对于同一个问题,它们的处理效果怎么样?是不是它在官网讲的这些点到底是不是有印证关系的? 我们先结合一下官网的内容,讲讲五点四 thinking 它的核心的升级点在哪里?第一个升级点我认为它会更加侧重于交付结果,在这个官网里面介绍的它对知识工作的完成程度。看到这个表里面,这个是 industry x baseline 一个基础线, 他去把在美国 gdp 占比应该是百分之七八十啊,具体值我有点忘了,其中核心的四十四个职业领域里面,这些支持工作的能力啊, gdp 五点四,它处理的能力达到了一个新的技术巅峰, 这里的数字就是百分之八十三。这里还挺奇怪了,这个五点四 pro 啊,比五点四还稍微低一点,是百分之八十二, 但不管怎么样,它们整体都比 g p g 五点二要更好,相当于它在对知识型工作的替代上和交付上以及辅助上是更强的。所以这也印证了对于白领工作,特别是这种 知识型信息型的工作的替代, ai 未来会越来越强。第二个提升点在于,它对这种具体工作的硬核的交付能力变得更强了。 比如说它这里提到的换灯片、 excel 财务模型、法律分析等等,它的速度更快,成本更低。我们可以看到在这里官网它的一些例子啊,可以看到同样是电子表格的处理, g p t 五点四,它的整个的处理细度和密度以及排版更加美观,更加详细,符合人的使用习惯。右边这个是五点二的处理结果,这样一对比,明显是五点四处理的结果更好。 再看一下文档类的五点四呢,你看标了重点,还有文档的表格做信息的对比,而五点二主要是做了一些 markdown 文档,还有分级目录的这么一个排版,从效果和结果来看,它的清晰度和结构性五点四更强。再看演示文稿, 五点四,它的整个的图纹搭配整体的 ppt 的 和谐度和完成度对比,五点二都是更好的。毋庸置疑的是,对于这种 office 三件套 这种纯信息流的,只要是逻辑结构严密的这么一些文档信息的处理,未来 ai 都会比我们人处理的更好。第三个升级点,我觉得是一个挺抓人的点,就是这个模型更加像一个会使用电脑系统的这么一个模型。 就像它的这个原文里面说的, gpt 五点四是它们首款具备原生计算机使用能力的模型,它的原话叫做 native computer use capability, 这个功能如果说你直接在对话界面使用的时候可能没有那么直接,但是如果说对于开发者 和使用 agent 而言会是一个比较大的进步。大家还记得吗? gpt 模型中间有一个叫做 agent 模式,我们可以通过调用 agent 模式来尝试和体验它的这个 computer use 的 升级点。 而且如果说它在计算机使用的这个原生能力上有比较大的提升的话,用这个它的 api 接口去调用去养龙虾应该会是一个很好的尝试。 因为我之前在用这个 open ai 的 账号的时候被它封过账号,所以现在我还没有打算使用最新的 g p g 五点四的这个接口来调用。 呃,如果大家有尝试的,欢迎在我的评论区留言来分享你的体验。这张图它表达的是使用这个模型来操作计算机系统,它整个操作的准确性是怎么样子?这里显示啊, g p t 五点四,它的准确度达到了百分之七十五。实际上它说的是平时啊,我们在使用一些电脑操作的时候,很多时候是通过截图和这个模型沟通,通过截图的方式操作,它的准确度五点四就达到了九十多,而实时的这样的操作它可以达到百分之七十五, 而对比五点二,它的准确度只有百分之四十,七点三还不到百分之五十,整个的准确度得到了大幅度的提升, 而这里的横轴代表的是它对工具并行调用的数量啊。实际上这里 g p t 五点四,它并行的调用的工具数量是更少的,说明它整个工具调用的延时度是更低的,整个的效率更高。在官网上面,它也给我们展示了这个样例啊, 通过它的这个电脑的操作功能,它帮你去收集你的 gmail 邮箱的信息,并且帮你安排日程,发送日历, 发送邮件整个的操作。还有个案例是根据你的这个发票信息进行批量的发票信息的录入,而且这时候你打开你的 gpt, 把你的 agent 模式打开的时候,在这里啊,你的 app 这个地方,你就可以连接你的 gmail, 让这个 gpt 在 你的 agent 模式下为你操作。刚刚他整理邮件,发送日历,发送邮件的整个操作,让 gpt 五点四帮你来处理一下,你就可以做类似这样的尝试了。第四个升级点呢,是它的 coding 能力啊, 之前有一段时间 gpt 五点二是能够在 codex 里面使用五点二的 thinking 的, 后面他发现很多人啊, 就是只在 codex 里面直接使用它的这个编程,还有问答,就不回到它的这个聊天窗口了,我估计是因为这个原因,当时五点二是从 codex 里面下架了,现在在 codex 里面可以直接使用五点四 thinking, 而且它这个地方也说啊,这个五点四 thinking, 它还结合了五点三 context 这个模型的编程模式啊, 从指标上它的表现是更优的,这个是官网展示的案例啊,这个案例呢,官网是想表达 g p t 五点四在编程前端的这个美观度和功能性都是比较强的,你看像这样的游戏,它的这个砖块啊,都是等距的, 而且这些这个小球啊什么的都是按照一定的路径在进行行进的,包括这些游乐场啊,建筑物啊,它的构建都是有一定的这个距离的控制的,是需要精确的控制的。另外,在这一波的升级里面, codex 的 windows 版也终于上线了, finally windows 用户再也不用看着苹果用户眼巴巴地使用 codex 的 用户端了。 在随后的视频里面,我也会去跟大家讲解和更新,在 windows 上面如何使用 codex 来操作一系列复杂任务,来提升我们的生产能力。第五个升级点呢,是工具搜索,它这里提到在 api 里面, gpt 五点四它引入了 工具的搜索,让整个的速度更快,幻觉率更低,准确性更强,涌现更少。另外呢,这上面还有一个小的提升点,就是你在用 gpt 五点四 thinking 在 对话的时候, 在一开始对话的过程中,他会先跟你梳理整个的问题解决的思路。在这个过程中,你是可以在他没有完成整个对话的时候,中间插入补充的问题和信息的,他不像之前你只能够停止中断回答,在这里中间你能够输入补充信息 来完善整个回答的,这也是 gpt 五点四 thinking 在 体验上的一个小的改进。综合上面的信息来看哦,这一次 gpt 的 发布,它在于主动地做了模型的分层,我们可以看出各个模型的定位啊,会有一些差别。 g p t 五点四 thinking 呢,它偏向于专业工作长任务,工具,网页,还有复杂的交付。 g p t。 五点三 instant, 它偏向于日常的对话,搜索,整合和顺滑的表达。 g p t。 五点二 thinking 呢,它仍然是一个比较深的推理路线,但是已经被 g p t。 放进了 legacy 里面。 它的价值在于看看五点四对比五点二 thinking 究竟把专业工作往前推进了多少。 gpt。 五点二 instant 相当于五点三的老一代,所以说接下来我的测评就集中于对比五点四 thinking, 五点三 instant 和五点二 thinking 这三个模型,看看它们对于同一问题和任务最后的表现怎么样。 第一个任务,我们来测一下它们交付结果的专业性。在 open ai 的 文档里面,特别强调五点四 thinking, 它的 professional, 它的 presentation 和 documents 的 能力比较强。那我就把同一个任务分别发给五点三、五点二、五点四 thinking 来对比一下。 而且在这个对话里面,我们是不带任何上下文的,每一次任务只有纯净的一次提示词的窗口来保证它们任务的稳定性。先来看这个任务, 我这里说它是一个咨询顾问的角色,为一个年营收三亿,线上销售占比百分之六十的国产护肤品牌写一个给 ceo 的 内部提案的出稿, 也就是说给老板的一份提案报告。这个报告的主题是讨论在二零二六年是否全面引入 ai 客服和 ai 营销自动化。同时呢,给了一定的背景信息,并且呢 告诉他了整个的提纲,整个的结构输出是怎么样子,提了输出要求,看一下五点三啊,他这个是严格按照结构去做的,第一页结论先行,第二页为什么,第三页分别能解决什么问题? 第四页主要风险和反对意见。可以看到这个每一页和我一开始提的这个要求啊,是匹配的。其实初步看呢,把这个内容啊,交给一个做 ppt 的 agent, 它是能够完全地自行引导完成了。其实单看五点三 instant, 其实这个结果还可以,不过越往后看呢,就会觉得越简单, 而且有点过于简单了。对比五点二 thinking, 我 们来看一下,可以看到整个的内容就丰满了许多,虽然是同样的结构啊,但是内里面的内容啊,不仅有骨架,而且是有血肉了啊。这个建议后面会有一些述会,有一些内容 相对会比较清晰啊,其实看这个内容,我觉得也是一种可用的一个状态了。那我们再看一下五点四 thinking, 它是不是往前推进了一步,这个是五点四 thinking 给我输出的内容啊, 我自己整体看下来,对比五点二 thinking 呢,差异不是很大,但是从我自己对整个内容细细研读下来,我认为它的内容的清晰度和要点的整个层次的梳理更加清晰。第二页为例啊,五点四 thinking 所输出的结果,它的结构性和规划性更好, 都是在讲为什么要做这个事情。他讲了结论外部环境和公司的问题,把这件事从可选项变成管理议题。然后接下来是几个要点,行业层面,客服测的问题,营销测的问题, 公司当前的结构,还有二零二六年这个时点的关键性,再对比看五点二 thinking, 同样的这个说法, 它的表达上有一点差别,它说的是渠道环境变了,消费者的预期变了, ai 成熟度变了,公司内部现实还有管理核心担忧的本质啊,它的表述上会有一些差异, 从清晰度和老板你述的这个角度来看,我更加喜欢五点式 thinking 它所表达的内容,而且这个内容我认为它的整个的结构更容易把它做成一个比较完善,比较清晰的 ppt, 这是我的体感。 我们再来看第二个任务,第二个任务呢,我是让他建一个收入预测的表格,帮我建模,这也是在官方重点强化的一个项目,我们来看看谁是提建议,谁是真的帮我建模型。 这个任务是这样子的,现在定义啊,这个模型是一个懂商业分析和 excel 建模的一个经营分析师,让它来基于这个 youtube 为主的平台创作者的一个角色,让它设计一个 ai 内容创作者未来十二个月收入预测模型的 这么一个设计。这里呢,我给了它一些假设的数据啊,包括订阅数、播放数,还有一些维度等等。我把同样的这个提示词复制下来,给到我刚刚说的这三个模型。首先是五点三 instant, 他的回复啊,真的是超级快,而且是相对比较简洁的。我把这个要求发给他,瞬间他就开始告诉我这个收入预测模型应该怎么做了,他分了几点啊?看看大家大概浏览一下。首先是给我了一个参数的输入表, 分了几个表头,然后内容的这个生产预测表,广告的收入计算表,商业合作预测表,还有咨询课程加联盟的收入收入汇总表。 首先给我六大表格,废话不多,直接给你需要用的这个表格。然后呢,再讲讲每个表格的字段设计,以及关键的计算逻辑,还有一些设计变量,就是比较简单清晰啊, 我觉得结构是比较完整的,就是相对来说很简洁,能让你快速地抓住最核心的要点。再看看五点二 thinking 啊,五点二 thinking 啊,就开始有一个完整的述了,它会在开头告诉你 这个预测模型呢,包含了以下的内容,包含了工作表的结构、族表、字段、关键逻辑、情景、假设、敏感变量和一百字的管理者结论。下面呢,就是对他讲的这些内容的述和表达,可以明显看出啊,他的整个的述和讲解会比 这个五点三 instant 要详细很多。再看五点四啊,我跟你讲啊,这个五点四生成的结论啊,真的是超级长,当时我一边生成一边在等,不停的点这个往下键,它就不停的在生成,就是它生成的字数啊,至少是五点二 thinking 的 这个结论的 两到三倍,但是并不等于说长就是好,只是说在这里的表达里面,它会把整个的这个预测模型讲得非常详细,如果说你是希望实实在在的 把这个模型用起来,并且对一些字段,对一些表头的设计希望有详细深入的理解的话,这个五点四 thinking 绝对是讲的是非常的详细, 详细到到后面我都是觉得它有一点啰嗦了,那这个能力呢?实际上是在测这个模型,它深层制作这个表格的能力啊,和官方讲的它的这个能力相像,是呼应的。从设计梳理结构和详细论证上面来看,五点四更加完善, 因为它是一个具体可以落地的这个模型。我又给五点二 thinking 和五点四 thinking 提了进一步要求。我补了一个任务,我让他们给我生成基于这个模型测算对应的 excel 表格。我们先来看五点二的,我们放大看一下 它这里呢,做了几个 sheet, 先看一下。首先是 readme, 告诉我怎么去使用。在 scenario 里面选择情境,悲观,精准和乐观。在这个 input 里面, 蓝色和黄色的单元格输入你自己具体的数据,价格,转化率,还有季节性。在 drivers 里面还有收入明细表与 revenue, may 里面就会自动计算, 也就是在下面这几个 sheet 里面,它会自动计算对应的数据,然后在 check 里面会用于检查 异常,比如说负数占比不等于一百啊。这里会有一个异常的情况的,叫验口径说明,默认的单位为人民币,可以在 input 里面统一修改缺失的数据,给出默认的替换值。颜色约定,蓝色是可输入,黑色是公式, 绿色是跨表引用,紫色是控制情境,黄色底代表重点,假设设计的。我觉得挺好的,我真正要请这样的数据分析师以前来给我做这样完善的表格啊,我觉得这个月薪也不会特别低,你看他想的还是挺完善的。 我们再看一下,在 scenario 这个地方,它有悲观,机准,乐观,每一种情境下它具体的参数,在这里给我列了一些数字,我只要改变当前的这个情境,这个地方 b 三这个单元格是机准或者是乐观,它对应的这个数值啊,情境也会进行改变, 这个表呢是 input, 这里就是基础的信息,这个信息呢就是可以根据自己的这个频道的情况进行修改,然后对应的这个参数值啊,刚刚这个情境下的参数值就在这里进行联动,然后对应的这个收入啊,就可以进行计算。 这个表我觉得做的还真的挺不错的,我的观众里面如果也有自己在做相关频道的运营,不妨尝试一下,让 gpt 五点二或者五点四给你做一下,我觉得效果还不错,比我上一次让他给我做这个 gpt 的 表格,我觉得 有点超出我预计,我们再看一下五点四 thinking 它出来的效果会不会更进一步放大来看。 诶,这个 readme 这个地方啊,好像是空白,怎么回事?我先把它下载下来看一下。啊,我们下载下来了, readme 这一块啊,确实是空白, 它有个好的地方呢,它框架上面明显要比五点二 cking 要专业,你看在这个 sheet 这个名称这里啊,它标了零零零一,零二到零五这个专业性框架上面就会比五点二 cking 好 一点,但是它的 readme 是 空的。 我们接着看啊,看一下这个零一 put 这个位置,它也参考了刚刚讲的这个情境的选择,分为悲观、精准和乐观。在这个地方可以去调这个锁影,它这里做的比较细化,增加了一个模型,起始的计算月份可以调,它这里和之前的表格也是类似的, 也是蓝色的字,可以更改这个基础值。我们再看到零二 driving 这里呢,就有一些问题了,你看出现了大面积的这个不显示数值,我自己查了一下,这个主要的原因是这里这个等号是没有的,你看它只有这个引用,比如说我把这里的这个等号写进去, 这个数字才出来,它这个原始表格里面出现了大面积的这个公式的错误。它这个框架拆解做得比较好的地方呢,它会针对实际的业务场景增加了更加细化的驱动因素的拆解。它除了像五点二 thinking 这个表格,把这个 整个的 youtube 创作者的收入分为几个板块,并以公式的方式对最后的结果进行拆解之外,它会考虑业务的整个流转漏斗的缓解。比如说啊,以商单这个板块为例,它这里拆解商单的收入啊,它会分为很多细划的 一些指标,包括这里说的商单机会,商单的成单率,实际的商单数,还有商单的这个起单量, 单价,咨询留存率、咨询线索,咨询成交率等等等等,它会做更加细化的拆解。第三个板块,这里的收入预测和前一个表格差不多,它还有个亮点,它在零五这个 sheet 里面做了一个管理层在要 相当于有一个 dashboard 给管理层,给这个使用者直接有一个直观的这个数据展示的这么一个仪表盘的一个状态。我认为比五点二 cking 设计出的整个的表格 完整性,还有它的野心是比较大的,更加倾向于设计出一个专业完善的这么一个表格,但是呢,它的最大的问题在于,这个表格目前来说数据都是空的,它是处于没有跑通的一个状态, 相当于没有最后答题,答出答案,出发点想法是好的,但是最后它的完善性和可用性针对一个实际使用者而言,它是没有完成的。从实用性和可用性来说,五点二 cking 产出的收入预测的表头和模板更加好用。 从专业性和整个框架设计的野心来说,五点四 thinking 更加好。索性啊,五点二 thinking 也没有下架,大家在实操使用的时候,可以让两个模型同时去跑,并且有所结合。 从交付专业成果的这个努力程度和倾向性来说,也可以看出,五点四 thinking 确实做了比较大的提升和努力。第三个测评项目是来测一测 这个模型它的电脑操作能力怎么样。这个测评是专门针对最新的五点四 thinking 来测的,在 open ai 的 官方说明里面,它特别去强调了 open ai 的 五点四 thinking 模型,是第一个 ai 原生的使用电脑操作比较好的这么一个模型,它远远超过五点二 thinking 的 电脑操作的完成度,达到了百分之七十五, 甚至比人更会使用电脑成功率更高。我们可以切换到 gbt 的 agent 模式, 切换过来之后呢,这里的模型切换关闭了,但是我相信它用的就是五点四芯片。 请注意啊,五点四 thinking 的 发布时间点是在 gbt 把 opencloud 的 创始人招进来之后发布的,可能他本身就做了这方面训练,但是在他进来之后,明显看到这一次的发布啊,明显是在往 opencloud 的 这个方向在发, 现在很多人在尝试把这个 openclaw 去接入 gg 五点四芯片的这个模型啊,它的电脑操作能力,我相信在龙虾这一段会有一个很好的表达,这也是 openclaw 创始人进去之后, openai 在 这一块做了一个比较大的方向的调整和强化。我们通过 agent mode 的 模式测试来看一下他的表现。这里给他布置了一个任务,让他帮我查看我的 gmail 收件箱,识别最近需要回复的邮件,帮我排优先级,但是不要帮我代发内容,进入 syncing 模式。 这时候我的 gmail 还没有登录,我点击这里,它这里做了一个风险提示,我点击 understand, 下一步,这里显示。现在是轮到我来控制这个浏览器了,这里是一个虚拟机,点击 sign in 这里,我输入我的商务邮箱,然后进入。好,我点击继续 这里验证。好像出了一些问题,我试一下其他验证方式吧。好,二步验证完成了,现在我已经登录完成了,我就点击这里的 finish controlling, 他这里提示到你有一些隐私数据,如果你觉得不合适的话,可以随时停止。这里可以随时接管啊,他正在读我的邮件,一封封读啊, 我明显感觉到它这一版的 agent 在 五点四 thinking 的 加持下变得更加智能,而且特别针对邮件这个场景啊,它在前面也谈了提醒,告诉我可以帮你去整理邮件,帮你去写一些邮件的草稿。在这个场景下,它是做了深度优化的。 这些垂直领域的电脑操作,我相信离不开 openclaw 创始人的一些想法和思维,那这里就把收件箱里面我没有回复的,没有点击的最新需要回复的邮件给我总结了,相当于是我的邮件助手。 我认为 g p g 五点四 thinking 模型就是针对 openclaw 这一波浪潮新做的一轮努力,也是 openclaw 的 创始人被招入 openai 之后进行的首个重要模型的更新。 现在我在等下一轮更新,尤其是五点四 thinking 的 一个便宜一点的版本,可以让我真的把它接入龙虾的这个版本。整体来看,我觉得 g p t 五点四 thinking 还是一个非常强的专业模型,值得一试。 欢迎在评论区来分享你的使用体验。今天这期节目就到这里,记得订阅玲姐说 ai 的 频道,我们下期再见!拜拜!

上周 openai 发布了切克 gpt 五点四版本,其中一个能力叫 computer user, 也就是 ai 看屏幕, ai 决定下一步,然后 ai 模拟鼠标键盘操作,说是可以像人一样操作电脑界面。网上很多文章都在说准确率超过百分之七十,甚至高于人类的平均水平。 本来想拿他和 ok 可乐做一下对比,但是找遍了各个平台,几乎没认真的跑起来,所以今天研究了一下,搭了一下环境,结果有点出乎我的意料,网上说他创建 ppt 文档平均得分达到八十七,而人类是百分之六十八。那我们第一步先来测试一下他写 ppt 的 能力,那我写 一个 ppt, 内容为 open class 介绍和应用场景,然后给他发给他,我给了他一个完全访问的权限,如果用默认权限的话,他会在沙盒里面运行,当需要突破沙盒操作你电脑的时候,会一步会让你授权。我想着太麻烦,所以就直接给了一个完全访问权限。 这里他自己生成了三个步骤,一个步骤是整理内容结构已经做完了,现在是编辑并且导出。经过了一个漫长的等待,我发现这个 ppt 已经写已经写出来了,那这里还在确认。 ok, 我 们打开看一下。哎,别说,这个笔记本做的还可以,有点内味了,这一点有点重叠,这一点有点重叠哈,你先管他,进去看一下, 别说做的还行。嗯,我还挺满意的,看一下我电脑 c 盘,就是 c 盘已经满了,因为最近装了很多应用,他就疯狂的为 c 盘进行缓存,我让他帮我整理一下, 哎,已经跑起来,正在运行了,我们等一下,一个缓存文件十二 g 回收站有一点一 g, 通常这个缓存目录下面的文件都可以删掉的,是不会影响正常使用的。 对,前段时间进行了一次系统更新,可能是残留文件,我一百五十 g 过占用的就剩了不到五个 g 哦,他这里已经结束运行了,告诉我这里有十二 g 的 文件,我直接删除的命令做了拦截。 哦,就还是总结一下,就是他能找到这些文件,但是没有帮我删掉,因为他的权限不够。呃,我继续让他继续帮我修改命令, 如果命命运被拦截,你可以修改授权给自己权限。 嗯,说执行完了,我再刷新一下。十六 g, 哦,这是 npm 的 一些缓存哦,我再让他继续执行, 主要还是 npm 的 缓存。好,这里告诉我。又释放了一节空间。好的,经过了漫长的等待,三分钟,将近四分钟,处理了一些缓存,现在是二十七,从一开始的五 g 释放了二十二 g。 嗯,我来刷新一下 啊,确实一开始就有五 g, 现在有二十七 g 了。就是这一步有点像你的工作助手工作助理一样,还挺好用的。这一步体验也是比较满意的。 我们下一个测试,测试一下他能不能通过网页进行一些事情。比如我说使用桌面已经打开了三六零浏览器,新建一个标签,跳到小红书页面,给第一个帖子评论, 内容自己写,因为这个三六零浏览器上面的小红书是我已经登录过的。 ok, 下一步我就完全脱离鼠标和键盘看桌面的地方,他已经 进行了一张截图,他首先运行了一个命令,说要去激活三六零,然后又截了一张图,发现三六零并没有被激活,他是通过截图的方式去比对命令有没有运行成功。 我现在重新尝试了一个,先把三六零输入进去了,但是他没有按回车,又截了一张图,这个时候补充了一个回车,现在已经进来了,他又截了一张图,应该是能识别出来,现在已经进到小红书页面了, 下一步按理说应该要点击第一个帖子,这里还在运行命令,我不知道为什么他不去,通过鼠标去操作好这里识别出来,没有点击成功,他改用鼠标点击帖子, 这里还没有成功。网页这一趴有点拉,他说不再依赖鼠标点击了,而是在当前页面的浏览器跳的第一个帖子,就第一个帖子里面并不是 url, 所以 说他提取的 url 是 错误的,然后他跳,跳转的时候就跳的也是错误的方式, 他抓取链接抓取错误了,所以跳转的时候也就跳错了,他在可以看出他在努力的解决,但是还是不行。 其实如果按照他说的,通过是屏幕识别,然后通过鼠标去点击,这个方式是很容易做到的,但不知道为什么他一直没做到,就要么是识别那部分有问题,要么就是控控制你的鼠标键盘那部分有问题。他点小红书的标签,但是没有点对,语气偏了一点, 这拜托这首页也没有小红书的标签,他一直给他点,不知道在点啥,我还怕干扰他,所以我就尽可能没有动过鼠标,但他现在说标签位置偏了一点,他刚才点了另一个搜索页,他要精准一点点到小红书的标签, 但是现在都没有打开小红书呦,所以他不知道在尝试什么。哎,我看不下去了,要不我帮他打开一个吧。 ok, 我 帮他定位到小红书页面,然后他告诉处理失败了,七分钟十八秒没有,我让他继续吧,再试一下。 ok, 我 点一下把它切换到前台,他现在是非常执着的想要滚动一下,把它滚动到下面, 他要改成键盘滚动。那现在浏览器可以看到他是激活的状态,就是你按鼠标,你按键盘的话是可以滚动,但他现在不知道为什么点开了图片。我没有点,而是他自己点的。那下一步他应该是再点击一下,把图片给缩小,看他能不能识别出来。桌面上刚才看到多了一张截图,就是他有再去看。 他现在已经开始执行下一步了,好像确实有变化。我手动把这个图片给点掉吧,不然看不到他正在做什么操作。哦,可以看到他刚才一直在往下滚动,现在看他能不能定位到输入框里面。 他不知道干嘛,他又跑了。他可能想运行一个脚本,就 gs 脚本,想把浏览器滚动到最底部,但是他这个脚本不知道为什么要放在放在地址栏去执行,就导致直接跳转到这里了。 呃,现在我来停止一下这个任务吧,我已经等的不耐烦了。我来总结一下他这个操作浏览器,因为他不能够通过一些端口或者 mcp 服务 去操作浏览器,他只能通过就是像官网描述的,通过截图的方式去去识别你当前的屏幕,然后通过鼠标键盘去接管去操作。 当然是不知道为什么,就是他识别是能识别到这个屏幕的,也能找到正确的步骤,但就是但就是这个鼠标键盘的接管,不知道为什么总是点不到正确的位置。 然后另一个是他要因为每个网站的功能都不一样,所以让他评论的时候,他去找这个评论框,他认为评论框就是传统的评论框 在最底部,但其实我们知道小红书的这个框其实一直在这里,他就非要划划划划,他认为他划到最底部才能看到这个框,但也可能就是他定位不到这个框,所以导致一直在最接近这个评论框的时候,依然是没办法聚焦到那里进行评论, 所以这个任务就算失败了。而这个任务失败就意味着他们官网宣传的通过啊,通过 computer user, 然后鼠标就是屏幕识别的方式去定位鼠标键盘。这一趴其实是整个都行不通的, 但理论上是可以的,只是他现在做的可能还不够完善,或者是我环境有什么问题。我本来还想让他测试一下去操作微信发消息,回消息,或者是打开你的网页,那我觉得他既然一个小红书都打不开,所以说你让他去发个邮件什么的也估计也够呛。那我先让他把桌面的这些截图文件都给删掉吧。 他这个这个命令应该是不在话下的,主要还是通过命令执行的,不是鼠标键盘。下一步让他帮我写一个 小游戏吧,这应该是他比较擅长的,因为这个扣的,因为这个软件本身啊,写代码的能力就是比较强的。哎,现在可以看到他已经做完了他,我就只是让他上传一个游戏,规则都是他自己定的,都是一些常用的规则。我们打开看一下,这是显示我点开始游 戏可以鼠标点啊。不是,他不是那种通过键盘左右的移动,他是鼠标点的这种, 那这种游戏的话,嗯,还是或者是鼠标按住直接拖这种游戏的话,其实, 哎,他他这个难度就更低一点,就因为他灵活度更高嘛。所以说我让他直接碰一下来试一下,碰一下,看会不会死,哎,真的会死,哎。 不,不,刷新一下,我让他帮我玩,看他能不能帮我。帮我。呃。他说他不能帮我玩,帮我玩更像自动化操作,他说他不能玩,但是可以帮我加一个 啊。我们现在来总结一下吧,他确实可以启动程序,比如打开网页查进城或者是处理脚本,这个都是可以的,或者是写代码什么的他都可以做到的。呃,就是他目前的定位,我感觉还是像你的一个助理或者工具一样帮你去干一些特定的任务, 但不能够就是像一个虚拟员工一样真的帮你思考或者帮你解决一些灵活的问题。就这方面他是不如 open cloud 的, 你看他比如他也说了,他能够通过命令启动游戏,但是并不能够帮你去操作或者去玩这个游戏,就是一点就还是类似于半自动的解决方案, 你看他不能像远程一样去执行或者去玩电脑游戏,所以他目前的工具依然是定位或者是助手,而不是说真正的像一个 ai 员工那样。因为现在是刚上线,我们可以再期待一下接下来的等他更新迭代之后的版本。

谷歌发布最新旗舰模型, java 三点一 pro 安卓 p 公司发布最新编程最强的克罗地斯四点六,给大家分享一个可以使用 g p 五点二, g p 三点一 pro 克罗地斯四点六的保障网站,让全世界最强的人工智能为你打工。我们点击立即使用, 可以看到我没有改变网络环境就直达了 oppi 官网,左侧是可以切换模型的地方,支持 oppi。 最新旗舰模型 g p 五点二, 思考更充分的五点二, thinking 二百美金一个月才能使用的 g p e 五点二 pro 谷歌最新发布的旗舰模型, java 三点一 pro ai 香蕉绘画模型 nasa 五十 pro 编程最强的克罗地斯四点六,还有马斯克发布的最新模型 group 四点二,中间是可以输入提示的部分,支持深度研究、代理模式、 学习模式、网页搜索画布左侧是一个粒子画部分,保留粒子画记录,支持上百种 g p d s 插件,它可以新建自己的 g p d, 进行一个文件和提取词的复用。 我们切换 g p 五点二,问一下你是什么模型?我是 g p d 五架构的大语言模型,用过国外官网,二十美金一个月, plus 会员,小伙伴非常清楚这是一个满写的 g p 五点二,有兴趣的小伙伴可以访问这个 ai 健康站 来使用 openai 最新旗舰模型 gp 五点二,谷歌最新的专门一,三点一 pro 马斯克系列模型格鲁斯四点二,编程最强的柯尔特升温四点六,让全世界最强的人工智能为你打工。 我们再来测试一下 gp 五点二的联网实测能力。截至今天, openai 最近一次官方发布的重要产品和模型更新是什么?截至今天,二零二六年二月二十四号。 二零二六年二月二十四号发布了锁定模式和风险升高,这是一个核心变化点。现在短剧火的一塌糊涂,全是 ai 写的。我们打开 drama 三点一 pro, 复制一段万能剧本咒语, 给 drama 三点一 pro 下单,写个职场 pua 之女王觉醒,要求暴虐暴爽,剧情炸裂。转瞬之间,人设大纲,专家修改建议全都有了,稍微润色一下就用投稿, 我们在切换编程,最强的克洛克生成四点六,请用 java 设计并实现一个支持高并发的电商微服务系统。克洛克生成四点六,给出了系统交互概览核心模块,实现库存服务详细的思考语句,上文长度非常的长,达到了百万投人上眼文。最近好多科研配图,那叫一个专业 精致,看着很高级,其实有手就行。选择谷歌最新的 ai 绘图模型纳多沃纳 pro 复制提示词,啪的一下,丝状真菌蛋白的意图可以直接下载到本地,插入自己的论文中, 十分的专业。有兴趣的小伙伴可以访问这个 ai 建站来使用 opni 旗舰模型 gb 五点二,谷歌最新的专门三点一 pro 马斯克系列模型格洛斯四点二,编程最强的科罗斯四点六,让全世界最强的人工智能为你打工。