粉丝1.0万获赞8.3万

兄弟们炸裂的来了, gbt 五点四突然深夜发布!先来看个逆天的,这是 gbt 五点四自主开发的角色扮演类游戏,不光是他写的代码,他还正在自己玩,一边玩一边给自己的游戏代码优化迭代, 这个主题公园模拟游戏,甚至只是根据一条提示词生成的,然后他就自己玩上了。相信你也猜到了,这次 g p t 五点四最牛的就是他,是首个原生具备了最先进的计算机使用能力的通用模型。来看这个注意视频没有加速啊! gbt 五点四正在操控浏览器,快速的把右边的信息填到左边的发票表单中,速度快的有点看不清。这个是他正在用 gmail 给人发邮件,就问一句,你用电脑有他用的熟吗?也许 gbt 五点四就是个分水岭,很快就不是他会不会做,而是还剩下多少事轮得到你来做。

这波更新直接把 agi 往前推了一大步,朋友们,今天真的太热闹了,被 jamming 和 claudia 了整整一个月的 openai 直接憋出了一个王炸, gpt 五点四 一夜之间所有竞品的神话都被碾碎。这个视频我就用两分钟的时间带你看一下这个模型到底有多颠覆。首先是原声操控电脑, gpt 五点四已经能像人一样通过视觉鼠标和键盘操控你的电脑,包括快速填表、单发邮件、排日程等等。比如这个,他正在把右边的资料填到左边的系统里面,画面我并没有做任何加速。 还有这个,他正在用金妙给团队成员发邮件,并将会议日程分发给其他成员,你觉得这个速度和熟练度怎么样?其次是全能办公, gpt 五点四这次重点提升了创建和编辑文档、电子表格和演示文稿的任务功能。有人认为他的 ppt 已经做的比设计师美, excel 算的比分析师还要准。这里可以看一组对比。 这个是 gpt 五点二做的 ppt, 这个是五点四的。很明显,五点四具有更丰富的视觉效果以及更强的图纹美观性,整体的审美有了不小的进步。 还有这两个表格,可以看到五点四的格式呈现效果更加直观,还区分了文字重点,仿佛一个成熟的文员。值得一提的是, gpt 五点四的幻觉率暴降了百分之三十三,错误率也砍掉了百分之十八。第三是推理编程合体, gpt 五点四在编程测试中已经达到了百分之五十七点七的准确率,超过了 codex, 并且支持一百万 token 的 上下文聊天窗口, 你可以让他来自主开发角色扮演类游戏,在这个过程中,他会自己一边玩一边优化迭代自身代码,优化视觉效果和交互设计,所以小白也能开发属于自己的游戏了。 除了这几个核心升级点, g p t。 五点四这次网络搜索能力也迎来了暴涨, pro 版的准确率冲到了百分之八十九点三,直接反超 cloud, 在 视觉理解能力上也直接突破六千像素的行业极限,再细微的细节都能精准捕捉。还新增了中途可调需求的功能, 你随时能打断调整思路,完全不会打断模型本身的深度思考。所以在我看来,目前几乎没有任何短板的 g p t。 五点四, 这次恐怕并不是简单的升级,而是 ai 生产力的一次里程碑式改革。当他把每一条线都拉到顶尖水平之后,就会用行动来告诉你,谁才是通往 agi 的 路上最可能的终极 boss。

gpt 五点四终于来了,它真的能动手了!它具备了原声电脑操控能力,能像人一样看屏幕、点鼠标、敲键盘。接下来,我们一起看看这次大升级到底升级了哪些方面。 第一,原声电脑操控。这是本次更新的灵魂,因为它让 ai 首次跨越了对话的边界,能自主规划并执行跨软件的复杂工作流,桌面操作能力直接超越人类平均水平。 第二,思维模式,深度融合模型在解决难题时会先思考再行动,且支持用户在思考过程中实时打断和修正指令。第三,百万级上下文窗口, 标准版支持一百万 tokens, 能一次性吃透整本小说或大型代码库,解锁精度极高。第四,代码全站自动驾驶, 不仅能生成六千行代码,还能在本地环境自动运行报错并自我修复,实现真正的闭环开发。第五,身网研究与成本优化,增强了访问授权账户获取信息的能力, 同时在复杂任务下的调用成本降低了近一半。那中国模型,比如通易千问, q n 三五 plus 和它比差距大吗?说实话,在纯文本推理、中文理解和代码生成这些脑力活上, q n 三点五 plus 已经追平了 g p t 五点二, 甚至在某些榜单上互有胜负,硬实力差距微乎其微。一旦谈到性价比,中国模型简直是降维打击。 gbt 五点四的输出价格高达每百万 token 一 百零八元人民币,而 q w n 三点五 plus 只要八毛钱, 整整差了一百三十五倍。如果你是要处理海量数据,做大规模客服或者高频调用,用 gbt 五点四可能会让你破产, 而用中国模型,你可以随便造。在这个维度上,中国模型不仅完胜,简直是直接把高性能 ai 变成了水电煤一样的基础设施。那什么情况下,你必须得用 gbt 五点四呢?当你需要 ai 像个数字员工一样去操作那些没有开放 api 的 老旧软件时, 当你需要他独立解决一个从未见过的复杂难题,比如全自动开发一个完整项目,或者进行深度的跨国科研分析时,当你对任务的准确率要求极高且预算充足,需要他具备全球最强的逻辑闭环能力时, 这时候 gdp 五点四贵有贵的道理,他买的是自主行动力和极致智力。最后留个问题给大家,如果让你选, 你是愿意花一百块钱雇一个能帮你动手干活的 gbt 五点四?还是愿意花一块钱雇一百个只能动嘴皮子但智商也很高的中国模型? 你觉得未来是全能管家赢,还是人海战术赢?评论区告诉我你的选择。关注我老朱 ai 的 分身,咱们普通人一起 ai 落地!

嘿,各位 openai 又不睡觉了?搞了个大动作,就在昨天凌晨,悄悄地,没有任何预告,直接甩出来一个 gpt 五 four。 哎,你可别以为这只是个小小的版本更新。不不不,这简直是一次核弹级的飞跃,可能会彻底改变我们跟电脑打交道的方式。 所以今天咱们就得好好聊聊,这东西到底是个啥,又意味着什么?你可千万别把它当成一次普通普通的性能升级。 我跟你念念最初爆料的那个人是怎么说的,他说啊,这个模型他将会改变二零二六年整个 ai 智能体的格局,你听听,这口气是不是特别大?那为什么敢这么说呢?就是因为他终于,终于搞定了一个我们盼了很久很久的核心功能。 你想想,半夜两点钟搞这种突然袭击,整个科技圈一下子就炸锅了,所有人都蒙了。但这也恰恰说明了 openai 对 这个技术有多自信,也暗示了它背后藏着的潜力有多么巨大。 行,那今天咱们就分几步,把这个新模型给拆解的明明白白的。首先,咱们看看他到底飞在哪了?然后呢,用实打实的数据说话,看看他性能到底有多猛。 接着,咱们得深入聊聊他那个最牛的杀手锏,直接控制你的电脑。之后别急,我会手把手教你怎么把它用起来。最后,咱们再一起畅想一下,这 ai 智能体的未来到底会变成什么样? 好,咱们先从第一点开始。为什么我一直强调说 gpt 五点四的发布是一次飞跃呢?关键就在于它带来的可不只是测试分数高了那么简单,而是一种从无到有的全新能力,这才是一个真正的游戏规则改变者, 这个核心能力说白了就是原声电脑控制。怎么理解呢?很简单,就是说这个 ai, 它不再只是个跟你聊天的机器人了,它现在能像一个活生生的人坐在你电脑前一样,直接帮你点鼠标,敲键盘。 你可以直接跟他说,嘿,帮我把下载文件里上个里边的报告都找出来整理一下,然后做个 ppt, 点摘呀,发给老板,然后呢,你就真的可以啥也不管去泡杯咖啡了,这才是我心目中那个真正的 ai 助理啊。 当然了,光说不练假把式,吹得这么厉害,到底有没有真本事呢?有没有术技来撑腰?来,咱们这就来看看 gpt 五点四在各种硬核测试里的表现到底有多么的 吓人。咱们来看个特别专业的领域啊,金融建模这玩意儿啊,说实话,很多刚入行的投行分析师都搞得头大,你看上一代模型, gpt 五得分是六十八点四,爬线也就勉强及格吧, 但是 gpt 五点四呢?你猜多少?直接飙到了八十七点五趴,我的天,在这么复杂的任务上一下子提升了快二十个点,这根本不是进步了,这简直就是进化了。再来看看上网的能力,有一个叫 mta 未卜的综合测试, 这测试是干嘛的呢?就是专门模拟咱们真人在网上做各种复杂操作,结果你猜怎么着啊? gvt 五点四的成功率高达百分之九十二点八, 这数字意味着什么?意味着你让他去网上帮你定一张指定日期的机票,或者去搜某个产品的用户评价,他十次里头有九次多,都能给你办的妥妥的,基本上就不会出错了。 这张表啊,简直就是他的战绩单,可以说是全面碾压。你看,不光是那些硬核的专业任务,就连审美这种很主观的东西, 比如说让他做个 ppt, 结果都有六十八趴的人更喜欢 gpt, 五点四做出来了。所以你看,从专业能力到审美,再到调用各种工具的准确性,他几乎在所有方面都把之前的模型远远甩在后面了。 行,有了这么强大的性能打底,咱们终于可以聊聊最最激动人心的部分了。就是那个杀手级应用,原始电脑控制,你记住,这可不只是一个新功能那么简单,他很可能会开启一种我们以前想都不敢想的全新的工作模式。 哎,在咱们看到举起能干嘛之前,大家不妨先跟我一起想象一下,如果有一个 ai 能像一个经验丰富的老同事一样熟练的用你的电脑,那这个世界会变成什么样? 你再也不用手把手的教他,第一步,点这里,第二步复制那个,你只要告诉他你最终想要什么,他就能自己搞定一切。 那具体它能干点啥呢?你看管理文件、操作软件,这些都是基本操作了,但这里面最关键的是最后那一点,它能长时间自主工作,这就厉害了, 这意味着什么呢?意味着你早上出门前可以给它扔个任务,比如说把我这个月所有的销售数据都扒出来,扔到 excel 里,然后把卖的最好的前三名找出来,然后你就去开会,去忙别的,等你回来的时候,哎,活已经干完了。 说到这,你是不是已经摩拳擦掌,特别想亲自试试了?别急,咱们马上就来讲讲到底怎么才能用上这个 gpd 五点四。 想用上它啊,目前主要有两条路可以走,一条呢是给开发者们准备的,叫 opencloud, 得动动手,敲点代码。另一条路,那就简单多了,就是刚发布的 windows 桌面应用,这个就适合咱们绝大多数普通用户了。咱们分开一个一个说, 如果你是开发者,那你就可以照着屏幕上的步骤来操作。不过这有个小坑儿,大家要注意一下啊。就是在第四步设置的时候,你得先选那个旧的 gpt 五点三 codex 模型,把整个出使流程走完, 等全都设置好了,再用一个专门儿的命令把它切换到最新的五点四。这一点呢,千万别搞错了,那对于咱们大多数人来说,直接用 windows 应用就完事了,简单得很, 下载安装,然后用你的 open ai 账号登录在那个模型列表里,找到五点四,选它就行。 但是这里有最最最关键的一步,大家听好了,系统会跳出来问你要权限,你一定要给它完全访问权限。 我跟你说,不给这个权限,它顶多算个高级点的聊天工具,可一旦你给了这个权限,它就摇身一变成了那个能帮你干活的超级 ai 同事。 好,现在咱们知道它是什么,也知道怎么用了。那咱们不妨站着远一点,从一个更大的角度来看一看,这个技术的出现到底意味着什么。有人说,它真的能做我们人类百分之九十九的工作, 你乍一听啊,是不是觉得有点夸张,有点危言耸听?但是你静下心来仔细想一想,当一个 ai 真的 能处理所有在电脑上完成的安头工作时,我们大多数人的工作性质可能真的会发生翻天覆地的变化。 所以最后我想把这个问题留给大家。当一个工具号称能够完成九十九 percent 的 办公室工作时,我们心里到底是兴奋多一点,还是焦虑多一点?我们自己的职业规划,我们对工作、对价值的定义,真的为这个马上就要到来的新时代做好准备了吗? 这个问题可能没有标准答案,但它绝对值得我们每一个人从现在开始就认真的思考一下。

gbt 五点四深夜王炸!就在今天, openai 重磅发布了 gbt 五点四啊,也直接粉碎了 gmi 三点一 pro 和前一阵子非常火的 cloud ops 四点六的神话, 而且呢,这也是头一回叉的 gbt 拥有了真正的一个叫原声电脑使用的能力,办公效率直接拉满。那么 gbt 五点四的 think 版本与 gbt 五点四 pro 版本全面同步上线。接下来呢,小赵老师要为大家总结 gbt 五点四八个最核心的突破点。第一, gbt 五点四本身呢是 openai 首个具备原声计算机使用能力的一个通用模型,它可以通过 playwrite 库 编辑代码来控制计算机,也可以直接通过看屏幕截图来动用鼠标和键盘,发邮件、排日程、填表格、跑流程,这些以前呢,都需要你点来点去的活儿,现在 g b d 五点四自己都能干了。 在 os word verify 中, g b d。 五点四直接刷出了百分之七十五的成功率,就在一个月前刚刚登顶的 cloud office 四点六也不过是百分之七十二点七。第二大优点, 在 online man to web 测试中, g b d。 五点四仅靠截图观察就拿下了百分之九十二点八的表现,断崖级的领先。 g b d 五点四一切强大的执行能力呢,都是建立在更强的通用视觉感知的能力之上。在 m m u pro 测试中, g b d。 五点四的成功率达到了百分之八十一点二,大幅优于之前五点二的七十九点五的表现,视觉感知能力的提升也直接转化为了更强大的文档解析能力。第三大优势, g b d 五点四呢,还首次引入了原始版和高版的图像输入细节级别, 也就是 original 和 high 的 这个级别。前者支持最高一千零二十四万总像素的全保帧度感知,后者支持最高可达二百五十六万总像素的级别。第四大优点,如果说计算机使用是一套硬功夫, 那么知识工作就是 gdp 五点四的一个软实力了。在 gdp 微 l 精准测试中, gdp 五点四以百分之八十三的成绩追平,甚至超越了行业内的一个专业人士。 而在上一代的五点二中,仅有百分之七十点九。一个版本的更新,直接拉开了十二个百分点的差距。大家要知道哈,这个 gbtvl 测试呢,它是横跨美国 gdp 贡献最大的九个行业,包括销售、演示文稿、会计、电子表格、 急诊、排版表、制造图表、短视频等,全部都是要求 ai 真刀真枪地交付工作产出。 j b d 五点四呢,已经可以做 ppt、 做 excel、 做排版表了,而且做得比大多数专业人士还好,这让人类怎么办呢?第五大优点,幻觉率暴降了百分之三十三。这么说啊, j b d 五点四呢,是 open ai 领先全球之后, 迄今为止最讲求事实的模型,在一组去标识化的,并且包含了用户标记事实错误的提示词集中,相对于 g b d 五点二, g b d 五点四单独声明出错的概率整整降低了百分之三十三, 整个回复包含任何错误的概率降低了百分之十八。第六点, gbt 五点四的另一个大招呢,完全继承了 gbt 五点三 codex 的 一个编程能力哈,这意味着不再需要在聪明的模型和能写代码的模型之间来回切换了,单一模型全部搞定。 在 s w e bench pro 测试中, g b d 五点四拿下了五十七点七的一个准确率,媲美甚至超越了 g b d 五点三 code x 五十六点八的一个表现。那么在编程能力上,真正的杀手锏恰恰不仅仅是分数,而是效率。 g b d 五点四呢,是 open i 迄今为止 token 效率最高的推理模型, 解决相同问题所需要的 token 大 幅减少,成本更低,速度也更快。第七个优势, jbd 五点四引入了工具搜索的功能,彻底解决了 m c p 工具太多直接造成上下文爆炸的问题。只需要一个轻量级的可用工具列表, 真正需要某个工具的时候,它会自动地查找定义,并及时加载。在 scale 的 m c p etrus 精准测试中,工具搜索配置在保持相同准确率的同时,将总 token 的 使用量减少了百分之四十七。 第八大优势, gpd 五点四的智能体网络搜索能力也迎来了一个大幅度的升级啊!那么在上一次 browser camp 测试中, cloud ops 四点六凭借百分之八十四的成绩一蹶绝尘。仅仅过去了三十天的时间, gpd 五点四 pro 直接以百分之八十九点三实现了反超。 gpd 五点四的发布,是 openai 对 jimmy 三点一 pro 和 cloud ops 四点六的一次全面反击。 恐怖之处在于它没有短板,不管在推理编程、视觉工具使用,还是计算机操作、网络搜索、知识工作等等维度,每一条线都直接拉到了顶尖的骚塔水平。 opai 用 gpt 五点四告诉所有人,在通往 aji 的 路上,他依然是最不能被忽视的那个玩家。

全球排名前十的 ai 大 模型你们都知道有哪些吗?我给你们盘点一下啊。排名第十的借月星辰,他是我们国内的,他最屌的能力是视觉分析,一个复杂知识理解的能力。 排名第九的呢是腾讯的混元,它的 ai 视频生成一流。排名第八的呢是阿里的千问,开源生态,全球第一,电商场景最强。排名第七的是字节的豆包模型,它的中文场景第一, api 调用量国内的霸主, 出选择题出脚本的能力一流。第六 deepsea, 开源免费性价比之王,他的推理能力比欧美的某些大模型都要好。第五 gorek。 四点一,他的社交媒体内容趋势分析,娱乐互动能力非常强。第四, gmail。 三,全球智能排名第一, 就他的数学推理能力跟超长文本处理能力非常强。第三呢是 gpt。 五点一,他的综合能力很强,什么都会。 第二呢是可露的。四点五,他日常编程内容创作能力很牛逼。第一可露的。四点六,他的代码开发玩写作能力一流,是所有做短视频人的神器。

你以为 ai 大 模型都差不多,其实选错工具,工作效率可能直接腰斩。现在最火的五个模型,豆包,腾讯元宝、千问、 deepseek、 chatty、 七 ppt 各有自己的绝活。 豆包适合内容创作和轻办公,界面简单,抖音生态导流,写短视频脚本,日常文案特别顺手。腾讯元宝和微信生态无缝衔接,公众号小程序内容一键生成,适合企业做商业决策和团队协助。 千问在中文语义和企业知识库方面有优势,适合教育、金融等需要专业知识管理的行业。 deepseek 擅长数学逻辑推理和代码深层科研、金融编程,场景表现很强,专业用户首选叉七 gpt 多模态能力强,支持文本、图片、视频,跨领域知识整合厉害,适合国际化写作和创意写作,但中文表达略逊于国产模型,价格也偏高。 所以 ai 大 模型没有绝对的好坏,只有适不适合你的场景。选对了,它就是你的效率加速器,选错了,可能就成了你的时间黑洞。你现在用的哪款 ai 模型?在评论区说说你的真实体验,点赞收藏这条,下次选工具,不再纠结!

你以为 ai 大 模型都差不多,其实选错工具,工作效率可能直接腰斩。现在最火的五个模型,豆包,腾讯元宝、千问、 deepseek、 chatty、 七 ppt 各有自己的绝活。 豆包适合内容创作和轻办公,界面简单,抖音生态导流,写短视频脚本,日常文案特别顺手。腾讯元宝和微信生态无缝衔接,公众号小程序内容一键生成,适合企业做商业决策和团队协助。 千问在中文语义和企业知识库方面有优势,适合教育、金融等需要专业知识管理的行业。 deepseek 擅长数学逻辑推理和代码深层科研、金融编程,场景表现很强,专业用户首选叉七 gpt 多模态能力强,支持文本、图片、视频,跨领域知识整合厉害,适合国际化写作和创意写作,但中文表达略逊于国产模型,价格也偏高。 所以 ai 大 模型没有绝对的好坏,只有适不适合你的场景。选对了,它就是你的效率加速器,选错了,可能就成了你的时间黑洞。你现在用的哪款 ai 模型?在评论区说说你的真实体验,点赞收藏这条,下次选工具,不再纠结!

炸裂了!炸裂了!朋友们,绝对是一个重磅性的新闻,在三月六号的凌晨两点钟, openai 正式公布了它最新的模型 gpt 五点四。其实在两天前,它刚刚更新完它最新的对话式模型 gpt 五点三, 然后两天之后就更新了这个模型。网友在 openai 的 推特下面评论说, gpt 五点三只有两天的寿命,然后马上 就被 g b d 五点四给取代了。当然这是一个讲笑的一个东西,但是这个背后说明一个问题,说明 g b d 五点四 才是他真正想推出的一个产品。那这个产品为什么他这么急于推出?他绝对是一个很重要的一个东西,我认为这个产品他会是一个引领式的模型。为什么这么说啊?我把这个整体的一个逻辑我给大家分析一下。要讲这个 g b d 五点四呢?嗯,就离不开讲另一个工具了, 就是那个小龙虾 open core。 记得吧,我之前分享过这个工具, open core 的 开发者叫 peter, 就 这个哥们,这个哥们很传奇啊,他的故事我就不在这里,我就不细讲了。今年二月份有 我看到一条新闻,说这个哥们加入了 open ai, 我 当时在想,他加入 open ai 了,然后我就去推特上面看了一下他的 推特信息,以及呃, open n i 首席执行官的一个推特信息,两个人都确认了 peter 这个人正式加入了 open n i。 当时我就在想, open n i 后面肯定会有什么大动作出来。果不其然,就在三月六号的凌晨,他就公布了他的 gbt 五点四,这是第一个,第二个小龙虾,它有什么样的功能? gbt 五点四它有什么样的功能?现在 gbt 五点四已经把小龙虾的功能全部搬到 gbt 五点四了,也就是说 gbt 五点四它现在有什么功能?它有小龙虾一样能够控制计算机的能力, 它有小龙虾一样能够具有编程的能力,能够主动给人干活的能力,这就有意思了,这就好玩了,对吧?原先的大模型是一个什么样的模型?原先最早的模型,它是以只能对话,你像豆包和 deepsea 刚出来的时候, 你给他发问题,他能解答你的问题,然后慢慢演变成什么呢?你发一张图片过去,你发一段语音过去,你发一段视小视频过去,它能识别,慢慢的演变成了它是一个多模态的一个模型。 g p t 五点式发布之后呢?我为什么说它是一个引领式? g p t 五点式发布之后, 后面所有的模型都会具有控制计算机的能力以及写代码的能力,所以它是引领式的,所以这后面的模型绝对很好玩,不需要单独去下载写代码的软件了,就直接在大模型上就行,就很好玩了。所以 gbt 五点四绝对是一个引领性的大模型。 然后这个模型发布之后,很多博主也是在分享它的一些功能。呃,因为我也没用,我也是今天下班前才看到这个新闻, 然后我在下班的路上不断的去参加发的这些功能,发的这些信息,然后去内啡特上看,去他的官网上看,现在差不多凌晨一点, 我把这些信息汇总了一下,然后给大家分享。嗯,我觉得首先第一个它是一个引领性的模型,但是对我们现在来说影响还不是很大,相对来说我们基本上用不到,为什么这么说啊?首先第一个 是费用问题,第二个是没有必要,至少对我来说没有必要。关于费用问题呢,我给大家也分享一下啊。 g p t 五点四百万的输入和百万的输出,它分别的价格是两点五刀, 输出呢是十五刀,也就是说它输出百万 tokins 的 文本基本上要一百多块钱。然后我们来看国内的模型啊,国内我们主要看一下 dbse 和那个阿里的千万, 你看我们 deepsea, deepsea 呢,它也是百万级的输出和输入, deepsea 它就只需要两毛钱,然后输出呢只需要三块钱。然后我们阿里这边,你像阿里它最新的版本是三点五,对吧? 它的输出,它的输入你看啊,输入只需要八毛钱,输出呢是四块八。所以说国内的模型就很便宜,我们就等着我们国内的模型也有同样功能的时候,我们再去用。按照模型更新的速度,一般来说三个月会给 进行一次更新,但是你像 gbt 五点四它更新的这么快的话,我估计国内应该不会落后太多。至于 gbt 五点四的那些升级了上下文百万托肯的功能以及幻觉率下降了百分之三十三的这个事情, 还有它减少了托管的使用量的这些功能。如果说大家感兴趣的话,可以去网上找一些资料看一下,现在抖音上有很多博主分享了这些信息给大家,感兴趣的话可以去看一下。今天呢,我主要是想告诉大家,有一个全新的大模型 出现了,它是目前市面上唯一的一个又具有控制计算机能力,又具有编程的一个大模型,你们只要知道这个信息就好了。

hello, 大家好,欢迎收听我们的播客,今天要跟大家聊一聊 openai 刚刚发布的这个 gpt 五点四 这个大模型,它号称能够支持一百万 token 的 这种上下文,然后原声地具备了操作计算机的能力,能够处理复杂的代码和推理, 感觉好像真的是要把我们带入一个所谓的长文本的时代,是,这个真的是最近 ai 领域的一个大新闻了,那我们就赶紧开始今天的讨论吧。我们讨论的第一部分是核心亮点揭秘, 第一个问题想先问一下,就是这个 gbt 五点四在原声电脑操控这个能力上面到底是有多强?就是它这个最大的突破,就是它是第一个可以像人一样去操作电脑的这种通用的 ai 模型,它可以通过截图然后去识别这个界面, 它也可以模拟鼠标键盘的操作,它可以用 playwrite 这种库去直接写代码去操控。这个软件听起来就比那种传统的 ai 要灵活太多了。对,没错,而且它就是在这个 os world verified 的 这个精准测试里面,它的这个完成任务的比例是百分之七十五, 就它超过了人类的平均水平,然后也比上一代的这个 gpt 五点二提升了将近百分之三十, 它甚至可以在这个 webrena verified 和 onlinemind 二 web 这种更难的测试里面也能达到非常高的一个准确率,它就是真正的可以去 自动完成一些跨软件的这种复杂的操作,比如说自动填写表格啊,自动发邮件啊这种。哦,那这个 gpt 五点四在处理这种长上下文和这个复杂的知识任务的时候,到底有多大的提升呢?这个就是现在它这个模型可以支持一百万头肯的这种上下文,那这个就 基本上你可以让他去处理,比如说很长的文档,或者说涉及到很多步骤的这种复杂的任务,他都可以记得住前面的信息,不会说像以前一样就断掉了,所以他可以一口气搞定更复杂的工作。对,而且他在这个 gdp val 这种测试里面, 他在四十四个不同的这种专业领域里面,他有百分之八十三的任务都可以达到或者超过人类专家的水平。 然后在这种投行的这种电子表格建模啊,或者说这种演示文稿生成啊,这种具体的任务上面,他的表现也比上一代有非常明显的提升,他的这个事实错误率也降低了将近三分之一。他在处理这种多步骤的这种推理啊,或者说这种专业的知识上面, 它是特别特别稳的。这个 g b t 五点四,在这个工具的使用啊和这个编程的能力上面,具体又有哪些让人眼前一亮的这种升级呢?这个新版本呢,它就是带来了这个 tool search, 就是 工具搜索, 那这个就可以让模型在面对非常多工具的时候呢,它可以减少一半的 token 的 开销。然后它的这个在这个 tool alphabet 这种测试里面, 它的这个多工具的写作的准确率也刷新了记录,这确实挺厉害的。对,然后在编程方面呢,它是融合了这个 g b t 五点三 codex 的 这个强项,在这个 s w e bench pro 这种测试里面呢,它的这个表现也是跟 codex 差不多,或者说略好, 就是它的这个 fast 模式呢,还可以把这个 token 的 速度提升到一点五倍,它甚至可以直接去生成这种复杂的前端的页面,或者说这种完整的游戏, 它的这个编程的能力和工具的使用的能力都是属于业界最前沿的水平。然后咱们来聊第二个部分啊,就是这个能力升级的对比,就是想知道一下这个 gpt 五点四, 相比上一代的这个 gpt 五点二,在这个能力的精度上面,或者说执行的效率上面,以及这个场景的适配上面到底有哪些比较大的进步?就这个新版的 gpt 五点四呢,它在这个 gdp 这种测试里面,它的这个专业任务的准确率是百分之八十三, 就他比这个 gpt 五点二高出了十二个百分点。然后在这个投行的这种电子表格的建模上面,他的准确率也是将近百分之九十, 他的这个事实错误率也减少了三分之一。在这种复杂的桌面操作的这种精准测试里面,他的这个完成率也从不到一半提升到了百分之七十五,他已经超过了人类的平均水平了, 这提升确实挺吓人的。对,然后它的这个上下文窗口呢,也从原来的四十万 tokens 提升到了一百万 tokens, 它这个处理长文本的这个效率是提升了一倍还多,那它的这个实际的使用当中,它的这个 token 消耗还可以减少一半。它的 这个思考过程预览啊,还有这个多模态的理解啊,都有升级,它的这个 api 呢,也做了一些优化, 就整体的这个安全性和场景的适配性都有明显的进步。就是说这个 g p t 五点四在哪些实际的工作场景当中,会让用户感觉到相比上一代有一个非常明显的效率和体验的提升呢?比如说像这个金融分析师,或者说这个市场研究员, 那他们可能经常要去处理大量的这种财务报表啊,或者说行业数据啊,那现在这个新版的模型呢,就可以直接去分析,比如说几十份这种长篇的这种报告, 然后帮你自动生成一个非常详细的这种总结啊,或者说投资建议啊,这个在以前可能需要好几个人配合才能完成的任务,现在一个人就可以很快的搞定。对于程序员和这种内容创作者来讲是不是也很友好?是的是的,程序员的话,他可以直接把整个项目的代码都扔给这个 ai, 让他去分析, 然后包括帮你自动修复一些漏洞啊之类的。那内容创作者的话,他可以一次性的去创作,比如说上百万字的这种小说啊,或者说剧本啊,这个 ai 都可以帮你非常连贯的去写出来。而且他的这个风格啊,人设什么的都可以帮你统一好。 那对于一些比如说像客服啊,或者说这种行政的这种岗位,他们可能经常要在不同的系统之间去切换。 那现在有了这个新版的 ai 之后,它可以帮你自动完成很多这种跨系统的操作,那它的这个效率就可以提升至少百分之四十以上。所以说这个 gpt 五点四到底是怎么在安全性和这个实际的应用上面比以前的版本更让人放心的?它不光是把这个 gpt 五点三 codex 里面的一些安全的机制全部都继承下来了,而且它还引入了这个 qt 可控性的这个全新的评估体系, 那这个东西就可以让用户去监控以及去约束这个 ai 的 一些推理的步骤,然后减少一些不可控的情况的发生。那另外就是说 这个不同的版本它是有不同的这个 api 的, 那也有不同的定价,那用户可以根据自己的需求去选择。 那同时呢,就是说这个呃 plus 和 pro 这种套餐的用户,他们是可以马上就体验到这个最新的模型的,那老的模型也会保留三个月,方便大家去做一些过渡, 那企业用户的话还可以去定制一些专属的部署啊之类的,就是它的安全性和这个实用性都有明显的提升。我们来聊一聊第三部分啊,就是这个 g p t 五点四 对我们打工人到底有什么好处?对,对吧?这个东西到底给我们日常的工作带来了哪些积极的变化?就现在的这个 ai 已经可以自动地去处理大量的这种重复性的任务啊,比如说整理数据啊,比如说这个生成一些报表啊,这种东西它可以帮你节省 至少四分之三的时间,你可能原来要忙半天的活,现在可能几分钟就搞定了,等于说大家可以把精力更多的投入到有挑战性的工作当中,对,没错没错,而且他这个呃支持这种百万 token 的 这种上下文和这种原生的电脑操作, 就你可以让他去做一些这种跨软件的这种复杂的流程的自动化,然后包括你可以去实时的看到他的这个推理的过程,你可以随时的去调整, 就你可以非常高效地去完成一些很复杂的项目,就就算你是一个刚入职的新人,你也可以通过这个 ai 去迅速地完成一些本来你需要资深的经验才可以完成的任务,所以这个就是整个的工作效率和你的专业能力都是一个质的飞跃。你觉得 g p t 五点四会给现在的职场人带来哪些 比较让人觉得有压力的新的变化?就这个 ai 现在已经可以非常高效的去完成很多这种标准化的工作啊,那像比如说一些初级的财务啊,呃,审计啊,甚至一些文案啊,那这些岗位就会 很有可能被智能所取代掉。那你如果是一个只是做一些这种重复性的内容而没有什么成长的话,那你肯定就会被甩出去,就说只靠老本是很危险的,对,没错没错,对,所以你必须要去学会跟这个 ai 去写作, 那比如说是一些这种提示工程啊,或者是说你去呃做一些这种结果的叫验啊,这种能力就会变成一个 职场的一个门槛,那如果你不主动去学的话,你就会慢慢的被边缘化。那同时呢就是说,呃,虽然说这个 ai 可以 帮你提高效率,但是它也有可能会带来一些数据安全的隐患,那这个也是大家需要去警惕的, 你觉得未来大家跟这个 gbt 五点四这种 ai 一 起工作会形成一种什么样的新的协助模式?就以后的职场很有可能会变成一个斜座层和核心层,那这个斜座层呢?就是 ai 会去做掉大部分的这种标准的流程, 那人类就可以专注在这个核心层去做一些决策呀,创新啊。所以人和 ai 是 互补的关系。对,没错没错,就是会变成一种 人类下指令,然后 ai 去执行这样的一个方式,那会有一些新的岗位会诞生,比如说 ai 训练师啊,那也会有一些岗位就彻底的消失,所以大家要不断地去学习这种 ai 加你的专业的这种能力,企业也要去建立一些数据的安全的机制, 才能够真正的用好这个 ai, 这个好帮手。对,今天我们其实聊了很多关于 gpt 五点四的一些新的特性啊,包括一些可能对未来工作的影响。其实我觉得这个东西确实 可能会让很多行业的工作方式发生很大的变化,然后也会带来很多新的机会和新的挑战。那就是这一期播课的内容了,然后感谢大家的收听,我们下次再见,拜拜。拜拜。

太震撼了,看到这个消息直接从床上跳了起来,最近 gbt 五点四正式发布,有多强呢?一句话来说就是 gbt 已经可以直接操作你的电脑了。 欧奔 ai 说这是针对专业工作最强大、最高效的模型,它将通用推理、编程能力,还有 ai 智能体工作流完美的结合在了一起。 我们来看看案例。首先呢,它具备了原声计算机操作能力,也就是它可以像人类一样看屏幕,然后通过鼠标和键盘跨软件和网站自动执行复杂的工作流。 你看啊,这是它正在操作浏览器,自动发送电子邮件,还可以快速填写网页表单。其次呢,它不仅能编程,还能自己测试和优化,这个真是太夸张了。比如说你看这个主题公园建设游戏,就是用一句话生成的, 关键是生成后 gpt 正在自己试玩游戏,再根据体验自行优化游戏内容。最后, gpt 五点四在处理表格、 ppt 和文档方面的表现也有大幅提升,生成的内容更具审美和实用性,并且幻觉显著减少,事实错误率降低了百分之十八到百分之三十三。 从 gpt 三点五到 gpt 五点四, ai 已经不再是一个聪明的聊天机器人,而是一个能直接操作你电脑、写代码,并且熟练使用各种工具的超级员工。那随着 ai 越来越强,我们普通人的未来到底在哪里?是不是在不久的将来,大家都要失业了? 我相信这个是很多人的困惑,这个问题我说一下我自己的看法,未来普通人呢,有两种活法,一种叫 ai 工厂,另一种叫一人公司。什么是 ai 工厂呢?就是公司在招聘的时候,招的不是你这个人,而是你和你背后的 ai 团队。 公司看中的是你流畅使用 ai 解决各种问题的能力。那什么是一人公司呢?就是你带着你的 ai 团队直接为这个社会做贡献,提供服务, 不是公司购买你的时间,而是直接购买你的服务。一定要把 ai 当成是你的员工,你是他的领导,你只会去他去做事,而不是去焦虑 ai 会不会替代你。