啊,继昨天的千问三点五一百二十二币模型之后,我把千问三点五最后的一块拼图及二十七币的稠密模型测试了一下, 结果可以说意料之外,但是又是情理之中,我愿称其为开元中小模型的搜它。 在我的测试任务里,二十七币拿到了八十三点一分的高分,名列目前榜单第四名,它上面只有 jimmy 三 pro、 cloud opus 四点六和 gpt 五点二。如果我们去掉多模态和上下文的加分项, 单看模型本身的能力,二十七币依旧以七十六点一分和 deepsix 三点二正式版不相上下。 中英文写作和应用文写作的得分是三十五点二分,属于是第一梯队的水平,数学、几何和物理方面则是十九点四分。 大家可以发现,在纯文本问答和写作方面,中小模型的性能已经和国外闭元大模型没有什么太大的差别了。所以如果你的日常任务是问答和写作的话,本地部署一个中小模型是完全够用的。 代码能力方面,二十七 b 则是展现了稠密模型的优势,表现非常抢眼,以二十一点五分和 cloudsonnet 四点五的二十一点七分平分秋色。 这里我们用 cloud opus 四点六和 mini max 二点五作为对比测试对象,左边是 cloud, 中间是千问三点五二十七 b, 右边是 mini max 二点五满写版二十七 b 可能在视觉效果方面稍稍有些欠缺,但是整体完成度还是非常高的。 作为对比,我们再看看和其他中小体积模型的对比。这里左边是法国的 devstra 二,右边是 openai 的 chat gpt os 二十币 结果高下立判,和一百二十二币以及三十五币的横向对比,我们也可以发现二十七币的效果是更加接近一百二十二币的, 而三十五 b 的 混合专家模型则是有严重的涂层问题。 python 六边形小球测试的效果也非常不错,图形效果非常美观,各种粒的影响也有体现。 虽然有些欺负人,但是这里是 cloud opus 四点六的实现效果,这是 glm 四点七的实现效果,大家可以自行评判。 如果你想对比一下其他的模型的话,可以上我的网站自行查看所有测试任务的输出并对比哦。总结一下, 虽然现在的主流已经是混合专家模型了,但是稠密模型的性能仍然是强于混合专家的。稠密模型在 ai 领域,因此也总会有自己的一席之地。
粉丝2614获赞1.4万

二零二四六年二月十六日,阿里发布昆三卷府,三百九百七零亿参数,一千七十亿激活某 o e 架构开源,免费对标 g p t。 五点二 官方参数,总参数,三百九十币三百九十七零亿激活参数,十七 b 推力成本超低, 五海一十二个专家激活,十个加一个共享 m o e。 混合专家架构,效率拉满技术亮点, gated delta networks 加 m o e 高效推理上下文二十六万 tokens 可扩展到一百万 原生多模态图文一起理解,支持二派零一种语言,官方 benchmark, m m l u pro 80 七点二分,和 g p t f i。 二相当, c e v l 两度三分,中文顶级 if bench 谢莱伯六点五分,全场最高 kimi k 兔懂五也是对手。一万亿参数,春节中期发布 g p t。 五点册 claude four point five opus gemini 三 pro kimi k two point five one t a search 二 b 国产双雄 quan 三点五和 kimi k two 点五 quan 开元免费 kimi 币元,但免费额度大,怎么用? quan 三点五 plus api one man 上下文, hugging face 下载本地部署 g g u f 版本,消费级显卡也能跑 apec 二点零协议可商用总结,宽三点 f。 二零二六春节国产最强开源大模型 三九七 b 参数,十七 b 激活 apec 二点零开源,转发给程序员朋友,关注我,下期教你本地部署。

openai 在 red code 的 情况下紧急发布的 chat gpt 五点二能否力挽狂澜?这次 openai 给我们带来了哪些新的东西?这期我们来尝试透过 chat gpt 五点二来去预测二六年各个模型厂商的发展方向会是什么。 先说一个我觉得非常关键的信号啊,就是在这次叉七 p t 五点二的 system card 里面,他们引入了一个新的评测项,叫做 gdp well 呃,而且这个评测项放在了整个报告的最前面。 那么这个评测项是做什么的呢? openai 其实在几个月前就发布了一个关于 gdp view 评测的论文,简单来说,这个这个评测的核心其实不是在去测模型的单点能力有多强,而是去看模型能不能完成一个具体的工作任务。 这个测试包含了大概四十四种职业和九个行业,每个职业从实际的工作中抽取了不少于三十个具体的工作任务。然后它的评测方法是会让大模型和人类同时去完成一个任务,再由行业专家进行盲选,看哪个任务完成的更好。 那么这个 gdp view 和过去的大模型评测有什么不一样呢?呃,过去其实很多的评测都属于这种专科评测,就像是呃 artificial analysis 这种相对来说比较综合的排行榜,其实也是多个专项评测汇总以后的综合能力 啊,就比如说数学代码阅读理解知识问答等等啊。但是这些专科评测他会有一个共同的问题,就是他们都是在尝试用某一个专项能力去推断模型的综合能力和泛化能力。 而且有一个很有意思的现象啊,就是很多模型厂商其实在之前都是瞄准一个领域去提升自己的整体能力的,就比如说 deepsea 认为数学题做得好,泛化,泛化能力就强 啊, jimmy 认为文本理解能力强,泛化能力就会强。但是我们反观 open ai, 其实它一直没有一个特别明确的方向啊。然后我估计 open ai 也是看了一下现在的榜单,尤其是在被 jimmy 三刷榜了以后啊, 可能觉得榜单的这种单项成绩已经很难有这种突破性的进展了。所以这次 openai 干脆就直接不跟大家玩了,直接放出来一个自己当裁判,自己也当选手的评测项,直接去看最终场景的应用效果是怎么样的。 呃,所以从呃 gdp value 的 评测项来看, openai 其实瞄准的就是模型真正的生产力的转换。 因为在实际的工作里面,我们接到的任务往往都不是一个单一任务能够去解决的,而是需要一个完整的流程去解决的啊,甚至还需要再进行一些检查才会做最终的提交。 那么这种场景往往对模型的要求,并不是说模型的极限能力有多强,而是说我们给到模型一个目标,一些背景,一些约束,看模型能不能通过对需求的理解啊和流程的规划,在可控的时间范围内给我们一个可用的东西啊,就比如说一些方案啊,表格、 ppt 啊,可执行的脚本啊,甚至说他还可以去检查验证啊,他所产出的内容是不是我想要的结果。 所以其实我是挺认同 openai 这次把评测往这种应用层穿透的这种方向的啊,这就比较类似于以前的 benchmark, 像是在测发动机的马力啊,现在它更像是在测能不能把货物送到这个客户的手上 啊。这一点我在实际的使用过程中,其实感受也是比较明显的,就比如说我们最近在做二六年的规划,我基本上就是把这种现状目标约束都整理好,然后让他给我去输出一份方案 啊,他给的方案肯定不是直接就完全可以用的,但是他对应的这种参考价值确实比过去会更稳定,更有体系。 还有一个特别直观的感受点啊,就是五点二在生成 ppt 上确实有了一个突破啊,整体的效果也已经超出了很多专门做 ppt 智能体的厂商。 而且最重要的是它交付的是可编辑的 ppt 文件,而不是像 note book 里面那种图片组成的方案啊,可用性也一下提升了很多。 不过模型的这种使用,真的就是一百个人里就有一百个 check gpt, 因为每一个人的用法和场景其实都不一样,所以可能也会有人觉得没有太大的改变, 这个就比较仁者见仁智者见智了啊。但是我也想吐槽一句啊,就是 gpt 五点二的速度是真的慢,有的时候执行一个复杂的任务,执行十几分钟,执行二十几分钟都是非常正常的事情。 所以在二六年里,我觉得这可能会是一个趋势吧,就是会有越来越多的模型厂商会逐渐从卷跑、分卷单向能力逐渐向这种综合能力、实际的呃生产能力方向去做一个发力。 那么接下来一个问题其实就是我们要怎么去提升模型的生产能力?呃,其实我之前在聊 gmail 三的时候就说过一个观点啊,就是在执行能力这个层面,其实在上一代模型的能力就已经很强了, 很多时候我们的提示词给的如果足够清晰的话,模型把任务执行出来其实并不难。 gmail 三更明显的提升我觉得不完全来自于模型本质能力的提升, 而是来自于他对于用户意图的理解能力更强了,对应的信息补全能力也就更强了。这种能力的背后往往主导的并不是模型本质能力,而是各个厂商对于大模型应用的这种工程能力和系统层级提示词思维链的设计能力 啊。那么放到这次的拆的 gpt 五点二的升级上,其实也是一样的啊,在整个的使用过程中,我有一个特别大的感受啊,就是他越来越不像传统意义上的模型, 而是越来越像一个智能体化的一个产品的形态,它在思考过程中会去做规划,会调用工具,有时候甚至会跑到沙乡环境里面去做一些东西。呃,我甚至有的时候会在使用的过程中产生错觉啊,就是我现在用的到底是拆 gpt 还是在用的是 minus? 所以我们如果结合以上的分析整体来看的话,拆的 gpt 五点二的发布以及说,呃, gdp well, 这种评测机制所发出的信号, 其实就是在预示着二六年各个大模型厂商的竞争会从模型本质的能力竞争逐渐转向各个厂商工程能力的竞争,那么这种转变我觉得也会从侧面更加挤压了一些做通用智能体工具的企业的生存空间。 然后最后就是一个我想说一个题外话啊,就是虽然现在粉丝量不是很多,但是也非常感谢有一些小伙伴的信任。在后台私信我想让我去聊聊 gpt 五点二, 但是最近确实比较忙,这个热点更新的稍微慢了一些。呃,我也希望后面大家能够多沟通多交流,不管是私信还是在群里,我都会尽量去回答。好吧,今天先聊这么多,拜拜。

minimax 调用量连续登顶全球第一,总市值更是超越百度,成为国产 ai 里最耀眼的存在。很多人还一头雾水, minimax 到底是什么?它和 chat gpt、 deep seek、 open club 到底有什么区别?今天我们用一个例子,把四者的区别一次性讲透,让你看完就能彻底分清谁是谁,能干什么,该怎么选。 先从最核心的定义说起, minimax、 chat gpt、 deep seek 属于大模型,也就是 ai 的 大脑。 而 opencall 不 属于大模型,它是智能体执行框架,相当于 ai 的 身体、手脚和行动系统。大脑负责思考、判断、理解、决策,身体负责操作、执行、落地、完成任务。这是最底层的区别,也是绝大多数人搞混的根源。 我们来做一个非常直观、极具代入感的沉浸式场景对比,就用你每天都可能遇到的一个典型办公难题。 你在工位上对着电脑下达一句指令,帮我把这一周的销售原始数据整理成 excel, 做成正式汇报 ppt, 最后发到部门指定的工作群里面。对这条完整且有执行深度的任务, chat gpt、 deep seek、 minimax 以及 open cloud 的 表现会瞬间拉开天壤之别。我们可以清晰感受到四者的核心差异。 你把同样的指令发给 chat gpt, 它的反应非常快,会输出一段条理极其清晰的长文,详细告诉你完成这项工作的每一步流程。 从文件存放位置、数据清洗方法,到 excel 透视表制作、 ppt 排版设计,甚至连图表样式、文字表述都会给出专业建议,内容周全,逻辑严谨, 但也就到此为止了。它没有办法真正触碰你的电脑文件,不能打开办公软件,不能自动生成表格和 ppt, 更无法打开通讯工具发送文件, 所有的实际操作都需要你亲自动手完成。叉 g b t 更像是一位只会提供方案的顾问,擅长给出思路和指引,却无法参与实际执行,始终停留在文本交互的层面,无法突破只说不做的局限。换成 deep seek, 它的表现会更偏向专业工具属性。收到指令后, deep seek 不 会一步步教你操作流程, 而是直接生成一段可运行的 python 代码,包含数据清洗、统计计算、表格生成等功能,能精准解决复杂的数据处理问题,充分发挥它在长文本理解和专业编程上的优势。但它依旧无法独立完成全流程任务。 你需要手动复制代码运行程序、处理报错。即便代码生成了数据结果,后续的 ppt 制作、文件发送等环节仍需你亲自操作。它能攻克专业环节的难题,却无法打通从数据处理到成果交付的完整闭环,更适合作为专业开发者、技术人员的辅助工具, 难以满足普通职场人一站式办公的需求。而当你把这条指令交给 mini max, 整个使用体验会发生根本性的颠覆。 minimax 做的是所有需要思考、判断、计算、设计、生成内容的智力工作。他会先理解你的需求,规划好整个任务流程,然后读取原始数据清洗、数据计算、汇总、设计 excel 的 结构和公式。 再接着构思 ppt 的 页数、版式、文案、图标、样式,把所有内容、逻辑、数据、格式全部生成出来。 简单说, minimax 产出的是文件的灵魂和内容,它决定这份 excel 对 不对,这份 ppt 好 不好看,数据准不准确,逻辑通不顺畅,这是只有大模型才能完成的智能工作。但是它不会点击鼠标,不会打开软件界面,更不会手动保存文件,它只负责把完整的内容造出来。 而最后, openclaw 做的是完全不需要思考的机械操作界面控制文件执行。他不懂数据是什么,不懂 ppt 该怎么做,也不懂报表逻辑,他只负责按照 minimax 的 指令去完成,点鼠标、开软件、保存文件、上传、发送这些动作。 minimax 把 excel 内容生成好, openclaw 就 负责点击保存。 minimax 把 ppt 内容做好, openclaw 就 负责导出文件, minimax 下达发送指令, openclaw 就 负责打开聊天软件,找到群聊,上传文件,点击发送。 openclaw 相当于一个只会执行动作的机械手,没有任何思考和生成能力,没有 minimax 指挥,他什么都做不出来。没有 openclaw, minimax 的 智能思考无法落地为实际行动。 没有 minimax, openclaw 就 失去了指挥核心,无法理解任务逻辑,完成有序执行。也正是基于这样的核心逻辑, openclaw 会深度依赖 minimax, 而非 chat gpt 或 deep seek。 chat gpt 仅能提供方案,不具备执行能力,无法为 openclaw 提供有效的决策支撑。 deep seek 聚焦专业编程和长文本处理,没有适配智能体执行的全流程能力,难以驱动 openclaw 完成复杂任务。 而 minimax 从模型架构到功能设计,都专为智能体执行优化,具备稳定的工具调用能力、流畅的系统兼容性、高效的并发处理水平,能为 openclaw 提供最精准、最稳定、最适配的指挥核心,让两者的配合达到最优状态。 一场简单的办公场景对比,就能清晰看清四者的本质区别。叉 gpt 是 提供思路的顾问, deep seek 是 解决专业问题的技术助手, minimax 是 独立完成任务的全能执行者, openclaw 是 落地操作的执行主体。在 ai 迈向智能体走向真实的生产力的当下, minimax 与 openclaw 的 组合真正打破了 ai 只说不做的局限, 让人工智能从辅助工具变成了能独立完成工作的核心生产力,这也是 minimax 能够在全球调用量登顶,市值实现跨越式增长的核心原因。

给大家分享一个可以使用世界顶尖大模型的 ai 建网网站,可以使用满血 g p 五点二,谷歌最新的 java 三点一 pro, ai 香蕉绘画模型纳豆布纳豆 pro 编程最强的最新的科罗德收音四点六,我们点击立即使用,可以看到我们有改变网络环境就直达了 offi 官网。 左侧是可以切换模型的地方,支持 open n i 最新旗舰模型 g p e 五点二,思考更充分,回答更优质的五点二, thinking 二百美金一个月才能使用的 g p e 五点二 pro, 谷歌最新发布的旗舰模型 java 三点一 pro, 还有时下最火的 ai 绘画模型纳登五,纳登 pro, open n i 专为编程打造的 codex 编程最强的克罗地斯四点六,还有马斯克最新发布的格鲁格四点二,中间是可以输入提示的部分, 支持深度研究代理模式、学艺模式、网页搜索画布左侧是一个历史画部分,保留历史画记录,支持上百种 g p t s 插件,还可以新建自己的 g p t, 进行一个文件和代码库的附用。我们切换 g p 五点二,我是 g p 五架构的大型语言模型, 用过 open i 官网二十美到一个月的 plus 会员,小伙伴非常清楚这是一个满血的 g p 五点二,有兴趣的小伙伴可以使用这个 ai 建站来使用 open i 旗舰模型 g p 五点二, 谷歌最新的专利三点一 pro 画图的纳德沃尔 pro 编程的克劳德收听四点六,让全世界最强的人工智能为你打工。我们再通过 g p 五点二查一下最新的美元汇率,截至二零二六年二月二十四号,就是录制视频的这个时间,美元汇率是六点九四一四, 我们再切换编程最强的克劳德收听四点六,解决一个经典的华尔的算法题。克劳德收听四点六,给出了问题分析, 数据结构,算法带有详细中文注字的加减代码,详细的测试用力以及测试说明。我们再切换 java 三点一 pro。 java 三点一 pro 是 大家公认的写作最强大模型, 我们通过 java 三点一 pro 来完成一个高考作文题。苦难大地上升腾的民族魂。有兴趣的小伙伴可以暂停读一下 java 三点一 pro 写的文章,感受一下 java 三点一 pro 强大写作能力。我们再上传三个复杂的 pdf 技术文件,分别总结文件内容,三千字中文。第一个文件是元素矩阵不全。第 第二个文件 ai 写论文,提字词,指明大权。第三个文件 g m 基础。我们再根据第三个文件总结一份学术论文大纲啊。论文题目引言。我们再对每一个小节进行一个详细的描述, 这也是大家大家通过 ai 快 速写论文的过程。我们再切换 ai 渲染模型, nasubota pro, 就是 大家常说的相交渲染模型。生成一个科研绘图,中文没有乱码,非常的清晰,有兴趣的小伙伴可以使用这个 ai 矩阵模型。生成一个科研绘图,中文没有乱码,非常的清晰,有兴趣小伙伴可以使用这个 ai 矩阵模型。 g b 五点二, 谷歌最新的 dream 三点一 pro 画图的纳德沃纳尔 pro, 编程的克罗地斯四点六,让全世界最强的人工智能为你打工!

三十分钟写完两千次 essay 教程,三点零版来了,全新升级的方法更加简单,更加好上手,只需要用到一个模型,就是 g p 的 五点二,只要模型一更新,我就会更新教程,所以大家可以持续关注啊。此方法适用于留学生的文商课 essay, 如果你是理工科的,也可以参考我的思路。第一步,全程打开拆 g p 的 思考模式, 这里点开新品,把下面标准改成发散性思考,这一步一定要做。然后把作业要求、评分标准、课堂 ppt 这些所有文件全部归给 gpt, 然后使用这个提日词,只让他理解并总结我们的作业要求。先不要写, 你会发现 gpt 会根据一些作业的细节跟你再餐确认,这样会确保你的写作不出错。你跟他确认好写作的细节之后呢,我们就可以开始第二步,在第二步,找文件的时候,使用这个提日词 确认你的发散性思考模式,一定要打开,这样可以降低给你假文献的风险。如果你不小心遇到假文献或者打不开的链接,可以参考我以前的这个视频去解决。如果你的作业要求至少五个文献,那么我会让 gdp 找十个,留出一些容错的空间,你会发现他给我们找了很多文献,我随便点一个进去啊, 你看这个文献是真实存在的,所以我们的办法奏效了。接下来正式开始写作的时候,一定要注意一个细节,就是我们要一步一步写。比如这篇论文我们分为四个部分,那我们需要一个部分一个部分来写,一定不要让他一下子把所有东西全部写出来,这样很容易出错。让他写的时候一定要保证 英文和中文同时输出,因为很多同学他英文不是特别好,他需要看中文才能分辨出这个 gpt 是 不是在给我想要的内容。接下来非常关键的一点就是我们刚刚第二个窗口起作用,第二个窗口一开始我们还是要一模一样的步骤,让他去理解作业要求。第二步,我们让他批改之前我们写的内容, 使用这个提示词,我们就直接把刚刚 gpt 给我们写的第一段的内容复制到右边来,这样子 它就会直接给你出批改结果,你看具体怎么优化,并且优化的原因都写得非常的详细。最终它会直接输出一个优化之后的英文版本。因为我们的提示词里面还包含了一些降 ai 的 提示词,所以大家用完这一套提示词之后,出来的内容 ai 率就不是很高了。 剩下的步骤就更简单了,每个 section 都遵从同样的步骤,一步一步把作文写完就可以。最后一定不要忘了你的 reference 和 citation 一定要加到上面去。 虽然这个题词词已经包含了降 ai 的 指令,但最终我们还是要用专业的网站,专业的工具去把 ai 率完全降到百分之零,并且查重,做到万无一失。可以直接使用铅笔 ai 工具把你写完内容直接上传到这个网站里面,它会直接帮你 自动降好 ai, 然后自动输出报告,自动输出降 ai 之后的论文,你就可以直接拿去递交了。最后我想说, ai 只是提升我们学习效率的一个工具,大家一定要好好学习,天天向上。祝大家每个人都顺利毕业,谢谢!

大型语言模型的核心工作原理我们可以把整个机制通俗的分为两个主要阶段,学习阶段和应用阶段。结合这张图,我为你详细拆解一下大模型是怎么炼成并工作的。第一阶段,学习阶段。这个阶段就像是让一个婴儿阅读世界上所有的书籍, 让他掌握语言的规律。一、语料欲训练给模型喂数据大模型之所以大,是因为他吃掉了海量的文本数据。图中的例子使用了我喜欢吃苹果这句话。 在训练时,模型会接触到数以万亿计这样正常的句子,他的任务是尝试理解这些句子的模式和结构。二、模型训练玩文字接龙游戏 模型是怎么学习的?最核心的方法就是预测下一个词,他看到我喜欢吃,就会尝试去猜后面的词。一开始他可能是瞎猜的,但通过海量数据的理论,他逐渐学会 了整理。通过这种方式,他不仅学会了词汇,还默默记住了语法、语义和上下文的关系。 三、参数学习,不断纠错与微调大模型内部有成百上千亿的参数,当模型在上面那个步骤里猜错了词,它的算法就会自动调整一些原 理,让下次猜对的概率更大。经过漫长的训练,这组参数就能完美的捕捉人类的规律。 第二阶段,应用阶段。这个阶段也就是我们平时向 a i 提问时看内部发生的事情。四、模型推理学以制用模型毕业后就可以用来回答问题,比如你问我应该吃什么水果, 模型会调动他在第一阶段学到的知识,开始计算并生成回答。比如他可能会算出你可以试试苹果,是一个很好的回答。五、注意力机智跟多投注意力划重点,这是现代大模型最核心的魔法, 注意力集中。当模型看到你的问题我应该吃什么水果时,他不会把每个字看的一样准,他会自动把注意力集中在吃和水果这两个最关键的词上,从而精准锁定你要问的领域。多投注意力意味着模型有毫 风声,同时在看这句话,有的投关注语法结构,有的投关注情感,有的投关注事物之间的逻辑关联,这样能帮模型极其深刻的理解你这句复杂的话。 六字回归生成一个字一个字的往外蹦,你平时用 ai 时会发现文字是一点点弹出来的,这就是字。回归模型不是一次性把整句话想好甩给你,他先根据你的问题生成第一个词, 然后把你加到原来的问题里,预测下一个词,可以接着把你可以加进去预测试试这样一个词一个词的循环往复,直到生成一个结束符,或者达到了次数限制,回答就完成了。总结来说,大模型先是 猜词游戏,调整自己的措辞,然后在你提问时,通过划重点读懂你的意图,并像打字机一样,一个词一个词的把答案揭露出来。

兄弟们真的有点无奈,有的人在评论区说,我一个会员可以卖给无数人,搞得我挣了你很多钱一样的。 ai 的 每一次回答,每一张图片,每一个视频, 我这边都是要按 talk, 按次数按算例实际付费查购的,不是复制粘贴就能无限使用,你花的费用也仅仅只是 talk 的 费用。我们只是把全球顶级的大模型整合在一起,你不用模仿,你看 java, cloud 叉的 gpt, java 各种各样的模型都跟你整合在一起,文案的,图片的,视频的,音频的这边还做了好几个智能体,你不用模仿,你不用开十几个会员,价格还比官方的低,甚至你大量的时间跟金钱大家用着也方便我这边承担成本挣点辛苦费, 这不是很正常的生意吗?为什么总是见不得别人靠服务和便利挣钱呢?我觉得还是相互理解吧。好吧,相互理解。

今天我们要聊的是这个 g p t 五点四啊,这个模型它最近的一些新的进展,那这个模型呢?它不仅仅是在各项能力上面有了很大的提升,而且它还具备了一些可以自己去操作计算机以及可以自己去使用工具的这样的能力, 这就使得它能够真正的去执行一些比较复杂的任务啊,甚至可以去辅助专业人士去完成他们的工作。没错没错,而且这次模型的升级确实带来了很多很令人兴奋的新的功能,那我们就直接开始吧。这个 gbt 五点四它是在二零二六年的三月五号就美国东部时间 u 盘 ai 正式发布了,嗯, 然后它是直接就集成到了叉 gbt 以及 api 和 codex 这几个平台上面,最最核心的一个升级啊,就是它已经不再是一个只能跟你对话的 ai 了,而是变成了一个可以自己去主动执行任务的智能体, 所以官方也把它称为是目前为止能力最强,效率最高的,面向专业工作的前沿的模型。这一次 gbt 五点四它是第一个原声就内置了计算机操控能力的一个通用的模型, 就它不再需要像以前一样靠第三方的插件或者说靠开发者去写一些代码去调用 a p i 才能够操作你的电脑,它自己就可以完成从感知到决策到执行的整个闭环。那有没有什么具体的, 比如说数据或者说场景,可以让我们直观地感受到它的提升到底有多大?它可以在 windows、 macos 和 linux 上面完成三百六十九种真实的办公任务,比如说它可以自动地去读取邮件里面的附件,然后用 excel 做一些数据处理,再生成一个 ppt, 最后还能把这个 ppt 通过邮件发出去,整个过程都不需要人工去干预, 他就像一个真正的数字员工一样,他在人机交互上面到底有什么创新的设计?这个新版本他加入了思考过程预览,就是他在处理一些比较复杂的问题的时候,会先把他的推理思路和执行的计划都显示出来, 然后你可以在他运行的过程当中随时打断他,或者说随时调整他的方向,而不用等到他全部都跑完了才发现。哎,我中间有一步错了, 这种边思考边纠篇的方式就第一次实现了,真正的实时的纠护 ppt 五点四引入了动态工具搜索,就是它不再需要一开始就把所有的工具定义都加载进来,它只会先显示一个工具的清单,然后等你真正需要用哪个工具了,它才会去加载那个工具的详细信息。 这个机制让 token 的 用量减少了百分之四十七,而且准确率并没有下降,这样一来开发者的使用成本就大大降低了。现在这个 gpt 五点四,它的上下文窗口上限已经提升到了一百万 tokens, 这差不多相当于七十五万字。就你可以把一整本红楼梦完整的塞进去, 或者说你可以把一个很大的代码库,或者说一个上市公司十年的财报都一次性的塞进去,而不需要把它拆分成很多块。这确实很方便啊,就再也不用担心说我的这个文件太大了,我要怎么去切分它才能喂给模型?没错没错。然后在金融领域里面,比如说投行经常要用的 excel 建模,它的准确率从百分之六十八点四提升到了百分之八十七点三。 它可以直接在微软 excel 和谷歌表格里面去编辑一些复杂的公式,然后做数据透视表,甚至可以做风险分析。 它继承了 gpt 五点三 codex 的 编程能力,在 swe 编程 pro 这个代码调试的测试里面,它拿到了百分之五十七点七的分数, 这个已经和一些专门做编码的模型打平了,但是它的响应延迟还要更低一些。虽然 api 的 基础输入的价格从 gpt 五点二的每一百万 token 一 点七五美元涨到了二点五美元,涨幅是百分之四十三。 但是其实因为它的任务完成率更高了,然后 token 的 使用效率也更高了,所以大多数的用户在完成单个任务的时候花费反而更少了,这个确实有点反直觉。对,而且这个模型还会根据你这个任务的难度来动态的分配计算资源。 ipi 和 codex 现在已经对所有的开发者全面开放了, 然后原声就支持计算机操控和动态工具搜索,所以开发者可以很方便的去构建自己的自主智能体和自动化的工作流。那今天我们其实就是带大家一起看了一下 gpt 五点四这个模型,在能力上面,在效率上面,在成本上面,以及在实用性上面,它的一些全方位的突破, 无论是对于普通用户,还是对于专业人士,甚至对于企业级的应用,它都带来了全新的可能性。 ok 了,那么今天的节目咱们就到这里了,然后感谢大家的收听,咱们下期再见,拜拜。拜拜。

哈喽,大家好,我是冉冉。那今天呢,我们来测评一下 chat gpt 在 前几天又刚刚卷出来的新模型 gpt 五点四。这次的更新啊,说实话跟之前的小修小补真的不一样,大家应该已经看了非常多的参数对比, 比如说幻觉减少了百分之三十三,支持电脑原声跑分也赢过了 jimmy 和 op 四点六。那我们今天呢,话不多说,来实际测试。我们先打开 chat gpt, 选择 gpt 五点四的 fink 模式,思考强度呢,默认是标准, 我们在任务附加的时候可以调到重度,不过重度模式呢,有的时候可能会等的比较久。我们首先来测一下研究能力,我输入提示词, 让他来帮我做一个关于 ai 幻觉的研究分析,并且呢,我也给到他了输出的格式。有一个很有意思的升级,是在搜索的过程里面,你可以直接跟他对话去增加要求,不会去打断他的研究。我在他还在搜的时候跟他说给我增加到十五个来源,他直接就在现有的进度上扩展了, 不用暂停,也不用重开对话大概花了五分钟出了结果,非常全面,三个部分按照要求全都给了,引用来员也给了。而且呢,这个只是普通的搜索,还不是 deep research, deep research 的 话要等十几分钟,二十分钟,但是这个普通搜索几分钟出来的结果我觉得也挺好。 那这个呢,是 gpt 五点三模型做的,相对来说,我感觉五点四更有条理,也更有深度。我们呢,再来测知识工作, 只是在同一个对话里面,直接跟他说,让他把上面的资料做成 ppt, 需要有图标,而且跟正式的研究报告 ppt 一 样,我让他在最后一页都放引用来源,大概五分钟的时间,他 就生成了一个可以下载的 ppt 文件。打开看十五页,确实是每一个板块都有引用来源呢,也都放在最后一页。就是这个设计吧,是有点朴素, 我就追加了一句,让他帮我改设计风格,再配上视觉元素。又等了四分钟,那新的版本就出来了,确实是是比上一版要好看。不过呢,如果你确定内容了,想要进一步的去美化,我感觉还是可以拉回到 notebook l m, 把它作为唯一资料上传。然后呢,一键美化一下。 不得不说,关于做 ppt 的 美化,谷歌呢?还是扛把子,我随便搞了个苹果风格。那我们能看出来,上次 ppt 的 这个数据和质量确实是好的不少。然后呢,我来测一测,做 excel 表格, 那这个比较复杂,其实词呢,也在这里了,我们来看一看它怎么样来做。那大概花了十几分钟,它生成了一个非常完整的 excel 文件。这个下载以后,可以直接在 excel 里面打开,里面有汇总页,各个分类页,数据表, 也不是死数据。那当然 ai 做的数据是要抽查核实的,那作为框架和起点,那这个工作呢,也能帮你省掉在一开始的很多手动工作, 从一个研究结果出发,几分钟做出 ppt, 在 几分钟的时间做出来 excel, 这个对于任何需要做报告去分析数据的人来说,都是巨大的时间节省。然后呢,我们来测写代码, 我们还是选择五点四来到 camera 画布模式,输入这个提示词,让他直接给我生成一个能够去对比 ai 工具的网站。出来出来的第一版浅色模式呢,我看着真的很不错,色彩功能也是正常的,那浅色和深色的切换也正常工作。但是呢,还是有问题, 比如说这个工具的外部链接打不开,不过呢,也比之前的五点二进步太多了,之前的问题更多,但是现在呢,还是没有办法做到一个提示词完美搞定,需要我们后面再跟他沟通来修复。我又做了一个关于天气模拟的代码测试提示词呢,在这里 我要求的也挺多的,结果呢,第一版完全运行不了,尽管说他会自我修复,但是一直都在循环中,我就又开了一个窗口做了第二版。那这回呢,就感觉对了, 从日出到日落的全天候的变化也是都对的。我又用 office 四点六和 jimmy 三点一 pro 运行了同样的提示词。说实话,在代码方面,我还是认为 office 呢,它综合能力是最强的。虽然就跑分来说,五点四赢了,但可能还需要更多的测试。那接下来呢,我们来测一个日常写作, 那输入提示词,我让他做一个关于 gdp 五点四的介绍。开头写出来的东西吧,还是感觉不大对劲儿,它的推销感太强了,废话太多,就算我没有调教过我是怎么样去说话的,但无论怎么样, 如果说这么写的话,用户早就跑了。如果我们单看开箱即用的写作能力 clove 呢,真的是在于写到更自然,不推销更有人味儿的文案里面更胜一筹,不怎么需要特别调教就能给出来说人话的结果, 而且呢,每一个都能直击痛点,展现价值。那五点四在写作这一块,至少说在我这几个小时里面的测试里面来看,可能还是得需要一两轮的追问才能到位。 那总结一下我的初步感受吧。首先之日工作是五点四最大的亮点,那做研究,做 ppt, 做 excel 表格的效率提升呢?也很明显,那代码能力呢,肯定是有进步,电脑操作原生系统也是一个很大的升级。我下一次呢,再系统性的给大家来测一下。 写作方面跟之前比呢,其实变化并不大。那如果说是纯开箱体验的话,其实是不如 cloud 和 jimmy 当初来的经验,也欢迎大家去试一试。我是冉冉,欢迎大家关注我,一起用 ai 升级自己的人生,下期见了,拜拜。

g p e 五点二在 ai 大 模型能力测评中全部栓收塔,简直是秦始皇摸店门赢麻了。不论是逻辑推理还是写代码, g p d。 五点二现在简直是牛轱辘。 g p d。 主打一个乱杀,可以看到我没有改变网络环境就直达了 openai 官网,支持满血 g p e 五点二 五点二,星擎二百美金才能使用的 g p e 五点二 pro。 谷歌最新发布的 java 三点一 pro ai 绘画模型 nasa pro 编程最强的科罗德 solo 四点六马斯克系列模型 george 四点二支持深度研究、代理模式、学习模式、网页搜索画布 左边是一个历史画部分保留历史画记录,支持上百种 g p t s。 插件。我们还可以新建自己的 g p t, 进行一个文件和提示词的复用。我们再切换 java 三点一 pro。 java 三点一 pro 是 大家公认的写作最强大模型, 我们通过 java 三点一 pro 来完成一个高考作文题。苦难大地上升腾的民族魂。有兴趣的小伙伴可以暂停读一下 java 三点一 pro 写的文章,感受一下 java 三点一 pro 强大写作能力。有兴趣的小伙伴可以使用这个 ai 降噪来使用 openai 最云旗舰模型 gp 五点二, 谷歌最新的专门三点一 pro ai 幻影模型纳沃尔 pro 编程最强的科罗德收听四点六,让全世界最强的人工智能为你打工。我们再切换编程最强的科罗德收听四点六,解决一个经典的华为的算法题。科罗德收听四点六,给出了问题分析, 数据结构,算法,带有详细中文注示的加载代码,详细的测试用力以及测试说明。我们再上传三个复杂的 pdf 技术文件,分别总结文件内容,三千字中文,第一个文件是元素矩阵不全,第二个文件 ai 写论文提字词矩阵大全,第三个文件 zm 基础。 我们再根据第三个文件总结一份学术论文大纲啊。论文题目引言,我们再对每一个小节进行一个详细的描述, 这也是大家在通过 ai 快 速写论文的过程。我们再切换 ai 会话模型 nasubad nano pro, 就是 大家常说的香蕉会话模型,生成一个科研绘图,中文没有乱码, 非常的清晰,有兴趣的小伙伴可以使用这个 ai 降噪站来使用 openai 最新旗舰模型 g p。 五点二,谷歌最新的专门三点一 pro ai 会话模型 nasubad nano pro 编程最强的可操作生成。四点六,让全世界最强的人工智能为你打工。

可以用 gpt 五点二 pro 模型的逼真尼斯是什么?今天是二零二六年的三月五日,今天呢,我给大家亲自尝试并讲解 gpt 的 逼真尼斯,特别是它和 plus 的 区别。咱们找到逼真尼斯专区啊,咱们选择一个母号 啊,所谓的母号呢,就是管理号,他有权限拉子账号进空间,然后呢,他下面呢,支持支付宝或者微信啊,然后你就会得到一个账号,咱们到官网登录上去看看啊, 那么我已经登录好了啊,那么看,这里显示需要升级 plus 啊,不要着急啊,因为现在呢,还是个人模式,咱们点这里头像啊,选这个啊,这个是团队的空间。 那么进来后你再看,确实除了能使用 plus 能用的模型呢,还多出来可以使用 pro 五点二。 然后这里呢,还有邀请团队成员,他们这里邀请四个的话啊,相当于幺二零,就得到了五个可以使用 pro 的 gpt plus, 一个就要八零啊。但是别着急啊,我再给大家讲讲里面的坑,你再判断。首先呢, 这是在团队空间里使用的,如果下个月到期了,空间就进不去了,那么你再上车呢,也是新建空间,相当于这一个月你的所有记录都会被清零。那么其次呢,这个 pro 模型 它是有额度的,并不是无限的。最后啊,你像这个账号是母号,那么母号的权限它很大呃,而且它的封控非常严, 很容易吊车或者降质啊,毕竟相当于大家用一个账号的额度,你很容易超,超了就降质,也容易被识别地区之类的风控,因为毕竟你们都是天南地北凑的所谓团队,你并不是真正意义上的团队 啊。所以呢,其实掌握母号还是很重要的啊。那总结一下啊,那么我觉得 b 字逆势呢,它适用于短期的项目啊,最好你是一个宿舍的,一个办公室的,你这样真正的团队使用呢,你可以把母号掌握在自己手里。 那么如果你是个人长期的呢?我还是认为 plus 更合适啊。当然啊,如果你有实力直接上 pro, 那 你就是大佬。

一定要去买这个 gpt 这个二十美金的这个版本啊,一定要去,然后一定要试一下他这个 deep research 的 这个功能啊, 就是这个 deep research, 他 可以让你在几个小时内学会原来至少十来天才能学会的东西。今天让他帮我写了一篇文献综述, 然后就这么简单一个提示词啊,他十几分钟就把我至少要花半个月的工作搞定了,而且准确率非常高,几乎没有胡编乱造的情况,甚至连图表都给你做好了, 你看这种这种程度的图标,这种精细度的图标都给你做好了,然后我今天还发现一个超级简单的升级叉七 p t plus 的 方法啊,一分钟左右就搞定了啊,真的超级简单,我给你们演示一下。 首先我们在地址栏这边输入按回车,然后选这个 g p t plus 会员一个月,然后你买完之后,他会你会拿得到一个激活码和使用地址,然后在这里粘贴进去,然后点验证, 然后因为我已经登录好了我的 plus 会员,所以我点这个我已登录,然后这里点获取密钥,然后把这一页全选复制粘贴到前面这个空框里面,然后点核对账户,然后点确认充值,基本上全程一分钟不到就搞定了, 然后这边显示充值失败了,因为我已经是 gptplus 的 会员了,那如果你是免费用户的话,十来秒就 ok 了,是不是超级简单?然后最后一定要去试试这个 deep research 的 功能。

成 gbt 五点二系列模型呢,低调上线了,它发布呢仅有一篇技术 博克和 ceo 三毛特曼在社交媒体上的一句简短的宣告,但是相比以前如此寒酸的发布呢,却抛出了一个相当炸裂的应用。在此系列当中呢, gbt 五点二发布了三个版本,用于日常 对话的 g p t。 五点二,英斯特,擅长深度任务代码长文档的 g p t。 五点二芯片以及能解决高强度难题的 g p t。 五点二 pro。 在 此次发布的技术博克当中呢, g p t。 五点二拿下了各大测试榜单的第一, 也就是挽回了之前被超越的颜面了啊,由于篇幅的问题呢, 著名的测试了啊,有兴趣的同学呢,大家也可以找我去拿这个详细的数据的内容啊。首先是在数学领域的 a r m。 一 二零二五的这个测试当中呢, g p d。 五点二已经达到了满分,领先之前的 jimmy 三点零百分 之 j p d。 五点二,分数为百分之五十五点六,领先 jimmy 三点零 pro 百分之十二点三。在 a r c a g i。 二的图像推理测试当 当中呢,更加离谱了啊, g p t。 五点二整整领先了这么耐,三点零 pro 百分之二十一点八,不是啊,怎么这个差距是越来越大了啊, g p t。 五点二说实话还是有点东西的, 但是是不是真的厉害,感兴趣的朋友呢,可以去官网啊,或者是调取 api 的 方式 的验证一下到底是真厉害还是假厉害。来说一下报告中其余有趣的一些案例吧。首先呢,利用 g p t。 五点二芯片 生成电子表格和换灯片,在复杂程度和格式方面呢,都有所提高,这是真的上班牛马的福音了啊,那在技术文稿当中呢,甚至上传了 g p t 五点二做的几个演示页面,还真别说,他居然还可以实时交互,这波操作 实属有点顶级了啊。那更离谱的是什么呢?他居然在报告中对比了 g p d 五点一和 g p d 五 点二的视觉理解,即使在低质量的这种图像上呢, g p d 五点二也能够识别主要的区域与每一个主键真实位置大致匹配的这个框架。不过说实话,除了这个换灯片,以上的测试体验对我来说就像芯片厂子告诉我,我的手机新 性能又提升了。嗯,听了以后呢,嗯,确实提升了,但是我所用的用处就除了刷抖音,我感觉没别的了。接下来就像一些幻觉数据工具调用、想象推理等等一些细碎的,大家可以直接来找我要详细 的数据吧。最后我们还是聊聊价格啊, gdp 五点二,看起来价格就比五点一贵了零点五美金, 但是呢,这个 gbt pro 呢,就贵的有点离谱了啊,整整贵了二十倍。但是呢,贵肯定是有贵的道理,这句话能不能体现在 gbt 身上我们就不得而知了啊。总之呢,保持期待,毕竟人家十周年,总不能说泼人家冷水吧啊,感兴趣的同学可以去体验一下吧。