别再浪费时间死磕代码反复调试项目了!智普 g l m 五一的发布,直接改写了程序员的高效办公逻辑,甚至颠覆你对大模型编程能力的所有认知。这不是一次简单的版本迭代,而是 g l m 五的全面升级, 更是开源大模型在智能体编程领域的一次突破性跨越。三月二十八日正式亮相,延续猫 e 稀疏架构,说人话就是模型运行更高效,不占过多设备内存。七百四十四 b 总参数搭配四零 b 激活参数。 说人话就是参数越多,模型越聪明,处理复杂任务的能力越强。两百 k 上下文窗口加一百二十八 k 最大输出,说人话能一次性处理超长文档,超大项目 不用手动分段,避免反复衔接出错,彻底解决长文档大项目分段处理的痛点,让复杂任务无需反复衔接。更关键的是,它打破了旗舰模型的使用壁垒,质朴 coding plan 全量用户, 无论是 lite pro 还是 max 套餐都能直接使用,支持 api 调用,网页端操作。人话,不管你是普通用户还是专业开发者,不用额外付费升级,打开就能用。两种使用方式任选,上手无难度,还兼容 openai 接口,人话之前用惯了 openai 相关工具, 不用重新适应,直接衔接就能用。无缝衔接各类编程工具,不用额外学习,上手就能解锁高效模式。 很多人觉得大模型写代码只能做简单片段,复杂系统还是得靠人工。 g l m 五点一直接打破这个固有认知,它的智能体编程能力拉满, 能自主完成规划、执行、调试、交付全流程,端到端搞定系统工程人化,从一开始的项目规划到写代码、找 bug, 最终交付成品 全程不用人工插手,相当于给你配了一个全能编程助手。 s w e bench 编程精准逼近 cloud opus, 在 开源模型中遥遥领先,让程序员从繁琐的重复工作中解放出来,把时间花在更有价值的核心创作上。 不止编程,它的长城智能体能力更是封神级表现,强化后的长序列执行和多步骤任务规划人化,能一步步推进复杂任务,不会中途断档,忘记之前的指令。在 browse comp、 m c p artless 等权威评测中拿下开源 s o t a 人画,在同类开源模型里,这项能力排第一。原生支持 m c p 工具调用人画,能直接联网查资料、读网页。调用开源代码,不用你手动复制粘贴,来回切换软件,不用来回切换工具,手动补充信息,复杂任务一站式搞定。技术层面的优化更是诚意拉满。 slime 亦步强化学习框架,人化和模型互动时反应更快、更流畅,不会卡顿,让长城交互效率大幅提升。 deep seek 稀疏注意力,人化,处理长文本时,既不影响效果,又能减少设备负担,节省使用成本。 既保证长文本处理效果不打折,又能降低部署成本,提升 toc 效率。推理稳定性,指令遵循度、幻觉控制全面升级。 人话不会乱输出错误信息,能精准听懂你的需求。使用时很少踩坑,大幅减少使用中的踩坑概率。 它不只是程序员的利器,更是全场景高效助手,开发者用它做复杂项目开发,代码重构深度调试,效率翻倍。企业办公族用它处理长文档,生成复杂报告,提取结构化数据,省时省力。内容创作者用它写剧本、做翻译,迸发创意,打破灵感瓶颈。 和上一代 g l m 五相比,它的升级肉眼可见。从仅 max 套餐可用到全量开放,让更多用户享受到旗舰级体验。从测重写工程到聚焦复杂系统加长城智能体加推理稳定性,每一处优化都直击用户痛点,让 ai 真正成为能替你干活的得力助手。 如果你还在被繁琐的编程、复杂的长任务消耗精力,如果你想解锁高效办公的新方式, g l m 五点一绝对值得你一试。接入入口很简单,智普开放平台 coding plan 套餐 搜索模型标识 g l m 杠五点一人话,找到这个模型,点击就能直接用,不用复杂操作就能直接调用体验评论区告诉我,你最想用它解决什么问题,是复杂代码开发还是长文档处理?关注我,老朱的 ai 小 助理!
粉丝1110获赞1590

这绝对是 ai 史上最疯狂的一周,因为昨天 astropica 那 边爆出了个大料,一款拥有十万亿参数的模型,号称是有史以来最强大的模型。 而今天这股热潮丝毫没停,因为 g m 五点一发布了迄今最先进的开源代理模型之一, google deepmind 推出了双子座三点一闪电实时版,让实时音频 ai 更进一步。 open ai 正将科迪克斯打造成完整插件生态,直接对标云端代码。 不仅如此, a r c g a gi 三更是为衡量 ai 系统智能树立了新标杆,而这还只是冰山一角,那我们就直奔主题。 我们先从或许是最重磅的消息说起。近日重大泄露显示, astonopic 即将推出两款新模型。首先是克劳德奥沃麦索斯,它处于一个全新的层级,此外还推出了一个新层级,叫做水豚。需要注意的是,据报道水豚的层级略低于麦索斯, 但它属于比奥普斯更高的一档,毕竟奥普斯已是它们的旗舰模型。所以这绝非小幅升级,而是开辟了一个全新的层级, 它在代码能力上有了新提升,学术推理更强。更令人惊讶的是,网络安全能力大幅跃升。接下来的消息更劲爆,甚至有早期测试者已经拿到了权限。 连财富杂志都报道说,这模型跟现在的奥普斯根本不在一个量级, 其能力强大到可能带来风险,这比起我们现在用的版本是巨大的飞跃,事实上,它太强了。据说 osorp 征集化放慢发布节奏,出于对滥用及安全风险的顾虑, 我个人觉得纯属个人看法,我认为白领岗位未来两年内就会被自动化取代, 这类模型正是推动这一趋势的关键。因为据报道, open ai 正在内部开发一款代号为 spot 的 模型。有内部人士透露,这或许是 ai 领域的重大突破,但回到 anselpik 这边,有传闻称 我们可能还会迎来过渡版本,很快,比如奥普斯五或索内特五。随后,或许能看到这两款刚刚由 anselpik 发布的新模型在数月内逐步上线。 说实话,这或许只是种战略布局,他们故意泄露可能是为了制造营销噱头,借此营造期待感与紧迫感,毓立在 ai 竞赛中的主导地位。这之所以关键,是因为说实话,两千零二十六年 将是 ai 界发生翻天覆地变化的一年。 open ai 已调整部分组织架构,以推进通用人工智能部署。随着今日发布推进,我们期待 g p t 五点五。 智浦 g l m 团队发布了 g l m 五点一,这是一款开源代理模型, 相比 g l m 五,它有显著提升。该模型着重强化代理行为, 即更擅长处理长周期任务,指令遵循能力更强,多步骤工作流中更可靠,且成本相当合理。代码精准测试得分为四十五点三,对比奥普斯四点六的四十七点九,该指标已非常接近地源模型水平, 这才是核心重点。这是一款迅速缩小与顶尖 ai 差距的开源模型,不过有一点要注意,它的速度极慢,但用它生成的网站界面却惊艳不已。比如看看这个落地页,我用五点一生成的, 不得不承认,其前端能力相当出色,动态效果处理得也相当到位,多样的排版和结构都已在这落地页中完整实现, 可以看出它非常干净,而且这次深层的结构也很清晰。接下来是 google deepmind 的 重磅更新, 他们刚推出了双子座三点一闪电实时版,这是一款全新的实时多模态模型,专为构建语音和视觉智能体打造。这可不是什么小升级,因为他们花了一年多时间打磨模型,基础设施及开发者体验。 我得承认,全方位的提升都令人印象深刻,质量和可能性都有质的飞跃,延迟也大幅降低,而这正是实时 ai 所必需的。来听听它实际运行的效果。 我们来修改这个应用的代码,先从把麦克风调大开始。我来帮您把麦克风图标调大。 我们在背景里加些黄色波点吧,我来往背景里加些黄色波点。接下来是重磅更新, openai 为柯蒂克斯引入插件, 这将彻底改变人们使用编码代理的方式。一直以来,大多数 ai 编程工具其实都很封闭,在柯蒂克斯里也就这样了。但现在有了插件,它将变为可完整执行呢。 实践方案,现在你可以浏览案例库,里面有真实工作流,比如开发 ios 应用、分析数据及生成报告和演示文稿。 最绝的是,这些工作流一键就能启动,直接在柯蒂克斯应用内操作,无需每次从零搭建,直接使用预制的可运行 ai 工作流,并能随时修改,还能进行扩展。这是巨大飞跃,让柯蒂克斯不再像单纯的工具, 而更像 ai 开发平台。我得说,这绝对是如今云端代码的直接对手 以及其他智能体工具,毕竟它如今已颇具神往。接下来介绍 a r c a g a c 三 目前顶尖模型,在此的得分甚至不到百分之一。拼起来似乎不妙,但其实是好事,因为这一次我们终于有了能真正衡量进步的精准与智能,而非单纯考察记忆, 关键在于它的不同之处。这是一个新机制,用于测试智能体在交互环境下的推理能力,要求首次尝试即完成任务,无需事前训练或指导。人类首次尝试的通过率可达百分之一百, 而 ai 目前仍基本卡在百分之一以下。显然,它们也在努力弥补过去的失误,因为这次它着重于防止过你核。这样模型就不能只靠死记硬背来假装拥有智能, 更疯狂的还在后面,一旦 a r c a g i 三被攻克,下一步就是真实的商业游戏场景。这意味着 ai 不 再只会推理, 它将能够行动适应,并在复杂的数字世界中像人类一样运作。各位,我们离通用人工智能确实越来越近了。云端代码最近也推出了一些新功能, 它们率先在云端引入了自动修复功能,它能在云端直接修复拉取请求、修复 c i, 构建失败处理代码审查意见,自动让你的 p r 保持绿色状态。该功能支持远程运行,提交代码后你就可以离开了,回来时 p r 已可直接合并。 接下来云端代码将暂时收紧五小时绘画时长限制,因需求高涨,免费 pro 及 max 用户高峰时段将受限,每周限额不变,但此限制仅在工作日生效, 这样一来,用户会比以前更快触及绘画上限。云代码也新推出了自动模式,不再频繁弹出权限提示了每次操作都会经过内置分类器的审查, 安全操作可及时执行,风险操作则会被拦截。总体而言,这既减少了摩擦,又能更好地实施管控。我个人觉得这是个非常棒的更新,尤其适合追求流畅、更自主、工作流的用户。 近期, miimo 二 pro 版本正式发布了,不少人对此模型很兴奋。而在 opencode 里,他们让 pro 和 omni 免费再延长一周。所以如果想多用点,现在正是时候。接下来是 eleven loves 更新, c l i 现全面转向代理优先 默认无需交互,这让代理和自动化工作流使用更顺畅。虽然基于 linky y 的 丰富交互体验,现在需通过人性化开关起用。 简单来说,它优先为 ai 系统设计,人类交互只是可选层。 mr ai 刚刚发布了 voxstra tts, 一 款全新的开放权重模型,正推动技术前沿。在自然表达与超快语音合成领域, 它能输出逼真且富有情感的语音,支持九种语言及多种方言,延迟极低,音频近乎计时,还能轻松适配新声音,这简直太不可思议了。接下来介绍 android 研发的 opera 新型智能体, 专为生物科研打造的云桌面智能体。它提供了一个私密环境,你可以在这里与 ai 写作,在项目里创建多个绘画 管理深层成果,并利用专业技能,可以把它想象成科学家的联合办公空间。这是 testing catalog 发现的。如果你还不知道的话, sora 应用其实很快就要关闭了,这意味着该应用将无法使用, 所有相关部署和社区活动都将停止。对于在 sora 上创作内容或开发项目的创作者,团队也承认着令人失望, 但他们计划很快公布更多细节,应用程序和 a p i 具体何时停止服务,以及如何保存或导出作品。简单来说, sora 即将下线,但他们尽量确保大家不会丢失已创建的内容。这确实有些遗憾,这说明他们正把所有算力都投入到 spa 的 进一步开发中。 最后收尾来聊聊 composer 二。它自称是前沿级大模型, 其编程能力极强,基于内部机准测试 cursor bench。 但有趣的是,有用户发现这其实就是 kimi k 二点五模型, 它是微调的,基于开源基座模型 kimi k 二点五, 但 cursor 对 此只字未提。这引发了关于 composer 二真实身份的轩然大波。这是挺有意思的,因为它们居然隐瞒 自己训练了模型。其实底牌是 kimi k 二点五。大致就是这样。各位,本周确实很有意思。 ai 领域新话题层出不穷, 我对云模型特别期待,是今年即将推出的,这绝对是颠覆性的改革。如果想了解更多,好了,各位,祝大家今天愉快,传递正能量,咱们很快见,各位回见!

哈喽,大家好,我是 dp, 最近业内悄然掀起了一个传言,或者说是讨论吧,就是说很多开源模型会考虑开始闭源化,然后呢,这个讨论有愈演愈烈之事,所以我做了一些分析和总结,录一个视频跟大家来分享一下。 首先我们来追溯一下这个消息的来源,我最先找到的是这张图片,是 g l m 发布的一个关于 g l m 五将会继续开源的一个视频,告诉大家不要恐慌。看到这个视就是这张图片的时候,我觉得诶有点意思。 然后紧接着我找到了 glam turbo 这个模型的一个相关信息,其实这里大家只需要知道有这个模型,然后它是为 opencloud 的 龙虾进行定制的模型就好了。然后这个模型当前并没有开源。 然后紧接着我又找到了这张 minimax m 二点七这个模型的发布信息,这个模型也没有开源。 然后紧接着我找到的是小米的咪某 v 二 pro 这个模型,它也没有选择开源。然后我们进行一个简单的消息汇总, 时间是二六年的三月中,一共有三款模型选择了闭源或者说没有开源,分别是我们刚刚看到的这三款模型。 然后稍后我又进行了更深一层的信息挖掘,我找到了如下信息,首先 g l m 五是一个开源模型,并且官方承诺 g l m 五点一也会继续开源。 然后 mini max 是 m 二点七这个模型当前是没有开源,但是有消息说会推迟开源,像 memo 这个是说的是 vr flash 已经开源,稍后稳定以后会有更多的模型去开源,这是一个信息的汇总, 然后我觉得这种恐慌是可以理解的,为什么呢?在这个商业时代,连不限速的承诺都没有办法保证, 大家还能觉得有什么事是不会发生的呢?对吧?哎,这个我觉得一定程度上和龙虾也有一定的关系,因为很多模型都说自己是对龙虾进行了优化或者什么,然后你又不开园,然后现在龙虾又是热潮,用户就难免会有一些遐想,这是一个很正常的现象。 在继续下面的内容之前,我想跟大家来简单聊一下开园的区别。 我们熟知的开源有两种方式,一种是权重开源,一种是完整开源。并不是说你看到的这个模型,他说他是开源的,他就一定是完整开源。关于这两个名词,我展开跟大家用做蛋糕的形式来做一个比喻。 关于权重开源,你可以把它想成给你的模型,是一个做好的蛋糕,你可以直接吃吃,就代表你可以使用,然后你也可以给它涂上奶油,有更好的风味。那么涂上奶油就理解成可以对模型进行一些的微调, 这类的代表是千问和 glm。 然后完整开源嘛,就是在上面的基础上,把烤箱的设计图给你,把独家的烘培工艺也给你,这类的代表就是 deepsea。 对于学习来说,我觉得完整开源会更好,但是完整开源也是有一定门槛的,这个我们就不展开说了。 然后我想聊一下开源、闭源和商业模式的关系,我觉得开源和闭源统就是配合起来是一个更好的商业模式,为什么呢?因为你有开源和闭源,可以更好的进行商业化运作。 像这类的代表就比较多,比如说千万,它开源了很多的模型,然后小参数占比也很高,但是它的 max 系列模型是不开源的,然后 gim 也是有。呃, gim 五和蔚来的五点一是开源的,但是 turbo 系列它不开源。 然后我个人觉得最佳的模式应当是这一代选择不开源,然后每出一个新一代,那么上一代就选择开源。当然我也知道这是有非常大的难度和挑战的一件事情。 然后我想展望一下整个开源生态的一个未来。首先我想问大家一个问题,你们觉得这些开源模型,他们都是自愿的选择了开源这个商业化模式吗? 一二三。好,你可以把你的答案打在屏幕上。我觉得并不见得,我个人认为很多开源模型是由于当年的 deepsea 推了一把而不得不选择开源,他们当时真的没有太多的选择。 然后对于有些模型来说,我觉得在不久的将来选择避远是很正常的一件事,因为未来的不确定性,我觉得未来可期,非常值得期待, 因为 ar 的 这个时代不会因为某一个人或者某一个模型而停止,他的历史的车轮一定会滚滚向前。 接下来我想聊一下对个人和小公司的影响。首先是否开源,对个人和小公司来说影响真的是微乎其微,为什么呢?因为我们可以这样来假设,像四百币这种参数量的模型,比如说千万、三点五,比如说 mini、 max 本地部署,都会有非常大的难度,难度真的不小。所以对于个人用户来说,我觉得我们应该更多关注的是小参数模型的开源,这样是一个更实际的选择。 当然有用户会说啊,我注重隐私,我注重审核,我只能选择自部署,那么怎么办?那么很抱歉,这部分用户占比实在是太少太少,甚至我们可以用微乎其微来形容。 然后对于企业用户,那么影响一定是有的,但是企业用户不在我们考虑的范围之内。 好的,最后给出一个限阶段模型选择的建议。个人建议啊,首先,如果你有搜索类的需求,优先考虑 gork。 然后如果有 coding 的 需求,可以考虑 op 四点六或者 gpt 五点四目前是最优减,特别是 codex 驱动下的 gpt 五点四,目前性价比是直接拉满的。 当然呃, codex 的 双倍配额的一个方案也只是到四月份,时间不多了,有需要可以体验。 然后如果是 u r 设计相关的方面,可以考虑吉米奶三点一 pro 当前也是唯一的一个模型选择方案, 有人说 g p d 五点四会更好,但我测试下来好像还是有一定的差距,但是提醒吉米奶三点一 pro 是 有残血和满血的区别,尽量去用满血的方案。 然后如果一定有本地部署的需求,我建议的就是考虑千万和其他模型的小版本方案,因为我个人并不喜欢本地部署,所以这里也没有太多的经验可以分享, 而且大家可以看上面的列表,我推荐的几乎就没有考虑本地部署和开源方案,为什么?因为时间效率是我考虑的第一要素。 好的,在最后想特别感谢 deepsea 为模型开源做出的巨大贡献,真的是不可磨灭的贡献。虽然我个人不用这个开源模型,但是我知道这个贡献会汇集到每一个人。 好的,这就是这一期关于开源模型是否会出现闭源化呃相关分析和分享视频的全部内容,如果这期视频对你有帮助,请帮忙点赞和 转发。如果你有相同的经验想要分享或者遇到相关问题,欢迎留言。另外,既然你已经看到了这里,我可以告诉你,我们开了一个 ar 讨论组,如果有兴趣的话可以私信我,欢迎加入,我是 d p, 谢谢!

三月二十七日晚上,智普突然甩出大招,发布了 g l m 五点一。距离上个版本 g l m 五点零才过去一个多月, 这个模型强到什么程度?官方评测从三十五点四分飙升到四十五点三分,暴涨超过百分之三十。 对比一下,当前全球最强编程模型 clopus 四点六,得分四十七点九, g l m 五点一之差两点六分。 在编程能力上,国产大模型已经占上了世界第一梯队。更关键的是价格, opus 四点六是最强也是最贵的,很多程序员用不起 g l m, 只要它的零头便宜好几倍。 当然,跑分好看不代表一切,还得看实际开发体验。国产模型在工程实践上还有进步空间, 不过一个多月提升百分之三十,这个速度确实恐怖。开源之后会怎样,值得期待。

昨晚, glm 五正式发布,我连夜十次结论,就一句开源模型,第一次让我感觉手里握着的不再是代码生成器,而是一个能扛式的系统架构师。硅谷的风向早变了, cloud office 四点六和 gpt 五点三, codex 都不在,就一句话做网页,而是拼谁能花几个小时自动解偶一个遗留系统,重构一个编辑内核,这就是 angelic coding, 让 ai 像人一样慢思考、干粗活。而 glm 五就是开元界第一个接触这波潮流的模型。我让他帮我生成一个复古街机风格的键盘,节奏应有网页。他思考了一会,自主拆成六个模块,依次实现音频解码器输入响应、系统判定、逻辑粒子特效、 ui 渲染、性能监控。 中途遇到 web auto a p i 时讯漂移问题,它自动分析控制台日制定位到时钟同步偏差重写时间效准算法全程无人干预,最终跑出一个可上线、可扩展的完整游戏架构。这自我反思自我的 bug 的 过程, 像极了 office 那 种工程师思维,而不只是语法补全体感,太像了。以前我们用昂贵的 office 做大脑规划任务,便宜模型做执行,现在 g l m 五自己就是大脑逻辑密度、拆解能力直逼 office, 但开源可部署,性价比拉满海外。不少大佬测完表示智能和风格极似 office, 开源第一无疑。 g l m coding plan 今天早上十点又被抢空,懂行的程序员已经开始用它替代 office 干脏活累活了。 如果你需要一个能本地部署、能长时间自动工作、能帮你从零搭建真实系统的平替 office, g l m 五可能是你二零二六年第一个生产力革命,目前 a i 明显在两个主行道,一个 coding, 一个 ai 视频。而在 c d c 之后, coding 领域的 g l m 五发布开源代表生产力范氏急跃前,在马年即将到来之际,中国 ai 拿回了属于自己的王座。

春节假期将至,目前呢,整个模型大战已经打响了帷幕,智谱的 g i m 二月十一号呢正式发布,这个呢,就是此前神秘的 m l a 法,在 open router 上表现非常的出众,也被大家众筹纷云。总参数呢是七百四十五, b 是 g l m 四点七,两倍域信域,数据呢,达到了二十八万亿的 token, 采用了 deepsea 同款的棋数注意力机制, d i c 和多都可以预测,就 m t p。 那 这个呢,其实就是去年年初的比较稳定的开源框架了,关键突破呢,是扣定于 a 阵能力,达到了开源模型中的苏打真实的编程场景的接近 cloud 四点五,幻觉率呢,历史性低。 多模态的推理能力呢,比如说在学术基础推理编码和 a 阵任务上是大幅超越了 g i m 的 四点七以上版本,接近前沿 的 a 阵任务。这个模型呢,已经是 mit 许可开源了,所以呢,已经可以不说了,我们 我们同事也看了一下,大概一台 h 两百就可以把这个智普的 g m 部署起来,可以替代一些编程领域比较强的一些模型,比如 cloud。 与此同时呢, deepsea v 四呢,也正式的进入了微度上限的阶段,重点优化是编码和超长提示。四,目前呢,它最大的优势呢,就是把上下文窗口呢限制了,百万 token 就 一兆,目前呢,只有币源的模型才提供的,所以呢,它是可以单次处理三 t 三浦区的全 g 六十万的文字,它是一个一万亿参数的 mo e, 这个就很大了,比智普呢还要再大个三分之一。引入了 ingram 条件记忆系统,就 deepsea 关于通过文件系统来储存记忆等方式,它是一个近乎无线上网的加速,它的编码能力均为 well, 超过了百分之九十,支持五十多种语言代码的质量呢,超过了 g p t 五 in cloud 四点五 os。 目前呢,在开源里面呢,可能是跟 g l m 还稍微有一点点差距,推理速度呢,是大幅提升,快了百分之四十,内存减少百分之四十到九十, f p 八的新数量化成本呢,也是大幅下降。所以我想分享一下,就是国产的这波开源的大模型呢,其实是在改革这个行业的发展的一个 趋势的。原来呢,对创业公司来说要交两波税,一波呢是给微软这样显卡的,另外一笔呢,是给模型公司的,那开源模型目前离闭源模型是无限的接近,所以呢,至少对于一些没有特别高的质量要求的场景中呢,是完全可以用开源模型来替代的。当然了,开源模型并表示一定成本会很低,比如说像智普 g l m five 和 deepsea v 四呢,都是非常大的模型 跟退隐,成本其实依然很高,而且很依赖比较好的减存和算计的卡,比如说也是两百。那对于创业公司更好的方式呢,是可以用更小的模型来蒸馏,无论是这些开源大模型还是闭源的大模型,让更小的显卡,比如说五零九零 r t x 六千这种芯片呢,就可以跑起来,这个成本呢,还可以在原来的基础上呢,下降了百分之七八十。 所以呢,当开源模型离闭源模型最接近的时候,其实也是在跃跃欲试,抓住这波增长的机会。

嗨,欢迎收看新一期视频智普 ai 让我提前体验了 g l m 五点一, 这段时间一直在试用,现在就来和大家分享一下心得。它应该会在视频发布后不久上线,也就是看完视频后的十二小时内应该会上线,大概情况就是这样,目前关于模型和改动的具体信息我手头不多, 不过它主要是 glm 五模型的后训练升级版本,据说现在处理长周期任务的能力比以前更强了。如果你还不知道 glm 四点七在处理长运行任务上并不出色,但 glm 五在这点上做得很好,新版的 glm 五点一也一样, 不过这个版本应该会更胜一筹,模型参数量也保持不变。它会先对代码计划用户和 a p i 开放模型权重,之后也可能陆续放出官方表示不会有重大公告之类的动静。 所以一旦开放,我会置顶评论告诉大家能感觉到的是,它现在明显更偏向代码,或者说更侧重智能体任务。比如如果你只是拿来随便聊聊, 他大概率会莫名其妙开始写代码,体验其实不太好。这么做的原因大概是毕竟代码训练数据更多, 觉得他就该写代码,甚至直接生成个 html 文件。比如 kingbench 测试里有个问题,没必要写代码,我让他去解个谜题,他没直接说答案是烟雾,反而用 html 做了个页面 来展示答案,顺便说一句,答案是对的,所以我觉得它就是在乱用,在不必要的地方写代码。我已经反馈给团队了, 他们说可能会修发布前,所以大家先别太当真。不过如果你通过像 opencloud 这样的智能体工具来调用它,那表现就相当不错,不然的话体验就没那么好了。 如果你还记得我之前评测 gemini 三点一 flash, 我 也遇到过同样的问题,这大概是 r l 训练编码时的特性,模型会开始过度生成代码, minimax 也有这毛病。 不过这也带来了好处,就是它在智能体任务上表现极佳,真的特别强。生成效果我稍后再细说, 但直白点说,现在的模型专注多了,它执行指令非常到位,现在的调试能力也很强,而且绝不会偏离核心目标。 glm 五在这方面有点怪,因为它有时会用力过猛,然后就会卡死,经常搞的用户体验很差。我对 glm 五还有一个槽点,这版已经修好了。问题在于 glm 五之前的推理过于用力, 他总是过度推理,哪怕完全没必要的时候,导致简单任务也变慢了。但现在看来,他不再在不必要的地方过度推理了,交错思考的效果也好多了,体验其实很舒适,响应速度也比之前快多了, 规划能力也变强了。现在它在修改前能更好地把握上下文。正因如此,规划功能也表现得很出色,感觉就跟 g p t 五点三 codex 差不多,大家应该能明白这个意思。再看我的精准测试结果,也印证了同样的情况。首先是平面图测试,在这里它展现了惊人的能力, 旧版本根本做不到这一点,但新版的表现却相当出色,整体布局基本合理。卫生间其实可以挪到过道旁,毕竟两个卫生间都设在主卧,不过嘛,这样也行,总的来说表现还挺好,连 collins 都未必能做到这么好。接下来是只拿汉堡的熊猫 svg, 这个其实也真不错,看着不错,简洁明了,所以确实挺棒的。接着是 three g s 做的金银球,这个其实也挺不错的,内容很精炼,而且效果相当不错,深层结果也很到位, 所以这点很棒。接下来是自动下棋的游戏,这个也做的挺不错,而且可以操控它下棋,所以在这方面表现不错。接下来是康定司机风格的我的世界复刻版,这个也很棒,运行效果相当好, 表现确实出色,图案很美,地图布局也很美,操作也很顺手。接下来是花园里飞舞的蝴蝶,这个同样很棒,蝴蝶飞得很流畅, 场景也很美,这个同样很赞。接下来是 rust 写的 c l i 工具和 blender 脚本, 这两个都挺好,不过在通用问题,尤其是数学题就不行了。前面提过,模型在通用对话问答上不如从前了, 如果在智能体系统外使用会有点扫兴,但用像 open claw 这样的工具就没啥大事,因为它能调用不同工具搞定具体任务,但没了这些,对聊天体验不太友好。谜题倒是解对了, 但如我之前所说,答案却偏要用代码块格式,确实有点烦人,不过答案倒是没错。代码块这问题通常出现在系统提示里,比如写了类似的钥匙使用代码块,然后他就开始到处都用这个,总之情况就是这样,所以他排在排行榜第五。 我觉得它在非智能体对话方面有所退步,不过在智能体任务上提升明显,所以你会看到分数比较接近,因为某个方面提升很大。接下来是智能体测试,就像我说的,智能体任务上确实好很多, 真的好的特别多,比如这个电影追踪器,表现就很好。这么说吧,我甚至敢断言,这是我见过最好的深层效果。 codex 在 ui 方面就很差劲, opus 很 强,但有些地方确实会翻车。这一个几乎把一切都完美搞定,因为它非常擅长自我修正, 我用 kilo k 二来运行它,它甚至会运行 link 来查错,然后自动修复。它能持续运行很久,直到任务不仅完成, 更是确保它真正能跑通,不错,这挺棒的。接下来是用 bubble tea 开发的勾语言终端计算器,这个效果也相当不错,运行稳定,所有功能也都正常, 界面看起来也挺顺眼,所以说这确实很赞。接下来是这款用 spell 写的看板应用,这个表现也挺好,功能正常,界面也过得去,而且这一切只用了单次提示就搞定了,这也太离谱了。尤其考虑到这模型这么便宜,这绝对让我觉得离谱。 所有功能都正常,数据库没问题,其他部分也没毛病,这真是太厉害了。说实话,这模型干活真利索,性能跟 opus 四点六差不多, 甚至比 codix 还强,简直绝了。这真是太牛了,我估计得换用这个模型了。确实相当不错,毕竟这价格简直是在跟大厂叫板, 在智能体排行榜上拿下第二名。作为开源模型,简直强的离谱。确实很强,视频发布后一两个小时应该就上线了,上线后我会置顶评论,总的来说挺棒的,评论区聊聊你们的看法,拜拜。

今天晚上九点钟左右,最新的 clock code 公布了一个 gm 五点一的一个公测的一个模式,然后我就赶快的去重新新建了一个 api, 然后用了这个 gm 五点一, 感觉还不错,确实它在这个工具调用,还有它在任务运行上 以及长时间处理任务的这个能力上都要比 gm 五,就是我最近用比较多的一个模型要强。可以看到我问了他一个问题,我问他他的优势在哪地方, 他告诉我在工具集成上,编程能力,还有一个多智能体写作以及持久记忆上可能会有一定的优势。 然后直接所以我直接让他连一个这个我的 unity 的 一个 mcp, 让他在这下面帮我去做一些跟游戏开发相关的事情, 然后发现他很快的就习得了一个 skills, 而且他应该是进行一个并行的这么一个模式, 所以我觉得现在这个模型的一个趋势就是会越来越强,在这个长期记忆和这个工具调用上都会越来越好。 嗯,但是呢,有个问题就是要看你的需求是什么样子的,如果你是专注一个 coding 的 这么一个情况下,我认为这个五点一是个很好的选择,就是他可能会啊,在回答你问题的时候去专注于这个代码层面,他可能不会专注你个具体的问题的,就是回答上, 所以我认为他是对一个这个代码开发者是相对友好的,然后, 嗯,相对来说,如果你要去做一些其他的事情,对吧?呃,也不一定说用这个 gm 五点一可以切换成其他的,对应的稍微便宜一点的东西也可以, 但是不得不说新新出来这个五点一我还是很喜欢用的,然后就期待在大家的一个评价。

zai 发布 glm 五点一代码能力大幅提升今日, zai 宣布, glm 五点一模型正式向所有 glm coding plan 订阅用户开放。此次更新在代码生成能力方面实现了显著突破。核心亮点,根据最新评测数据, g l m 五点一在代码任务评测中取得四十五点三分,相比前代 g l m 五的三十五点四分提升近百分之二十八,与业界领先的科阿德普斯四点六四十七点九分相比,差距已缩小至减二点六分。

最近有网友问我,世界大模型第一股智普的 glm 五发布了,说它是全球最好用的开源模型,编程能力堪比 cloud, 是 真的吗? 先说结论是真的,中国清华系智普最新的 glm 五模型已经在编程能力上比肩 cloud 了,全球开源模型中排名第一,虽然还有微小的差距,但是我们在快速的追赶中, 我是杨乐多大白话讲 ai 这款 glm 五到底强在哪?用三点跟大家说清楚。第一点,开源模型世界领先。目前这款 glm 五在全球的开源排名中,编程能力排名第一,综合能力排名第四, 也就是在全球范围内把代码公开,让大家免费使用的模型里面, g l m 的 编程能力是最强的。第二点,代码能力逼近顶尖水平,目前编程全球最强的就是 cloud 模型,而 g l m 五在编程的使用体感上 已经跟 cloud 相差无几了。第三点,他专门擅长处理复杂的任务逻辑,也就是一个不会代码的人,可以跟他进行多轮对话后生成一个复杂的产品,甚至不用写一行代码就可以实现。 我们客观的看,差距确实还存在,但是你要知道,一年前我们的 ai 代码编程能力比全球顶尖水平差了十倍不止, 而现在我们基本上跟他们近在咫尺了,并且 glm 还是一个开源的模型,开源的模型意味着全球的开发者都可以免费的使用它,并且在上面进行二次创作和修改。 而 cloud 是 闭源模型,只能通过付费调用它的 api 来进行使用,并且不能对其进行二次的修改和调整。做一个比喻啊, cloud 就 像是高墙内的武林高手,没有人知道它是怎么实现的, 他的武功不外传,你们只能看。而 glm 五呢,就像一个武林盟主把所有的武功秘籍全部都公开了,那你想想谁的影响力更大,谁会进步的更快呢? 这就是中国 ai 的 速度,中国至普系的 glm 一 年时间走完了别人三到五年要走完的路,中国在不断的这,这背后就是中国的 ai 的 硬实力,也是中国 ai 选择开元路线的再一次胜利。

谁能想到,郑州大模型研讨会刚结束一天,就迎来了国产 ai 的 又一重磅落地。二月十日,光核组织集结头部算力模型厂商,启动联合公关,打造算力加模型加场景闭环。二月十一日,智普 ai g l m 五开源 海光 dcu 同步适配,直接把闭环落到了实处。 glm 拿下开源 sota 海光,实现对零适配双方深度协同,让国产算力的价值充分释放。这也正是郑州会上倡导的开放生态系统公关的核心内涵。从百家联工到企业落地,国产 ai 生态正在全面开花,未来可期。

glm 四点五到四点七,再到五,现在到了五点一。很多人第一反应是,哦,又出一个新模型,参数更大,能力更强,对吧?错了,这次更新不一样,智普不是在跟你拼模型技术,是在跟你拼应用落地。看官方文档怎么定义。 glm 面向 agenc engineering 打造, 擅长复杂系统工程与长城 agent 的 任务,在真实编程场景的使用体感逼近 cloud、 opus、 四点五这些词,你看到了什么?大多数人的解读是哦,质朴的编程能力很强了,跟 cloud 差不多了,还能做 agent 任务。但还有一个信息,你可能漏掉了通用 agent 助手的理想寄宿。 什么意思?以前我们说 ai 助手是一个问答工具,你有问题,他给你答案,代码错了,你问他怎么改,下一步该做什么,你问他怎么写,从头到尾是你在掌控节奏,但面向 angelic engineering 打造的模型不是这样。 agent 它是什么? agent 是 智能体, 智能体不是等你来问。他可以自己规划任务,自己制定步骤,自己执行流程。你给他一个目标,他自己去拆解成若干步骤,自己去判断每个步骤该怎么做,自己去执行,自己去检查结果。如果有问题,他自己调整,如果中间有障碍,他自己绕路。这就是长城 aj 的 任务。 以前是你带着 ai 工作,现在是 ai 带着你工作。你给出一个需求,比如帮我写一个完整的电商网站前端以前的模型,你可能要问十次,先写什么?这个组件怎么连? api 怎么调?样式怎么调?报错了怎么改? aj 都不需要它自己规划,先搭架构,再写组建,再对接 api, 再调整样式,再修复 bug, 再优化性能,一步一步它自己推进,你甚至可以在旁边看着。这就是 glm 五这次更新的核心,不是告诉你我的编程能力有多强,而是告诉你我已经可以像真正的开发者一样工作了。这背后是什么? 是智普看到了一个更大的战场,模型能力竞赛打不完的,今天你第一,明天我反超。但应用落地是另一回事。谁能真正进入开发者的工作流?谁能真正减少开发者的操作成本?谁真正能让开发者每天打开编辑器,就觉得 ai 是 自己在写代码? 这才是真正的竞争。智普这次选择了后者。五点一不是技术秀,是战场转移的信号。他告诉大家,别再盯着模型排行榜了,看看你的工作流。如果你还在用以前的模型,还在像对待一个问答助手一样对待 ai, 那 你可能已经错过了一个时代。因为新的 ai 不是 用来对话 的,是用来共事的。你需要的是一个能跟你一起写代码,甚至比自己还懂整个项目的 ai, 这就是 g l m。 五点一。

没有想到都跑手机的朋友们,恭喜你省了三千五,因为就在昨天的时候,支付把它的 autgrm 开圆了,它可以直接机关你的手机屏幕,替你思考点击输入场景,覆盖了五十多个高频的中文 app, 比如说微信、淘宝、抖音、美团这些核心的场景,它都是可以跑的。 我拿它做了两个小测试,有亮点,当然也有吐槽点。首先第一个点外卖,它是真的可以跑通,比如说你想在美团上去下单,然后到加购,下单路径是很顺畅,你会产生一种错觉, 好像手机里面住了一个非常懂你小助手一样。第二,他的一个跨平台笔架是很实用的,我可以让他对比淘宝和京东同款拖鞋,他能够自己搜,自己去对比,最终给出你的一个结论,这就不是什么聊天机器人了,这相当于一个端侧 a 阵的他真真正正的上桌了。更关键的是什么?他居然很克制, 比如说他碰到了支付或者验证码之类的敏感操作呢?它会自动停止让你接管,很聪明,不会约借。但有一点很值得吐槽,就是现在的形态对普通人是不够友好的,你要用电脑通过 a、 d、 b 去控制手机体验,实际上更像是你在电脑面前远程控制着你自己的手机,就很奇怪。大家如果想要试试,可以找我拿下开源地址 和它的一个部署教程。智普啊, autolm 开源,我想说的是,它的价值不是在完美的体验,而是说它释放了三个信号。第一, ai 手机的异件可能要被打下来了, 以后的 ai 体验不一定要靠很贵的硬件,说不定就是靠的一个开源框架加它的一个端侧的能。第二就是大厂的 for a 阵固城河开始变浅了,开发者和极客们可以直接拆改做出来自己的版 本。第三呢,无障碍和轻量自动化领域绝对是要爆了。对于一些操作是很方便的人群来说,语音加 ai 操作就等于手机自由。欢迎大家评论区留下你的想法。

glm 五点一到底值不值得买?如果你想花点小钱找个能帮你写代码修 bug 的 ai 帮手,他现在非常值得是。但如果你指望他一口气接管大型项目,十几轮对话还不翻车,那你最好先冷静一下, 别被网上的跑分带偏了。他现在最真实的状态是,已经很好用,但还不够稳。咱们普通人挑模型不用看那么多玄乎的数据,你真正该问的就三个问题,他能不能帮你把活干出来,他贵不贵,以及他关键时刻掉不掉链子。 先看看他到底能帮你把什么事做出来。在写前端页面小工具、小游戏或者接口逻辑这些中小型功能上, glm 五点一已经到了能浇活的水平。什么叫能浇活?就是他给你的代码是真的能跑起来的,而不是写一堆看起来很厉害,一跑全是报错的东西。你让他写个页面做交互 按钮,动画和逻辑,他基本都能补上,哪怕是修些常见问题,他也经常比上一代更容易一次就给你修对。 但是千万别把他当成能全自动接管一切的主力选手,只要你的项目一复杂或者上下文变得特别长,需要来回修改的时候,他就开始暴露出短板了。最典型的表现就是 前面几轮对话他看着还挺聪明,后面突然就开始原地绕圈乱码,甚至出现修了 a 结果把 b 给改坏了的情况。 他本质上是个能力很强但连续作战容易拉垮的选手。这里重点提防两个大坑,一个是长上下文稳定性一般,另一个就是高峰期消耗特别快。 那他到底适合谁?其实就是三类人,第一类想低成本体验 ai 编程的普通用户。第二类是个人开发者或者小团队。第三类就是工作里经常需要写些脚本接口或者自动化工具的打工人。如果你手里刚好有个活,想做个官网小程序原型,或者是搞个表单系统活动页, 需要把一个想法赶紧变成能看的东西,那他绝对能帮上大忙。因为很多时候你不需要世界第一,你只需要这东西今晚能不能跑出来?最后说一下他最大的杀手锏,其实就是价格,现在很多顶尖模型大家不是不用,而是长期用,根本吃不消, 这时候花点小钱买到一个,大部分时候够用,偶尔还能给你个小惊喜的高性价比副驾驶就显得特别香了。 glm 五点一不是那种花小钱买来的顶配神话,但它确实让咱们普通人第一次真真切切的感觉到, 原来现在花几十块钱真的已经能请到一个挺能干的 ai 帮手了。轻度用户可以直接上低档套餐去感受一下。

二月十一号凌晨,中国又悄悄的在一个领域打破了美国的垄断,实现了国产替代。什么领域呢?就是以前主流 ai 大 模型只能由美国的芯片训练而成。而现在呢,智普 ai 最新发布了全球开源版排名第一的大模型 glm, 完完全全是在国产 ai 芯片的底座上打造的。 glm 有 多强呢?首先,它是全球开源大模型第一啊,如果把闭源模型包含在内综合排名的话, 那 g l m 五位列全球第四,仅次于 g p t 五点二、 cola 的 四点六和 cola 的 四点五,领先于谷歌的 jamie 三 pro 啊,也是目前国产大模型排名第一。而且 g l m 五在编程中的表现尤其出色,现在被外媒评为最强编程模型。 当然,你知道吗?这些成就还不是 g l m 五最值得称道的啊。最值得称道的是, g l m 五彻底摆脱了对美国硬件和生态的依赖啊,它是在华为升腾芯片上使用华为版 q 的, 也就是 mindspring 架构进行训练的 啊。这是一个非常具有象征意义的里程碑,他向世界证明,没有英伟达,中国依然能做出世界一流的大模型, 打破了只有美国才能定义 ai 前沿的趋势,为全世界提供了去美化 ai 发展的第二选择。 长期以来,中国大墨镜的发展高度依赖英伟达的高端 gpu。 从二零二二年起,美国怕竞争不过中国的 ai, 怕打不赢和中国的 ai 战争啊,就持续收紧了对华 ai 芯片的出口管制。二零二五年,智普被美国列入实体清单以后,先进算力几乎就是完全被切断了, 但大家都知道,封锁这种事我们已经见怪不怪了,整个现代中国的发展历程就是不断地突破封锁,你越封锁,我们进化的越快,这对我们国产 ai 芯片企业来说反而是千载难逢的机遇。 g r n 五就是在国产芯片上完成深度适配和高效推理的代表。 航五 g 通过混合量化在 g m 五上实现推理吞吐翻倍。摩尔现成的慕萨架构啊,首次在大模型场景释放出原生的 f p 八加速能力。最重要的是算力,华为升腾阿特拉斯级群支撑了 g m 五的千卡级算力训练和低延迟服务。 虽然目前在单颗芯片算力上我们还有差距,但是国产芯片可以用极品算力来一筹捕捉。华为是全球唯一一个交付万卡级 ai 级群能力的厂商, 在推力场景中已经接近英伟达 h 一 百的性能,并且成本优势遥遥领先啊。这意味着在全球 ai 竞赛中,国产芯片已经从跟跑者啊变成并跑者,并且呢,在某些赛道已经开始领跑。其实不光是智普啊, tipsy 啊,阿里千问啊都在全面适配国产芯片, 这意味着我们不再受制于人啊,即使外部断供,我们中国依然能训练和部署世界级大模型, 并且呢,还形成了全站闭环,从芯片到架构啊,从训练到推理,全部环节都可以在国内完成,国家的 ai 安全也有保障了。从金融到国防,从能源到政府机构,这些关键行业以后都可以部署全流程自主化的 ai 系统, 既避免了数据外泄的风险,而且呢,还能享受世界一流的 ai 服务。说实话,我现在特别相信中国最终会赢得这场 ai 竞赛。

g l m 发布,中国 ai 编程进入操作系统时代,一天之内三件系架了 ai 编程圈。二月十一日深夜,智普发布旗舰模型 g l m, 确认就是之前霸榜 openroot 的 神秘代号 pony alpha。 七百四十四 b 参数两百 k 向下纹,发布当天即完成华为、星腾摩尔、现成等七大国产芯片平台的深度系配上线,四十八小时内登顶 arina ai text arina 开源榜第一, e o 幺四五二分, 综合能力在全球权威榜单中排名前列。 s w e bench verified 拿到七十七点八,开源模型全球第一。 不是便宜替代品,是首选方案,过去很多廉价的国产模型就是便宜,但 glm 在 编程场景的精细体感已经逼近 cloud opus 四点六, 这不是我说的,是阮一峰的十次结论。这意味着什么?一个月前, cursor 承认 composer 二底层套壳了 kimi k 二点五。一个月后, gpl 直接在抠定场景对标 opus 四点六,中国模型正在从便宜替代品升级为首写方案,定价更狠。 glm coding plan 分 三档, light 二十六元, pro 九十九元, max 一 百九十九元每月。机器 cloud code、 cursor codex 等二十多款工具 light 到二十六元,不到 cloud pro 的 十分之一。 七大国产芯片深度系配这件系很多人忽略了,但它可能是最重要的。七四四零一参数的超大模型,发布当天即完成华为、香腾摩尔、现成、含五 g、 昆仑、新海光等七大国产芯片平台的深度推理系配一块 a 七一百都不需要,这意味着什么?通过国产芯片的优化,系配 gm 可以 在没有依赖 mv i d i a。 卡的情况下高效推理,这不仅是技术突破,这是供应链安全。全球能做到这个级别的国产芯片系配技普已经走在了前面。谷歌扔了颗炸弹, ai 推理内存降六倍。 三月底,谷歌扔了另一颗炸弹 turbo coin, 一个压缩算法把 ai 推理的记忆成本砍掉六倍,速度还快了八倍。即将在四月 i c l。 二二零二六大会向正式发表。怎么做到的?把 k v cash 从十六比特压到三倍。 k v cash 是 什么? 简单说就是 ai 对 话时的草稿纸模型,每次星球一个字都要翻一遍,就将草稿纸位数越多,草稿纸越大,内存就吃的越多,就是大模型推理最大的内存瓶颈。 谷歌用三个技术组合解决, polarcube 做主压缩, qgl 做误差校正,在线向量化做极差极优,最关键的是零精度损失,不需要重新系列模型。论文发出来几天内,社区就出现了 p y torch m l x 和 c c u d a 的 实现, l l a m a 点 c p p v l l m 等主流框架快速集成。四月 i c l r。 二零二六大会正式发表,就直接改写了 ai 推理的成本结构, 同样的硬件能跑更大的模型,服务更多的用户,原本只能在数据中心跑的东西,有机会放到手机上。六十亿百分之中国 ai 调用量全球碾压最后看一组数据,把上面的技术突破串联起来。 open router 平台最新数据,中国 ai 模型调用量连续数究超越美国。二月第三九,中国模型占全球调用量百分之六十一,三九暴涨百分之一百二十七,全球前四全部是中国造。 dixon mini max、 g m 千万 白菜价加高性能的组合拳正在全球开发者市场形成碾压。 gmi 用户量突破七点五亿,稳居全球 ai 应用第一梯队,但推理性价比被中国模型持续压制。 open ai 多次更新,但面对 deepsea 每百万 tolkien 零点二八美元的价格,订阅增涨明显放缓。这说明什么? 艺术最终要靠规模消化。中国 ai 不 仅是在追,已经在抄了。三件系合在一起看 glm 五证明了 七大国产芯片平台可以高效吸配世界级大模型。 turbo quint 证明了推理成本可以再砍一个量级。百分之六十一的调用量证明了全球开发者已经用脚投票。 ai 编程的底层逻辑正在被中国公司重写。从硬件到模型到推理到定价, 四个环节全部在突破,却不细单点突破,这是系统性的格局翻转。关注我,下期拆解更多 ai 行业变化。你觉得 g m 能在编程场景超越 cloud 吗?国内 ai 编程工具,你用过哪些?弹幕聊聊!

老铁们,历史性时刻啊,在我编写的大模型后端性的测试中, gm 五点一得分超过了 cloud open 四点六,来到了第一名。那么到底是怎么超越的?让我们开始测试, 我们一个一个项目测试来看啊。首先是前端这块,测试下来我发现跟 gm 五 top 差不多,我 我们能看到大象牙膏测试这个粒子效果会好了一些,不过追星屏的材质和光影还是那个样子,以及鞭炮连锁爆炸测试这个极致的效果的基础上,又增加了引线燃烧的这个火花,效果特别好看,当然性能也变得更卡了,陀 飞轮机芯测试感觉甚至空间理解能力有点下降了,但总体而言,前端能力上并没有质的变化,但是后端代码性能可就完全不一样了。测试使用我自己编写的测试框架 vtec 奔驰, 这个框架让大模型从零使用 ras 编写一个限量数据库。有朋友问我,写数据库跟后端开发有什么关系?关系很大啊,从零编写一个数据库,极致的考验了编原理、数据结构、算法体系结构、存储这些各个领域的知识,与操作系统编辑器一样,都是计算机基础软件领域的极大乘者之一。 本次 gm 五点一实现了向量数据库的 qps 刷到了三千九百八十九,而第二名 cloud open 四点六是三千五百四十八,第三名 gbt 五点四 pro 是 三千零九十一,妥妥的全球搜它了。在我之前的测试中,大概只有 deepsea 二一在去年可以达到这种领先的水平。来看细节啊, gm 五点一何德何能可以搜它。先讲一下咱们这个向量,然后在数据库中查找与之相似的向量。 大家能想到最简单的方法就是挨个跟数据库中的限量去做对比,哎,没错,请看榜单,这些得分不到一百 qps 大 模型也是这么想的,这个方法叫做暴力搜索,甚至之前伽马五在测试中也是这么干的。有同学会问了,这怕不是傻子吧,不能用锁瘾吧? 可以的, q p s 一 百到一千这个区间全都使用了倒排文件缩影。倒排文件缩影简单来讲,就是在数据库中对向量进行采样,把这些作为基向量,然后呢,再把跟这些基向量相似的向量放在一块查询的时候呢,先跟这些基向量做对比,然后 再便利这些相似的巨类向量,最后全局取 top n, 这样就实现了缩影结构。又有同学要问了,那这些干到了三千 q p s。 家的妖孽是如何做的?我们先来看第三名 g p t 五点四 pro, 它的优化方案是,感觉数据量太大了, 是用了二级缩影。第一层呢,我们先用一百二十八的聚类数量进行聚类,然后聚类,像浪里面再次使用六十四的聚类数量,在子层再次聚类,总体达到了八幺九二聚类数,我们测试数据足足有一百万条,所以这样做显然能增加速度。 那么第二名的 cloud open 四点六是什么方案?他的答案是,不搞这些花里胡哨的东西。你不是数据量大吗?那 我狙类也大,直接开了个一六三八四的狙类数。 g b t 五点四 pro 虽然锁瘾技术上比较强,但是二级锁瘾带来的缺点就是延迟高,再加上它的狙类数其实也没有打过 oppo 四,所以败给了 cloud。 oppo 的 四点六来到重点了,价位五点一是如何吹普拉朽的?先看狙类数量,价位五点一只有二百五十六的狙类数 少的可怜,但是它使用了量化技术。那么什么是量化技术?简单来讲啊,我们船入的限量都是 flos 三十二格式的,即三十二比特精度。我使用的 cpu 支持 a v x 五百一十二指令级, 其他的模型啊,也都使用了 s i m d 指令级进行了加速,但是加满五点一,把一百万条数据全都量化为了八比特,然后使用下面这些指令级进行了计算。这个指令级的加载宽度是二百五十六比特, 意味着 cpu 一个周期就能计算二百五十六除以八等于三十二个向量。别的模型一次算一个,我一次能给你算三十二个。有眼尖的同学能看到细节, 哎,你这个指令加载的时候是 int 八,怎么计算的时候就转成 int 十六。答案是为了防止精度不足,小数乘以小数,肯定涉及到这个尾数省略的问题,精度提升一倍,尽可能避免四舍五入带来的精度问题。那又有同学要问了,不是,你这个巴比特量化本身是不是也有精度问题啊? 有的,这就是键盘五点一牛逼的第二个地方了。我们测试中要求最终给出 top 十的像素向量,于是他先用巴比特连发数据,然后再拿着 top 两百向量的原始数据进行相似度计算,最后选举最相似的十个。 老铁们学到了没有?就问这一手牛不牛逼?后端提升了这么多啊,那么 a 阵能力有提升吗?来看考研大模型 a 阵能力的归机骑手测试,这个测试我准备了十五个托靠,比如移动 送餐、取餐计算耗时等等工具,让大模型模拟送外卖,看二十四小时之内哪个模型的盈利最多,直接说结论啊! gm 五点一在这个测试中来到了八百零八点一五元,继续维持了 sota 的 地位。从 gm 四点七时代, gm 就是 a 阵能力测试的 sota, 一 直维持到了今天的 gm 五点一。 说一下这个测试的难点,测试要求 ai 最多只能携带五个外卖订单,而当你一搜索订单,发现足足有二十多个订单等待接单,你应该选哪些订单?这个就是测试的最难的点。之前 gm 五的策略是尽可能多接单,于是他在测试中完成了历史最高的订单量 五十单,总体来到了七百三十八点六九元的盈利。而这次 gm 五点一只完成了三十九单,但是他只挑配送费高的送单,均利润能达到二十点七二块,总体来到了八百零八点一五元。 且慢啊!还有更重要的点,他会按照路线分析怎样组合订单才能获得最佳的利润。比如啊,来看他这个思考过程,别的模型还停留在同一个餐馆能不能取两单,而他已经想着 在路上还能再捡一单了。再且慢还有惊喜。这次 gm 五点一我只滚动保留了五十条历史对话进行了这个测试。 gm 五点一达成这个成绩,只用了六百二十一万的头盔,而 gm 五之前花了两千两百零三万的头盔 都没有超过它这个分数,所以 g m 五点一不仅性能猛,而且在只用少量输入的情况下,帮你减少 token 的 同时,还能比 g m 五的性能猛,可以说是探微观之。 当然啊,测试也发现了需要注意的点, g m 五的准时率还是比较好的,这也跟它拥有全部的上下文有关。另外 g m 五点一的 a p i 违规率也比另外两个略高了百分之零点二。总结, 在我这轮测试里,伽玛五点一在后端能力上已经从国产 sota 冲到了和 opus 掰手腕的世界, sota a 阵的水平也是一如既往的国产 sota 水平。 本次测试下来,发现仍然需要提升的大概只有前端细节和美学这些点了,那么这么强的模型难道就没有缺点吗? 有的老铁有的,这次 g m 五点一目前只开放了扣丁普兰,我甚至写脚本去抢了两次都没有抢到,最后我只能找质朴的同学要了个权限来测试。另外我在测试过程中,这个 a p i 啊,尤其是在白天的时候很不稳定,输出速度有的时候会掉到只有十几头根,以及偶尔会有中文乱码的问题。 这个得教大家一招,让 gm 五点一可以先出出英文,然后你再用其他模型翻译成中文,就能规避这个问题了。所以还是希望智博的同学抓紧加点显卡吧,大家有模型用还要排队,真的是难受啊!以上就是本期的测试内容,欢迎大家点赞评论转发,我是牙医,我们下期再见!