小米 ai 大 模型 memo vr pro 未来国内编程必有一席之地!今天单纯本人真实测评小米 memo vr pro, 用 tray 国内版加 client 插件模型 id, memo 杠 vr 杠 pro 提示词,工具任务和之前 glm 无 plan 完全一致,统一标准生成微信小程序首页 第一轮对话耗时约十二分钟,生成代码直接报错,小程序无法打开。生成过程按照国际管理,我们加速六十倍。 第二轮对话后,我只截了个图,简单让它修复页面正常,渲染效果完整可用。 横向对比, g l m 无 plan mimo v r pro 在 工具适配还不够成熟的情况下,依然交出了很能打的成绩。 这是上次 t r a e 搭配智谷官网 glm 五 plan 生成的小程序。首页 对比 glm 五 plan, 小 米这模型虽然和编程工具还没完全适配,但表现真的可圈可点,后起之秀,实力够惊艳,多给他点时间,国内编程大模型必有他一席之地。
粉丝2736获赞2077

小米的这个大模型它不是出了一个定制 plan 了吗?然后我想换,但是它这个它出这个定制 plan 的 规则有点复杂,和传统的不太一样。然后我现在用的是这个 mini max 二点七,然后找那个豆包给我换算了一下, 然后我大概看了一下我的 mini max 二点七一个月的用量,大概是五点五个亿个,五点五个亿个 token。 然后换算成小米的这个的话专业版的啊。呃,因为我 mini max 也用的是 pro 版嘛,四十九块钱一个月,但是如果换算成小米的这个专业版的要八百块钱一个月,但是有一点的话就是 mini max, 我 我去让他改一个 bug, 然后可能他一次改不了,然后我不断的问,不断的问,可能我要半天的时间都都没有,有可能还真正就是半天都过去了,还没有给我很好的解决掉。 他让小米的这个可能就是问一次两次就给解决了,所以有可能就小米用小米快充,小米的话有可能用不到。呃,五点五个亿。 嗯,就是现在还在犹豫换不换,我觉得不换的便宜,但是不好用,很浪费时间,换了又太贵了,有没有什么好的建议?

近期好多同学问主播,面对众多国产大模型,我该如何抉择呢?近期新推出的 glm 五迷你 max m 二点五、 kimi k 二点五和困三点五这四大模型各有特色,接下来我会挨个为你详细讲解。 glm 五是智普最新的旗舰大模型,总参数达到七千四百四十亿,激活参数约四百亿。它采用独家的 dsa 吸收注意力机制,专注提升长文本逻辑推理能力。 在各种评测中, glm 五的编程与数学推理表现被认为是当前国产模型中最强的一档。一句话总结,这是一款又快又聪明的推理型选手。 千问三点五是阿里巴巴的最新多模态大模型,具备文本和图像双模输入能力,图片模块来自千问 vl 系列,它采用自注意力和限性注意力结合的结构,生成速度更快,理解更细。 千问三点五还支持多次预测 m 七 p 在 生成流畅度上有明显提升。一句话形容它能写、能看、能自己动手的智能选手。 mini max m 二点五的参数相对紧凑,仅两千三百亿,总体偏轻量化,但性能稳定,且推理效率很高。它采用传统的 self 天性架构,牺牲了部分多模态能力, 换来了更快的响应速度和更低的算力消耗。 m 二点五不追求花效功能,而是扎实可靠。一句话总结,它是大模型世界里的经济适用型狠角色。 timmy k 二点五拥有全场最大体量高达一点零五万亿参数,激活参数三百二十亿。它采用 m l a 多层次注意力机制,理解复杂语境的能力相当突出, 同时支持文本与图片输入,在多模态理解上表现抢眼。一句话概括,既有大脑容量又有想象力的综合型强者。

老铁们,历史性时刻啊,在我编写的大模型后端性的测试中, gm 五点一得分超过了 cloud open 四点六,来到了第一名。那么到底是怎么超越的?让我们开始测试, 我们一个一个项目测试来看啊。首先是前端这块,测试下来我发现跟 gm 五 top 差不多,我 我们能看到大象牙膏测试这个粒子效果会好了一些,不过追星屏的材质和光影还是那个样子,以及鞭炮连锁爆炸测试这个极致的效果的基础上,又增加了引线燃烧的这个火花,效果特别好看,当然性能也变得更卡了,陀 飞轮机芯测试感觉甚至空间理解能力有点下降了,但总体而言,前端能力上并没有质的变化,但是后端代码性能可就完全不一样了。测试使用我自己编写的测试框架 vtec 奔驰, 这个框架让大模型从零使用 ras 编写一个限量数据库。有朋友问我,写数据库跟后端开发有什么关系?关系很大啊,从零编写一个数据库,极致的考验了编原理、数据结构、算法体系结构、存储这些各个领域的知识,与操作系统编辑器一样,都是计算机基础软件领域的极大乘者之一。 本次 gm 五点一实现了向量数据库的 qps 刷到了三千九百八十九,而第二名 cloud open 四点六是三千五百四十八,第三名 gbt 五点四 pro 是 三千零九十一,妥妥的全球搜它了。在我之前的测试中,大概只有 deepsea 二一在去年可以达到这种领先的水平。来看细节啊, gm 五点一何德何能可以搜它。先讲一下咱们这个向量,然后在数据库中查找与之相似的向量。 大家能想到最简单的方法就是挨个跟数据库中的限量去做对比,哎,没错,请看榜单,这些得分不到一百 qps 大 模型也是这么想的,这个方法叫做暴力搜索,甚至之前伽马五在测试中也是这么干的。有同学会问了,这怕不是傻子吧,不能用锁瘾吧? 可以的, q p s 一 百到一千这个区间全都使用了倒排文件缩影。倒排文件缩影简单来讲,就是在数据库中对向量进行采样,把这些作为基向量,然后呢,再把跟这些基向量相似的向量放在一块查询的时候呢,先跟这些基向量做对比,然后 再便利这些相似的巨类向量,最后全局取 top n, 这样就实现了缩影结构。又有同学要问了,那这些干到了三千 q p s。 家的妖孽是如何做的?我们先来看第三名 g p t 五点四 pro, 它的优化方案是,感觉数据量太大了, 是用了二级缩影。第一层呢,我们先用一百二十八的聚类数量进行聚类,然后聚类,像浪里面再次使用六十四的聚类数量,在子层再次聚类,总体达到了八幺九二聚类数,我们测试数据足足有一百万条,所以这样做显然能增加速度。 那么第二名的 cloud open 四点六是什么方案?他的答案是,不搞这些花里胡哨的东西。你不是数据量大吗?那 我狙类也大,直接开了个一六三八四的狙类数。 g b t 五点四 pro 虽然锁瘾技术上比较强,但是二级锁瘾带来的缺点就是延迟高,再加上它的狙类数其实也没有打过 oppo 四,所以败给了 cloud。 oppo 的 四点六来到重点了,价位五点一是如何吹普拉朽的?先看狙类数量,价位五点一只有二百五十六的狙类数 少的可怜,但是它使用了量化技术。那么什么是量化技术?简单来讲啊,我们船入的限量都是 flos 三十二格式的,即三十二比特精度。我使用的 cpu 支持 a v x 五百一十二指令级, 其他的模型啊,也都使用了 s i m d 指令级进行了加速,但是加满五点一,把一百万条数据全都量化为了八比特,然后使用下面这些指令级进行了计算。这个指令级的加载宽度是二百五十六比特, 意味着 cpu 一个周期就能计算二百五十六除以八等于三十二个向量。别的模型一次算一个,我一次能给你算三十二个。有眼尖的同学能看到细节, 哎,你这个指令加载的时候是 int 八,怎么计算的时候就转成 int 十六。答案是为了防止精度不足,小数乘以小数,肯定涉及到这个尾数省略的问题,精度提升一倍,尽可能避免四舍五入带来的精度问题。那又有同学要问了,不是,你这个巴比特量化本身是不是也有精度问题啊? 有的,这就是键盘五点一牛逼的第二个地方了。我们测试中要求最终给出 top 十的像素向量,于是他先用巴比特连发数据,然后再拿着 top 两百向量的原始数据进行相似度计算,最后选举最相似的十个。 老铁们学到了没有?就问这一手牛不牛逼?后端提升了这么多啊,那么 a 阵能力有提升吗?来看考研大模型 a 阵能力的归机骑手测试,这个测试我准备了十五个托靠,比如移动 送餐、取餐计算耗时等等工具,让大模型模拟送外卖,看二十四小时之内哪个模型的盈利最多,直接说结论啊! gm 五点一在这个测试中来到了八百零八点一五元,继续维持了 sota 的 地位。从 gm 四点七时代, gm 就是 a 阵能力测试的 sota, 一 直维持到了今天的 gm 五点一。 说一下这个测试的难点,测试要求 ai 最多只能携带五个外卖订单,而当你一搜索订单,发现足足有二十多个订单等待接单,你应该选哪些订单?这个就是测试的最难的点。之前 gm 五的策略是尽可能多接单,于是他在测试中完成了历史最高的订单量 五十单,总体来到了七百三十八点六九元的盈利。而这次 gm 五点一只完成了三十九单,但是他只挑配送费高的送单,均利润能达到二十点七二块,总体来到了八百零八点一五元。 且慢啊!还有更重要的点,他会按照路线分析怎样组合订单才能获得最佳的利润。比如啊,来看他这个思考过程,别的模型还停留在同一个餐馆能不能取两单,而他已经想着 在路上还能再捡一单了。再且慢还有惊喜。这次 gm 五点一我只滚动保留了五十条历史对话进行了这个测试。 gm 五点一达成这个成绩,只用了六百二十一万的头盔,而 gm 五之前花了两千两百零三万的头盔 都没有超过它这个分数,所以 g m 五点一不仅性能猛,而且在只用少量输入的情况下,帮你减少 token 的 同时,还能比 g m 五的性能猛,可以说是探微观之。 当然啊,测试也发现了需要注意的点, g m 五的准时率还是比较好的,这也跟它拥有全部的上下文有关。另外 g m 五点一的 a p i 违规率也比另外两个略高了百分之零点二。总结, 在我这轮测试里,伽玛五点一在后端能力上已经从国产 sota 冲到了和 opus 掰手腕的世界, sota a 阵的水平也是一如既往的国产 sota 水平。 本次测试下来,发现仍然需要提升的大概只有前端细节和美学这些点了,那么这么强的模型难道就没有缺点吗? 有的老铁有的,这次 g m 五点一目前只开放了扣丁普兰,我甚至写脚本去抢了两次都没有抢到,最后我只能找质朴的同学要了个权限来测试。另外我在测试过程中,这个 a p i 啊,尤其是在白天的时候很不稳定,输出速度有的时候会掉到只有十几头根,以及偶尔会有中文乱码的问题。 这个得教大家一招,让 gm 五点一可以先出出英文,然后你再用其他模型翻译成中文,就能规避这个问题了。所以还是希望智博的同学抓紧加点显卡吧,大家有模型用还要排队,真的是难受啊!以上就是本期的测试内容,欢迎大家点赞评论转发,我是牙医,我们下期再见!

兄弟们,见证时代,小米米某大模型登顶世界第一,成为全球掉用量最大的模型,比第二和第三加起来都要高,而千玺好像从这个排行榜上已经彻底掉队了, 不知道后面华为会 copy 哪一家呢?是直接 copy 小 米吗?还是 copy deep sync 和 copy mini max? 可能会把小米的模型下载下来改个名字,这发不了上去吗? 我们来分析一下,为什么小米的这个模型使用的人为什么会这么多?其实我还是跟小米现在这个有一半的免费政策有关系, 在他接入 open clone 的 时候他是免费的,而这个 open clone 这个地方有很多的使用人士就使用 open clone 小 龙虾的再接再厉吧,希望到时候小米恢复社会的时候还能是世界第一的水平。

最近玩智能体啊,实在太消耗 token 了,所以我们今天要来讨论说啊,哪里能搞到便宜的甚至是免费的大模型 token 呢?首先我们来看一下,如果正常使用 token, 大 概是个什么价格呢?像我们日常最常用的这个网页版的聊天机器人啊,类似于豆包、 jammy 这些网页的服务, 一问一答,大概每一次呢会消耗几千到几万的 token。 一个月下来呢,大概可能就是三百万的 token, 数量也就是几块钱。但 agent 就 完全不一样了,它要自己规划,自己执行,自己反思,一个任务跑下来呢,可能会调用几十上百次模型。像我们最常使用的 cloud code, open code、 open cloud 这些智能体啊,每一次跑起来都要消耗几万甚至上百万数量级的 token。 我 也翻了一下我自己的使用日志啊,然后大概估算了一下,我每个月的使用量呢,大概是三亿个 token 左右。然后我们来算笔账,如果你使用的是 cloud sum 的 四点五这个模型, 它的价格呢,大概是每一百万的 token, 输入呢是三美元,输出呢是十五美元。考虑上一些这个缓存啊,折扣啊,平均价格呢,你可以认为是每一百万的 token 五美元左右。那这么一算啊,其实你跑一个 agent, 每个月其实要烧掉一千五百美元左右, 就算是换成便宜的多的国产模型啊,一个月也要用到两百到三百美元,这个价格呢,我觉得还是蛮离谱的。所以这期视频啊,我就来跟大家聊聊,怎么才能搞到便宜的甚至是免费的大模型接口。先说好,这期视频呢,是没有任何的广告的,全是我自己实测 实际使用的经验。在正式开始之前啊,我想先给你一个这个思考框架,省钱这件事情呢,本质上其实就在做三个维度的取舍,价格、稳定性、模 的能力。你不可能三个都要,如果你想要最强的模型并且稳定,那肯定就会稍微贵一点,如果你想要便宜,那肯定就要牺牲一些模型的能力或者是稳定性。我们带着这个框架呢,然后再来逐个看各家的方案。先来说这个 cloud 买套餐到底能省多少钱呢?官方没有公布套餐的实际使用量,但有人测过了数据呢,放在这个网址里面,我给大家总结了一下,如果你订阅一百刀的这个套餐,用到极限的话,就能用掉价值一千三百五十刀的这个额度, 相当于打了不到一折,换成人民币算的话,差不多就是零点五元的人民币就能买到一美元的这个使用量。但 cloud 的 官方有两个大坑啊,大家也都知道,第一呢就是国内的用户特别容易封号。第二个呢就是不允许介入其他第三方的服务, 只能在这个 cloudco 的 这些官方应用里面使用,没有办法拿它去接入 opencloud 或者是其他第三方的这个智能体。如果你又想要这个按量付费的这个灵活性,又想要这个套餐的折扣价,那怎么办呢?我觉得唯一的选择啊,就是中转站,中转站呢,你可以把它理解成为这个零售商,就他们会去批量的向 cloudco 的 官方购买 这个套餐,然后呢在中间加一些价格再卖给你刚才说的,比如说零点五元的人民币兑换一美元以上, 市面上有上百家的这个中软站,那怎么挑呢?有人做了一个中软站稳定性的监测,大家想要购买,想要具体了解的,其实可以看这个网站,上面呢监控了几家比较大的这个中软站的稳定性。不过说实话,这个中软站呢,基本上还是一门比较灰色地带的生意, 所以呢,建议大家每次别充太多,这里呢就不具体展开了。然后我们来说第二家那个 check gpt, 相比较那个 cloud code 的, 动不动就封号啊,然后不让接其他的这个工具 open i 呢,其实就大方了很多, 它不仅能接自家的这个 codex, 还允许你去接 open code, 允许你去接 open cloud 这些第三方的项目,而且额度啊,要比 cloud 的 要给的多,大概是零点三元人民币就能买到一美元的使用量。更香的是啊, open i 的 活动特别多,比如说像那个 gpt 开通团队套餐,首月免费,你可以去某鱼搜这个 team, 新车几块钱呢,就能用上价值二十五刀一个月的会员。如果你拿这个会员去跑 codex 啊 token, 相当于说完全白嫖。 codex 的 缺点呢,就是它写代码的速度啊,会相对来说比较慢一点,不过呢,你可以开多个 agent, 让它并行去跑 数量去换取速度。然后下面一个是这个谷歌 gemini gemini 系列模型写代码的综合能力啊,普遍来说稍微比这个 cloud 和 gpt 弱一点,但有个骚操作啊,就是可以通过教育活动拿到免费一年的谷歌 ai 会员,然后用这个谷歌的编程 i d e anti gravity 来跑这个 cloud 模型,然后还有一个更狠一点的玩法,就 使用这个项目 cloud proxy api, 它可以把 antigravity 里面 cloud 的 模型转接出来给 cloud code, open cloud 这些工具去用。因为谷歌会员啊,几乎都能白嫖,所以它对应的这个 token 啊,也约等于免费。不 过这么玩的人啊太多了。谷歌最近呢,在频繁调整这个 anti gravity 的 额度,所以这个方法我也不是太推荐,因为它可能之后就不太稳定了。聊完了预三家之后啊,我们来聊一聊国产的这些模型。国产的模型呢,本来零售价就只有海外模型的一到两折,购买套餐之后呢,就会更便宜了。在国产模型里面啊,我觉得当下最强的可能就是最近推出的这个 kimi k 二点五,我实际用下来它的能力其实跟 cloudsonic 四点五几乎没有什么差别。有兴趣的朋友啊,可以去 kimi 的 海外版看一看, 有个首月零点九九美元的活动,能拿到原价九十九元的套餐,还可以支持这个接入第三方的 cloud code open cloud。 国内版 kimi 的 活动呢,就稍微差点意思了, 每周大概五元左右。但是 kimi 我 觉得最大的问题啊,就是套餐额度给的比较抠,控制台里呢,只显示了使用的百分比,看不到具体的 token 使用量。我实际测下来呢,比下面两家我要介绍的这个国产模型啊,给的量都要少得多。 gim 呢,应该是国内三家里面我觉得最大方的, 然后套餐的额度给的非常的足,最低档的套餐呢,是每个月二十元,每年两百四十元,但价格是真的香,我自己也买了。接口方面呢,也很开放,可以支持接入各种的工具。缺点呢,就是现在 g i m 四点七啊,它的模型效果暂时不如 kimi, 而且高峰时间段呢,因为顾忌它 套餐卖得太多了, token 的 吐字呢,我觉得巨慢。另外一个 mini max 呢,我觉得它的套餐跟 g l m 很 像,然后这里也不跟大家重复了。然后还有一家呢,大家可能没想到,就比较小众,就是英伟达。英伟达呢,其实它也提供这个完全免费,额度不限的这个开源模型, 包括前面说的 kimi k 二点五,然后 jimmy 四点七, mini max m 二点一。但是呢,因为可能门槛太低了,然后用的人实在太多,热门模型的速度呢,慢得离谱。所以这个呢,我就更不推荐了,只是跟大家介绍一下,英伟达,它其实也有这个免费的接口。最后啊,来再帮大家整理一下思路,如果你想追求最强的效果, pro 的 中转站呢,是目前性价比最高的选择。如果你的预算有限啊,那国产模型里面 g i m 的 套餐最实惠。 timi k 二点五的效果最好,但是有传闻呢,说这个月会有大批的这个模型,会推出新一代的模型,到时候呢,我再跟大家更新。然后如果你想白嫖呢? openai 的 这个 timi 拼车几乎是完全零门槛的, 效果也不错。这期盘点里面当然肯定没有包括说这个百分之一百所有的方案,市面上还有很多我没发现,或者是我没有测过的这个方案。如果你有更好的渠道,欢迎在评论区补充,大家一起交流。好了,今天视频就到这里了,我是迪总,黑心李超,我们下次见。

呃,最后再跟大家随便聊一下那个工业摄像机啊,就是为什么我说是工业摄像机呢?我想表达的其实是工业摄像机很便宜,我买的这个才一千三百块钱,一千两百块钱。 呃,它的价格其实没有,我当时在桌面上测那个亮度,就是这个简单的这个亮度计贵,这个亮度计卖 一千三百多,然后那个更便宜。所以我感觉很多人特别纠结于说为什么你要用一个工业级别的相机?因为我想表达的是这个东西很便宜,而有一些人认为这个东西是一个很很伟大很牛逼的东西,所以就说,哎呀,你既然用这个东西测一个千元机,那个东西比手机还便宜, 因为真正的那种超高速的相机是那种商用的,比如说这个 freefly 的 amber s 二点五 k, 这个相机卖十八万,而且它能够更加清晰的拍出来具体每一帧发生什么事,你让我用这个东西,或者说你看我的朋友们都是这样的设备,我说出来你们真的要吓到,所以我才强调我用的是最便宜的,但是比较可靠的工业相机罢了。 所以这个很多时候我觉得我们之间要能有效的沟通的前提是你跟我的知识水平在一条线上, 要不然就会闹出很多笑话。比如我举个例子,就之前有些人就是在那嘲讽说,说什么这个雷军说小米的大魔星核心团队,那个大模型的核心团队啊, 就是呃,平均年龄只有二十五岁,然后还有百分之五十五的博士,他们觉得不可能,有个人找的说法是博士的平均毕业年龄是三十三岁, 就第一,我想好奇一个点,一个世界五百强公司的最牛逼的 ai 团队里面的核心成员,竟然要用中国博士的平均毕业年龄来算,你觉得一个平均年龄毕业的博士配进这样的团队吗?第二呢,就是一个基本的常识,就是大模型这一块的东西, 它的基础论文是这个二零一七年发表的 attention is all you need, 这是 transformers 架构的开山之作,而我们后面现在看到的 l i m 指 large language model 和后面的一些新的架构,基本上是二二年、二三年才出现的, 那整个领域的核心论文就是那么一百来篇。如果你真的要去学这个东西,相对于过去的那一些老灯,就是那一些在史山里面奋斗的老灯。大模型可以说是 干净地像一张白纸,任何一个很牛逼的学生,他可以完完全全地从本科入学开始就全身心地投入了大模型的学习工作去。那这也是为什么我们现在看到的顶尖的大模型的核心团队的负责人就是二十来岁,三十岁。举个例子啊,那个 c dance 的 负责人二十九岁, 那个罗福利就是那个小米的 mimo 团队的负责人,三十岁刚出头,然后腾讯的大模型的负责人也就是二十九岁。然后我们再看一下 mimo 的 核心团队啊,这是在 mimo v 二 flash 的 那个论文里面写了的,就这个团队里面的人,你可以看一下,就是这么年轻,就是平均二十多岁出头的, 就只有这样的人才能够真正的带领这个大模型团队的核心团队前进,因为就 是比他更大年龄的人,没有他们这么好的精力和体力去接触新的事物了,只有新人才行,而这些新人他们总共就一百多篇论文去学习,跟老人没有任何区别,所以很多人用一些很 粗陋,就是很没有常识,或者说以他们学历认知为上限的东西去思考这个全中国乃至全世界最顶尖的团队的人员构成,并且用他们的认知去嘲笑这个数字是假的。甚至还有一些专科毕业的这种 傻,去拿一个二元一次方程去来判断什么这个团队到底有多少人,平均年龄多少,小的多少岁,让人觉得非常可笑。我把这个叫夏虫不可以与兵, 就是你们没有交流的必要,我们没有交流的必要,你有你的生活,我有我的生活,我只希望你不要对你不懂的东西大放厥词,甚至人身攻击,只会显得你的人生非常悲哀。

glm 五点一到底值不值得买?如果你想花点小钱找个能帮你写代码修 bug 的 ai 帮手,他现在非常值得是。但如果你指望他一口气接管大型项目,十几轮对话还不翻车,那你最好先冷静一下, 别被网上的跑分带偏了。他现在最真实的状态是,已经很好用,但还不够稳。咱们普通人挑模型不用看那么多玄乎的数据,你真正该问的就三个问题,他能不能帮你把活干出来,他贵不贵,以及他关键时刻掉不掉链子。 先看看他到底能帮你把什么事做出来。在写前端页面小工具、小游戏或者接口逻辑这些中小型功能上, glm 五点一已经到了能浇活的水平。什么叫能浇活?就是他给你的代码是真的能跑起来的,而不是写一堆看起来很厉害,一跑全是报错的东西。你让他写个页面做交互 按钮,动画和逻辑,他基本都能补上,哪怕是修些常见问题,他也经常比上一代更容易一次就给你修对。 但是千万别把他当成能全自动接管一切的主力选手,只要你的项目一复杂或者上下文变得特别长,需要来回修改的时候,他就开始暴露出短板了。最典型的表现就是 前面几轮对话他看着还挺聪明,后面突然就开始原地绕圈乱码,甚至出现修了 a 结果把 b 给改坏了的情况。 他本质上是个能力很强但连续作战容易拉垮的选手。这里重点提防两个大坑,一个是长上下文稳定性一般,另一个就是高峰期消耗特别快。 那他到底适合谁?其实就是三类人,第一类想低成本体验 ai 编程的普通用户。第二类是个人开发者或者小团队。第三类就是工作里经常需要写些脚本接口或者自动化工具的打工人。如果你手里刚好有个活,想做个官网小程序原型,或者是搞个表单系统活动页, 需要把一个想法赶紧变成能看的东西,那他绝对能帮上大忙。因为很多时候你不需要世界第一,你只需要这东西今晚能不能跑出来?最后说一下他最大的杀手锏,其实就是价格,现在很多顶尖模型大家不是不用,而是长期用,根本吃不消, 这时候花点小钱买到一个,大部分时候够用,偶尔还能给你个小惊喜的高性价比副驾驶就显得特别香了。 glm 五点一不是那种花小钱买来的顶配神话,但它确实让咱们普通人第一次真真切切的感觉到, 原来现在花几十块钱真的已经能请到一个挺能干的 ai 帮手了。轻度用户可以直接上低档套餐去感受一下。

我用了四个模型,跑了五十个复杂任务,结果出乎意料。参赛阵容, ken 三点五 plus, 综合效率之王 timi k 二点五,多模态智能体齐全 mini max m 二点七,三月十八日刚升级 g l m 负五减 turbo s w e 减 bench 七十七点八分,接近 cloud 四点五 opus 先看权威数据 sw 减 bench 真实代码修复测试 g i m 负五,得分七十七点八,超越詹姆莱三 pro 亏按三点五在 m m i u 减 pro 拿下八十七点八分。综合认知最强 mini max m 二点七,推理速度约幺零零 tps timi k 二点五的多模态编程截图就能生成完整代码,简单任务四个模型都能搞定,差距不大。中等任务来了,比如从零搭建一个项链数据库, pi 三点五直接甩出王炸 qps 一 千四百零五,是 timi 的 四点八倍,但这是纯后端计算场景。换到多文件重构, gim 负五的长城一致性优势就开始显现了。高复杂度任务才是真正的试金石。 五千行代码重构二十多个文件, g i m 负五,凭借模型架构和练式推理 逻辑,一致性最佳,幻觉最少。在 openclaw 上实测。从简单到复杂, g i m 负五减 turbo 综合胜率最高,特别是多步骤 agent 的 任务, 比如自动读文件,分析数据,生成报告,发送消息, glm 负五一步到位,成功率明显高于其他模型。价格, mini max 零点三九美元 glm 负五一点二零美元,昆三点五一点五六美元 glm 性能价格比最优怎么选? 简单快速选 mini max m 二点七,极致性价比选 kimi k 二点五, 复杂任务和 agent 的 编程选 g l m 负五减 turbo g l m 负五减 turbo 已对所有 coding plan 用户全面开放蹲队友拼智谱 coding plan 三十九元体验月卡三千五百万 token 邀请码 c 六 d y b s o c 八链接评论区置顶拼团额外优惠,感谢收看!记得点赞加关注赛博杨千焕明天见!

米的大模型刚刚发布了,这次就不能找大爷了哈。简单聊一下,总参数的话是三零九零亿,激活的话是一百五十亿,推理的话成本压到主流商业模型的百分之二点五, 激活是五比参数,兼顾大模型能力与小模型的一个效率,然后是混合注意力,极致五比一的滑动与大局注意的组合,兼顾了速度与常常理解预测多个未来的投看,实现自我加速。这个是和精品的一个对比。 小米给的定位的话也很清晰,定位智能体 ai, 专为需要快速迭代、循环执行的智能体设计,极致的性价比,这个可是小米一贯以来的风格啊。 零点一美元百万收入拓客零点三美元百万收入拓客。这个的话意味着什么呢?意味着小米是想把高性能的 ai 从云昂贵的那个云端服务搬到更为广泛的开发者和中小企业手上,普惠大家。 哎,有一说一啊,小米是真的能整活手机整完了是整智能家居,智能家居整完了整汽车,汽车整完的话还能整大模型,关键呢是还能生态进行一个闭环。 总的来说的话,小米这次发布的大模型不是来卷参数规模的,是来卷性价比和实用型的。用三千零九十亿的一个总参数证明了大不等于慢, 用一百五十亿的活跃参数证明呢小也可以很强。这波操作的话,对于小米支撑意味着能更快更便宜的在人车加全生态里面部署 ai 能力,对于整个行业来说,它提供了一个 极其清晰的型号。 ai 的 下一个竞争点可能不再是有多大,而是有多快、多划算,快速普及。呃,总的来说吧,这波操作刷新了我对 ai 性价比的一个认知。

万万没想到,小米的大模型直接封神,最近在全球最大的 a p i 聚合平台上, 突然杀出了一匹黑马,一路狂飙,冲到了第一。这个模型有多强?很多人猜是 deepsea 微视, 就连 open core 创始人都在公开打探他的消息。今天答案揭晓了,是小米的 mimo v 二 pro。 更令人震惊的是,小米一口气发布了三款新模型,真的是火力全开, 中国首个万亿参数支持百万级上下文的旗舰模型,居然是一家硬件公司做出来的,带队的正是从 devic 走出来的天才少女罗浮丽。 目前小米已经挤进国内大模型第一梯队了。小米为什么要做大模型?我觉得不是为了蹭热点,而是人、车家生态必须要有一个真正的大脑, 手机、汽车、智能家居,单独用都只是工具。但如果有一个大模型,把它们连起来,让它们能够理解用户的意图,自主协助痊愈互联,那想象空间就大了。 ai 大 模型从来都不只是聊天,而是要走进生活,解决具体问题。这一次,小米站在了最前列。

就在上周五,智普直接在用户社群里扔了颗深夜炸弹, callinplay 全体用户即将用上最新旗舰 g o m 五点幺。拿到更新后,我第一时间上手实测,特意挑了个很考验功底的实操场景,让它从零生成一个赛博复古风的网页游戏。要求一步到位,先设计完整游戏逻辑, 写出全套 h t m 摇加 css 加 g s 赛码,加上像素风 u i 动画特效、计分系统、死亡判定,最后还要自动生成一份可直接运行的说明文档,高 告诉我怎么打开、怎么调试、怎么扩展功能。看着步骤不算难,但懂点开发的都知道,这种从头到尾连贯下来的复杂任务,最吃模型的常上要闻理解和全程专注力。而 g m 五点幺拆解需求特别稳, 全程牢牢盯着核心目标,不会写着写着跑偏漏掉关键细节,写代码时结构清晰不混乱,就连最后配套的运行说明、调试指南都写的特别完整。这一点真的很出乎我意料。 因为之前我也用过一些主流编程大模型,但凡牵扯多文件逻辑,长链路编辑还要配套交付,大多写到后半段就开始往前面的逻辑界面、动画逻辑经常对不上, 最后交付的东西根本跑不起来。但 g i m 五点幺不一样,全程能记住整个项目的结构,从需求理解、代码编辑、界面设计到交付说明,一整条链路丝滑衔接,这种扎实的长城落地能力 真的拉开了很大差距。这确实是目前编程能力第一梯队的模型,尤其是在复杂任务的持续执行和完整交付上,体感差距非常明显,个人觉得能媲美国产的 oppo 的 四点六了。 我们为什么要关注这件事情?因为长城任务能力是检验 ai 智能的新标准。 g m 五点幺突破明显复杂,目标自动拆解,长链路,不跑偏,不掉目标代码,网页 api 无缝切换, 全程记忆,进度连贯推进。直白讲,越来越像靠谱的全职工程师。现实问题随之而来,当 ai 能稳定承接中高阶工程任务,人的不可替代性还剩多少 头部企业全在压这条赛道,能力越强,肉眼可见,尽早吃透用好这类工具,才是接下来的核心竞争力。现在 g i m 五点幺已面向 g i m c d play 用户开放,性价比超高,闭眼入不亏,你准备好了吗?

小米大模型终于开始收费了,这是他的四个套餐,他价格还是很厚道的啊,不能算是最便宜,基本上也差不多了。呃,我大概看了一下他这政策,差不多这两百八十块钱的套餐就足够我自己来用了,我觉得可能对于一个小公司来说,也差不多够用了啊, 所以说价格还是很实惠的。我们也可以看到,这些高性能的大模型在未来一定也会走向收费这种使用模式的。 对小米来说,这就预示着 ai 业务板块慢慢的也开始为他提供现金流,提供收入了,而且我认为这块收入将来的增速会非常快,甚至于超出我们的想象。大家可以看,现在整个市场对 token 的 消耗量真是成几何倍数的在增长, 现在还有好多人,好多行业,好多公司没有开始使用 ai 技术,但是在以后,如果你不使用 ai 技术,不管你是个人还是公司,你一定打不过你的竞争对手,没法在市场上和别人去竞争。未来的 token 就 像现在的水、天然气、石油一样, 是生活的必需品,不是可选品,是商业社会的润滑剂,甚至于在以后可能会超过石油的重要性。 所以说,未来哪家公司掌握了优秀的、足够强大的大模型,并且可以向市场提供高性价比的 token, 就 好像你获得了一个源源不断向外自己涌现石油的矿井一样, 一直不停地给你带来财富。这个就是大模型,就是未来人工智能市场的最诱人的一点。 我自己大概也统计了一下,两个月以前跟到今天,我每天在消耗 token 的 数量整整涨了四倍, 四倍啊,老铁们,两个月以前,甚至于三个月以前,我用 ai 覆盖我工作的百分比,可能也就是百分之十到二十, 现在最少超过一半了,真的超过百分之五十以上完全离不开 ai。 现在离开了 ai, 我 都懒得去干活了,太麻烦了,自己做,这还只是我个人的感受。北京的易装经济技术开发区, 这个开发区现在的政策就是鼓励一人公司每年最高的补贴可以给几百万到上千万这种算力补贴,大家就想想未来这个市场的广阔多么的诱人啊。 我们从雷军的讲话当中,从小米释放出来的消息当中都可以看到,未来几年 ai 一定是小米投资的一个重要的领域和行业,所以说这一块市场雷总一定不会错失的,也不会放掉的, 尤其是雷总这个独具慧眼的眼光,我相信未来这个风口,小米一定站得住,站得上去。

文新一言还有人用吗?想不到我第一个点评的是他吧?前一期我发了这个国内大模型挨个点评的系列预告,评论区里有人提千问豆包,有人说 j r m, 说 kimi, 唯独没有一个人说文新一言。 这就是他现在最真实的现状,你敢信吗?他是国内第一个公开发布的声城市代言模型,二零二三年三月十六日就亮了牌,比字节、豆包、阿里、千问这些竞品早了足足半年, 一手先发天牌,硬生生被打到了今天连提都没人提的地步。今天我不说半句。主观判断,全用行业权威数据给你扒明白百度文心到底是怎么把自己玩到全面掉队的。 先看 ai 时代最核心的名门 c 端用户。 ai 大 模型的终极游戏规则是 c 端用户堆出来的数据,飞轮用户用的越多,模型迭代的燃料就越足,增长就越能滚起指数级的雪球。 没有 c 端,技术再强也是无源之水。咱们直接上 quest mobile, 二零二五年全年的权威数据,国内 ai 原生 app 月活第一梯队 deepsea 一 点九四亿,字节多包一点一六亿,全是稳稳的一级规模。第二季度的腾讯元宝也有四千一百万的月活。 那先发的文新预言呢?独立 app 月活常态只有五百多万,最高的时候都没超过一千万,连第一梯子零头都顾不上。二零二五年第一季度国内 ai 应用下载量榜单, deepstack 二点一亿, 豆包八千一百七十一万。文新预言连头部榜单都没挤进去。说白了,在 ai 时代最核心的 c 端战场,百度直接弃权了, 他总说 c 端是红海,竞争太激烈,可他这话在十年前的移动互联网时代就说过, web 一 点零时代,他靠搜索独步天下,可到了 web 二点零的移动互联网时代,社交内容、用户时长这些赛道他一个都没抓住。 到了 ai 时代,他又把一模一样的错完完整整的犯了第二遍。肯定有人会杠。人家百度弊端强啊,私有化部署战率第一,正起订单拿到手软,稳赚不赔不行吗?今天我就把这个幻觉给你,彻底戳破 他弊端。所谓的强,根本不是技术壁垒,是长江给的红利。第二,他以为的护城河现在已经快被精品冲烂了。 先上 i d c, 二零二五年上半年的核心数据,这是企业级市场最硬的标尺。去年上半年国内公务云大模型调研一共五百三十六点七万亿投肯,同比涨了快百分之四百。这都是企业真金白银花钱买的服务,最能反映真实的市场认可度。 市场份额呢?字节火山引擎,也就是豆包大模型的企业服务主体占了百分之四十九点二,阿里云,也就是千问大模型的服务主体占了百分之二十七。 而百度智能云,也就是文星大模型的服务主体只有百分之十七。再看莎莉文二零二五年下半年的企业级汽配市场数据,阿里千问百分之三十二点一,字节豆包百分之十八点四,微信一言连前三都没进去。 你天天吹 b 端墙,怎么?企业真金白银投票的市场,你连前三都站不住,还有人吹它四有画部署墙,企业内网零幻觉解锁精准, 我之前就说过,这根本不是什么技术壁垒。 ai 幻觉是什么?不是算法问题,是数据环境问题。 c 端数据噪音多,信息杂,所以幻觉多。企业内网是结构化的干净数据,谁做都不会有多少。幻觉四有画部署很难吗?现在千问豆包, deepsea 哪个不能做? 更何况 b 端是什么?是限性增长?是存量生意,一个客户一个客户的,肯一年撑死了涨几十个点。 c 端是什么?是指数据增长?是数据飞轮。用户越多,模型越好用,模型越好用,用户就越多,这才是 ai 时代的终极游戏规则。百度从一开始就选了那条慢路,死路 在看 ai 时代的第二生命线,开发者生态。一个大模型能不能活得久,不是看你自己吹的多厉害,是看有多少做技术做服务的人愿意用你的东西,愿意围着你做产品。搭生态, 百度自己说非讲文,新生态有两千三百多万开发者,可这里面绝大多数是搞传统 ai 的 老技术人员,跟现在做生城市 ai 的 核心人员根本就不是一波人。 咱们看真实的市场情况,阿里前文开源了三百多个模型,圈子里基于他改出来的实用工具衍生模型超过十四万个, deepsea 靠开源直接冲到了全球开源模型榜单的前排,连国外的开发者都在用, 就连后发的字节豆包都已经打进了国内百分之七十的核心大银行,这些银行里做系统做服务的技术人员全在用豆包的技术。 文心一言呢,开源慢半拍,圈子里没人气,用它的人越来越少,企业付费调研涨不动,模型迭代就没有真实的使用数据,没数据模型就更落后,这就是个解不开的死循环。 最后给所有人总结一句,百度文心的问题,从来都不是技术问题。他有国内最早的 ai 布局,有最全的中文知识图谱,有碾压全场的先发优势,可他从根上就没有用户导向的基因。 移动互联网时代,他放弃了四端用户,结果从搜索霸主调到了互联网第二梯队。 ai 时代,他又放弃了四端用户,结果起了个大早,赶了个晚集,现在已经全面掉队。 ai 时代的终极逻辑,从来不是你能搞定多少企业订单,而是你能抓住多少用户,能建立起多强的数据飞轮。没有用户,你技术再强也只是空中楼阁。下期咱们再接着扒国产大模型,猜猜轮到谁?

兄弟们,刚刚刷到一个新闻,小米的大模型米墨 v 二 pro 在 openroot 平台,上周 token 消耗量已经破了四万亿,登顶榜榜首。雷总在微博上发的那是一个意气风发,但我看到这个新闻第一反应是非常诧异,为什么呢?小米的大模型,我感觉即使加上车联网等等,也比不上豆包元宝等等 啊。去看了一下这个有两个定语,一是呢 openroot 平台,二是周消耗量。其实其他大厂啊,都有独立的入口,未必非要用这个平台。而且呢,小米在搞免费的推广,充的快也正常。不得不说啊,做了营销逻辑还是稳如老狗,这波存在感刷的非常的炸裂。

大的来了,观众老爷们,就在昨天,智普和阿里新发布了 g l n minus five v minus turbo 和千万三点六减 plus 的 模型, 而且这两款模型已经接入了龙虾。今天我们来看一下这两个新模型对于我们养虾和日常生活,哪一个模型更适合我们平时用。另外还有前几天发布的千万三点五波迷你, 不过沃米尼分成了 pos、 八蛇外三个版本,并且侧重的是音频读曲方面。因此我们把重点 gm 五非题和千问三点六减 pos 上先来看看龙虾对于新模型的评价,得到的结论是两者各有千秋, 千万能处理一百万词源,上下文大概是六十五万汉字,并且编程能力是最强的,而 gln 重点优化了视觉的编程能力,能承接的上下文内容在二十万词源,也就是十三万汉字。接下来我就对此进行一下测评,先测试上下文承接能力,这里我挑选了一本名著唐吉赫德 全书七十五万字,换算过来大概是一百一十五万词源。我打算直接把这本书喂给龙虾,让他读完之后只能根据读到的内容来回答我的问题。 结果没想到的是,基雅兰在这一环节出师未劫身先死,可能是因为六十五万字已经远远超出了他的极限,导致 api 速度被限折,于是我直接用千万来测试,结果千万分两次读完了这本书, 中途在一百万词源达到极限时歇逼了一次,但好在还是成功读完,并且读取速度还挺快,在后续的问答上也对答如流。现在我的龙虾已经完全了解这个军令中二界顶点的男人, 现在到了 g l m 擅长的图像编程环节,我挑选了一张普通难度和一张困难难度的图片,分别让千万和 g l m 生成对应代码。千万在处理普通难度的图片时也毫无压力,直接完成了, 可在处理高难度的图片时直接崩掉, 而之后 glm 却完成了高难图片的任务,看来还真是专注优化了视觉编程,最后再根据词源的消耗来综合评价一下。我个人感觉是千问更适合我们平常使用, 因为 glm 的 视觉整合能力我们平时很少用的上。当然,如果是需要用上视觉编程的工作者,那 glm 肯定是比千万更强的,而千万的编程能力已经足够普通人使用,并且纯文本能力明显要强于 glm。 当然最关键的一点就是千万它更便宜啊, 耗费的超坑,比 g y n 少了将近一倍,性价比会更高一些。所以综上所述,我们平时用千万三点六破就好, g y n 千万沃米尼用于平时的话显得有些大材小用了。以上是本期全部内容了,我们下期再见。

史上最强开源大模型 cloud 国产平替!不知道你有没有听说过以上这些响当当的名号?没错,今天我想说的话题就是这家通用大模型厂商智谱世界文明从碳基时代走向硅基时代,现在看来已经是不可逆的大势所趋, ai 也将彻底改变我们人类的生活方式。 而大模型作为 ai 的 大脑,他的智力水平将直接决定整个过程的快慢、工作的质量和效率。所以他从一开始就是各大科技公司的兵家必争之地。 当然,发展他所需要的投入必定是一个天文数字,没有实力的国家和一般的大厂根本就玩不起。 从二三年开始的切模大战,短短两年多的时间,现在真正还能打的已经没有几个了。大家所熟知的经常调用的也就是 cloud openai、 gemini、 mini max、 g l m、 deep seek 这几个, 但是在具体工程上,能进入开发者模型库的只有 cloud openai, 替补的有 mini max 和 glm, 另外三家我们不谈,今天只讨论智普公司的 glm 大 模型。 我第一次关注到这个模型的时候还是 glm 四点六,那时候网络上还有很多可以白嫖 cloud 和 gpt 的 方法,本着可以免费用最好的,为什么要用更差的这种心态,当时我对 glm 根本不屑一顾,试都懒得试。 随着后面两大顶级模型公司的监管加强,很多无限续杯的办法开始失效了。这个时候 glm 四点七出来了,跑分成绩好像还不错, 网络上那些 ai 营销号不知道是不是收钱了,更是吹得天花乱坠,我也抱着侥幸的心理把它加入了我的魔性库,然而灾难就是伴随着这种侥幸心理开始的。 我用它开发了一个同城租房的便民小程序,因为我局配置了 superpower 这项原技能,所以开发步骤是非常规范且符合工程美学的。项目一开始就在终端里自动调用了 brainstorm skill, 一 番详细的互动之后顺利生成了项目 prd。 到这个时候,我只是感觉到 glm 四点七的响应有点慢, thinking 的 顿挫感比较明显,不及 cloud opus 那 种行云流水般的让人舒心,也不及 gpt 五点二那种喷涌而出的快感。但是毕竟是平替嘛,又是免费的,还能说什么呢?所以我调整了自己的心态, 以上这些视觉瑕疵就当没看见,无非是丑一点嘛,只要能解决问题,完成任务,这些我都能忍。 接下来是 writing plan 环节,这个时候我已经感觉到不对劲了,因为他写的 plan 明显复杂很多,这不是因为项目更复杂,而是整个架构上就有重复笼鱼的设计。但是我压制住了自己内心的难受,脑子里不断给自己强调两个词,免费平替。 最后到了第一位环节,看着屏幕上列出了漫长的 to do list, 此刻我已经能预见到那种死山交付、运行复死的场景, 果然只有这个预期是没有落空的。在耗时三倍以上的等待之后,我抱着九死一生的最后一丝侥幸,打开了微信开发者工具, 用测试号运行了一下,总共就五个页面的设计和交互。且不说前端的颜值怎么样,他是哪哪都不对,功能有缺失,交互要么失灵,要么错乱。 到这一刻,我突然想起了网络世界的一句主训,只要中国人不骗中国人,这个世界就没人能骗得了中国人。都怪孩儿不孝,忘了主训,乱了阵脚,最终因小失大。 强忍着气氛和悲痛,在理智重回了我的大脑之后,我立刻把 g l m 四点七这尊大神毕恭毕敬地请出了我的模型库,然后掏出了我的 master card。 因为 cloud 实在是太贵了,而且容易封号,而我只是想重新找回我对 ai coding 的 信心,所以我选择了充值对环境更友好的 open ai 二十美元。超能力到位后, api key 创建,添加 gpt, 五点二上场全面接管项目后,立刻开始从头到尾检查优化,然后 rebuild。 因为毕竟是一个小程序项目,斩华雄何须温酒?二十分钟手起刀落,重新测试运行,一次跑通功能都在交互丝滑,只剩一些小细节,稍微给点提示词,微调一下,基本上就是我想要的样子了。要知道,我一直以来都是白嫖两大顶级模型的, 今天 open ai 能赚到我这二十美元,完全是拜 glm 四点七所赐。通过我的惨痛经历,我想跟兄弟们分享一个心得, 那就是贪小便宜吃大亏。因为我的侥幸贪心,把任务交给了不靠谱的智府来做,最终我得到的是时间的浪费、心态的崩溃和不得不请真神来改刀的额外支出。 对于普通的 ai 用户来说,很多时候你的项目并不大,也不是那么急,最佳选择就是等待每天能够白嫖顶级模型的免费投坑额度。虽然监管趋紧了,额度变少了,但是依然够你拿去做些小项目小工具。自普从一月八号上市以来,股价已经被炒到四百多了, 这两天又发布了 gm 五,各大营销号又在鼓吹它杀疯了。我去他的订阅官网看了一下,价格好像比以前还涨了一点, 订阅依然是需要靠抢,每天十点钟就会一售而空。我似乎有点看懂了这家公司,他最厉害的地方应该不是搞大模型,而是在金融市场搞钱, 因为大模型跟机器人不一样,这个作假比较难,毕竟有一堆测试等着你去打榜评分。所以研发投入肯定是要的,否则就拿不到像样的跑分数据。所以智普肯定是投入了一些科研费用的。 但是比较诡异的地方是,他收 cloud 三分之一的钱,能给人家三倍的计量,这里外里就是九倍的差距了。即便他的交付质量更差,按照目前的算力成本应该也是亏钱卖给用户的。 那么有没有一种可能,那就是这家公司选择把一部分资金投入到研发中去,拼命的去打榜,跑出好成绩,引发更大的关注和用户兴趣,然后再控制订阅的销量, 毕竟用户越多,投坑亏的就越多。但是每天脱销售庆,不仅能减少实际亏损,还能酝酿市场情绪。他可以自豪的说,你看我这么好的平替产品,每天都不够卖,从而推高股价,在资本市场中大发横财, 从卖投肯赚钱变成了卖股票赚钱,搞到大钱以后,再拿一点小钱出来,继续搞研发,跑分打榜,继续控制订阅消耗, 继续引发市场热情,然后继续炒卖股票,完美闭环,把开源节流玩的明明白白,到二级市场对股民挖心掏肺的开源, 在用户市场严控销量,降低损耗,狠狠的节流质朴,给传统的大厂们上了一课,创造了控制用户规模也能讲好故事赚大钱的先河, 从而真正实现了降本增效、名利双收的目标。当然,这只是我作为用户的一个猜想,那么有没有这种可能呢?应该不能排除吧。 至于现在这个 g m 五,我不做过多的评价。由于上一代四点七我已经对这家公司产生了免疫抗体,所以无论网络上那些 ai 营销号说的有多神,我绝不会让他在我的电脑终端燃脂项目开发的核心工作 最多只会在 ide 里面免费用它打打杂。看到它官网的这张单向跑分截图,我还有几句话想说,可能很多人在日常生活中没有调用大魔星的场景,一眼看过去,觉得 cloud opus 四点五得分八十点九, glm 能得七十七点八分,只差三分,感觉已经很厉害了对吧? 首先要注意的是, cloud opus 已经出了四点六了,四点五是它的上一代产品,而 glm 是 智普的最新模型,就是网传大杀四方的那一款。 其次,没有实际使用体验的人,直观的看这个分数差距可能没有什么概念,我结合自己的使用体验举个例子你就懂了。这就像两个高考分数,一个是六百分,另一个是六百三十分。六百分在报考志愿的时候是没有机会去报考排名前十的大学院校的, 只能填报一些普通的一本院校,而六百三十分就不一样了,清北复这可能未必有机会,但是川大、武大、南开这些名校还是有很大机会的。 我也曾是小郑做题家,参加过高考,我很客观的知道,六百分几乎是靠努力可触及的天花板,而六百三十分虽然只多了这三十分,他压根就不是光凭汗水和努力可以换来的, 这也是清北复制的含金量所在。这样说,大家就应该知道, glm 和 cloud 相差的那三分意味着什么呢?恰恰就是多的那三分,能把你的事交代的任务给办好做成。 当然,智普在二级市场搞到钱,这里面有天使,两大真神都没上市,面对 ai 这个四季风口,它就先上市了。这不叫占尽天使叫什么? 肯定还有高人指点吧。除了天时,还有地利。因为他生在中国,在国家战略上,任何我们想要的东西都必须自足可控。 很显然, cloud 和 openai 是 别人家的孩子,政审这一关他就过不了。至于人和,我作为用户第一个不敢苟同。理由很简单,因为他难堪大任。关键重要的环节,我敢打赌,你一定不敢让他上场,除非你只是想抬杠,而不是真的想得到一个好用能用的项目工具。 如果屏幕前的其他用户对我的使用体验也感同身受,那么就充分说明了这款大模型并不具备 ai coding 这个赛道的核心价值。因为用户连上场的机会都不敢给,你又何谈创造价值? 所以脱离实际价值在反观它的股价,请问那不是危险的泡沫又是什么?你可能会说,今年安斯洛佩克上市之后的市值会突破一千亿美元, 智普目前才三百亿美金不到,这才哪到哪?如果你有这个思维,那是非常危险的。得民心者得天下,真正能把大模型用于生产的用户,恰恰是可以持续付费的那个群体。 而这些人大部分没有国家战略层面所需要的安全顾虑,他们只想要 ai 能把任务快速的完成,并且高质量的交付,所以哪个模型能做到就用哪个模型,即便要支付一点成本,只要赚的比花的多就行。很显然,智普并没有这个价值。 而互联网是一个饮者通吃的生态法则,所以,即便 anselploik 将来市值一千亿美金,你认为是它的泡沫大还是质朴的泡沫大?我知道,立场不同的交流本质是在浪费彼此的时间, 有不同观点的朋友,你完全可以保留你自己的观点,但是我们可以换一种方式表态,如果明天我们都可以买卖港股,在目前的位置上,我敢做空,你敢做多吗?如果你不敢,那就是你嘴巴不同意,但是身体更诚实。

二零二六年三月全网七大国产大模型 ai 编程套餐怎么选?一个视频给你说清楚。首先声明,本视频无任何广告,请放心使用。在正式开始分析之前,我先出结论,综合实力最强可以直接闭眼入的首选是智普 ai, 他首发独占了目前最聪明的 glm 五点一模型,这个模型目前在编程方面是国产最强,没有之一,并且白送能让 ai 直接帮你操作电脑的 mcp。 普通人直接买四十九块钱一个月的 like 版,一个月能用两万多次,查资料、写文章、做 ppt 基本用不完。 如果你只是想要一个高性价比的龙虾方案,绝对的性价比之王,一个月只要二十九块钱一年也才二九零,不用去抢名额 就能拥有独占的 mini max m 二点七模型,反应速度极快,学生党或者只是想轻度尝鲜的用户, 闭眼买这个二十九元的 start 套餐就行。习惯用豆包体系的可以看字节方舟,它四十块钱一个月起步,独家支持最新的豆包 size 二点零模型,买套餐还会送很实用的 open core 插件,但你要注意避个坑,它目前不支持最新的 g o m 五模型,模型选择上会稍微有点局限, 对于有大量阅读需求的人,长文本刚需者专属选 kimi, 四十九块钱起步,途展 kimi k 二点五,如果你每天要让 ai 帮你读几百页的 pdf 或者写万字长文,选它最合适不过。官方一直不公开具体的调用次数限制,用起来像开盲盒, 而且 asynch 速度也会有区分。剩下几个平台,普通人可以先观望下。阿里百店没有平价套餐,起步就是两百块的 pro 版。腾讯会员和百度千帆属于大杂烩平台,主要是接入别家模型撑场面, 比如百度能用到 d c k v。 三点二,腾讯首月只要七点九元,除非你想花一份钱体验各种不同的模型,否则不用专门去开通。 最后总结一下,兜里的钱到底怎么花,想花最少钱体验顶级 ai, 选二十九元的 mini max, 想要最聪明、功能最全, 买四十九元的智普重度处理藏私料,选四十九元的 timi, 如果确定要长期用,直接买包年最划算。最后提醒一句,现在官方封号极严,千万别去买什么共享号,直接买官方平价套餐最稳妥。

春节假期将至,目前呢,整个模型大战已经打响了帷幕,智谱的 g i m 二月十一号呢正式发布,这个呢,就是此前神秘的 m l a 法,在 open router 上表现非常的出众,也被大家众筹纷云。总参数呢是七百四十五, b 是 g l m 四点七,两倍域信域,数据呢,达到了二十八万亿的 token, 采用了 deepsea 同款的棋数注意力机制, d i c 和多都可以预测,就 m t p。 那 这个呢,其实就是去年年初的比较稳定的开源框架了,关键突破呢,是扣定于 a 阵能力,达到了开源模型中的苏打真实的编程场景的接近 cloud 四点五,幻觉率呢,历史性低。 多模态的推理能力呢,比如说在学术基础推理编码和 a 阵任务上是大幅超越了 g i m 的 四点七以上版本,接近前沿 的 a 阵任务。这个模型呢,已经是 mit 许可开源了,所以呢,已经可以不说了,我们 我们同事也看了一下,大概一台 h 两百就可以把这个智普的 g m 部署起来,可以替代一些编程领域比较强的一些模型,比如 cloud。 与此同时呢, deepsea v 四呢,也正式的进入了微度上限的阶段,重点优化是编码和超长提示。四,目前呢,它最大的优势呢,就是把上下文窗口呢限制了,百万 token 就 一兆,目前呢,只有币源的模型才提供的,所以呢,它是可以单次处理三 t 三浦区的全 g 六十万的文字,它是一个一万亿参数的 mo e, 这个就很大了,比智普呢还要再大个三分之一。引入了 ingram 条件记忆系统,就 deepsea 关于通过文件系统来储存记忆等方式,它是一个近乎无线上网的加速,它的编码能力均为 well, 超过了百分之九十,支持五十多种语言代码的质量呢,超过了 g p t 五 in cloud 四点五 os。 目前呢,在开源里面呢,可能是跟 g l m 还稍微有一点点差距,推理速度呢,是大幅提升,快了百分之四十,内存减少百分之四十到九十, f p 八的新数量化成本呢,也是大幅下降。所以我想分享一下,就是国产的这波开源的大模型呢,其实是在改革这个行业的发展的一个 趋势的。原来呢,对创业公司来说要交两波税,一波呢是给微软这样显卡的,另外一笔呢,是给模型公司的,那开源模型目前离闭源模型是无限的接近,所以呢,至少对于一些没有特别高的质量要求的场景中呢,是完全可以用开源模型来替代的。当然了,开源模型并表示一定成本会很低,比如说像智普 g l m five 和 deepsea v 四呢,都是非常大的模型 跟退隐,成本其实依然很高,而且很依赖比较好的减存和算计的卡,比如说也是两百。那对于创业公司更好的方式呢,是可以用更小的模型来蒸馏,无论是这些开源大模型还是闭源的大模型,让更小的显卡,比如说五零九零 r t x 六千这种芯片呢,就可以跑起来,这个成本呢,还可以在原来的基础上呢,下降了百分之七八十。 所以呢,当开源模型离闭源模型最接近的时候,其实也是在跃跃欲试,抓住这波增长的机会。