千万三点七系列模型终于发布了,昨晚上也是上线了阿里云百年了,那我也是第一时间加班加点把这一个实测的一个任务做完了。这一期的话我们就不聊具体的一个奔驰 bug 评分参数,也不去复读它的一些发布稿。我们先看两个信号,第一个的话就是这一个榜单信号, 他在 arena 这个大模型的一个竞技场里面拿下的这一个国产的这个评分第一,那这个榜单的话其实就是一个把这个模型的名称隐藏起来,让真实的人去通过同同样的 prompt, 然后去测试。那整体榜单这块看的话,在国外的模型肯定目前都是领先的,那国内这块的话,千万最新的这个模型也是达到了国产这个第一的个标准。 第二个的话就是官方这一块儿宣称他们的整个 aintic 的 抠点能力是有一个重新的设计,能长达三十五个小时。那他们说这么多我们都不关心,我们只看他接到一个真实的项目里面啊,我就把同样的项目,然后同样提示的是我拉他跟 deepsea v 四 pro 还有智普的 demo 五点一去对比,看他真实的一个表现情况怎么样。 ok, 那 这一次的话我们一共是三道题,每一道题都不是玩具登陆,第一道的话是这个图片生成的这一个 aint 的 项目,让他从另外一个比较复杂的项目里面 把它迁移过来。那第二个的话是我把一个终端的 c y a 技能让它做一个全站项目。那第三个的话,我们会把这一个模型千万三点七 max 接到我的一个内容分析 a 技能里面,看它整体的一个表现情况如何。好,下面我们来先测试它整个的一个编程能力, 那这两道测试题的话,也是我真实的项目,并且我们在以往的几期大模型评测的这个视频里面都有。那像之前那期视频的话,像 deepsea v 四 pro 和智普的五点一,我们都做了一个评分,那期视频 对于这个图片认证这个项目的话,质谱的是会好一些。第二个的话,呃,我们这个 skills agent 的 话是其实大家差不太多,也是质谱的会好一些。哈,那这次我们就把同样的这一个啊提示词,同样的模型,我们就接进去看一下这个千万三点七 max, 它在编程方面表现怎么样。好,我们来看一下我们的这个试测的过程, 那两个项目的话,都是我自己的一个项目嘛,都是 a 级的项目。那关于图片生成这个项目的话,在以往的测试里面,国外的模型像 g p t 五点五啊, cloud opt 四点七啊,它们也是能一次性把这个任务完成,并且效果也还可以。那千万三点七 max 这边的话,文整整体测试下来,它遇到了一个小问题,就是 关于数据库表结构的,那整体它的这一个长城任务测试这一块,其实也是跟官方的描述相符合嘛,因为我整个的这个测试过程哈,它进行了两轮这个对话的压缩,那右边这个的话,就是把我们的一个 c o i agent 把它写成这个外部 u i 嘛,那这个任务的话就相对来说要简单一些。 好,下面我们就来看一下它整体的一个完成效果,看一下它跟就是 deepsea v 四 pro 智普的五点一整体大家的一个 u i 上的一个展现。怎么样? 完事之后呢?我们还会把这些代码加密之后,再交给就是管理这些模型,让它们分别去站在各个角度,各个维度去 review, 最终得出来一个合理的一个评分。好,下面我们来看一下它整体的一个表现情况。那这边的话,这个网页是,呃千人三点七 max 去做的,就是落地页嘛,落地页完了之后,还有就是它要需要去做 谷歌 github 的 认证登录,我们来试一下。 ok, 它这边可以看到是可以的,能读到我们的这一个信息。好,我们再来看一下这个谷歌认证登录, 可以看到谷歌认证登录也是 ok 的。 好,我们来看一下 deepsea 的, deepsea 的 话,这是它落地页,落地页的话稍微会差一点,那其他的话就不测了,因为之前视频已经测过了。我们来看智普的,智普的话,这是它的落地页,情况 都还行吧,大家这个落地页的设计都已经是相对来说提升比较明显的,最关键的是什么呢?就是它的后端代码实现已经相较于 前几代模型已经提升比较明显了。前几代模型的话,我在那个对话要对话好几轮,反反复复的让他去做,就是在对于长城任务这一块的话,这几代模型其实提升都挺明显的。 第二个的话就是我们这一个 still agent 嘛,这个的话原来是在终端上的,我们把它做成一个 y 不 y, 那 整体的这一个实现效果的话,其实也还 ok 的。 这三个模型啊,第一个是 千万三点七 max, 它所实现的就是我们给它一个啊,给它一个链接,它可以去帮助我们去加载我们本地的这个 skill, 然后去做跑一个总结类的任务。第二个的话,这个是 deepsea 的, 大家其实都差不多,但 deepsea 这一块的话,它 u i 展现上会有些小问题,那 我们的字谱这边的话,其实也还行吧,就是大家实现的也还行, u i 上的话还是有待提升的好,下面我们来看具体的一个代码评分情况,因为光看 u i 交互的话,其实大家模型都大差不差的,我们只有把它写的代码去看了, 到底有没有问题,尤其是像我们这个图片生成 a 镜头,那我们加了这个用户认证体系之后,那每一个人他的这些 c 型啊,他的这些聊天要隔离嘛,对不对?那之前的一些模型的话,像 deepsea 它也会有一些 问题,就是它的这个用户归属这一块有些问题。我们来看一下这一个啊,千万的评分,那这次测出来的话,其实千万跟这个智普的五点一相差不大,那这边 ai 给到的评分的话是会高一点点,它有些优势啊,就是它的落地的这个质感嘛,相对来说会好一些, 那也会有些小问题,就是登录进去之后,它的一些小头像的一些体验会有些小问题。那第二个的话,就我们这个 skills ag 呢,它这边的评分的话是八点四分, 是会比这个字谱的稍微会低一点,那也会比 dipsic v 四的会好一点,主要的优势改进点的话,它这块也写的有,我就不一一的去念了。 整体来说就是千万这一代的模型啊,在编程上面会比上一代我觉得提升真的比较明显。还有它跟这两有一个最大的区别,就是因为它是原生多模态输入的,这就很符合我现在用的一个工作场景,因为我在实际的编程过程中,我是大量的需要去这样去截图,然后丢给 ai, 让他去帮我指哪打哪去改。 那以往的话,国产模型这一块就是我没有一直用的一个原因,就是它在多模态的输入这一块体验不是特别好。那这个千万三点七 max 的 话,在这一块其实还是挺 ok 的。 好,我们来看一下我们这个内容分析 agent, 我 这边也是把它就是千万三点七 max 接进来了, deepsea v 四智普那些都接进来撤了,也是基于我同样一个 视频链接,然后让他去分析做语音转录,转的完了之后去拆解,得到了一个整个的一个拆解报告。那千万这个模型呢?从这个拆解来看到它这块时间错也是拆解的是对的。 关于下面的这个爆款元素识别,也是符合我当初做这个视频的一个设定。那这个的一个对比的话,跟 deepsea 微视去做对比的话,其实你人为主观去判断就不太好判断了。 那我这边也是把这三个模型所产生的这个分析结果嘛给到了,下载 g p g 五点五这个模型,还有谷歌的模型,让他们去做评测。好,我们下面来看一下整个的一个分析情况,那它这边给出了千万三点七 max 的 话,是更适合内容的一个生产 a 检测,那 deepsea 微速更适合一个深度复盘,那我这几期视频关于做国内模型横屏 都基本上得出来的结论都差不多。那智普这边的话是一个更适合结构化脚本的嘛? 国内模型这一块的话,他接到 a p a 里面大家都知道非常非常便宜,如果大家有这种需求的话,我强烈大家用国产的模型,像我们这个内容分析 a g 的 话,其实我这一块是有做这个封面识别的,就是有个多模态。那但在我们刚刚的这一块看的话,其实千万三点七 max 它是会有优势的,因为我会把这一个封面图片给他 放进去再做分析嘛。那 deepsea v 四 pro 跟智普五点一的话,现阶段他们是没有多模态识别的,也可以看到,其实我在这边也加了这个多模态嘛,就是 它如果有多模态之后的话,我们就会把这个图片理解给它加进去。好,下面我们来进行一个整体总结。那千万三点七 max 这一代的话,我感觉是比它上两代都提升比较明显,而且是真的可以接到你的这一个编程 agent, 不 管是 cloud code 呀,还是别的一些 agent 里面去,而且你也可以买它的这个 token private 套餐都还可以, 只不过不好一点是不太好抢,就跟这个智普这个模型一样,那内容分析 agent 的 话,如果你不需要多模态,你就用 deepsea v 四 pro, 如果你需要就是需要把这个封面呀,或者你要需要去把这个视频里面抽帧,抽出来之后让它去分分析分解,那你就用千万三点七 max, ok, 那 这就是这一期视频所有内容了,如果大家觉得这期视频做的不错了,可以给我一键三连,我是阿江,我们下期见,拜拜。
粉丝2.2万获赞8.2万

三个月啊,三代起见,千万从三点五到三点六,再到这两天阿里云峰会上刚发布的三点七 max, 这个迭代节奏啊,其他厂商是很少见的。二月份千万三点五刚出来的时候呢,百万 to cap 八毛钱,当时给我最大的感受呢,就是便宜还能打。后来三点六出来了,我接到了 hermes 框架里,跑了两周多做 ag 的 任务,明显感觉呢,模型在工具调用和上下文推理上呢,是更稳了。 现在三点七 max 来了多个第三方评测里,国产第一推理和 ag 的 能力上部分指标甚至超过了 cloud ops 四点六,但跑分呢,它只是一个维度,我更在意的是它实际干活的时候,差异到底体现在哪里。 我自己做了两个测试啊,第一个,我扔了一段很长的 promontory 给千万三点七和 cloud ops 四点六,让它们各自从零搓一个完整的二 d 的 物理引擎,碰撞重力,多个预设场景全塞进了一个 h t m 文件,不允许任何的外部依赖。 你们看啊,千万三点七的成本率呢,是很高的,但跟 opus 四点六呢,还是差这么一点。不过你要知道啊, opus 是 目前公认编程能力最强的模型之一, 千万三点七能打到这个程度呢,可以说是稳稳的站在第一梯队了。关注我的人都知道,我最近做了个工具,可以在可拉到桌面端里把底层的模型换成第三方呢。我第一时间呢,把千万三点七接进去,跑了一圈,发现它在工具调用上呢,有一个很明显的特点,同样的任务啊,千万三点七在执行的时候会主动调用 ask user question 的 工具, 多次确认问题参数,格式规范,选项覆盖呢,也很全面。看起来呢,是多了几轮交互,但反过来呢,总轮次是更少了,这样呢,就大大减少了后面的反攻。 官方这次定位呢,也很明确,叫全能的智能体的基座什么意思啊,不只是聊天聪明,是真的能长时间的独立干活。他们自己呢,也做了两个极端测试,同一个代码优化任务呢,给了多个顶级的模型去跑,有的跑到了三倍就停了,有的跑到了七倍。前面三点七呢,跑到了十倍,连续自主编程了三十五个小时, 开上 ai 去模拟经营一家创业公司,跑完一整年,招人,签合同,识别恶意客户,控制成本千万。三点七的营收呢,是上一代三点五的将近六倍。官方管这个叫做长城持续推力,也就是长时间干活,不掉链子, 还能越干越聪明。千万三点五出的时候呢,我就说过,性价比这条路呢,算是走通了,现在三点七出来,我觉得可以再加一句,阿里在 a 阵的这条路呢,也开始找到感觉了。至于能走多远呢,我还会继续更新。你们有在用千万的评论区聊聊你们的题感?

q n。 三点七 max 最近的表现非常惊人,他已经正式杀入了国产大模型的第一梯队。为了看清他的真实水平,我会从逻辑推理、输出稳定性以及最硬核的编程实战这三个维度带大家做一次深度的实测。 在看具体能力之前,先看一下他的基本面。通用的迭代速度非常快,几乎每个月都在更新。在成本方面,虽然他的 token 使用量比前代多了百分之五十,但价格却降到了前代的六折,综合算下来,成本其实是持平的。 这里有一个非常关键的使用前提,你必须在提示词里加入特定的系统提示词。强制模型使用英文进行思维链推理,如果不加模型,可能会用中文思考,这会导致它在编程几何和空间直觉方面的回答质量显著下降。 第一个优势是指令遵循。相比 deep sea v 四 pro, q n。 三点七 max 能更精准地遵守复杂的原始提示词。 在面对要求很多、逻辑很乱的场景时,他会通过花费额外的 token 进行多次自我确认来确保不跑偏。虽然这导致他的开销比 d s v 四开 max 档位还要高,甚至比一些低成本模型高出一倍多,但换来的是极高的执行精度。其次是上下文幻觉意志, 这是 q n 系列的长版,而三点七版本做得更极致了。在处理超大规模上下文的测试中,比如新增的六十五号题,它需要从极长的文本里提取那些并不明显的关键信息。 q n。 三点七 max 在 这类问题上的表现是国模第一,仅次于 g p d。 五点五。在其他上下文相关的任务里,它几乎不会因为看错信息而丢分。 最后是输出稳定性,前段模型已经很强了,但三点七版本直接扎进了北美育三家的阵营。在测试中,他的中位分叉仅有百分之四点六。在处理中等难度的推理问题时,通过多次测试, 他的稳定输出几乎一致的过程和答案表现非常接近 gpt 五点四或者五点五。不过也要注意,在涉及空间感知、几何理解和数学证明这些特定领域时,他的稳定性还有提升空间。 当然,模型也不是完美的。首先在输出风格上, qn 系列有个习惯,就是喜欢在正式回答里夹带一部分推理过程,除非你在提示词里明确禁止它,这会让输出显得有点绒长。比起 oppo 四点六这种可读性更好的模型来说,体验稍微差一点。 除了风格问题,还有一个更实际的代价就是推理效率。 q n 三点七 max 现在的性能提升很大程度上是靠更深度的思考换来的,这意味着他的 token 消耗比前代增加了百分之五十,平均达到了四十四 k, 这个消耗量大约是北美同类性能模型的两倍。但好在他能合理分配思维预算,很少会有无效思考,能把预算用在刀刃上。 接下来进入最硬核的部分编程能力。整体来看, q 文三点七 max 在 热门领域能达到 c 加到 b 档的表现,但在冷门方向可能会调到 d 档。这里有一个非常重要的实操建议,在使用时不要把上下文 context 用的太满。 当 context 接近幺零零 k 的 时候,你会发现模型的幻觉会上升,容易遗忘第一轮的初始约束或者犯低级错误。如果发现它开始出错,最有效的办法就是清掉 context, 重启环境,虽然会丢失一些工程约束,但能显著减少低级错误。 第二个特征是 debug 能力。目前来看,它的 debug 能力还算够用,但还谈不上全面。 面对复杂问题时,像 gpt 或者 open 这种顶级模型会用各种手段逐步缩小问题范围,最后精准命中。但 q 稳三点七 max 更多是依赖一些常规手段,一旦问题超出了常规范围,它就只能靠智力去硬推导。 而对于非常复杂的问题,光靠智力往往是不够的。所以我建议在处理复杂的 bug 任务时,一定要搭配专门的垂类 skill 来缓解这个问题。 最后一点是知识分布不均,这和 deepsea 为四的情况很像,虽然它们都是万亿参数的大模型,理论上知识储备应该很足,但在实际且代码的场景里,有些本该想到的实现方式或者问题归因模型却提取不出来, 这时候它就会退化到最原始的状态,只能靠反复打 log 来硬磨。这种方式的失败率非常高, 所以在使用他处理非热门技术战时,大家一定要心里有数,懂得来看。 q 问的进化速度确实很快, 他已经从早期那种只看重学术榜单的阶段成功转型到了深耕 a 针和扣顶领域的选手。但模型竞赛从来不是一蹴而就的工艺,正在通过这种一层一地的突破重新回到正确的赛道上。雄关漫道真如铁,而今迈步从头越。

哈喽,大家好,给大家看一下新的千万三点七 max 做出来的粒子效果,我们刷新一下页面,可以看到这个百万星系的粒子效果非常的好看,它可以直接做到一个漫游,各种各样的暂停放大, 还有加速减速,放大缩小都还是蛮不错的。我刚才试了一下,大概这样子的,一个百万星系的这样子一个粒子的效果, 他是只做了八百行左右的代码,思考的力度是好像是思考了五千多还是六千多个托肯最后面才去写的代码, 虽然这只是个小 demo, 但是可以看得出来千万三点七他现在在不管是 a 卷的能力,思考的强度,还有就是这种前端代码的编写上面确实是达到了一定的水平。 但是也值得注意的是,今天我们测的是一个短途的任务,在这种长城的比如说跨三四个小时的任务下面他的这个表现我们目前还没有测,等到后续可以给大家更多的一些测试,再给大家这个模型能不能用的一些反馈,谢谢大家。

今天,阿里发布全新一代千万旗舰模型千万三点七 max。 在 权威三方榜单中,千万三点七 max 表现与当前最强模型分数接近,位列国产模型第一。阿里云面向 agentech 时代全面升级。在模型层,千万三点七面向当下智能体,全新设计 核心能力持续突破,可胜任复杂编程、多智能体协助生产及办公自动化等任务。实战中,千万三点七 max 在 全新的硬件平台上,仅凭任务说明从零起步,自主工作三十五小时,实现了一个推理关键内核的自我进化,性能比官方版本提升十倍。 近三个月内,千万旗舰大模型已稳定迭代三个版本,不断抬高国产模型的性能上限。

阿里的千问三点七 max 这次彻底掀桌子了,直接把压力狠狠拍在了 cloud 和 gpt 的 脸上。别再比谁更会写诗了, 当一个 ai 能自己写代码,自己看报错,连续不断地跑任务,而且成本被压到了一个极度离谱的区间时,这就不再是技术秀,而是商业屠杀。 now performance wise the coin 3.7 max is performing strongly across multiple benchmarks like terminal bench 2.0 swayed bench which scores a 60 6 as well as many other agent and coding benchmarks you can see that there's massive gains and it is basically on par with models like opus 4.6 max kimi k 2.6 in certain cases even surpassing it and i personally believe that this is the best chinese model that is out there right now it also demonstrates exceptional strength on difficult reasoning evaluations alongside strong multi lingual capabilities, but what's wild is that alibaba is now genuinely entering conversations alongside proprietary giants like entropic, google and open ai because this is the closest quinn has been in the frontier race the quin 3.7 max now scores a 56.6 on the artificial intelligence index that is a 4.8 point boost in terms of overlapping the quin 3.6 max preview this is with major gains in scientific reasoning coding and agency capabilities if you want。 一 旦这条廉价高病发的路线跑通, 大模型之争将直接从谁达的更聪明变成谁能更便宜、更久更稳定的把活干完。大家好,我是进化中的阿晨,这期咱们不念枯燥的参数表, 直接把千问三点七 max 这次录出来的硬盘给你拆个干干净净。先把总判断放前面。千问三点七 max 根本就不是用来陪你聊天的,他盯上的是智能体这块大蛋糕。说人话就是,以后你不是向他问问题, 而是把一个复杂的项目直接扔给他。他就像一个不需要睡觉的赛博包工头,自己调用工具写代码调试改错,一条龙服务普通人。别被什么多智能体协助吓到,落到你我身上就是以后你想做个小工具,搭个内部系统,写套自动化流程, 再也不用求爷爷告奶奶找人排期了。先让 ai 把股价和出版跑出来,成本几乎忽略不计。你以我在夸张,真正让我倒吸一口凉气的 是他的耐力和身价。 plod opus 4.7 as well as gbt 5.5 on a real long horizon agile coding task where models had to iteratively improve a self training tetris spot across pen autonomous loops where quinn actually achieved the biggest improvement with a fifty six percent gain at the lowest cost, which was a dollar and thirty cents now this is massively outperforming opus 4.7 which had gotten a 28 percent gain, but it costed about twelve dollars and fifteen cents and gps 5.5 had incurred a seven percent gain, but was a lot cheaper at around two dollars and eighty five cents。 在 一个长周期的智能体编程任务里,让模型连续十轮去改进一个机器人。 天问三点七 max 拿到了百分之五十六的提升。花了多少钱?大概一点三零美元。对面摆着的是国外的神级模型 cloud opus。 四点七提升只有百分之二十八,却要烧掉你十二美元多 gbt, 五点五更是只有百分之七的提升。这叫什么?这叫性价比屠杀 未来。你想把 ai 接入公司的工作流,沉闷就是生死线。一个任务跑一百轮,一千轮模型再聪明,如果每跑一轮都在烧钱,普通团队早就破产了。而阿里打出的明牌就是,我能跑,我便宜,我还能连轴转。 官方实测,它可以支撑长达三十五个小时的自主执行,连续调用一千两百次工具不会干两步就失忆,也不会跑一半就开始胡说八道。当你睡觉的时候,这个几毛钱成本的数字员工还在疯狂帮你修 bug, 这就完了吗? 前端程序员可能要捏把汗了。不仅能超网页原型,他甚至能用代码给你手捏出一个带底部菜单、计算器、画图板,全能用的马克 o s 熟面系统。 他能把一堆散落的组建按照交互完美拼合在一起。更恐怖的是,他连物理逻辑都能啃下来。 to create a realistic aquarium, and this is something that tests how well the model is obviously in 3ds, but how it's able to manage the physics of all of the individual fishes, and you can see this is one of the better generations, i have seen the fins properly move for each of the different fishes, you can see the ui control with the panel yeah, the rendering system and real time optimization what's really cool? is if i am to enable the feeding mode, i can actually click on the different or the top of the water and you can see that there is food actually being dropped into the aquarium, and this is where the fishes all rise up to eat up the food that's a small little feature, but the fact that is able to actually pull that out and specifically able to evaluate how well, this long perform front end engineering task is able to incorporate things like spatial reasoning you have different visual elements and the quality is definitely nice to see and the fact that it's able to literally generate all this in a single prompt is nice to see。 你 看这个三 d 水族箱,它生成的不只是一个空壳子,当你点击水面头时,鱼群会自动上浮去抢。 他自己写出了鱼群的物理引擎和觅食逻辑,甚至顺手做出了时间速度和昼夜切换的控制面板。他在尝试理解真实世界的空间关系和交互反馈。当然,阿晨从不无脑吹,这玩意现在也有硬伤。 第一,他是沉瞎子,目前没有多模态能力,处理不了图片和视频。第二,审美有时候会翻车,做出来的网页可能土掉渣。第三,他极其依赖你的提示词,你给一句模糊的废话,他就糊弄你。你给细致的规则和交互逻辑,他就是顶级的工程助手。别拿他当神笔,马良 把它当成一个听话、便宜、能反复返工的苦力。总结一下,千问三点七, max 的 出现意味着帮我搭个 demo, 写个自动化脚本,这种活正在被彻底重新定价。下一阶段的模型战争,拼的不再是智商, 而是耐力、价格和执行稳定性。会聊天的 ai 当然有用,但真正能重构商业护城河的是这种便宜耐跑、能一轮能把任务死磕到底的 ai 工人。我是进化中的阿晨,抛弃劳动力思维去驾驭这群赛博牛马,咱们下期见!

千万又出手了!赶在五月二十日阿里云峰会开幕的前夜,昆三点七系列的首批预览版直接空降 l m r 瑞纳大模型盲测平台。这次的测评分数依旧漂亮,但到了真实高容错率的业务环境里,还能不能这么稳?此刻还得打个大大的问号。这次昆三点七的测试策略透着一股不加掩饰的野心。 这次的预览版直接切断了网页搜索和代码解释器,强制锁定了深度思维模式。阿里的意图十分直白,就是要向全世界展示他最底层的逻辑和推理能力。 但话说回来,这种刻意剥离了实际应用场景的极端测试,确实更容易在特定榜单上拿到高分。把外挂一拔,在真空环境里证明自己足够聪明是一回事, 我们来看一下他的成绩,嗯,也远没到毫无对手的地步。文本综合 quin 三点七 max preview 冲到了全球第十三名,这也是目前排名前十五里唯一的一个国产模型 细分领域。数学排第七,软件与 it 排第九,代码生成排第十,视觉评测款三点七 plus preview 拿到了全球第十六的位置。结合阿里大模型实验室整体在文本第六、视觉第五的排位,事实很清楚,阿里的研发底座已经彻底稳住了,不再是过去那种忽高忽低的状态。 此前困核心灵魂人物林俊扬离职,圈内一度普遍唱衰,认为通一千问的研发节奏必将遭到重创。但从三点五、三点六再到如今的三点七,阿里用连续的高频更新给出了极其冷酷的回应。 技术迭代已经不再依赖某一位天才的个人发挥,他们通过持续的增量训练,硬生生趟出了一套高度标准化的工业流程,先发预览版打榜制造声量,紧接着在峰会上推正式版。这套打法不仅成熟,甚至已经成了阿里精准拿捏市场预期的良谋。选在这个时间点放榜,为明天阿里云峰会造势的意味再明显不过。 带着榜单上的光环去开一场发布会,说话自然更有底气。但对于真正要用它干活的开发者来说,分数高低从来不是最重要的。这种测试版的数据再华丽,也不足以让人彻底信服。 大家真正在等的是明天正式版,把搜索代码等全套工具重新接入后,去处理那些真正棘手繁杂的日常任务时的表现。国产模型的高频迭代确实在极速缩短技术差距,但这绝不意味着跑赢了榜单就能掌握绝对的主动权。

家人们,阿里今天发布了 quan 三点七 max, 我 看完测试数据直接震惊了! 先说国家层面的意义,国产大模型这次真的追上来了! quan 三点七 max 在 三方机构 arena 全球大模型盲测总榜中超过 kimi k 二点六, deep six v 四 pro g l m 五点一与 g p t cloud gemini 最强模型接近,位列国产模型第一。 这不是国产替代的自我安慰,这是真实的技术突破。中国 a r 不 再跟随,开始并跑,甚至领跑,从能用到好用,国产大模型用了不到三年。 再看技术层面的突破,智能体 agent 时代真的来了! quan 三点七 max 面向智能体,全新设计,可全自主完成三十五小时的超长程复杂任务。 在一个全新的芯片平台上,它通过自主编程和超一千次工具调用,实现了一个关键内核的自我进化,推理速度较原版提升十倍。这意味着什么? ai 不 再只是回答问题,而是能完成项目。 对开发者和普通人来说,这意味着什么?你可以用 cine 三点七 max 构建能自主完成复杂任务的 ai 应用。 ai 助手即将从聊天机器人进化成数字员工, 它能帮你写代码、做研究、管理项目,甚至自主调用工具,完成端到端交付。 ai 编程能力跨过临界点,单一智能体瓶颈被多智能体架构打破,这才是真正的生产力革命,国产大模型的并跑时代开始了!

五月二十二日,阿里云宣布 quan 三点七 max 已登录阿里云百链平台,用户可直接调用 api 模型,输入价格每百万 tokens 十二元,输出价格每百万 tokens 三十六元。此外, 阿里云百链 token plan 订阅服务也已上线 quan 三点七 max 订阅,用户可直接使用该模型。

三个月,三个版本,千万刚刚交出了一份挺硬的成绩单。五月二十号,阿里发布了千万三点七 max 盲测排行榜上,它超过了 kimi、 deepsea、 g l m, 排到了国产第一。虽 然 gpt、 cloud 这些全球最强模型也已经在同一个段位了,你可能觉得这不又是一个冲榜的吗?但这次不太一样。 切问三点五到三点六,再到三点七,每个月准时迭代,这个速度在全球都少见,而且方向很明确,它不是在卷跑分,而是在卷 agent。 什么是 agent 的 能力? 就是模型能不能自己理解需求,拆解任务、调用工具、写代码、看日制、修错误,然后一整条链路跑完。切问三点七,在编程智能体测试里, s w e 杠 bunch、 terminal bunch 这些指标上全面超过了 deepsea 和 cloud 欧鹏斯。四点六, 更夸张的是,阿里内部测试里,千万被扔到一个全新的硬件平台上,连续干了三十五个小时,执行了上千次工具调用,最终把一个算子的性能提升了十倍。 注意,干了三十个小时之后,他还能发现新的优化空间,这意味着什么?模型开始从回答问题走向执行任务。这也解释了阿里为什么在三月份成立了 taco hub, ai 服务的年营收已经突破了八十亿。千万不只是个模型,它是阿里云 mos 开发者工具这条链路上的核心引擎。 二零二六年,大模型竞争的重点已经从谁跑分高变成了谁能干活。关注我,第一时间了解最新 ai 动态。

quan 三点七 max 出来了,但别只看榜单第几的标题,这次真正值得注意的是阿里把它定位成 agent 时代的基础模型。 先看时间线,五月十八日, quan 官方先说 quan 三点七 preview, 登上 arina max preview 打文本 plus preview 打试教。 到五月二十日,阿里云峰会正式发布。 quan 三点七 max 关键词是 agent coding、 复杂推理、长城任务执行。官方材料里最抓眼球的数字是最长三十五小时连续执行超过一千次工具调用。 这说明他想解决的不是普通聊天,而是 ai 能不能像一个稳定的 agent 一 样,持续读代码、调工具、改文件、处理办公流程。但这里要谨慎,现在能确认的是,他将通过 model studio 开放, arina 上有 preview 排名信号, 还不能确认的是公开权重、 api 价格参数量、上下文长度和正式模型卡。所以这条新闻最理性的看法是,如果你做代码 agent, 自动化办公,多工具工作流, quan 三点七 max 值得重点关注。 如果你只是普通问答和短文本生成,先别急着迁移。真正的大变化不是名字变成三点七,而是大模型竞争正在从回答的好不好转向能不能连续完成复杂任务。

q 问,三点七 max 即将发布在最新的大模型评分榜中,它获得了五十六点六的高分,位列国产第一,能直追 gpt 可乐等大模型。如果你现在还无法使用 gpt 的 话,那么使用它进行品鉴的话,绝对是一个很好的方案,因为它也能结合真实的文献去书写综述,且只需要一条提喻词,看我演示 文献综述书写分享。我是张老师,关注我,学习更多高分 scr 文章写作经验。

好,我们下面来看一下千问三点七 max 这个阿里呢最新出的一个模型,大家在这张千问的这个官方封面图上呢,你可以发现一些哎熟悉的声音,对吧?龙虾呀, 爱马仕啊,然后还有 cloudcoat 这些。哎,它在这张图上呢,其实是有很有寓意的,它意思就是说我这个模型啊,对这些智能体框架是充分的兼容 在他们上面的表现呢,我都能够呢做的比较好。这个呢也是他哎主打的一个卖点,然后这边的卖点呢是指四四大能力,标志着呢他的泛化力比较好,这个的泛化力呢主要是指能力上的泛化, 这里的泛化力呢主要是什么呢?框架上的泛化,所以说它的意思就是说我要做一个全球大一统的模型,这也暴露了阿里的野心。好,它这个参数呢大概是 一 t 左右的参数,然后呢架构呢,仍然是使用了 m o e 的 架构,然后呢上下文长度呢大概是呢二百五十六 k 的 token, 这里呢都是 除了十二纹长度以外呢,其他参数呢,都是相对来说比较领先的。好,从这张表上可以看到呢,这个模型呢,在各项哎常见的评测指标上都呢达到了一个领先的效果。 比如说它这张票呢,我们可以把它分解成四个维度,比如说在哎智能体编程上这一块呢,可能是大家现在最为关注或者智能体呢应用最为广的一个点上,它是呢哎战绩呢非常强悍。 在通用智能体上,这个呢更多的呢关系到了,比如说桌面应用,包括呢怎么去调网页啊,调工具啊,哎,它的效果呢,也是要比其他的模型呢要好啊,小幅领先优势明显, 对吧?它其实都做了相当客观的一个啊分类好在高难度推理当中,这个呢主要是指,哎,一些数学题, 一些比较智力强度比较高的一些提上,哎,他呢也能够做到一些领先的优势,并且呢,他是一个哎多语言模型,就是他是一个可以走向国际化的模型,这个多语言的其实呢是 非常重要的,为什么呢?因为现在的模型啊, token 经济更多是往海外走,对吧,将通过 token 呢来卖中国的店,你只有这个能力强了,哎,外国人才会愿意用你的对一种新型的出口经济 好,并且呢,它呢证明了个什么事呢?这一次它呢智能体的能力强,它并不是说在特定的框架下,哎,它的智能体能力强,它呢分别测了在 cloud code, openclaw 还有千万 code 这三个相对比较哎常见的智能体框架下,它都上去试了,会发现呢,测评指标上,它呢是专门用来测工具,调用终端操作这种长流程的这种任务上,哎,它的效果呢是比这些呢要好的, 这个呢就表明呢,它对于框架的兼容性,哎,是比较强的,就说我的强是我的模型强, 你用什么框架诶,我都可以,对吧,就是什么好司机不挑汽车这张图呢,其实也是要说明这个问题,在桌面自动化场景这些场景下呢,诶,它也是 强过就是 cloud cloud 的 模型,还有呢三点六的模型诶,也就是说好司机不挑车,好它。这个其实呢给我们带来的启示就是说哈尼斯它的作用到底在哪里? 比如说如果说我的模型足够强,那我对哈尼斯的依赖呢?哎,是可以降低的。他其实呢可能想表达这个观点,这个观点呢,其实现在呢也没有定论,一直在争议,有些议派认为呢,哈尼斯 一定要强,为什么呢?因为模型呢是有缺陷的,我要通过哈尼斯呢来打各种补丁。然后另外一种观点就认为呢,哎,只要我的肌膜足够强, 我的 harness 呢需要,但是呢,我的依赖性呢?哎,就没有这么高了。好,这是两个现在业界呢比较争吵的观点,大家呢有什么观点呢?可以呢发表下建议意见。 好,并且呢,它在训练的时候呢,它呢使用了一种就是环境驱动的这种数据,哎,来训练它的模型,它会发现呢,它这个模型的这个 能力啊,会随着训练的轮次呢增加,对吧?这是一个平均能力增加,并且他会发现在各个指标上他都会展现出比较同步的增加曲线的形状呢。哎,长得呢都差不多,他意思就是想表达什么呢? 就说我的基础能力的提升会推动的各个能力的提升,就像一个人他的智力的进步了,会导致他各个学科的同步进步。好,上面呢就是我们对前文三点七 max 的 一个快速解读。

今天带你了解阿里二零二六云峰会发布的国产新魔王 qen 三点七 max, 这款旗舰模型在 rena 盲测中拿下国产第一,在编程智能体领域创造 sota 记录,展现了强大的自主 agent 能力。 在第三方机构 arena 全球大模型盲测总榜中, qiong 三点七 max 位列国产模型第一,超越 kimi k 二点六、 deep seek v 四和 g o m 五点一,数学排名第七,专家任务第九、编程第十,与 gpt cloud gemini 最强模型处于同一水平。 在 terminal bench 二点零编程智能体测评中, qen 三点七 max 取得六十九点七分的优异成绩,刷新搜它记录,碾压 deepseek 杠 v 四 pro max, 超越 cloud opus 四点六,标志着国产模型在编程 agent 领域达到全球领先。 昆三点七 max 展现了惊人的长城自主编程能力,在平头哥真五 m 八九零芯片上,三十五小时内自主完成一千一百五十八次工具调用,进行四百三十二次内核评估迭代,最终实现推理内核算子十倍加速优化。 在三大实测场景中, q 问三点七 max 展现了真正的 agent 的 能力,零代码桌面应用开发、陌生工具、自主摸索、学习、 skill 调度与自主反思,所有任务均在无人工干预情况下自主完成。 阿里千问系列展现了惊人的迭代速度,从 q 问三点五到三点六,再到三点七,短短三个月内实现三连更,保持月更旗舰的发布节奏,展现了对市场需求的快速响应能力。 阿里构建了完整的全站 ai 体系 ath 组织,从平头哥自研芯片、阿里云基础设施到 qwind 三点七 max 旗舰大模型,再到千万云平台应用,形成芯片云模型应用的完整闭环。 昆系列在开源生态中表现卓越。昆三点六登顶哈根 face 热榜,斩获 openroute 日榜、周榜双冠军,单日 token 调用量高达一点四万亿,成为全球开发者最认可的模型之一。 昆三点七 max 的 agent 战略聚焦于跨框架泛化能力,支持矿 loud code、 open claw、 hermes agent 等主流框架,目标是成为 agent 时代的标准接口,为各种智能体应用提供底层能力支持。真五 n 八九零是平头哥研发的最新 ai 芯片,性能达。