国产大模型首次打破海外巨头垄断,杀入全球代码能力第一梯队。五月二十六日,最新数据显示,阿里旗舰模型 cry 三点七 max 在 权威盲测平台 coldina 中斩获一千五百四十一分,位列全球第四, 这也是目前唯一突破一千五百四十分大关的国产基础模型。除了榜单成绩,官方明确该模型主打硬核的 agent 工程落地能力,支持连续自主运行三十五个小时,并完成超千次工具调用。此前,该模型已在阿里云峰会正式发布,具备百万级上下文窗口, 且 api 输入定价仅为二点五美元,较同级别海外竞品低出近百分之五十。发布后直接提振了资本市场对国产 ai 的 估值预期。这一成绩验证了国产大模型在底层代码生成与复杂任务处理上的真实水平, 而极具竞争力的定价也将进一步加速国内企业及 ai 应用的规模化落地。
粉丝316获赞4179

五月二十二日,阿里云宣布 quan 三点七 max 已登录阿里云百链平台,用户可直接调用 api 模型,输入价格每百万 tokens 十二元,输出价格每百万 tokens 三十六元。此外, 阿里云百链 token plan 订阅服务也已上线 quan 三点七 max 订阅,用户可直接使用该模型。

千万三点七系列模型终于发布了,昨晚上也是上线了阿里云百年了,那我也是第一时间加班加点把这一个实测的一个任务做完了。这一期的话我们就不聊具体的一个奔驰 bug 评分参数,也不去复读它的一些发布稿。我们先看两个信号,第一个的话就是这一个榜单信号, 他在 arena 这个大模型的一个竞技场里面拿下的这一个国产的这个评分第一,那这个榜单的话其实就是一个把这个模型的名称隐藏起来,让真实的人去通过同同样的 prompt, 然后去测试。那整体榜单这块看的话,在国外的模型肯定目前都是领先的,那国内这块的话,千万最新的这个模型也是达到了国产这个第一的个标准。 第二个的话就是官方这一块儿宣称他们的整个 aintic 的 抠点能力是有一个重新的设计,能长达三十五个小时。那他们说这么多我们都不关心,我们只看他接到一个真实的项目里面啊,我就把同样的项目,然后同样提示的是我拉他跟 deepsea v 四 pro 还有智普的 demo 五点一去对比,看他真实的一个表现情况怎么样。 ok, 那 这一次的话我们一共是三道题,每一道题都不是玩具登陆,第一道的话是这个图片生成的这一个 aint 的 项目,让他从另外一个比较复杂的项目里面 把它迁移过来。那第二个的话是我把一个终端的 c y a 技能让它做一个全站项目。那第三个的话,我们会把这一个模型千万三点七 max 接到我的一个内容分析 a 技能里面,看它整体的一个表现情况如何。好,下面我们来先测试它整个的一个编程能力, 那这两道测试题的话,也是我真实的项目,并且我们在以往的几期大模型评测的这个视频里面都有。那像之前那期视频的话,像 deepsea v 四 pro 和智普的五点一,我们都做了一个评分,那期视频 对于这个图片认证这个项目的话,质谱的是会好一些。第二个的话,呃,我们这个 skills agent 的 话是其实大家差不太多,也是质谱的会好一些。哈,那这次我们就把同样的这一个啊提示词,同样的模型,我们就接进去看一下这个千万三点七 max, 它在编程方面表现怎么样。好,我们来看一下我们的这个试测的过程, 那两个项目的话,都是我自己的一个项目嘛,都是 a 级的项目。那关于图片生成这个项目的话,在以往的测试里面,国外的模型像 g p t 五点五啊, cloud opt 四点七啊,它们也是能一次性把这个任务完成,并且效果也还可以。那千万三点七 max 这边的话,文整整体测试下来,它遇到了一个小问题,就是 关于数据库表结构的,那整体它的这一个长城任务测试这一块,其实也是跟官方的描述相符合嘛,因为我整个的这个测试过程哈,它进行了两轮这个对话的压缩,那右边这个的话,就是把我们的一个 c o i agent 把它写成这个外部 u i 嘛,那这个任务的话就相对来说要简单一些。 好,下面我们就来看一下它整体的一个完成效果,看一下它跟就是 deepsea v 四 pro 智普的五点一整体大家的一个 u i 上的一个展现。怎么样? 完事之后呢?我们还会把这些代码加密之后,再交给就是管理这些模型,让它们分别去站在各个角度,各个维度去 review, 最终得出来一个合理的一个评分。好,下面我们来看一下它整体的一个表现情况。那这边的话,这个网页是,呃千人三点七 max 去做的,就是落地页嘛,落地页完了之后,还有就是它要需要去做 谷歌 github 的 认证登录,我们来试一下。 ok, 它这边可以看到是可以的,能读到我们的这一个信息。好,我们再来看一下这个谷歌认证登录, 可以看到谷歌认证登录也是 ok 的。 好,我们来看一下 deepsea 的, deepsea 的 话,这是它落地页,落地页的话稍微会差一点,那其他的话就不测了,因为之前视频已经测过了。我们来看智普的,智普的话,这是它的落地页,情况 都还行吧,大家这个落地页的设计都已经是相对来说提升比较明显的,最关键的是什么呢?就是它的后端代码实现已经相较于 前几代模型已经提升比较明显了。前几代模型的话,我在那个对话要对话好几轮,反反复复的让他去做,就是在对于长城任务这一块的话,这几代模型其实提升都挺明显的。 第二个的话就是我们这一个 still agent 嘛,这个的话原来是在终端上的,我们把它做成一个 y 不 y, 那 整体的这一个实现效果的话,其实也还 ok 的。 这三个模型啊,第一个是 千万三点七 max, 它所实现的就是我们给它一个啊,给它一个链接,它可以去帮助我们去加载我们本地的这个 skill, 然后去做跑一个总结类的任务。第二个的话,这个是 deepsea 的, 大家其实都差不多,但 deepsea 这一块的话,它 u i 展现上会有些小问题,那 我们的字谱这边的话,其实也还行吧,就是大家实现的也还行, u i 上的话还是有待提升的好,下面我们来看具体的一个代码评分情况,因为光看 u i 交互的话,其实大家模型都大差不差的,我们只有把它写的代码去看了, 到底有没有问题,尤其是像我们这个图片生成 a 镜头,那我们加了这个用户认证体系之后,那每一个人他的这些 c 型啊,他的这些聊天要隔离嘛,对不对?那之前的一些模型的话,像 deepsea 它也会有一些 问题,就是它的这个用户归属这一块有些问题。我们来看一下这一个啊,千万的评分,那这次测出来的话,其实千万跟这个智普的五点一相差不大,那这边 ai 给到的评分的话是会高一点点,它有些优势啊,就是它的落地的这个质感嘛,相对来说会好一些, 那也会有些小问题,就是登录进去之后,它的一些小头像的一些体验会有些小问题。那第二个的话,就我们这个 skills ag 呢,它这边的评分的话是八点四分, 是会比这个字谱的稍微会低一点,那也会比 dipsic v 四的会好一点,主要的优势改进点的话,它这块也写的有,我就不一一的去念了。 整体来说就是千万这一代的模型啊,在编程上面会比上一代我觉得提升真的比较明显。还有它跟这两有一个最大的区别,就是因为它是原生多模态输入的,这就很符合我现在用的一个工作场景,因为我在实际的编程过程中,我是大量的需要去这样去截图,然后丢给 ai, 让他去帮我指哪打哪去改。 那以往的话,国产模型这一块就是我没有一直用的一个原因,就是它在多模态的输入这一块体验不是特别好。那这个千万三点七 max 的 话,在这一块其实还是挺 ok 的。 好,我们来看一下我们这个内容分析 agent, 我 这边也是把它就是千万三点七 max 接进来了, deepsea v 四智普那些都接进来撤了,也是基于我同样一个 视频链接,然后让他去分析做语音转录,转的完了之后去拆解,得到了一个整个的一个拆解报告。那千万这个模型呢?从这个拆解来看到它这块时间错也是拆解的是对的。 关于下面的这个爆款元素识别,也是符合我当初做这个视频的一个设定。那这个的一个对比的话,跟 deepsea 微视去做对比的话,其实你人为主观去判断就不太好判断了。 那我这边也是把这三个模型所产生的这个分析结果嘛给到了,下载 g p g 五点五这个模型,还有谷歌的模型,让他们去做评测。好,我们下面来看一下整个的一个分析情况,那它这边给出了千万三点七 max 的 话,是更适合内容的一个生产 a 检测,那 deepsea 微速更适合一个深度复盘,那我这几期视频关于做国内模型横屏 都基本上得出来的结论都差不多。那智普这边的话是一个更适合结构化脚本的嘛? 国内模型这一块的话,他接到 a p a 里面大家都知道非常非常便宜,如果大家有这种需求的话,我强烈大家用国产的模型,像我们这个内容分析 a g 的 话,其实我这一块是有做这个封面识别的,就是有个多模态。那但在我们刚刚的这一块看的话,其实千万三点七 max 它是会有优势的,因为我会把这一个封面图片给他 放进去再做分析嘛。那 deepsea v 四 pro 跟智普五点一的话,现阶段他们是没有多模态识别的,也可以看到,其实我在这边也加了这个多模态嘛,就是 它如果有多模态之后的话,我们就会把这个图片理解给它加进去。好,下面我们来进行一个整体总结。那千万三点七 max 这一代的话,我感觉是比它上两代都提升比较明显,而且是真的可以接到你的这一个编程 agent, 不 管是 cloud code 呀,还是别的一些 agent 里面去,而且你也可以买它的这个 token private 套餐都还可以, 只不过不好一点是不太好抢,就跟这个智普这个模型一样,那内容分析 agent 的 话,如果你不需要多模态,你就用 deepsea v 四 pro, 如果你需要就是需要把这个封面呀,或者你要需要去把这个视频里面抽帧,抽出来之后让它去分分析分解,那你就用千万三点七 max, ok, 那 这就是这一期视频所有内容了,如果大家觉得这期视频做的不错了,可以给我一键三连,我是阿江,我们下期见,拜拜。

五月二十二日,阿里云宣布, quin 三点七 max 已登录阿里云百变平台,用户可直接调用 a p i 模型,输入价格每百万 tokens 十二元,输出价格每百万 tokens 三十六元。此外,阿里云百变 token plan 订阅服务也已上线 quin 三点七 max 订阅,用户可直接使用该模型。

户外直播使用聚合路由器是怎么收费的呢?聚合路由器他一共有三项费用啊,首先我们在使用聚合路由器的时候,设备你已经到手了啊, 我们需要插三张手机卡吧,这三张手机卡在使用的时候,他需要跑流量,所以你需要向各个运营商去交这个流量的费用啊,套餐的费用,这是第一项使用费用。 第二项费用呢,就是我们在使用这个聚合路由器的时候,他需要一个中转服务器,所以你需要租用一个阿里云的服务器,不怎么租,不用担心啊,这个我们都管啊,就是我们都帮你弄好,你只需要这个实名就可以了。 那么阿里云的服务器呢?是二百多块钱一年啊,就这个服务器呢,这么一个空间,就是你自己用啊,不要使那些公用的服务器免费的, 人多的时候就全卡死了,所以这个服务器很重要。第三呢就是当我们所有的直播数据通过多个通道上传到这个服务器里的时候,在这个服务器里进行整合, 整合了之后呢再整体的推流出去,所以这个服务器干活了,他还要收你八毛钱一个 g, 所以 综合呢就是三种费用。不过你觉得听着很麻烦的话,你可以这么理解, 就是当我们查手机卡都查满的情况下,我们用手机进行无线直播,对吧?手机是可以连接他的 wifi, 手机进行无线直播的时候,我们手机每个小时是一到两个 g 的 流量消耗,总体的使用成本平均下来就是每个小时两到四块钱手机直播, 那么如果我们要是用电脑直播的话啊,我们用电脑直播通过网线连接给电脑直播伴侣推流的话,他每个小时的流量的使用量大概是四到六个 g 每小时,也就说总体的成使用成本到六到十块钱一个小时, 就是我们用电脑直播,我们用相机直播,对吧?我们用直播万里推流,那么你用聚合路由器的这个网络的总体的使用费用呢?就是四到六个 g 每小时啊,总体的使用费用就是六到十块钱一个小时啊,这就是他的使用成本,如果这个使用成本你能接受你就买,如果是这个使用成本你接受不了,你就不要播户外了,因为 对于我们户外直播来说,流量只是消耗的一部分,你还有人力还有设备损耗,对吧?其他的都是费用啊,就如果这个网费啊,你都接受不了的话,你就在室内播一播就可以了。

三个月啊,三代起见,千万从三点五到三点六,再到这两天阿里云峰会上刚发布的三点七 max, 这个迭代节奏啊,其他厂商是很少见的。二月份千万三点五刚出来的时候呢,百万 to cap 八毛钱,当时给我最大的感受呢,就是便宜还能打。后来三点六出来了,我接到了 hermes 框架里,跑了两周多做 ag 的 任务,明显感觉呢,模型在工具调用和上下文推理上呢,是更稳了。 现在三点七 max 来了多个第三方评测里,国产第一推理和 ag 的 能力上部分指标甚至超过了 cloud ops 四点六,但跑分呢,它只是一个维度,我更在意的是它实际干活的时候,差异到底体现在哪里。 我自己做了两个测试啊,第一个,我扔了一段很长的 promontory 给千万三点七和 cloud ops 四点六,让它们各自从零搓一个完整的二 d 的 物理引擎,碰撞重力,多个预设场景全塞进了一个 h t m 文件,不允许任何的外部依赖。 你们看啊,千万三点七的成本率呢,是很高的,但跟 opus 四点六呢,还是差这么一点。不过你要知道啊, opus 是 目前公认编程能力最强的模型之一, 千万三点七能打到这个程度呢,可以说是稳稳的站在第一梯队了。关注我的人都知道,我最近做了个工具,可以在可拉到桌面端里把底层的模型换成第三方呢。我第一时间呢,把千万三点七接进去,跑了一圈,发现它在工具调用上呢,有一个很明显的特点,同样的任务啊,千万三点七在执行的时候会主动调用 ask user question 的 工具, 多次确认问题参数,格式规范,选项覆盖呢,也很全面。看起来呢,是多了几轮交互,但反过来呢,总轮次是更少了,这样呢,就大大减少了后面的反攻。 官方这次定位呢,也很明确,叫全能的智能体的基座什么意思啊,不只是聊天聪明,是真的能长时间的独立干活。他们自己呢,也做了两个极端测试,同一个代码优化任务呢,给了多个顶级的模型去跑,有的跑到了三倍就停了,有的跑到了七倍。前面三点七呢,跑到了十倍,连续自主编程了三十五个小时, 开上 ai 去模拟经营一家创业公司,跑完一整年,招人,签合同,识别恶意客户,控制成本千万。三点七的营收呢,是上一代三点五的将近六倍。官方管这个叫做长城持续推力,也就是长时间干活,不掉链子, 还能越干越聪明。千万三点五出的时候呢,我就说过,性价比这条路呢,算是走通了,现在三点七出来,我觉得可以再加一句,阿里在 a 阵的这条路呢,也开始找到感觉了。至于能走多远呢,我还会继续更新。你们有在用千万的评论区聊聊你们的题感?

千万又出手了!赶在五月二十日阿里云峰会开幕的前夜,昆三点七系列的首批预览版直接空降 l m r 瑞纳大模型盲测平台。这次的测评分数依旧漂亮,但到了真实高容错率的业务环境里,还能不能这么稳?此刻还得打个大大的问号。这次昆三点七的测试策略透着一股不加掩饰的野心。 这次的预览版直接切断了网页搜索和代码解释器,强制锁定了深度思维模式。阿里的意图十分直白,就是要向全世界展示他最底层的逻辑和推理能力。 但话说回来,这种刻意剥离了实际应用场景的极端测试,确实更容易在特定榜单上拿到高分。把外挂一拔,在真空环境里证明自己足够聪明是一回事, 我们来看一下他的成绩,嗯,也远没到毫无对手的地步。文本综合 quin 三点七 max preview 冲到了全球第十三名,这也是目前排名前十五里唯一的一个国产模型 细分领域。数学排第七,软件与 it 排第九,代码生成排第十,视觉评测款三点七 plus preview 拿到了全球第十六的位置。结合阿里大模型实验室整体在文本第六、视觉第五的排位,事实很清楚,阿里的研发底座已经彻底稳住了,不再是过去那种忽高忽低的状态。 此前困核心灵魂人物林俊扬离职,圈内一度普遍唱衰,认为通一千问的研发节奏必将遭到重创。但从三点五、三点六再到如今的三点七,阿里用连续的高频更新给出了极其冷酷的回应。 技术迭代已经不再依赖某一位天才的个人发挥,他们通过持续的增量训练,硬生生趟出了一套高度标准化的工业流程,先发预览版打榜制造声量,紧接着在峰会上推正式版。这套打法不仅成熟,甚至已经成了阿里精准拿捏市场预期的良谋。选在这个时间点放榜,为明天阿里云峰会造势的意味再明显不过。 带着榜单上的光环去开一场发布会,说话自然更有底气。但对于真正要用它干活的开发者来说,分数高低从来不是最重要的。这种测试版的数据再华丽,也不足以让人彻底信服。 大家真正在等的是明天正式版,把搜索代码等全套工具重新接入后,去处理那些真正棘手繁杂的日常任务时的表现。国产模型的高频迭代确实在极速缩短技术差距,但这绝不意味着跑赢了榜单就能掌握绝对的主动权。

五月十九日阿里云官宣峰会将于五月二十日举行,通一千万官网晒出预热海报,透露重量级新朋友即将亮相。同日,千万三点七杠 max 杠 preview 与千万三点七杠 thinking 杠 preview 正式开园, 上下文窗口扩展至二十五万六千,代码能力超越 gpt 四点五。

号称国产大模型全球前三十次翻车了,我们上百号研发人员用了三个月,智普 glm 大 模型全员 ai 提效已经跑通了。结果千文说尽全球前三了,还送八十亿 tokens, 大家就切过去试了。 试了才发现,让 ai 自己装个工具包, glm 先插文档给方案,千问跑了半天说不知道这是啥。更狠的是,四组对照实验,同一视频主题跑两个模型, glm 做出三十二份,千问只有二十一份。差距最大的是视觉, glm 能做六种特效加角色动画,千问连个动效都没有。 选大模型,别看排名,看实战营销,说全球前三代码面前可不配合你演戏。你在用哪个大模型?评论区聊聊,关注我,每天更新!

还在纠结选哪款大模型做开发,搭建智能体育代码编程,别再踩坑高价稳定性差的模型了。昆三点七 max 现已上线阿里云百联平台,全面支持 api 调用。它擅长复杂逻辑推理、 代码开发调试,还能支撑智能体三十五小时超长任务,上千次工具连续调用,表现稳定强劲。定价十分亲民,输入十二元每百万 tokens, 输出三十六元每百万 tokens, 性价比突出,长期使用可大幅降本。接入方式简单,无需复杂部署, 适配盖码开发智能体搭建、办公自动化、科研预算等场景合规,安全,运行高效。个人、开发者、工作室及企业项目均可放心使用。需要接入方案欢迎留言咨询。

阿里云吓疯了,惠安三点六 plus 限时免费,还联手 hermes agent 搞原生 ai 代理,这对开发者和 ai 爱好者来说是一个很好的体验窗口。 newspot 提供三百多个模型入口, 还能整合 tokens、 付费工具和账单,让模型调用和 a 键它搭建更省心。简单说,如果你正在关注多模型协助 a 键听应用,或者想试试宽三点六 plus 的 能力,这次可以直接上手体验。关注我,每天带你拆一个正在爆发的 ai 新趋势。

还在纠结用什么大模型做开发,跑智能体做代码编程?别再踩坑高价又不稳定的模型了。目前, qm 三点七 max 已经正式登陆阿里云百链平台,支持 api 调用,不管是复杂逻辑推理、全场景代码开发调试,还是超长时智能体自主任务执行,全都能稳稳拿捏,可独立完成三十五小时超长任务,上千次工具调用。 重点说大家较关心的亲民定价,极具性价比,输入仅需十二元百万 tokens, 输出只要三十六元百万 tokens, 企业开发工作室落地,个人项目实操,长期用能省下一大笔成本。 而且接入超级简单,调用 api 即可,无需复杂部署,适配智能体搭建、代码工程开发、办公自动化、科研、算力运算等各类场景,合规、安全、稳定、高效。不管是个人开发者自用,还是企业长期项目落地,想要接入方案的,欢迎留言。

里发布宽三点七 max, 号称最强 agent 模型,支持一百万 token 上下文窗口,是上一代的将近四倍,可自主运行长达三十五小时。 这意味着它能独立完成非常复杂的长链路任务,参数规模超万亿,训练数据约三十六万亿。 token 在 二零二六阿里云峰会上亮相, 代表了国产大模型在 agent 能力上的最高水平。百万 token 窗口意味着什么?它可以一次性读完几百本书,分析整个代码库,处理海量文档,而不会忘记前面的内容,这对于需要长城推理的任务来说是质的飞跃。

ai 智能体新时代正式开启!阿里云重磅发布千万三点七 max 旗舰大模型,稳居全球第一梯队,是国产顶尖的智能体核心底座。它彻底摆脱传统聊天 ai 局限,可三十五小时连续稳定运行千次,工具调用性能不衰减,编程能力行业顶尖。支持工程开发、 gpu 内核优化, 搭载百万级超长上下文委托 mcp 协议,实现多智能体携同办公,兼容各类主流框架,兼具企业级安全合规,可 自主完成办公、编程、企业决策等复杂任务,全方位拉升个人与团队生产力。想体验部署,随时联系千言关注我,让 ai 更好地服务于你!

我去,真太猛了啊,我花了五百块钱,干了一单五千块钱的活。前两天阿里的千万不是才发布了三点六 plus 的 编程模型吗?刚上线一天啊,就消耗了一点四万亿的 token, 直接刷新了全球的记录。但这个啊,不是重点啊,重点是他正在把一个人的能力提高三倍。比如我 前文三点六刚刚出来的时候呢,我就上手了,在百联平台里面,我昨晚啊,连夜升级了公司的后台和公司的官网。你瞅啊,咱们不仅用上了最新的 gs 代码,还直接升级到了最新版的 thinkpht, 这一晚上总共花了我五百多块钱。按照以前这套逻辑啊,这活咱得找外包,至少得干个一周吧,对不对?你起码得花个三五千块钱,还得反复沟通。但这次不一样了,我只花了五百块钱的回费,一晚上直接干到了九十分。 难怪千万在一天就跑了一点四万亿的投坑,难怪刷新全球纪录。我觉得这个才是千万大冒险真正可怕的地方,他把你的工作效率整整放大了三倍。 后来我用完之后,我就在想啊,就是那些还在靠堆人力堆砌技术的公司,路在哪?以后的老板大概率不会问要不要招多少人了,而是直接开始问你能不能把 ai 用到极致。 当五百块钱干了五千块钱的活,当你的能力提升了三倍,当一个人的效率等于一个部门的时候,那么未来淘汰你的肯定不是 ai 了,而是会用 ai 的 人。

千万三点六二十七 b a w q 本地不足四卡币,一百四张卡币一百,每张卡跑起来一百四十多瓦,好吧,看一下这个速度 very 快, 最后看一下多少透,可是每秒好了,也是写完了,来看一下, 一百三十 tux 每秒来个官网看一下官网是什么速度,拿官网来对比一下,同样的提示词,这个是官网的速度。没错,阿里云百炼官网的速度,本地部署的下来,我们已经不输官网的速度了, 或者再给他来一个这个速度,只能说写他飞起来四张卡一百,每张卡一百五十多瓦,也就六百瓦,功耗也还能接受。 ok, 写完了看一下,每秒一百二十次投粉丝每秒 看一下,预览一下。我去,很不幸的是我这个键盘他没有上下键,没招了,这就是一开的 vm, 一 点零点零。