八毛钱呢,在今天也就是半个馒头的钱,但在 ai 圈呢,现在可是一百万 token 的 价格。今天可是除夕啊,阿里正式开源了新一代的千万三点五系列, 我想这大概就是科技圈最卷的拜年方式了。这次发布的企业模型千万三 plus api 价格呢,直接达到了每百万 token。 八毛钱什么概念啊,这可是谷歌 gmi 三 pro 价格的十八分之一,而且阿帕奇二点零的协议,全尺寸开源,不管你是个人开发者、学生还是中小企业,都能直接免费的商用。 以前我们都知道最强和最便宜的这两个词呢,它是不可能出现在同一模型上的,要么性能顶级贵的离谱,要么是便宜呢,但是能力打折。千万三点五 plus 这次不仅是价格地板价,性能呢,更是直接硬钢了。这俩币源顶流登顶了全球最强的开源模型, 支持的源数量呢,也扩展了两百零一种。就因为这次用上了极致稀疏的 m o e 架构,传统模型呢,是所有参数同时干活,参数越多呢算的越贵。 m o e 的 思路呢,是按需激活,你问一个代码问题, 他就激活擅长代码的那组专家,你问数学题呢,他就切换到了数学专家,等于三百九十七币的知识储量,十七币的算力消耗不熟,显存占用直接降了百分之六十,推理速度快了八倍,这就是省钱的原因。 而且他还是原生多模态,不是后期拼装的视觉模块。从预训练第一天起呢,就是文字和图像混合数据上一起预训练的,天生就能看懂图片和视频,这种就很像当年的 linux, 当一个最好用最便宜最聪明的模型是开源的时候,他就会成为整个行业的空气和水。 以前要花大价钱才能用上,能力呢,现在门槛被技术本身再次拉低。摩达社区哈根 face 千万 a p p 千万披萨呢,现在已经可以体验了。不知道阿里这一波 ai 半年啊, open ai 和 google 看了是什么心情。
粉丝1.2万获赞19.5万

ai 圈啊,真的太凶了,除夕夜呢,阿里又发大招,上线旗舰新模型千万三点五,据称啊,是原生多模态,激活参数更少,智能体能力更强, api 接入价格更是只要每百万 八毛。这是目前一些主流的 ai 模型的 api 接入价格啊,千万三点五呢,比 g p t 五点二便宜了整整十五倍,比科奥的便宜四十五倍。这么便宜的旗舰开源模型, 炒分看起来还比肩世界顶流与三家。为了验个真伪啊,我看到消息呢,就带你们测试去了。目前啊,千万三点五已经可以在 q n chat 免费使用,如果呢,想要测试编程能力,可以去阿里云百链接入 a p i。 那 我呢,就把自己的品牌手册 pdf 和商品图丢给他,让他呢帮我做品牌官网, 他呢就可以读懂 pdf 的 内容,还能精准识别每一张产品图,自己对号入座。我把前几天做的 ai 教程给他,让他自己做个网站,他呢提取了视频当中描述的这个模型特点,直接帮我做了个卖模型的网站,类比我当时测 gmi 三 pro 的 案例,现在 用千问三点五处理这样的三 d 游戏也完全不是问题了,有粒子特效,还能自动配上音效。小男孩面对这种游戏啊,哪有什么抵抗力,这不过年了嘛,我还会让我九岁的侄子提需求,他想怎么改啊,我们就让千问现场改带娃的互动性啊,也是 plus 了,一整天测下来,我跑了几十个案例。 确实啊,千万三点五的能力啊,目前已经可以算是世界顶尖模型了。我呢也去翻了他们的官方文章,里面呢介绍了模型用到的新架构,很显然啊,这次突破是架构创新带来的直接结果, ai 的 使用门槛正在一步步被技术本身推倒。目前世界上顶尖的 ai 能力 已经开始从高算力、高成本的壁环当中跳出来,成为个人、开发者、创业团队,甚至每一个普通中小企业都能随时调用的底层基建。这其实让我联想到最近爆火的 open cloud, 作为一个私人 agent, 它呢,需要分布处理,执行多个任务,消耗托克的量非常大。要是你们自己装过,你们肯定知道,如果大家直接给自己的 bot 配置上高价的闭源模型驱动,那个账单啊,真的会让你惊掉下巴。那这时候,像千万三点五 plus 这样的模型,就可以在性能强大和性价比之间找到一个合适的平衡点,真正让普通人也能用得起二十四小时随时在线的全能 ai 助手。这个呢,对开发者、企业和学生教育类的用户啊, 尤其友好。接下来啊,千万三点五可能还有其他尺寸的量化版本和更强的王炸版本会陆续登场。我呢,会持续跟进这些模型的 api 调用、实测、长文本压力测试,以及它们在 a 阵的开发中的实际表现。如果你也关注开源生态的下一次进化,或者正在寻找更高性价比的 国产大模型替代方案,别忘了点赞关注,我会第一时间为你带来千万三点五全系列模型的深度评测,我们下期再见!

最近的阿里通,一千万被一杯奶茶挤崩,很多人都好奇,为啥双十一都能扛得住 ai 却扛不住?简单。 今天就用一分钟讲透核心技术, ai agent 智能体,他不是普通聊天机器人,而是一个全能的数字员工。你说一句,帮我点杯奶茶,他要先听懂意图、识别口味、查定位、三门店 和库存算优惠、对接支付。一整套流程下来,后台要反复用大模型推理十几次。 传统电商只是查数据、改库存,清量又简单,但 ai agent 的 每一次交互,都要遭 gpu 算力这复杂的逻辑判断。 百万用户同时涌入,瞬时并发,直接计算算力、接口、服务三层瓶颈。这次崩溃,不是技术不行,而是 ai 智能体第一次直面全民级流量, 它标志着 ai 从纯对话走向能干活、能执行、能打通全电路的实用阶段。而这杯奶茶,就是 ai 在 落地时代的一次压力测试。

除夕夜别人都在放鞭炮,阿里直接放新模型,困三点五三百九十七 b a 十七 b 呢,正式开源了,这次呢,不是参数再大一点的升级,而是架构层面动刀, 它是一款原生多模态模型,就不是那种视觉,一个模型语言一个模型,在推理的时候呢,做一下拼凑, 而是从训练阶段开始啊,图像视频文本就混在一起学,属于从底层就打通了。参数呢是三千九百七十亿,用的是 m o e 的 混合专家架构,每次推理呢,只需要激活一百七十亿参数,简单来说呢,就是三百九十七币的脑子,只花十七币的电费,再加上啊限行注意力, getty dotnet 上下文呢,直接给到了一照支持二百零一种语言,速度呢,比上一代更快了,成本却更低。榜单成绩呢,的确很好看啊,但是呢,我们更关心另外一个问题,就是这些听起来很猛的架构升级,到底能不能够实际落地呢? 他能不能够真正做到看图,搜信息,写代码,读视频,一条龙完成?所以说今天这个视频呢,我们就不看榜单,不念指标,直接上真实任务, ok, 我 们现在开始。 那我们首先呢,丢给他一道之前很多模型都翻车的问题,我会问他啊,我想去洗车,洗车店呢,离我们家五十米,我应该是开车过去还是走过去,那很多模型呢,可能会下意识的回答,走过去更加环保,但忽略了一个关键点,就是我们洗的是车,而不是人。 困三点五呢,直接是抓住了这个问题的核心逻辑啊,车还在家里,最终呢,是必须要把这个车开过去, 他没有被距离很近这种表层信息带偏,而是理解了真正的目标。那这类题目呢,不是很复杂,但是他很考验啊,场景理解的一个能力。 所以说接下来呢,我们就把这个难度再拉高一点,我这里准备了一张电影截图,我会跟他说这部电影呢,我有点印象,但是具体的剧情,主演导演是谁我已经记不清了,你帮我做一个详细介绍的 html 网页, 我们点开看一下他的这个执行过程吧。那首先呢,他会识别图像,从而确定这是哪部电影,然后他就开始获取电影阿甘正传的一个详细信息了, 紧接着他会开始整理信息,并构建结构化的内容。最后呢,生成了这样的一个网站,我们现在呢,把这个网站下载下来,看一下它的效果。整体的这个电影脉络呢,他已经是梳理的非常清楚了, 不过呢,他这边是没有去搭配啊剧照图片,而且整体的这个紫色配色还是有些单调的,对吧?那于是呢,我就去啊,让他再加一点剧照,然后改一下这个电影感的配色。稍等片刻呢,他就开始去搜索相关的一个电影剧照了。然后呢做了这个配色 ui 的 一个调整,我们再次看一下它的这个效果, 那这一版呢,整体内容就更加丰富了,对吧?而且呢,他每一个经典的画面都会有这种匹配的剧照,这个呢,其实就是一次完整的多默契协同任务啊。从图片的这个理解,到互联网搜索,再到最后的这个网站代码的编辑落地,大家觉得他做的怎么样呢?可以在弹幕给他打个分啊, 那接下来的话呢,我们来测试一下它的这个代码能力和任务规划的能力啊,我这边呢使用 open code 来做,来到 open code 的 配置文件,首先呢我们需要去修改这个 base url 和 api key, 那 这些信息呢,大家可以在百联云平台获取。 配置完成之后呢,我们输入斜杠 models 来切换这个 queen 三点五 plus 模型。那这次呢,我们做的不是一个小 demo 小 游戏,而是呢直接让它在一个现有的后台里面做一个完整的电商后台 mvp。 并且呢我对范围做了一下控制啊,只需要做商品管理,订单管理, 库存扣减以及基础的一些状态流转。并且呢我们这边只需要去完成管理端,不需要去做小程序。那我把这个需求调给他之后呢,他没有开始直接写代码,而是先分析需求,拆解模块,规划结构, 这一点呢是很关键的,因为真正的工程能力啊,不是说你速度有多快,而是思路是否清晰,在任务执行的过程当中呢,他会边思考,然后边调用相关的工具。这种连续的任务推进呢,其实就是原生视觉语言模型的一个优势 啊,所有的步骤呢,都在同一个模型当中去完成,而不是拼接式的写作。在数据库部分呢,它设计了这个 product order, order item, 还有 user 这些核心表,库存校验啊,订单状态啊,也都是考虑进去了。 后端层面呢,它也做了这个代码分层,结构是非常的清晰。前端部分呢,它生成了商品列表,页表单页和订单管理前端后端数据库都是在协助推进的,项目也是可以直接启动并运行的。来我们看一下它的这个实际效果,商品列表搜索,新增上架、订单查询这些呢,都是可以去完美跑通的, 从任务规划到最终的代码落地,它没有出现结构混乱或者是推翻前面设计的这种情况,整体的逻辑啊,还是非常的连贯的。同样的任务呢,我之前也用这个 gmail 三 pro 测试过啊,虽然说两者最后都能够把这个项目给做出来,但是昆三点五呢,它这边是开源模型,而且 api 成本是更低的, 那如果说两个模型能力接近,但是其中一个成本更低,步数更自由,这对开发者来说意义就不一样了。如果是我的话呢,我会选择做的到但是更划算的那一个。最后呢,我们来测试一下他的视频理解能力啊,那这里呢,我准备了一个小游戏的测试视频,我们把它上传上去, 我让他呢自己去读懂这个视频,然后复刻这个小游戏。首先呢,他会去分析这个游戏的核心机制,玩法与视觉风格。接下来的话呢,他就开始构建游戏的一个视觉与交互框架。最后呢,他开始用 html 代码编写游戏。 ok, 现在他已经全部写完了,我们下载下来看一下效果。 整体功能界面我觉得还原度还是很高的啊。星空的背景,星空的元素大家可以看到,而且呢,在生命值这个地方,它没有去像呃原来的素材那样继续去使用数字,而是采用 icon 来代替。 并且呢在 level 这里,他也会随着数值越大,游戏难度相应增大,整体可玩性我觉得还是非常不错的。 ok, 那 到这里的话呢,四个 case 就 已经全部测试完毕了啊,从图像到搜索,从文本到代码,从视频到程序,这种端到端的能力呢,正是原生视觉原模型想要去解决的问题。 那这条视频呢,其实只是一个开始啊,后面我们还会继续用更加复杂的业务系统,甚至是多轮智能体写作。 如果说你对上面某 case 印象深刻,或者说想要让我去加大难度,可以在评论区告诉我。那现在呢,这个 quan 三点五相关模型啊,已经是开放使用了,大家可以在掐点 quan, 点 ai 或者是摩达社区使用。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频,再见, peace!

今晚有两场春晚正在上演,一场是央视春晚,再搁在五万家团圆。另外一场是科技春晚,平地惊雷,重塑未来。就在刚刚,千万春节档真正的杀手锏来了,阿里正式开源了全新一代大模型千万三点五 plus。 可能有人会问,这模型有啥特别的,为什么可以称之为杀手锏? 就这么说吧,如果用七个字来概括它,那就是又快、又强、又省钱。相比上一代千万三 max, 千万三点五 plus 推理速度快了整整八倍, 除显存占用降低百分之六十。更夸张的是,在性能相当的情况下,宽三点五 plus 每百万 token 只需八毛钱,几乎是 jama na 三 pro 的 十八分之一,成本大降百分之九十五。过去几年,大模型圈信奉大力出奇迹,各家都在圈参数、拼榜单,参数从千亿堆向万亿,性能确实在涨, 但代价也居高不下。但千万三点五的出现,就好像为大模型行业开辟了一条全新的道路,他不比谁更大,而是比谁更聪明,比谁能用相对更小的模型,借助技术创新获得更大的智能,说白了,就是花更少的钱,办更大的事。这样一来,大模型之间的竞争直接拉到了好用、实用、用得起的新维度。千万三点五的实力到底如何呢? 在 m m l u pro 认知能力测试中,千万三点五拿下八十七点八分,超越 g p t 五点二。在博士级知识挑战 g p q a 中,以八十八点四分力压 clod 四点五 r, 在 指定遵循 if bench 榜单上以七十六点五分刷新历史记录。而在通用 a 阵评测 b f c l v 四搜索 a 阵评测、 broscom 等基 准中,千万三点五表现均超越 gemini 三 pro 技术向下扎根,应用向上生长。阿里不仅在模型曾追求星辰大海,也在产品端深耕人间烟火。 一个月前,千万 a p p 上线超过四百项 ai 办事功能,成为全球首个能完成真实生活复杂任务的 ai 助手。今年春节,数千万用户通过他点奶茶、买年货、订电影票,在日常点滴中切身感受到 ai 带来的便利。如今,随着 ai 阵的能力在快三点五中大幅增强, ai 不 仅将拓展技术的变 边界,也将进一步打开他在工作与生活中帮人做事的可能性。正如昨天千问总裁无加回应千问爆火时所言,阿里会一直追求模型的智能水平和先进性,两者合起来就是我们一直坚信的技术,不仅要追求星辰大海,也服务人间烟火。


有人说 openclaw 是 ai 出现以来与大家最相关的一次,它超出了传统以往的人机互动的模式,这才是 ai 带来的便捷性的技术。那么我们今天来配置一下 openclaw, 因为其实我可以预计到在未来的一年甚至五年的时间之内, 会有很多的 ai 的 账户会涌入到我这个云里面,甚至有些个别的云里面的账户,我应该会把它配置到本地的呃账户里面去,所以目前会先暂时的先小试牛刀,先测试一下它是怎么样的效果把。 本来用 ai 主要的目的呢,是想让他帮助我去处理一些日产事务性的工作,比如说早上要给我发一些汇报性的一些总结的文案,以及是呃昨天的销售的情况,然后去统计啊过去这一周 发生的事情大概是怎么样子,然后并且去合理的分配给我的每一位同事和包括我自己,也就去收集一些啊外网发生的一些信息,比如说关于这些电商,关于这个抗衰行业到底发生什么样的变化,然后第一时间同步给我,然后与其我这样子,我就可以去看现现现今的这些技术,然后成分, 然后可以迅速的跟得上这个时代的变化。现在是二十二点五十九分,我们来看一下我们大概多久能把它部署完毕。常见的配置 open core 呢?可以有一个本地的服务器,然后再加上 token, 或者是一个云端的服务器加上 token。 我 呢一般比较喜欢用腾讯云,所以我就直接买腾讯云了。国内目前的各种云其实把 open core 已经研究的非常透了, 我们打开了腾讯云之后,直接到它的服务器里面买一个最普通最常见的六十八块钱, 个人认证完以后就可以享受一年的费用六十八块。然后我们直接就买好,购买成功直接去长按服务器。好,现在看到这个服务器直接点进去就行了。然后呢,我们就可以根据腾讯云的 opencloud 配置模型跟通道一个一个来配置。 这里面说一下,因为我点进来之后,我选的模型是统一签问的,所以下面有个链接会让我去到阿里云,阿里云里面注册,并且去创建一个新的 key 就 可以。然后我创建新的 key 呢?其实是在这里,然后在描述里面我可以写上就说是 open 啊,然后就点击确定 一样的,飞书那边也有非常详细的这个啊, api 跟 secret 那 个调配的文件,然后直接把它复制过去就可以。比如在腾讯云上它就有个专门的 open cloud 啊,快速进入飞行飞书的指南,然后上面有非常详细的教程,我们再来快速的做一下。 好,现在我的资料都添加成功了,千万跟飞鼠都已经是配置成功了。 skill 我 现在暂时先不弄,目前是打了过去了八分钟的时间,然后一件比较好玩的事情,我在腾讯的教程里面看到了他同时用了用了两个 channels 和两个 models, 所以 我也来尝试一下,我是不是把混元也能加上去。 好,我现在把混元也加上去了,看他有没有成功。哎,果然他可以在同一千万跟混元里面可以加入多个, 那我可以自行把飞书给它加上去。企业微信,现在呢,我根据提示把抽签还有 encoding 的 这个 key 给它填进去,并且把 url 填进去。但是它提示我说域名的主体 未通过,需要配置主体与单件企业相同的或关联的域名。那我大概就明白了,就是说我的腾讯语音其实是个人的账户,然后我的企业微信是 啊,公司的账户,所以他两个其实是不同的主体,所以他暂时不能够通过。也就说如果我以后要用企业微信的话,那我应该用企业微信的域名去注册,这样应该能够打通。好了,现在大概二十几小半个小时时间,我已经把这个 open call 已经配置成功了。 中间还有个小插曲,就是中间这个企业微信的配置,如果没有的话,大概二十分钟就能搞定。现在在飞书上我已经跟他对话了,看一下 发了信息之后,他已经回复了, all right, that's good, hello, how can i assist you today。 现在配置完了之后,我第一件事情就是开始跟他去介绍一下我自己,就像一个博主讲过的,把它当做一个同事和员工来处理。 如果你刚开始认识了这个人,你是不是马上就跟他出去吃个午饭,互相再认识一下?所以我现在在做了。就这件事情,我现在要马上告诉他我的从事的行业以及我希望跟他是怎么合作,并且我跟他命名叫 claire。 且我告诉他的第一件事情是从明天开始让他去收集一些网络上面的信息,按照我的要求,每天早上九点钟发给我,我们期待明天早上九点钟是不是能够收得到他的信息。

朋友们大家过年好啊,各种 ai 的 红包领到了吗?现在呢国产大模型啊也来拜年了,大模型领域的元神千问在除夕当天呢,发布了开源模型的新版本千问三点五, 虽然说啊,最近好多新模型发布,但是呢,千问三点五确实是我最关注的,因为呢它是毫无疑问的开源模型的领军者,所以呢,我也第一时间啊去做了上手的测试。今天呢就来分享一下我的千问三点五的实际体验。 如果说啊,你也做了体验,那可以来聊一聊。首先呢是参数,虽然呢我对参数现在不是特别的敏感,但是还是想和大家快速的过一下千分三点五的整体参数情况,那这一次开源的呢是千分三点五三九七 b a 十七 b, 也就是啊,三百九十七 b 的 总参数激活十七 b。 那 这次模型啊,采用了创新的混合架构,将限性的注意力啊和稀疏混合专家呢进行结合,力争呢在能力,速度和成本之间啊去达成一个最优的结果。 那还有一点啊,要特别注意的就是千万三点五是一个原生的多模态模型,也就是呢,从训练之初啊,他就让视觉和语言在统一的表征空间当中去联合学习,这个呢也是目前模型发展的一个趋势,在 g u i 理解还有视频分析等场景当中呢,都可以做到一模到底了, 数字呢总是很抽象的。那接下来呢,我们就进入实际的体验环节,因为啊,三百九十七币的总餐数量,估计大家呢想本地部署也比较困难,所以呢,想体验的话,主要就是通过千万 chat 还有阿里云百链的 api, 那我们先到千万 chat 里来做一些热身活动,先试试它的推理能力。那最近啊, ai 洗车的问题在网上很火,很多的模型呢都翻车了,我呢就先来试一下千万三点五怎么样?那我这里告诉他啊,洗车店离我家五十米,那我要洗车的话,我应该开车去还是走过去呢? 这里呢,千分三点五没有翻车,他注意到了问题的关键呢是洗车,另外呢还提示了一下可以叫上门洗车的服务。但是呢,这个服务在国内多吗?反正我是没有体验过啊。 那接下来呢,我再让他去写一个祝福语来试一下。在中文方面呢,其实我觉得啊,谦问的表现一直是可以信任的,这个祝福语的水平呢,也是相当可以的,文字方面的内容啊,我就不想放太多的精力了。接下来呢,我们就来试一下多模态,感受一下呢它的原声多模态支持。 那首先呢,我想试一个场景,在春节期间啊,大家都会刷到很多的爆款的 ai 视频,那很多时候呢,都会去求提示词,那是不是啊,可以用千字三点五来去帮我理解。然后呢直接去复刻这个视频, 这里呢,我传一个看到的很酷的视频啊,然后呢让千问去帮我分析一下视频的画面的整体风格,还有色彩,运镜动作。那最终啊,给我提示词,来去复刻视频。那很快呢,千问呢就可以分析出来视频的内容了。 其实呢,很多时候我们做不出高质量的 ai 视频,就是因为我们自己啊,写不出合适的描述,那我呢也使用同样的模型来试一下这个推理出来的提示词,它的生成效果, 那基本上可以说啊,它的复刻程度达到了百分之九十以上。那我呢也用千瑞 chat 自带的这个视频生成啊,也试了一下,那因为默认啊,它生成的是五秒视频,效果上呢就会有一些差异,但大体上呢也能复刻,所以呢,说明啊,它的理解是没有问题的。 那这一次啊,千万三点五也特意强调了它在开发方面的提升,而这个呢正是我最关注的一个部分,同时呢千万 chat 也加了一个 web dev 的 功能。那我们呢就先来快速的试一下,开发一个 web 上的小应用。 那昨天晚上啊,春晚的哈尔滨分会场,我觉得非常的不错,那我呢就给谦问一张哈尔滨分会场的图片,让他啊帮我去用三 d 的 方式重构这个场景,那还要可以自由的缩放和切换角度,那代码生成的速度啊,确实非常快,稍等一小会儿就能拿到结果。 那从功能的完成度来说呢,非常不错,尤其是啊,还非常细节的注意到了烟花灯光还有人群的特效处理, 可以单独的去做开关,特别是人群啊,真是太细节了。还有呢就是预设的这个镜头和时间,可以说呢,他在我的基本要求之上延伸出了很多有用的细节的内容。 可能唯一需要提升的呢就是这个建模的细节吧,那能根据一张图片做到这种程度,总体来说是非常不错了。另外呢,这个外部 app 呢,是可以直接做发布的,那发布出去之后啊,你就可以把拿到的这个链接丢给别人去看和使用了。 那除了这种基础的小型外部的开发呢,我还想试一下这种复杂场景下它的开发效果, 那我啊就在 cloud code 里去接入一下纤维三点五,然后啊最近我刚好有一个需求,就是呢,我本地呢经常会启动很多的开发服务,比如呢像 cloud code 里启动的, ide 里启动的,命令行里启动的,有的时候呢,我自己也记不清楚有哪些,那在启动新服务的时候呢,就经常冲突, 那我呢就想做一个工具啊,可以自动的去扫描所有的端口,然后呢通过格式化的界面来去给我查看和操作。另外呢还要可以做收藏,我可以把经常会使用到的服务呢收藏下来,下一次呢直接在这启动就可以了, 那我呢就来实际的开发一下,那开发的过程当中啊,我们配合上一些 skill, 它的体验是很不错的,那千万呢会先去准备计划,然后再实际的去执行开发。这里呢我开发的这个内容啊,其实它是麻雀虽小,五脏俱全的,它会涉及到前端的页面,后端的 api, 还有底层的扫描命令, 以及呢还有保存收藏信息的这个数据库,所以呢是一个比较完整的一个项目结构。那最后我们来看一下效果啊,也说一下我个人的感受。首先呢在功能上啊,它是完成了我需要的全部功能的,可用性呢是通过的, 那在效果方面来说呢,我觉得视觉的效果还是不错的,你觉得怎么样呢?因为我这里啊也特意要求了使用萨德 c n u i, 所以呢,其实它自己能发挥的自由空间不算大。 那第三个在 bug 处理上啊,开发的过程当中也遇到过 bug, 那 铅汞三点五我觉得有个比较强的能力呢,就是它确实能够把遇到的 bug 给解决掉。那最后呢,我们再来试一下这 u i 理解的能力。 那刚好前面我们开发完成了这个项目的功能,我呢就直接把铅汞三点五配置给本地的 openclo, 让他呢去用视觉的方法去操作一下网页,来试用一下这些功能。 那这里啊,我的动作描述呢,其实相对来说比较简单,那能够看到啊,它会根据自己的理解再推理出来应该如何去操作,最后呢也会自己进入到松仓夹来去做确认,整体的表现呢,我觉得非常不错。 而且呢,还必须要提一句啊,就是速度非常快。这里呢,我是有点惊喜的,因为现在啊,大家去配合 open cloud 使用的时候呢,速度快,在体验上的提升啊,那真是非常直观的。 那截止到二零二六年一月,哈根 face 上最新的数据显示啊,千万衍生的模型数量呢,突破了二十万,成为了全球首个达成此目标的开源大模型。同时呢,千万系列模型的下载量突破了十亿次,平均呢每天被开发者们下载一百一十万次,稳居呢全球开源大模型的 top one。 所以呢,千万模型的更新啊,很多时候不单单是为了无数的子子孙孙都会呢进入新时代。 那还有一点呢,我很关注的就是后续的基于千万三点五出的更小规模的模型,如果呢有七十倍八十倍左右的模型出来,那在本地和端侧呢,就会有更多的想象力。 那这一次啊,我综合的体验来说呢,我觉得是非常不错的,尤其呢,这一次的原生多媒体支持,让他的表现呢更加全面。那在二零二六年选择模型的时候呢,千万依然会是我第一时间想到的一个选择。好了,这里是爱的咖啡馆,我们下次再见。


最近一段时间,我相信很多朋友都关注到一个名叫大龙虾,英文叫 opencloud 的 ai 产品。 opencloud 本质上是一个 ai agent, 也就是智能体,它跟某宝、某包这样的聊天机器人最大的区别是不仅能聊天,还能干活, 正是这种实用性,让他刷屏了。龙虾的大火,代表了 ai 已经从聊天机器人时代进入了智能体时代。龙虾只是一种智能体,未来会有越来越多针对不同场景的智能体出现。但是我自己,包括我身边所有用过龙虾或者其他类型智能体的朋友们,都会抱怨一个事,太费钱了, 每次龙虾干活的时候都会消耗大量的 token, 如果模型的 token 费用还比较高,龙虾就成了碎钞机。你可能想问,为什么不换个便宜点的模型呢?因为便宜的模型性能又差点意思。那有没有性能足够强,价格也足够低的模型呢?之前没有,但现在有了。 二月十六日除夕当天,阿里正式开源全新一代大模型千问三点五 plus, 性能媲美 gemini 三 pro gbt 五点二等顶级闭源模型,登顶全球最强开源模型。 同时每百万头肯输入价格低至零点八元,是 g p t 五点二的十五分之一, g m n i 三 pro 的 十八分之一。价格这么实惠,性能真的能打吗? 我第一时间就对千万三点五 plus 做了测试,这次我们测试的重点是这个模型的 ag, 也就是智能体能力。 为了让大家好理解,我先介绍一下智能体的工作原理。智能体主要包含两部分,一个是 ai 可用的工具,当智能体接收到一个任务的时候,大模型需要先拆解任务, 形成工作计划,在调用工具一步一步的完成工作计划。所以所谓的测试大模型的智能体能力,就是测试它拆解任务推理并且正确调用工具的能力。可以说智能体能力的测试相当于是大模型的铁人三项,是个综合能力的测试。但是想要深度测试一个模型的智能体能力 并不容易,你需要有足够多的 ai 可以 用的工具才行。正好我们自己做的 reportify 是 商业研究智能体里面已经有一堆商业研究会用到的 ai 应用的工具。为了这次测试,我专门把大模型换成了这次最新发布的千文三点五 plus, 做了一个基于千文模型的商业研究智能体。 那接下来我们就用这个智能体做测试。第一个任务,对比一下未来理想小鹏二零二四年全年和二零二五年前三季度的利润,做成表格和柱状图。 我们看这里千万模型。首先拆解任务生成了代办事项,这个代办事项生成的是比较合理的,然后就开始调用工具干活了,比如要调用财务数据查询工具来查这三家的利润。 其次还要做一些计算,因为我的要求是对比二零二五年前三季度的利润,所以模型需要把查到的二零二五年前三季度的利润做个加总。最后还要调用图标生成工具来生成柱状图,结果不错,数据和图都是正确的,速度也挺快。 第二个任务,请列出美光、三星电子、 s k、 海力士三家存储龙头公司的核心产品,以及过去半年的涨价幅度,最近不是存储行业大火吗?我相信很多关注 ai 的 人都对这个问题感兴趣,还是同样千万三点五 plus 先是把这个任务拆解成了代办事项, 然后调用各种搜索工具搜索相关信息,一项一项完成代办事项,结果也不错,数据正确,内容详实,也给出了所有数据的出处。 第三个任务,请帮我下载过去三个月纳斯达克指数的价格数据,保存到 excel。 经常做商业研究的朋友们应该对这个任务不陌生。过去你需要在某德这种数据软件里各种点,选标地、选指标、选日期,操作难度不低,而且很麻烦。有了 ai, 你 就直接说你要啥数据就行了。你看 千万三点五 plus 模型,理解了你的需求之后,会选择正确的工具,填写正确的参数,最后还会写程序,把所有数据写到 excel 里。之前 reportify 装的大脑是那种性能很好但很贵的模型, 这次换上千万三点五 plus 这个大脑之后,成本大幅下降,同时它的干活能力并没有打折。那为什么千万三点五 plus 能做到性价比这么高呢?这里面的核心技术是阿里千万团队的门控技术, 这个技术前不久刚刚获得了 neo 一 ps 二零二五的最佳论文奖。这可不是一个普通的奖项, neo 一 ps 是 全世界最顶尖的 ai 学术会议之 一,基本相当于 ai 研究的奥运会。二零二五年,这个会议一共收到了两万多篇有效投稿,最终只接收了五千多篇,接收率不到四分之一。也就是说,论文能被接收就已经算赢家了。在这么多论文里,只有四篇论文含金量有多高? 获奖论文的主题就是门控技术。那什么是门控技术呢?简单来说,门控技术就是通过在注意力层的输出端加一个智能开关,把信息像水龙头那样进行智能调控,这样既防止了有效信息被淹没,也防止无效信息被过度放大。 这带来的结果是,模型更少被噪音带偏,训练更稳,长文本更不容易出现注意力被无关信息吸走的问题。 更关键的是,这个改动,四两拨千金,改动不大,但效果又好又稳定。在美国的 ai 同行都在砸钱拼算力的时候,以阿里千万为代表的中国团队却在算法效率上做极致优化。这就是为什么千万三点五 plus 能做到 token 价格只有 g p d 五点二的十五分之一, jimi nike 三 pro 的 十八分之一。 千万是真正通过技术创新把 ai 模型的价格打下来的。这个思路很可能在智能体时代会大放异彩。 为什么这么说呢?我之前说过,智能体的作用已经被龙虾给验证了,唯一的痛点就是费钱。所以性能足够强、价格足够低的模型,一定是智能体时代的刚需。其次,我们再看远一点,如果想要让智能体越来越有用, 你就需要把自己更多的信息、更多的权限给到智能体。这时候隐私就会成为一个不可回避的问题。怎么保护隐私呢?最好的办法就是让智能体在自己的设备上运行。 想要做到这一点,肯定不能靠堆算力,只能靠算法优化,靠开源模型。未来大概率会出现一个现象,全世界每个电脑里都会有 ai 大 模型,而这些大模型大部分都是中国的开源模型。

大模型领域的多核时刻,阿里巴巴向全球展示了一种全新的眼镜路径,通往 a g i 的 钥匙不再仅仅是堆砌参数,而是极致的架构效率革命。二,核心突破一,极致稀疏的末一重构性能反转的上线 q n 三点五 plus 最显著的技术特征在于其对极致稀疏末一及混合专家架构的运用。该模型总参数量达三九七 b, 但在推理时仅激活一七 b 参数,这意味着它仅动用了不到百分之五的算力,就调动了全部知识储备。 这种高总参低激活的策略并非简单的瘦身,而是一场架构定义未来的豪赌。 实测数据显示, q n 三点五 plus 在 多项关键精准测试中,不仅超越了前代万亿参数的旗舰 q n 三 max, 更实现了对顶级闭源模型的微弱但关键的领先 认知。蛮力评测 m m l u pro q m。 三点五 plus 斩获八十七点八分,险胜 g p t。 五点二的八十七点四分。博士级难题评测, g p q a。 拿下八十八点四分,超越了 cloud 四点五的八十七点零分。 指令遵循评测 i 杠 f bench 以七十六点五分刷新全球纪录。为了在如此极致的稀疏性下保证训练的稳定性,千万团队引入了荣获纽尔 i p s。 二零二五最佳论文奖的门控注意力机制。 这种机制如同为注意力层安装了智能降噪开关,有效过滤无效噪声,让一七 b 的 激活参数发挥出远超四零零 b 规模的智力水平,且部署显存占用大幅降低了百分之六十 三。核心突破二,原生多模态从挂件对齐到直觉感知 传统的挂件式多模态方案往往采用语言基座加视觉适配层的补丁模式,这如同通过翻译官交流,必然导致信息损耗和智力降级。开问三点五实现了原生多模态在同一个参数空间内进行联合学习, 这种原生感知能力让 ai 具备了物理世界的直觉登顶。视觉 stem 推理在 mass vision 八十八点六和文档理解、 omni duck bunch、 九十点八等多项评测中位列全球第一。 百万级上下文视野模型原生支持二六二 k 上下文,并通过 y a 杠 r n 技术扩展至一百零一万 to, 能够直接吞下并理解长达两小时的完整视频 视觉智能体净化能够自主操控手机与 pc, 实现跨应用数据整理, 从草图到生产力。支持手绘 ui 草图秒变,可运行前端代码或通过一张截图自动定位并修复 ui bug。 四、核心突破三、速度革命混合架构下的预判机制为了解决长文本推理的效率顽疾, q one 三点五引入了原生多托肯预测技术, 不同于传统 transformer, 一 次只能预测一个 token, q i 三点五在训练时就学会了思考未来推理时一次能产出多个 token, 使速度接近翻倍。这种速度的提升离不开底层架构的系统性优化。 一、混合注意力机制采用 global attention plus linear attention 的 混合设计,对非关键领域信息使用限性注意力,将复杂度从 o n 平方压缩至 o n, 而对关键逻辑保留大局注意力。 二、吞吐量跃迁在三十二 k 常用场景下吞吐量提升八点六倍,在两百五十六 k 超长上下文场景下,吞吐量最高提升达十九倍。这种毫秒级的实时响应能力,是构建实时响应智能体的战略基石。 五、核心突破四十八分之一的价格源于全站协同的护城河。 q n 三点五 plus 的 api 定价零点八元,每百万 token 极具冲击力。做个对比,其成本仅为 gpt 五点二的十五分之一,更是 gemini 三 pro 的 十八分之一。 这并非简单的市场补贴,而是源于底层成本结构的结偶。阿里的核心优势在于模型加芯片加云的三位一体协同。平头哥、真武八百一十芯片针对极致稀疏末一架构和混合注意力机制做了专项硬件优化、 全占优化,通过 f p 八 f p 三十二混合精度策略,使激活内存减少约百分之五十,同时让多模态训练吞吐量几乎持平。纯文本训练 这种垂直整合能力对闭源厂商构成了结构性挑战。当开源模型的性能已经对齐,价格却只有其几十分之一时,传统闭源厂商的溢价护城河正在快速瓦解。 六、核心突破五两百零一种语言通往全球 agent 的 最后一公里 q n 三点五将词表从十五万扩展至二十五万,支持的语言及方言数量激增至两百零,一种小语种编码效率最高提升了百分之六十。 这不仅是语言数量的增加,更是国际化智能体的战略布局。春节期间,千问 app 推出的 ai 购物智能体在六天内完成了一点二亿笔订单,这不仅是数据的狂欢,更是全球范围内大模型在真实消费场景下 最大规模的商业化验证,标志着 ai 正从对话工具进化为行动主体。 七节语,从参数崇拜到架构定义未来, q n 三点五的发布,标志着大模型竞争已步入架构竞赛阶段。 长期以来,顶级性能、完全开源、极致性价比被视为大模型领域的不可能三角。而 q n 三点五凭借原生多模态、极致稀疏末一以及云芯端的全站优化,成功打破了这一枷锁。 当大模型不再是昂贵的实验室奢侈品,而是像电力一样廉价、高效且无处不在时,我们或许已经不再需要讨论 a g i 何时到来,因为我们正站在它真正爆发的前夜。

千问春节档真正的杀手锏来了!除夕夜,阿里巴巴放大招开源新一代模型千问三点五,性能干翻了 gemini 三 pro 和 gpt 五点二,价格却只要对方的一个零头,直接给友商们来了个措手不及。当各家 ai 厂商还在比拼谁参数大,谁烧钱多时, 千问三点五这次来了个四两拨千斤,总参数三千九百七十亿,但激活只用一百七十亿,性能反超了万亿参数的上一代模型。 就好比一辆大排量车,平时跑巨省油,关键时刻一脚油门也能秒速起飞。这可不是小升级,而是千万在模型架构上的打法变了。以前所谓的多模态模型,很像是拼接怪,文本是文本,图像是图像,然后再把两套模型硬拼在一起。 千问三点五从训练第一天开始,就让模型一边看图一边读字,原生的多模态能力让它真正实现了睁开眼睛学世界。换句话说,它越来越像真人了,能看见、能理解、会思考、会输出,这才是真正的原生多模态模型。放眼整个 ai 圈,简直就是降维打击。 而且别忘了,千万可是开源的,它的模型家族下载量已经突破十亿次,衍生模型超二十万个,支持全世界两百零一种语言。也就意味着,这可不是一个模型在升级,而是一整个生态都将迎来跃迁。小企业、开发者、创业者、学生党,人人都能用上顶级模型,不用再为算力发愁。 当国外巨头把模型当金矿捂着中国 ai 选择开源开放,大家一起跑才能跑得更远。技术越普惠,生态越繁荣,商业反而就越强,这才是正循环。 就在最近几天,千万 app 靠一场全民参与的 ai 压力测试,完成了上亿次真实下单,点奶茶、买年货、买电影票、订酒店。 ai 首次介入真实消费决策链,融进了每一个老百姓的日常生活。 或许,这才是大模型的下半场,不只是聪明,而且能办事。不再是少数人的黑科技,而是人人用得起的基础设施。说白了,二零二六年的 ai 牌桌已经变了,中国 ai 这次真的要占上 c 位了。

家人们,春节党可不只有电影神仙打架, ai 圈这波王炸才是真的杀疯了。今天这条视频,我敢说会彻底颠覆你对大模型的所有认知。你是不是还以为现在的大模型拼的就是堆参数比跑分,看谁烧钱更多?是不是觉得模型越强就越贵,越遥不可及, 只能被大厂攥在手里,普通人小公司根本碰不到。我告诉你错!今年春节,阿里直接扔出一枚行业核弹,天文困三点五 plus 除夕当天重磅开园,直接打破了整个大模型的游戏规则。先给大家说一个特别扎心的真相,过去两年,整个大模型行业陷入了一场疯狂的烧钱竞赛。大家都信奉一句话,大力出奇 迹,参数从千亿堆到万亿,部署要专用,集额算力,中小企业望而却步,个人开发者想碰都碰不。 技术越来越强,却离我们真实的需求越来越远,最后变成了大厂专属的炫技工具。但千万三点五 plus 偏偏就不按厂里出牌,他不去拼参数有多大,只 拼技术到底有多聪明。总参数三千九百七十亿,但是只激活了幺七零亿,用最小的身材干出了最猛的效果,性能直接对标甚至超越那些靠堆参数堆出来的老款模型,媲美 g p t。 三点五 pro。 更狠的还在后面部署,显存占用直接降了百分之六十,推理效率直接翻了十九倍。但最炸的还不是性能,是价格, 千万三点五 plus 的 a p i 价格,每百万 token 只要八毛钱,仅仅是同类产品的十八分之一。可能有人会说,便宜而已,有什么了不起? 告诉你,这根本不是简单的降价,这是架构创新带来的效率拐点,是整个大模型行业的一次真正革命。你以为便宜就会牺牲性能吗?恰恰相反,它不是靠压缩成本,不是靠补贴烧钱。而 全新的底层架构,天生就决定了它可以又强又快又便宜。这是行业里第一次把最强和最便宜揉进同一个模型里。当整个行业还在死磕谁的跑分更高时,千万已经把竞争带到了下一个维度,谁更好用,谁更实用, 谁更多人用得起。为什么我敢说,性价比会是未来 ai 的 核心竞争力?因为 ai 的 时代已经彻底变天了。过去是聊天机器人,现在正在全面迈向 ai 智能体时代。 一个高频使用的 ai 应用,一天就要消耗数亿 token。 对 中小企业、对开发者来说,他们不需要过剩到浪费的极 致性能,他们只需要恰到好处的智能,更关心的是能不能覆盖成本,能不能真正赚钱。性价比就是通往万物 ai 时代的唯一门票。阿里的布局从来不是搞技术炫技,而是双线进攻。技术上追求星辰大海,深耕底层创新,打破算力天花板,应用上服务人间烟火,让 ai 真正走进我们的生活。就说千问 app 上线才三个月,日活直接冲到七千三百五十二万大榜,应用商店免费榜上线四百多项 ai 办事功能,是全球首个能完成真实生活复杂任务的 ai 助手。春节期间 ai 大 免单活动,六天时间,用户通过 ai 一 句话下单超过一点二亿笔, 奶茶买年货、订机票、订酒店,说一句话全部搞定,这是全球首次 ai agent 在 真时世界大规模商业化跑通,别人还在圈聊天,千万已经在帮我们办事了。讲到这里,我可以非常肯定的说,千万三点五 plus 的 发布,一定会彻底改写 ai 行业的格局。 第一,它会让技术红利不再只属于金字塔尖,个人开发者、创业团队、中小企业都能用得起顶级大模型。第二,它会催生无数新的创业机会,让 ai 不 再 是空中楼阁。第三,它会推动开源力量全面崛起,把 ai 基础设施的标准制定权从闭源巨头手里转向开源生态。第四,它会让 ai 真正落地千行百业,走进每一个普通人的生活。记得点赞关注哦!

二零二六年这才刚开始呢, ai 的 牌桌就已经开始洗牌了。就在今天呢,阿里悄咪咪的发了个大正式,发布了千万的最新旗舰推理模型千万三 max thinking, 在 多个核心评测上直接超过了 g p t 五点二, cloud office 四点五,还有 gemini 三 pro。 注意啊,不是接近,不是差不多,是超过科学知识评测, g p q a demo 全球第一科学推理 i m o answer bench 全球第一代码编程 live code bench 全球第一。这次模型总参数量超过了一万亿,预训练数据三十六万亿的 tokens, 这个体量呢,放在全球范围呢,那绝对是第一梯队,但光靠堆参数是不够的,关键是它的推理机制呢,也做了创新。千文这次用一种叫做测试式扩展的新机制,他不是简单的多想几遍,而是会对自己之前的推理结果呢做经验提炼,想一轮总结一轮,再想一轮, 每一轮呢,都站在上一轮的肩膀上,这样相同的计算量下呢,就能得到更聪明的答案,而且它的幻觉问题也大幅的改善了,这是之前国产模型被吐槽最多的地方,动不动就会一本正经的胡说八道,这次据说在这方面呢也下了大功夫。 今天还有一个消息啊, deepsea 团队开源了 deepsea oc 二模型,采用了创新的 deepsea code v two 方法,让 ai 能够根据图像的含义动态重排图像的各个部分,更接近于人类的视觉编码逻辑。 在具体实践上呢, deepsea 团队在论文中写道,采用了千万二零点五币来实力化这一架构,所以啊,千万大模型不仅是直接面向用户的产品,也正逐渐成为 ai 产业中技术基础设施直接支持模型厂商、合作伙伴,还有开发者进行二次创新。 千万最新的推理模型呢,现在已经免费开放了, pc 端网页端呢,就能直接使用, app 呢也即将接入,想试试国产最强推理模型是什么水平呢?现在就可以去体验了。

阿里最近发布了个新 ai, 号称要挑战业界大佬,这事靠谱吗?我们来扒一扒。 这个新模型可不一般,它直接对标谷歌和 ansapic 的 最强产品,口气不小啊,它就是通易千问三点五,一个开源的全能型全兽,目标就是成为顶级玩家。它有个特点叫原生多模态, 简单说就是天生就能同时看懂图片和文字。而且他的体量大得吓人,参数量高达三千九百七十亿,绝对是个重量级选手, 不光大,还特别快,官方说处理速度比上一代快了整整十九倍。他的语言能力也很强,能说二百零一种语言和方言,覆盖面相当广了。那说了这么多,他跑分怎么样呢?官方给出的数据可以说是相当惊人了, 你看这个官方图标,在好几个硬核人物上,它都超过了现在市场上的老大哥们。比如号称在浏览器任务上赢了 cloud, 在 多模态测试里又比 jammy 强, 好纸面数均很漂亮,但问题是实战效果真有这么神吗?官方演示里用它一步就生成了个超酷的赛车游戏,看起来非常厉害。于是就有独立评测人去试了,想用公开的模型复现这个效果。 结果呢,游戏是做出来了,但比演示的要简单太多。这个差距就很有意思了。 其他的编程测试也差不多,速度很快,功能也还行,但就是不够精致。不过要论纯粹的看图识物能力,他有时候又精准的吓人,你看让他数这张图里有多少辆玩具车,他给出的答案是二十八,完全正确。 所以总结一下,优点是速度快,多模态能力强,缺点嘛,就是稳定性和一致性,还差点火候。 但是啊,关于他是怎么训练出来的,现在有个挺大的争议。我评测者爆料说他们确认了这个模型是用别家闭源 ai 的 出出来训练的,所以你看,第一步是宣传很猛,第二步是现实测试发现有差距。第三步它其实是个不错的选择,但有前提。 总的来说,它绝对是目前最强的开源模型之一,尤其适合做快速编程和多模态任务。这就给我们留下一个问题,随着开源模型越来越强,它们的训练数据来源是不是也变得越来越重要了?


家人们谁懂啊?除夕当天,大家都在贴春联吃年夜饭,阿里直接扔出王炸全新大模型,千万三点五 plus 开源了,而且一出手就登顶全球最强开源模型,性能直接对标 gemini 三 pro, 这波操作也太秀了吧! 先给大家说点人话,这模型到底牛在哪?首先它是个省钱又能打的狠角色,总参数快四千亿,但实际干活只激活一百七十亿,相当于用小马拉大车,还跑赢了之前万亿参数的老大哥,拨手起来更省心,显存占用直接降了百分之六十,推理速度快到飞起, 最大吞吐量能提升十九倍,以前等半天的响应,现在秒回不是梦!最绝的是价格,每百万偷看才零点八元, 啥概念?对比一下 jimmy 三 pro, 它居然才人价的十八分之一!最近不是有其他模型动辄涨价百分之二钱吗?阿里这波直接把 i 价格打回地板价,个人开发者、 小公司再也不用为成本发愁了,相当于免费拿到顶级 i 工具啊!更惊喜的是,它的 a 振功能简直是懒人福音,能自己操作手机和电脑, 靠 a p p 整理数据,自动执行流程都不在话下。之前千万的爱购物微着呢,春节六天就帮大家完成一点二亿笔订单,现在升级后三点五版本,办事能力直接翻倍,工作生活都能帮你省心。 关键它还完全开源,全球下载量早就突破十亿次,单月下载量比 deepsea、 mate、 obane i、 智浦 timi、 mini max 等等二到八名的大模型加起来还多。开发者用它做的衍生模型超二十万,现在千问 app pc 端已经直接能用,开发者还能在摩达社区免费下载, 支持两百零一种语言小语种沟通都无障碍。说真的,以前顶级 y 都是大厂专属,现在阿里把最强性能和最低成本绑在一起,直接推倒了 y 使用的门槛。就像当年 linux 定义服务器 n 都是定义移动时代 开源的。千万三点五可能要改写 i 的 游戏规则了,后续还有更强的三点五 max 版本要上。大家觉得这波开源会改变 y 行业格局吗?赶紧去千万 app 体验一波评论区说说你的使用感受呀。