大家好,我是 tommy, 今天很高兴给大家分享最新的潜水内容,那今天我们来聊一个非常火的模型,阿里通用切问三点五。那如果你还把大模型当成聊天工具,那么切问三点五啊,想做的事情其实会更加的激进, 他要把模型推向一个全新的时代。 agni, 也就是啊,能自己干活的 agent, 那 这期视频啊,我会用一条非常清晰的主线,把它讲透, 它为什么会火,技术上到底做了什么,强在哪里,弱在哪里,以及我们应该怎么去应用。那首先我们需要记住啊,切问三点五的五大关键词,第一个就是希数的 mo, 总参数是三百九十七币,但每次推理呢,只会激活十七币。那第二点呢,就是更便宜更快,成本啊,降低了百分之六十, 吞吐提升了八倍,长上下文场景呢,高达十九倍。那第三个就是原生的多模态,从预训练阶段把文本、图像、视频统一融合,不是在后期外挂一个模块。那第四个呢,就是支持二百零,一种语言全球化覆盖,非常的激进, 这个数字啊,在同级别模型里面是最高的。那第五呢,也是最有辨识度的视觉, ag 的 能够看懂并且呢主动去操作手机桌面的技术啊,到底心在哪里? 我们做三层拆解,第一层啊,就是稀疏的 mo 一 传统的大模型全量激活,参数越大,算力就越贵。 但是呢,切问三点五的做法是,总共是五百一十二个专家网络,每次处理一个 token 时啊,只路由了十个专家以及一个共享专家,那其余的呢,全部是在休眠,那结果就是啊,你用的是接近四百币的模型之力,但是付出的只是十七币的一个推力成本。 那第二层呢,就是混合注意力机制。那切问三点五呢?它使用了一种交替堆叠的结构,在十五个周期里面,信信注意力啊,占据了百分之七十五。那传统的全注意力呢,只占了百分之二十五。那为什么要这样去设计呢?因为上下文越来越长,全注意力的计算成本是平方级增长。 信信注意力它主要是用来处理大量普通的上下文。全注意力呢,保留下来专门捕捉关键的长城依赖, 两者搭配啊,既省钱又不漏信息。那第三层啊,就是门控的一个网络,再加上一个大规模强化学习训练。那这一层是训练层的创新。切问三点五引入了异步强化学习框架,在两万个并行环境里啊,同时去跑这个 route, 专门训练模型的多步规划工具调用能力。那同时加入了多 token, 也就是 m t p 预测,让模型啊在每次前向传播能够生成多个 token, 进一步提升推理速度。所以你会发现,千万三点五的设计目标,它并不是更会聊天,而是更会去执行任务。那最后为什么说它是原生多模态加视觉 agent 呢?原生多模态这部分关键词是 early fusion, 也就是早期融合。它不是训练完语言模型之后再外挂一个视觉模块, 而是从域训练第一阶段起呢,文本 token 和视觉 token 就 一起处理,这就意味着视觉信息和语言信息呢,进行了真正的融合,而不是间接的一个连通。那具体支持的上限是 图像最高处理一千三百四十四乘以一千三百四十四的一个分辨率,还能够处理复杂的 pdf 和图标。那视觉 agent 这步法,它主要是切问三点五最有差异化的一个能力, 它可以接收手机桌面的截图,识别出按钮、输入框、菜单等可交互的一些元素,规划出完整的目标所需的多步骤的一个操作。那最后呢,生成点击、输入、滑动等具体的指令, 它不只是看图说话,而是像一个真正的操作员,能够跨应用、跨界面的完成一个完整的工作流,这才是 agni 的 全景介绍。那么等阿里啊正式发布切问三点五技术报告之后呢, 我会第一时间给大家做详细的解读。那其实啊,看完这期视频,你会发现切问三点五的核心突破,无论是 alfusion 的 原声多模态架构, m o e 的 高效推力设计,还是视觉 agn 能力,那背后呢,都涉及大量多模态领域的前沿技术。那如果你真正想吃透这些技术,而不只是停留在听懂了的层面,那么我非常推荐你学习我的精品课程,多模态大波形前沿算法与实战应用第一季。那 么这个课程呢,覆盖了主流多模态架构、多模态的 agent, 数据构建、训练、流程评估与幻觉分析,并且配套了多个项目实战,比如说 lava, lava, next、 切文森 vo, in term, lm, ex composer, time search、 视频理解等,包含算法讲解、模型微调推理、服务部署以及核心源码的讲解。 那么我在这门课程里啊,专门讲解了切文森 vo 的 原理与实战,包含交错式 m o p、 未知编码、 deep shock、 视觉特征融合 视觉、 system two 慢思考等核心机制。那这些啊,正是理解切问三点五多模态能力的底层基础。那本课程啊,目前呢,正在更新当中,你可以呢,在我的 b 站唐国聊 tommy 以及我的个人官网 t g o tommy com 参与学习,课程内容永久有效,并且呢会实时的更新,你可以呢,跟随我的课程终身学习。那参与课程之后呢,你还可以啊,加入到由我亲自打理的 ai 技术学习圈,跟一群志同道合的伙伴交流学习。那 如果你已经在做动脉胎方向,或者想从切问三点五这样的前移模型出发,系统的搭建自己的技术体系,那这门课程一定会给你很多的启发。那么接下来呢,我将为大家详细的演示切问三点五的多个实战力,不要错过。那接下来给大家详细的演示一下切问三点五的应用,那这里主要给大家讲解两种不同的方式。 第一种啊,非常简单,我们只需要在它的官网注册这个账号就可以呢进行交互。那第二种呢,稍微复杂一点啊,我们需要在阿里云百念这个平台注册账号,然后获取模型的 api key, 然后我们就可以呢调用模型的 api 了。 那下面我们先演示第一种方式,很简单,各位同学只需要在这个网站注册阿里的这个账号,然后呢我们就给它进行交互。那这里啊,我们可以选择两种不同的模型,第一种呢,是在这个云端,它托管的这个模型三点五 plus, 那第二种呢,是它开源的这个模型啊,那这个模型参数量非常大,那基本上需要六百四十 gb 的 显卡才能够跑起来,所以呢我们这里啊是基于它这个 api 给大家演示,我们选择这个最强大的这个三点五 plus。 然后呢我们就可以呢进行一个多模态的一个问答。那首先我这里呢,比如说上传一个图片来做一个问答,那这里啊我有一张图片,这是一个太阳系的一个图片,然后我这里呢给大家上传。 好,那现在这个图片呢已经上传了,对吧?然后呢我就问一下,请详细的描述一下这张图片,然后我们回车走,那这里呢它是有一个选择的,一个是自动,就它可以自动切换思考模式,还是说快速模式,我们自动就可以, 那这个呢,它在描述这张图片,对吧?那这是一个太阳系的一个图片,然后呢它的描述是准确的 啊,首先呢是一个整体的布局,然后呢描述了不同的天体,从左到右,由近极远,这个描述啊也是非常准确的,这个图片理解呢是没有问题的。那下面我们再来看一个视频,这个视频理解呢,我是从网上下了一个库里投篮的视频,我们先大概的看一下,一共三十秒,我们来看一下, 注意啊,我们一定要记一下库里他在这里的投篮投了几次,因为我们待会呢会让模型去统计一下,看他准不准,你看这是第一次,对吧?投篮, 好,这是第二次投篮,对吧?投中了,已经投中了,好,这是第三次投篮,大家记住了这个次数,好,这是第四次投篮, 好,这是第五次投篮啊,好厉害哦,每一次都投中了,注意哦,一共是五次投篮,每一次都投中了,那下面我们就要考验一下模型了,它能不能完全的理解。 所以呢,我们这里啊,先把视频给它上传,点击上传,这是库里的投篮视频,一共投了五次,每一次都投中了,对吧? 那下面我们就要来挑战一下了,比如说,请告诉我视频中的球员是谁,他一共投了几次篮筐,然后投中了几次? ok, 那 这里呢,一共有三个问题啊,球员是谁?他一共投了几次篮?投中了几次, 那这样三个问题,那这里啊,我们就切换到思考模式,让大家来深度思考一下。走,一共他投了五次,每一次都投中了,看他回答是怎么样的,我们稍等片刻。 那这里呢,有一个思考过程,那么你可以点一下,这里呢,他是一个思考,我们也可以观察一下。好,他这边已经完成思考,我们来看一下。哎, 他这个回答是正确的,视频中的球员是斯蒂芬库里,他一共投了五次篮,每一次都投中了,他这个识别是非常准确的,对吧?没有问题啊,其实啊,我在之前测的时候,他这里是有幻觉的,他认为库里一共投了七次篮, 其实是五次。所以呢,我们这个模型,他这个幻觉是难以避免的,你看,我这次去问他,他就完全答对了,对吧?那这里啊,我来反驳一下,挑战一下他,就是看他是否能够坚持自己的一个判断。有时候说不对,球员是詹姆斯, 他一共投了十次蓝,呃,只投进了两次,你是否认同?好,那现在我是在诱导他,看他能否坚持自己的一个回答。走, 这里呢,他有个思考的过程,对吧?我们也可以查看一下。你看他已经在分析我的问题,然后呢,他会去观察球员的外貌以及动作的细节,你看,然后呢,他继续分析投篮的动作和时间戳, 然后,哎,他纠正我的一个错误了,看到了吧,你看他纠正我的错误了,然后确认视频的内容,并且呢,纠正我的误解,再次确认球员的身份以及投篮数据, 然后坚持他的一个分析判断,完成思考。好,我们来看一下最终答案。你看球员身份是斯蒂芬库里,不是勒布朗詹姆斯,他还是坚持自己的这个判断,没问题啊。 然后他的证据是球馆上有金州勇士队的这个旗帜,还有呢,这个标志,你看这是他的一个依据,没问题。 然后他说一共投了五次篮,全部投中,并不是十投两中,甚至啊,他把每一次投篮的时间都已经写出来了,这个还是非常厉害,非常厉害,对吧?我本来想诱导一下他,因为现在很多模型,你一旦去反驳他这个模型啊,他马上就会改变主意。 那说明阿里的这个切文三六 plus 模型还是很厉害的,你看他甚至啊,把这个具体的这个数据都全部给你给出来了,还是很厉害的。好,那这里呢,主要是通过官网这个交互窗口给大家演示了,那各位同学也可以呢,注册一个账号,自己去玩一玩,体验一下。好,那这是第一种方式啊,很简单,在官网去体验, 那下面我们稍微讲一个复杂一点的方式,我们这里呢主要是调用模型的 a p i。 并不是啊,在这里直接去交互,因为我们很多的任务呢,可能是通过模型 a p i 去完成的。那怎么去注册呢?很简单,第一步我们需要在阿里云的百炼这个平台注意哦,它这个阿里云百炼注册一个账号,如果你没有,你去注册一个, 然后呢注册完之后,如果说你没有充值啊,那么你去充个值,我这里啊充了十块钱去玩一玩,充完值之后呢,那么你就可以呢去调用它这个模型 a p i 了。 如果说你是初次的创建账号,它会给你一百万 token 的 一个使用量,不要以为这一百万的量很多且很少的,你跑几次它就跑完了,你看这里,我跑完之后免费的额度啊,就已经没了, 当你的免费额度用完之后,它才会去消耗你这里的费用。那这个是第一步啊,你首先呢需要去注册账号,然后呢去充一个值,那这里呢,你要去创建一个 key, 点一下这个北京的就可以啊,前往北京。 那么点完之后呢,你就会进入到这里来创建一个 key, 这里有一个创建 api key, 看到了吧,点一下创建,然后这个里呢可以选一下你的用户名, 这个啊是默认,你就不用选,懂我意思吧,这里他选不了,你就不用选,直接确定就可以了。 ok, 直接确定了,那么你就会创建好一个 key, 然后创建好之后呢,那待会呢,我们会用到这个 key, 你 只需要点一下这个复制,然后再去粘贴就可以了,那这个窗口呢,也可以呢,通过另外一个窗口来查看你的费用 啊,因为我之前是已经用了一会了,所以呢十块钱,现在剩了九块钱了,对吧?然后呢,我们就可以在 vscode 里面去做配置,那这里啊,注意啊,我们一定要去下载一个插件,这个插件叫做 client, 你 看在这里就这个 client, 懂我意思吧?下一个插件出来,那下载之后呢,然后呢,我们就可以呢去做配置了, 如果说你下载之后,这里没有显示这个图标,把鼠标放这里,然后右击一下,注意啊,是右击,把这个给它打上勾,你看现在呢,它这边是没有了这个图标,一定要右击啊,把这个勾给它打上,那么它就会显示出来, 显示出来之后,我们要去配置一下配置呢,点一下这个配置,这里啊,我们要选一下 openai 啊,这个适配的,一定要去选这个东西吧,然后这里的 url 呢?从哪里去拷贝呢?很简单,在这里啊,你看在这里呢,它是有这个说明的,往下滑,你看这里有个使用的说明, 你把这个 url 拷贝一下,然后呢你就粘贴到这里来,那这个 key 呢?就是你刚才创建好的这个 key, 把这个 key 给它粘贴过来在这里, 然后这个模型 id, 你 这边输入成千万三点五 plus, 然后呢选择当,懂意思吧,那这样就配置好了, ok, 这是第一个配置, open a 叫 compatible, 然后呢你的 u l, 然后你的 api key, 然后是模型的 id, 然后当,那这样你就可以去使用整个模型服务了,懂意思吧?那刚才呢,我是创建好了这样一个三维的这个太阳系,那这个是我创建好的,通过这个 vpx 图层啊,它自动模型帮我去生成代码, 然后这是一个三维的这种效果,对吧?你看这是太阳系,然后这里面呢有八大行星,对吧?你看这是一个太阳系,正在围绕太阳去转。 ok, 那 这个呢,是我写的一个需求啊,简单的需求,让 ai 帮我写了一个需求,然后呢我就把这段需求在这里啊 delete 这个千万三去实现的,比如说我这里啊点一个加号,那这是一个新的一个窗口,对吧?那么你只需要把你的需求在这里啊,给它粘贴过来, 比如说我把需求拷贝一下,在这里啊,给它粘贴过来,然后你回车就可以了。那这里呢有 plan, 有 act, 一 般来说呢,你选择 act 就 可以了, 那这是一个非常简单的方式啊,最关键的一点啊,就是你需要去注册账号,然后呢在 vs code 里面通过 client 去配置一下,那这样呢,我们就可以啊进行这个编码了。 ok, 你 有什么需求,可以让模型帮你去生成现在这个代码,那这里我就不再给你去演示了,那这个呢,就是我这边生成好的这个代码。 ok, 你 们自己呢也可以去玩一玩。好,那关于这个千问三点五的应用啊,咱们就先讲到这里,主要是两种方式,第一种呢,直接在它官网注册一个账号,我们就可以呢去进行问答。那第二种方式呢,就是我们注册一个模型 api key, 然后呢通过 vsco 的 以及这个 client 插件去做配置, 然后我们就可以呢进行这样一个编码,无论你是什么项目都可以呢,通过这个模型去实现,那过洞穴啊,也可以自己去对比一下,相比较于质朴的模型和 minimax 的 模型,哪一个效果更好? ok, 好, 那么关于这个应用啊,咱们就先讲到这里,因为目前呢,阿里呢,它还没有开源一些小模型,它 梦想开源了一个超大的模型,就这个模型,那么等他后续啊,开源其他小模型之后啊,那么到时候呢,再给大家做后续的一个分享。那如果说你在学习当中还有什么疑问,那么可以在视频下方给我留言,我也会尽快的去回复。那如果说你觉得本节课啊对你有帮助, 请三零关注,感谢支持!那本次分享就先到这里,学无止境,一起加油,拜拜!
粉丝2333获赞5351

除夕夜别人都在放鞭炮,阿里直接放新模型,困三点五三百九十七 b a 十七 b 呢,正式开源了,这次呢,不是参数再大一点的升级,而是架构层面动刀, 它是一款原生多模态模型,就不是那种视觉,一个模型语言一个模型,在推理的时候呢,做一下拼凑, 而是从训练阶段开始啊,图像视频文本就混在一起学,属于从底层就打通了。参数呢是三千九百七十亿,用的是 m o e 的 混合专家架构,每次推理呢,只需要激活一百七十亿参数,简单来说呢,就是三百九十七币的脑子,只花十七币的电费,再加上啊限行注意力, getty dotnet 上下文呢,直接给到了一照支持二百零一种语言,速度呢,比上一代更快了,成本却更低。榜单成绩呢,的确很好看啊,但是呢,我们更关心另外一个问题,就是这些听起来很猛的架构升级,到底能不能够实际落地呢? 他能不能够真正做到看图,搜信息,写代码,读视频,一条龙完成?所以说今天这个视频呢,我们就不看榜单,不念指标,直接上真实任务, ok, 我 们现在开始。 那我们首先呢,丢给他一道之前很多模型都翻车的问题,我会问他啊,我想去洗车,洗车店呢,离我们家五十米,我应该是开车过去还是走过去,那很多模型呢,可能会下意识的回答,走过去更加环保,但忽略了一个关键点,就是我们洗的是车,而不是人。 困三点五呢,直接是抓住了这个问题的核心逻辑啊,车还在家里,最终呢,是必须要把这个车开过去, 他没有被距离很近这种表层信息带偏,而是理解了真正的目标。那这类题目呢,不是很复杂,但是他很考验啊,场景理解的一个能力。 所以说接下来呢,我们就把这个难度再拉高一点,我这里准备了一张电影截图,我会跟他说这部电影呢,我有点印象,但是具体的剧情,主演导演是谁我已经记不清了,你帮我做一个详细介绍的 html 网页, 我们点开看一下他的这个执行过程吧。那首先呢,他会识别图像,从而确定这是哪部电影,然后他就开始获取电影阿甘正传的一个详细信息了, 紧接着他会开始整理信息,并构建结构化的内容。最后呢,生成了这样的一个网站,我们现在呢,把这个网站下载下来,看一下它的效果。整体的这个电影脉络呢,他已经是梳理的非常清楚了, 不过呢,他这边是没有去搭配啊剧照图片,而且整体的这个紫色配色还是有些单调的,对吧?那于是呢,我就去啊,让他再加一点剧照,然后改一下这个电影感的配色。稍等片刻呢,他就开始去搜索相关的一个电影剧照了。然后呢做了这个配色 ui 的 一个调整,我们再次看一下它的这个效果, 那这一版呢,整体内容就更加丰富了,对吧?而且呢,他每一个经典的画面都会有这种匹配的剧照,这个呢,其实就是一次完整的多默契协同任务啊。从图片的这个理解,到互联网搜索,再到最后的这个网站代码的编辑落地,大家觉得他做的怎么样呢?可以在弹幕给他打个分啊, 那接下来的话呢,我们来测试一下它的这个代码能力和任务规划的能力啊,我这边呢使用 open code 来做,来到 open code 的 配置文件,首先呢我们需要去修改这个 base url 和 api key, 那 这些信息呢,大家可以在百联云平台获取。 配置完成之后呢,我们输入斜杠 models 来切换这个 queen 三点五 plus 模型。那这次呢,我们做的不是一个小 demo 小 游戏,而是呢直接让它在一个现有的后台里面做一个完整的电商后台 mvp。 并且呢我对范围做了一下控制啊,只需要做商品管理,订单管理, 库存扣减以及基础的一些状态流转。并且呢我们这边只需要去完成管理端,不需要去做小程序。那我把这个需求调给他之后呢,他没有开始直接写代码,而是先分析需求,拆解模块,规划结构, 这一点呢是很关键的,因为真正的工程能力啊,不是说你速度有多快,而是思路是否清晰,在任务执行的过程当中呢,他会边思考,然后边调用相关的工具。这种连续的任务推进呢,其实就是原生视觉语言模型的一个优势 啊,所有的步骤呢,都在同一个模型当中去完成,而不是拼接式的写作。在数据库部分呢,它设计了这个 product order, order item, 还有 user 这些核心表,库存校验啊,订单状态啊,也都是考虑进去了。 后端层面呢,它也做了这个代码分层,结构是非常的清晰。前端部分呢,它生成了商品列表,页表单页和订单管理前端后端数据库都是在协助推进的,项目也是可以直接启动并运行的。来我们看一下它的这个实际效果,商品列表搜索,新增上架、订单查询这些呢,都是可以去完美跑通的, 从任务规划到最终的代码落地,它没有出现结构混乱或者是推翻前面设计的这种情况,整体的逻辑啊,还是非常的连贯的。同样的任务呢,我之前也用这个 gmail 三 pro 测试过啊,虽然说两者最后都能够把这个项目给做出来,但是昆三点五呢,它这边是开源模型,而且 api 成本是更低的, 那如果说两个模型能力接近,但是其中一个成本更低,步数更自由,这对开发者来说意义就不一样了。如果是我的话呢,我会选择做的到但是更划算的那一个。最后呢,我们来测试一下他的视频理解能力啊,那这里呢,我准备了一个小游戏的测试视频,我们把它上传上去, 我让他呢自己去读懂这个视频,然后复刻这个小游戏。首先呢,他会去分析这个游戏的核心机制,玩法与视觉风格。接下来的话呢,他就开始构建游戏的一个视觉与交互框架。最后呢,他开始用 html 代码编写游戏。 ok, 现在他已经全部写完了,我们下载下来看一下效果。 整体功能界面我觉得还原度还是很高的啊。星空的背景,星空的元素大家可以看到,而且呢,在生命值这个地方,它没有去像呃原来的素材那样继续去使用数字,而是采用 icon 来代替。 并且呢在 level 这里,他也会随着数值越大,游戏难度相应增大,整体可玩性我觉得还是非常不错的。 ok, 那 到这里的话呢,四个 case 就 已经全部测试完毕了啊,从图像到搜索,从文本到代码,从视频到程序,这种端到端的能力呢,正是原生视觉原模型想要去解决的问题。 那这条视频呢,其实只是一个开始啊,后面我们还会继续用更加复杂的业务系统,甚至是多轮智能体写作。 如果说你对上面某 case 印象深刻,或者说想要让我去加大难度,可以在评论区告诉我。那现在呢,这个 quan 三点五相关模型啊,已经是开放使用了,大家可以在掐点 quan, 点 ai 或者是摩达社区使用。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频,再见, peace!

朋友们大家过年好啊,各种 ai 的 红包领到了吗?现在呢国产大模型啊也来拜年了,大模型领域的元神千问在除夕当天呢,发布了开源模型的新版本千问三点五, 虽然说啊,最近好多新模型发布,但是呢,千问三点五确实是我最关注的,因为呢它是毫无疑问的开源模型的领军者,所以呢,我也第一时间啊去做了上手的测试。今天呢就来分享一下我的千问三点五的实际体验。 如果说啊,你也做了体验,那可以来聊一聊。首先呢是参数,虽然呢我对参数现在不是特别的敏感,但是还是想和大家快速的过一下千分三点五的整体参数情况,那这一次开源的呢是千分三点五三九七 b a 十七 b, 也就是啊,三百九十七 b 的 总参数激活十七 b。 那 这次模型啊,采用了创新的混合架构,将限性的注意力啊和稀疏混合专家呢进行结合,力争呢在能力,速度和成本之间啊去达成一个最优的结果。 那还有一点啊,要特别注意的就是千万三点五是一个原生的多模态模型,也就是呢,从训练之初啊,他就让视觉和语言在统一的表征空间当中去联合学习,这个呢也是目前模型发展的一个趋势,在 g u i 理解还有视频分析等场景当中呢,都可以做到一模到底了, 数字呢总是很抽象的。那接下来呢,我们就进入实际的体验环节,因为啊,三百九十七币的总餐数量,估计大家呢想本地部署也比较困难,所以呢,想体验的话,主要就是通过千万 chat 还有阿里云百链的 api, 那我们先到千万 chat 里来做一些热身活动,先试试它的推理能力。那最近啊, ai 洗车的问题在网上很火,很多的模型呢都翻车了,我呢就先来试一下千万三点五怎么样?那我这里告诉他啊,洗车店离我家五十米,那我要洗车的话,我应该开车去还是走过去呢? 这里呢,千分三点五没有翻车,他注意到了问题的关键呢是洗车,另外呢还提示了一下可以叫上门洗车的服务。但是呢,这个服务在国内多吗?反正我是没有体验过啊。 那接下来呢,我再让他去写一个祝福语来试一下。在中文方面呢,其实我觉得啊,谦问的表现一直是可以信任的,这个祝福语的水平呢,也是相当可以的,文字方面的内容啊,我就不想放太多的精力了。接下来呢,我们就来试一下多模态,感受一下呢它的原声多模态支持。 那首先呢,我想试一个场景,在春节期间啊,大家都会刷到很多的爆款的 ai 视频,那很多时候呢,都会去求提示词,那是不是啊,可以用千字三点五来去帮我理解。然后呢直接去复刻这个视频, 这里呢,我传一个看到的很酷的视频啊,然后呢让千问去帮我分析一下视频的画面的整体风格,还有色彩,运镜动作。那最终啊,给我提示词,来去复刻视频。那很快呢,千问呢就可以分析出来视频的内容了。 其实呢,很多时候我们做不出高质量的 ai 视频,就是因为我们自己啊,写不出合适的描述,那我呢也使用同样的模型来试一下这个推理出来的提示词,它的生成效果, 那基本上可以说啊,它的复刻程度达到了百分之九十以上。那我呢也用千瑞 chat 自带的这个视频生成啊,也试了一下,那因为默认啊,它生成的是五秒视频,效果上呢就会有一些差异,但大体上呢也能复刻,所以呢,说明啊,它的理解是没有问题的。 那这一次啊,千万三点五也特意强调了它在开发方面的提升,而这个呢正是我最关注的一个部分,同时呢千万 chat 也加了一个 web dev 的 功能。那我们呢就先来快速的试一下,开发一个 web 上的小应用。 那昨天晚上啊,春晚的哈尔滨分会场,我觉得非常的不错,那我呢就给谦问一张哈尔滨分会场的图片,让他啊帮我去用三 d 的 方式重构这个场景,那还要可以自由的缩放和切换角度,那代码生成的速度啊,确实非常快,稍等一小会儿就能拿到结果。 那从功能的完成度来说呢,非常不错,尤其是啊,还非常细节的注意到了烟花灯光还有人群的特效处理, 可以单独的去做开关,特别是人群啊,真是太细节了。还有呢就是预设的这个镜头和时间,可以说呢,他在我的基本要求之上延伸出了很多有用的细节的内容。 可能唯一需要提升的呢就是这个建模的细节吧,那能根据一张图片做到这种程度,总体来说是非常不错了。另外呢,这个外部 app 呢,是可以直接做发布的,那发布出去之后啊,你就可以把拿到的这个链接丢给别人去看和使用了。 那除了这种基础的小型外部的开发呢,我还想试一下这种复杂场景下它的开发效果, 那我啊就在 cloud code 里去接入一下纤维三点五,然后啊最近我刚好有一个需求,就是呢,我本地呢经常会启动很多的开发服务,比如呢像 cloud code 里启动的, ide 里启动的,命令行里启动的,有的时候呢,我自己也记不清楚有哪些,那在启动新服务的时候呢,就经常冲突, 那我呢就想做一个工具啊,可以自动的去扫描所有的端口,然后呢通过格式化的界面来去给我查看和操作。另外呢还要可以做收藏,我可以把经常会使用到的服务呢收藏下来,下一次呢直接在这启动就可以了, 那我呢就来实际的开发一下,那开发的过程当中啊,我们配合上一些 skill, 它的体验是很不错的,那千万呢会先去准备计划,然后再实际的去执行开发。这里呢我开发的这个内容啊,其实它是麻雀虽小,五脏俱全的,它会涉及到前端的页面,后端的 api, 还有底层的扫描命令, 以及呢还有保存收藏信息的这个数据库,所以呢是一个比较完整的一个项目结构。那最后我们来看一下效果啊,也说一下我个人的感受。首先呢在功能上啊,它是完成了我需要的全部功能的,可用性呢是通过的, 那在效果方面来说呢,我觉得视觉的效果还是不错的,你觉得怎么样呢?因为我这里啊也特意要求了使用萨德 c n u i, 所以呢,其实它自己能发挥的自由空间不算大。 那第三个在 bug 处理上啊,开发的过程当中也遇到过 bug, 那 铅汞三点五我觉得有个比较强的能力呢,就是它确实能够把遇到的 bug 给解决掉。那最后呢,我们再来试一下这 u i 理解的能力。 那刚好前面我们开发完成了这个项目的功能,我呢就直接把铅汞三点五配置给本地的 openclo, 让他呢去用视觉的方法去操作一下网页,来试用一下这些功能。 那这里啊,我的动作描述呢,其实相对来说比较简单,那能够看到啊,它会根据自己的理解再推理出来应该如何去操作,最后呢也会自己进入到松仓夹来去做确认,整体的表现呢,我觉得非常不错。 而且呢,还必须要提一句啊,就是速度非常快。这里呢,我是有点惊喜的,因为现在啊,大家去配合 open cloud 使用的时候呢,速度快,在体验上的提升啊,那真是非常直观的。 那截止到二零二六年一月,哈根 face 上最新的数据显示啊,千万衍生的模型数量呢,突破了二十万,成为了全球首个达成此目标的开源大模型。同时呢,千万系列模型的下载量突破了十亿次,平均呢每天被开发者们下载一百一十万次,稳居呢全球开源大模型的 top one。 所以呢,千万模型的更新啊,很多时候不单单是为了无数的子子孙孙都会呢进入新时代。 那还有一点呢,我很关注的就是后续的基于千万三点五出的更小规模的模型,如果呢有七十倍八十倍左右的模型出来,那在本地和端侧呢,就会有更多的想象力。 那这一次啊,我综合的体验来说呢,我觉得是非常不错的,尤其呢,这一次的原生多媒体支持,让他的表现呢更加全面。那在二零二六年选择模型的时候呢,千万依然会是我第一时间想到的一个选择。好了,这里是爱的咖啡馆,我们下次再见。


给大家测试一下千万三点五,今天的话千万三点五已经更新,我们可以看到在他的官网中已经可以进行测试,他是千万三点五。 然后接下来我给大家全面的介绍一下,我们以这五个为例,第一个就是测试一下他的代码能力,第二个就是一个最近的比较火的一个问题,然后接下来是这个数列问题,然后是他的一个数学问题, 接下来是它的一个知识读补的一个通用性的问。我们首先看一下原本的这个网页, 我们可以看到这是一个亮白色的一个汇报,千万三点五的一个网页,我们会把它进行一个基于此进行一个春节风格的改造,这个是千万三点五 plus 的 一个效果。 接下来就是三点五的一个三九七 b 的 一个模型,我们可以看一下 这个模型是开源的,然后接下来我们对比下一个模型,这个是 cloud 写的一个, 接下来我们使用工薪后的 deepsea 进行看一下它的代码能力,还是比较适合中国人的审美的。 然后接下来我们看一下 jrm 五的 它的一个春节风格的改造。 好的这就是我们第一个模块,然后给大家介绍一下它的三个核心的一个架构,第一个是它的一个注意力的机制, 使用了百分之七十五的 g d n, 这个就是为了大局的遗忘啊,然后是精确的一个攻心,然后我们看一下, 接着就是它的一个 o m o e 的 架构,然后是一个多模态的融合,它支持一个原声的语音,然后我们的一个视频,还有一个文本,或者输入我们图片的一个输入, 这是我们的一个技术路线的对比。然后我们接下来进行第二个,我们进行测试一下这个问题,我想去洗车。首先是我们的 这个问题,然后我同时发送给了左侧的三点五 a 十七 b 的 开源模型和三点五 plus, 在 它的一个摆链的一个平台上,然后我与此同时我会给 deepseek 进行发送以及 jrm 进行发送。 我们看一下它的一个对比的效果。在这个界面里面我们可以进行一个官方的对比看一下,我们可以看到我们输入的信息可以包括文本,图片,视频,然后的话它输出的是仅仅是文本,因此 比如说我们可以应用在一个视频的自动剪辑上面,是可以进行使用这个模型的。接下来是它的一个价格, 最重要的是它的一个上下文,在 opencloud 里面,上下文决定着很多的一个复杂的操作,可以看到这个上下文 plus 的 话是 em。 然后这个开源模型呢是二百五十六 k。 然后接下来我们看一下他的一个结果,这个答案是一个经典的逻辑题,我们必须要开车去对很聪明的模型。然后接下来我们看一下 step, 很 简单直接的告诉我们要开车去。然后接下来是 g r m 的, 它依然没有思考完毕, 这也是我们经常测试遇到的一个问题,但是它的答案是对的。然后我们接下来进行下一个问题, 我们测试一个树列, 首先进行对于这两个模型的一个测试,当然的话我已经测试完毕,这是没有问题的。然后接下来到了 deepsea, deepsea 的 思考确实很快,我们继续, 我们已经看到 deepsea 花了四秒的时间思考完毕,还是非常优秀的。然后接下来是它的 开源的模型已经输入的结果,然后接下来是三点五 plus, 结束结果是正确的,然后接下来看一下它的 g r m, 我 们稍等它一下也是对的。然后接下来我们测试最后一个问题, 我们的结论是全部通过,我们看一下,首先给 g m 一个,然后是 db6, 然后是这两个模型,我们发送 我们看一下它的一个反馈结果, dbic 花了五秒的时间测试完毕,五秒。然后接下来看一下 三点五的模型还在推理,看一下 g r m 的 g r m 的 话也在输出, 我们可以看到他花了四十七秒输出了他的一个正确的答案, g m 五。然后接下来我们看一下三点五 plus, 还有他的一个三九七 b 的 一个模型还正在思考, 我们可以看到三点五的 plus 已经正确的输出了答案,可以发现这几个模型还是能力比较强的。 然后接下来我们进行最后一个,它是一个通用型的知识图谱的一个抽取, 我们打开我的项目到这里面,我们可以看到现在我已经处理完毕, 我们使用的是民法典的前两章,一个使用的是他的一个三点五 plus, 另一个使用的是千问的一个 plus。 然后接下来我们进行交互问答一个问题,首先对于这个 三点五的话,他已经给出了一个答案,我们可以把它给复制出来,然后通过一个中间的 ai 进行一个测评, 我们在这输入自己的问题,然后发送,然后我们看一下它的一个最终的结果, 我们可以看到这是相关的一个问题,然后是它的答案,为什么一定要这种方式呢?因为知识图谱对于我们的一个文本是一个抽象性的一个连接概念,它比普通的 red 更加的一个有上下文的衔接性,因此我们可以对比一下它回答的一个维度。 然后我们看一下它的一个三元组,这个是 千问三点五 plus 抽取的一个实体,我们可以看到是一千多个,然后接下来是它的一个 plus 的 模型,这个少一些。

就在刚刚,没错,除夕夜阿里发布快按三点五贺岁版,不仅能秒懂复杂图标,最恐怖的是两小时的视频丢给他,瞬间生成高清摘药,在权威榜单上,以五十八点三分力压 g p t。 五点二,拿下人类最高难度测试冠军 g p q a。 博士级科学推理能力也超越了 cloud 四点五,更狠的是,显存占用直接降低百分之六十,真正的速度快,能推理又便宜,你觉得可以称得上国产之光吗?

二零二六年农历除夕,阿里云正式发布了旗舰大模型 qen 三点五 plus, 这不仅是性能上的跨越,更是直接化身成了价格屠夫。它的 api 定价直接压到了零点八元。一百万头肯这个数字是什么概念?它仅仅是竞品 gemini 三 pro 价格的十八分之一。 可以说,阿里这次发布,就是要在对标 gpt 五点二和 cloud 四点五这种全球顶级模型的商业性价比。 刚才说完了价格,咱们来看硬实力。在衡量模型综合认知能力的 mmlu pro 测试里, qone 三点五 plus 跑出了八十七点八的高分, 这个成绩直接压过了 gpt 五点二。这意味着在处理海量通时和复杂常识问题时,这款国产旗舰的底层脑容量已经站稳了世界第一梯队。 不仅是通世强,在专门针对博士级科研问题的 g p q a 榜单上, q n 三点五 plus 拿到了八十八点四分,成绩甚至超过了 cloud 四点五。 这就说明他不是在死记硬背资料,而是真的具备了深度逻辑推理能力,能处理那些让普通人都头大的高难度科学难题。 最夸张的是指令遵循能力, i f bench 测试的是模型听不听话,活干的准不准。 q n 三点五 plus 拿到了七十六点五分,直接刷新了全球纪录,位居世界第一。 简单说,你给他下达复杂的长指令,他的执行准确率是目前全球最高的,这就保证了他在实际工作中不会胡言乱语,而是能精准完成你交代的每一项任务。 分数跑得高,实际好不好用,还得看真本事。 q n 三点五 plus 的 多模态能力非常离谱,它具备一种原生直觉, 你给他一张鲨鱼骑在马上的图片,他五秒钟就能告诉你这是沙琪玛。但在处理马王堆这种复杂的文物图片时,他会进入长达三十七点三秒的深度推理模式。这种叫做 system 二 thinking 的 机制, 让它能像专家一样,层层拆解视觉背后的文化隐喻,而不是简单的做文字复述。它不是在识别像素,它是真的看懂了文化。在写代码这块, q one 三点五 plus 的 逻辑闭环 做得更好。有很多开发者在 reddit 上反馈,它写的 svg 矢量图代码比 gmail 还要稳。更实用的场景是,你随手在纸上画个 ui 草图,拍张照片传给他,他就能直接给你吐出能用的前端代码。 这种视觉和编程逻辑的深度融合,意味着 ai 已经能直接参与到从创意到工程的转化过程了。 最后说说容量问题, q n 三点五 plus 支持一百万 token 的 超长上下文,这意味着什么? 以前的 ai 看视频只能看个几分钟的片段,现在你把一整部两小时的电影扔进去,它不仅能给你总结剧情,还能把里面复杂的人物关系变化分析的透透彻彻。这种对长视频的原声权局理解,彻底解决了以往处理长内容时首尾不顾的痛点。 聊了这么多经验的功能,你肯定会问,这东西凭什么卖的这么便宜?咱们揭开盖子看发动机。 kvin 三点五 plus 采用了一种非常超前的混合架构,把限性注意力机制和稀疏混合专家摩易结合到了一起。虽然它的总参数量接近四千亿, 但神奇的是,他每次跑起来,其实只动用了其中的一百七十亿参数。这就好比一个巨大的专家库,每次只叫最专业的几个人出来干活,结果就是他的推理速度直接飙升到上一代的十九倍, 显存占用反而砍掉了百分之六十,这就是他敢把 api 价格打到地板上的底气。之后咱们不看跑分,看实战技术的强弱,得在春节这种高病发场景下见真章。 在二零二六年的春节期间,通用 app 的 agent 的 调动量突破了四十一亿次,这可不是简单的聊天,而是大量用户在用它自动点奶茶、买年货,甚至是处理跨软件的复杂工作流。 这种海量并发下的稳定性,足以证明 q n 三点五 plus 已经不是实验室里的玩具,而是真正能帮大家解决问题的生产力工具。一句话总结,他用十七币的成本跑出了四百币的智商,而且还便宜的离谱。

新年好,这个春节, ai 圈的火药味烧得比汕头的烟花秀还猛啊!就在大家忙着抢红包吃年夜饭的时候,千万冷不丁就把 q 问三点五开源了。大过年发布新版本是不是成了中国 ai 圈的传统 了?去年是 d c, 今年是千问,明年又是谁呢?那我必须得说啊,这确实是全球目前最强的原生多模态开源模 行。注意,我并没有加国产两个字作为定语,因为它这次直接是跨过太平洋,把 g p d 五点二和 jammerite 三 pro 按在地上 摩擦。但听说昨天 google 发布了 jammerite 三点一 pro, 又夺回了宝座。这个我们下回再分解。今天先说说 q n 三点五,大过年的,我就不念参数了,直接上实测,看看它是不是真的遥遥领先。 我们先来测测他的智商,就是那个让很多大模型翻车的脑筋急转弯,我去洗车店里洗车,距离五十米,我是开车去还是走着去?这些好几个大模型都劝我为了健康走着去,但那个是去洗澡,而不是去 洗车啊。你看 q n 三点五秒回开车,这个就叫做懂逻辑,而不是只是懂概率。那接下来再测测他的眼, 这是它最大的升级,就是原生态膜态,特别值得关注的就是它的视觉能力。我随手拍了一张酒店外的汽车图片,问他这部车是什么型号,什么价格,他不仅认出来了,还给我发来了 详细的介绍。但这还不是最骚的,我把 q n 三点五自己官方宣传视频丢回给他,我说把这个视频转移成一个网页版本,没过多久的时间,一个图文并茂、排版整齐的 html 网页直接就生成了。兄弟们,这是什么概念呢?以前我们只是用 ai 总结笔记,现 现在呢,他不仅把视频摆好了,盘还直接喂到你嘴里了。以后我们想快速的看视频,看发布会,这简直就是物理的外挂嘛。 另外,官方还给出了多个案例,比如说手绘转成网页,你上传一张手绘的草图,它会自动的转成包含丰富图片和交互的完整移动端网页代码。它还能够用视频复刻游戏,比如你上传一段游戏的视频, a, 还会理解这个游戏的逻辑,直接复刻出可以玩的 h t d m l 五的游戏,这理解能力也没有谁了吧?还能用图片生成影视介绍,你上传一些剧照,它能自动解锁信息,并且生成详细的 ppt 介绍文档,以后做 ppt 是 不是更容易了呢?更绝的是,它还能够找不同和走迷 宫。对于这个视频的推理能力,官方还测试了驾车视频的事件分析。上传视频后,我们问大模型车子是什么时候并线的,在多少秒开始右转的? 这理解能力太牛了。作为自媒体博主,最后我还测试了音频转字幕。之前我在 touch ppt 上试过了,它无法识别音频,但 gmail 是 可以的。这次我在 q n 三点五上用同样的提示词,它已经可以做的跟 gmail 一 样。好了,识别字幕又多了一个选择,千万!这次更新的 q n 三点五,除了强,更恐怖的是它很便 一 a p i 成本是 g p d 五点二的十五分之一, g m l 三 pro 的 十八分之一。为什么呢?因为它是 m o e 架构的,简单说,它有三千九百七十亿个大脑, 是个全能的学霸。但每次你问他问题,他只叫醒对口的一百七十亿个专家来干活,其他人就可以继续睡觉,这就叫做资源合理调配。以前我们总说国产摩星是在追赶,但二零二六年这个春节, q 为落地的性价比 上攻守之时已经完全反过来了。对于我们普通开发者和小团队来说,这个开局非常的完美。不用再去高攀那些昂贵的美元账单了,最好的工具就在身 边,这才是给我们技术人最好的电子年货。你开始用了吗?把你测试出来的案例发在评论区,我们讨论一下。最后祝大家马年吉祥,身体健康。 ok, 以上就是今天的所有内容,我们下期再见!

就在二月十六日,阿里云放出王炸幺二八 k 上下文长度横扫 ai 界。今天我一定要讲一款我们中国的国产人工智能,这可是目前最热门的人工智能呀,而且这个人工智能的更新时间是二零二六年的二月十六日,也就是前一天。 所以啊,你要是之前没用过我们的国产人工智能,那你真的得好好听一听。阿里云又升级了他们的大模型家族,发布了基于 q w n 架构的三点五系列。很多人以为去年美国 open ai 发布的那个 g p t 四就是当前最强的人工智能,但其实从去年下半年开始,咱们国内就掀起了大模型的内卷浪潮, 比如百度、华为、腾讯、科大、讯飞都推出了对标 g p t 四的国产人工智能。可以说,去年咱们国内人工智能的竞争还停留在数量上,而今年的竞争已经正式进入了质的提升阶段。昨天阿里云发布的这个 q w e n 三点五,就是这场竞赛中一个非常重要的代表。 那么这次阿里云的 q w e n 三点五到底有什么突破呢?首先,它支持了幺二八 k 的 上下文长度,可以处理更长的文本内容。 其次,相比之前的 q w e n 二点五 mx, 它的推理速度提升了百分之三十,同时它对代码的理解能力也有显著提升。最后,也是我个人认为最重要的,那就是它对于图片、音频、视频等信息的理解有了巨大的进步, 这样的能力在我看来几乎已经是目前人工智能的天花板了。当然,如果你好奇的话,也可以去试试看美国人的叉 gpt, 但是你要有心理准备,因为叉 gpt 由于没有开源,想要实现类似的功能,需要你自己手动输入大量的指令。 所以我个人还是更加推荐我们的国产人工智能,尤其是那些已经开源或者开放 api 接口的人工智能。之所以这么建议,是因为这些人工智能不仅功能强大,更重要的是他们开源的策略。要知道现在训练一个人工智能的成本是非常高的, 而现在随着我们国产人工智能的发展,尤其是这些国产人工智能开源后,我们可以基于这些国产人工智能,仅用几台电脑,甚至一台电脑就能做出一个人工智能 这样的改变,不光是让我们普通人也能接触到人工智能这项技术,更重要的意义是可以让人工智能这项技术快速的渗透到各个行业领域。 所以现在每个人都应该学习如何使用好我们现在的国产人工智能,毕竟这是目前性价比最高的。一个人工智能使用的时期,无论是从算力需求,算法需求还是数据需求,现在都是历史最低水平,因此现在才是最适合我们所有人去接触人工智能的时间点。

我在评测模型之前,我还是做一个主观的标准,因为不管他的这个评分怎么样,最终我们还是要用,还是要看他是否是真正满足我们自己的一个需求。 我把我常用的一些工具列在这了,大概是把模型分了五个档,五个档最下面那个我没列,我本来想的是这个起码来说也是现在的模型能到这种二型,也就是说基本上可用的程度。我是怎么定义他呢?基本上我跟他单轮对话,他会回答的问题是基本是比较准的, 如果再好一点,它可以是进行一些这种上下论文的这种交互。在这个地方你会发现我把这个 perplexity 是 放在其他的搜索引擎上面了,因为老实讲,它现在基本上已经变成了我聊天框的平替了, 它除了能够搜索信息之外,其实它对上下文的掌握对跟这个大龙虾现在都甚至有点像了。我有一次是让它给我去做这种排查这种 bug, 他给了我一个命令行,甚至直接把自己的内网 ip 都写进去了,因为我在前一天绘画的时候,把我的内网的 ip 地址提过给他。另外这个智普的这个四点七 flash, 这个我是在我这个服务器上本地部署的, 他其实在单兵作战的时候也是非常强的,我直接跟他在命令行对话的时候,他的这个表现跟这个四点七其实差别不是很大的, 基本上是可以做到既给你回答问题,同时给你建议,他的建议也是比较靠谱的,同时他也会比较周全的考虑问题,这个基本上符合官方对他的一个评价,达到四点七的百分之九十以上的一个这么一个能力。 但是这个用 openclaw 就 会有问题, openclaw 呢?它是多进程调用,我稍微问一点复杂的问题,它基本就是内存溢出了,实际上它占显存值有二十几个 g, 其实加上 kv 我 那台 mini 还是可以承受的。 但是问题应该就是出在 opencloud 上,它是这个多进程调取,它有可能在这个后台给我启动了几个紫禁城,那我这个本地肯定就撑不住了,我现在还在做它这个优化它的工作,当然我优化它我也需要比较好的模型在配合。 本来二月十二号那天我想去抢四点七的编程套餐的,它那天涨价了,所以我就没抢。同时我也问他客服了,他们其实对 opencloud 支持还没有那么好,因为它是一定时间有访问次数限制, opencloud 的 call 是 非常频繁的,很容易撑不住。 我就不用说了,这个是 club 家的,这个绝对都是王者。我在我这 cos 的 阅读套餐没到期的时候,最后爽了一把。基本上这么形容,我跟别的那个模型一起工作,我能学到很多东西,跟他工作基本你什么都学不到, 就他全给你做了。这里面还有一个小插曲,说我没想到就是一星还有选手,但是他是真的存在,笑死我了。这个我也不知道说什么好,我就给你们直接看结果。 最早我是在某度的里面去翻他的官网,因为毕竟搜确切的信息,用搜索引擎是一种习惯。 其实我已经翻到了第三页,还在给我发新闻,我实在没有办法了,其实我用 ai 用惯了,其实已经不太习惯用别的搜索引擎,但是我还是用了,并且是测试了一下,这个是谷歌的效果, 这个是必应的效果。行,这就算个小插曲。其实我刚才在搜索的时候是有些小心机的,我搜的是千万三点五 plus 的 官网, 我再换一个提示词。这个跟昨天也不一样了,昨天阿里是投了广告的,其实上面有个大的广告栏,但是他基本上是在很前面也都有了,我就开始配置了。这个测试题也非常简单,我让他帮我写段小程序。


朋友们,马年好啊!我今天不想讲技术了,我只想从一个父亲的角度来聊一下年三十发布的千万三点五这个模型。 我还是先解释一下视频的标题吧,我没有真哭啊,但确实已经十分感动了。起因是去年三月份我发过的一条记录,当时在给女儿用 ai 讲数学题。去年那个时候,大家知道啊, ai 已经很强大了, 纯文本的数学题已经是轻松拿下了,而且可以生成很详细的讲解,但其实还是多少有一些痛点的。我不知道看视频的大家有没有孩子,有没有遇到过这种情况。 有一些带图形的题目, ai 能生成讲解,但是孩子依旧看不懂,你必须自己消化完,而且指着书上的图,一边笔画着一边给他讲。有时候呢,书上或者卷子上的图又特别小,你指着非常不方便。 我当时呢,就突发奇想,能不能把这些图还原成网页版,做成矢量图,这样不就可以放大缩小了吗?我能不能通过一些动画对点线边缘进行高量来实验讲解呢? 但完全没有实现,因为当时模型实在是太差了。后来我甚至用了当时最好的 german 二点零 pro, 才磕磕绊绊用网页把简单的图形还原了出来,更不要说精准了,也不要说什么讲解了。 去年九月份,如果你们看我测试的千万三 v l, 当时他的数学能力已经非常强了。我找了一道高中的几何题,是证明四点共圆的题目。我尝试了非常多次,终于还原出一个数学上十分接近的图案。 ai 又继续发展。到了几周前, kimi k 二点五发布的时候,我又拿出来这道题去测试,经过了几轮也能勉强画出来一些,但是实际上它们都不够完美。因为模型啊,如果只是视觉能力强,数学弱,它就只能画出来一个样子。 但这并不是数学推导出来的。比如说这道题,这道题其实它有严格的绘画顺序的,它需要你懂它里头背后的数学模型,你才能真正把它画出来。 我用 gemini 网页版做的,虽然很像,但是数学上是完全不符合的。所以这道题你要是用网页把它画出来是有难度的。 ai 必须要充分理解它其中的数学逻辑,而且要按照顺序去画才能成功。接下来啊,我给你们看一看,用千万三点五能做到什么程度。 首先我们来看题目给出的图形,三角形 a、 b、 c 的 内切圆 i 分 别切 b、 c、 c、 a、 ab 于点 d, e、 f 三角形内一点 k, 使得三角形 k、 b、 c 的 内切圆圈也切 bc 于点 d。 根据这是一个我做的叫 tutor skill 生成的视频,它会先让 ai 把图画出来,然后思考怎么讲解。 用 t、 t、 s 生成音频,再用 mind 这个库做数学建模,渲染成视频进行讲解。我们看看它生成的分镜脚本啊,它先用正确的顺序描述了图形的绘制过程, 然后用高量的方式讲解定理,接着绘制成双曲线,最后引导出蒙日定理。这个 skill 啊,原本 kimi k 二点五出来的时候我就做好了,但很可惜, k 二点五不是一个好的数学老师。虽然说能做出来视频,但那个视频并不能实现教学效果,所以我也就没怎么用。但今天开始,这个技能被正式的激活了。 后来啊,我又不太放心,我又用了很多图形去测试它,基本都是 one shot 搞定,完美的还原。我仔细对比了一下同样的这道题用千万三点五和千万三 v l 的 思考的不同。 在过去呢,千万三各个版本它的思考还是很混乱的,我们经常在它思考的内容里看到,不过等一下可能这样的词语。这其实早期阶段的强化学习,为了强制 ai 进行反思的一种技巧吧。 但是在 queen 三点五的版本中,思考过程十分有结构化,你们看到没有,他更有 gemini 的 感觉了。 而且通过长城任务对 a 阵的能力的补强, queen 三点五在用编程的方式做数学讲解的任务中,也不会因为上下文中有很多的数学,所以导致他陷入过度的思考。 这样就既保留了充分数学思考的能力,又能在编程任务中里兼顾生成的效率。我相信大家也许看了很多 quan 三点五的测评了,有觉得它好的,也有觉得它不好的,但大多数说的都是编程任务。 目前我还没有使用困三点五去做编程类的任务,但我觉得这根本不重要。在 ai 时代,编程能力是越来越不值钱的,有那么多模型,哪个好用哪个不就得了,但把 ai 用在教育的能力才是真正稀缺的。 这一代的小孩跟大人是一样的。根据你对 ai 的 理解,你看到的 ai 也许是不一样的,你看到的世界也许也是不一样的。比如说你的孩子可能还在问网页版 ai, 还在拍照看答案式的利用 ai, 但隔壁家的孩子只是发了张截图给 open claw, 没多久,一个教学视频就被推送到了投影上了。每个人利用 ai 方式的不同,都会成为成长这条指数级曲线的复利因子。 所以,如果你是一个看过我的视频,并且已经开始尝试 cloud code 的 孩子的家长,那你一定需要把 core 三点五或者后续的模型加入到你的备选模型武器库里, 未来也可以关注一下有没有 core 三点五的 coding plan 推出。如果你还不懂 ai, 那 你一定要把这个视频发给你孩子的数学老师、物理老师。 另外,关于 tutor 这个技能,我想肯定有朋友又要伸手要了。没关系,我之后会整理一下我所有的 skill, 会出一期新的视频分享到 github, 所以 再稍微等我优化一下吧。好了,以上就是本期的全部内容了,谢谢大家!

龙虾加困三点五能擦出什么样的火花呢?我们知道困三点五在除夕夜正式发布了,它呢也是号称最强的开源模型,它的能力可以说拳打 g p t, 五点二 叫 t cloud, 四点五是可以和国际的这些顶级的大模型搬一搬手腕的。那好,那么这样一个国产的重量级的开源大模型,我们能不能在龙虾里面免费调用呢? 答案是可以的,接下来一个视频,带着你从零到一的在龙虾里面去接入困三点五,完成免费的调用。好,那话不多说,咱们直接进入正片吧。那么接入的步骤呢?其实也不多啊,总共呢四步就搞定了。首先第一步啊,如果你本地没有欧拉玛的情况下, 你先下载一个欧拉玛,注意下载最新版的,如果你的欧拉玛很长时间没有更新的,那么也是一样先更新到最新版本啊,那么这个没啥好说的,你呢,就把它下载下来,一路下一步就可以安装了 啊,安装完了之后呢,接下来咱们要在我的欧拉玛上去安装你的问三点五的模型。好,那么安装的话怎么安装啊啊?复制这行命令,然后这时候呢,把命令输进去就行了, 这个就是开源的问三点五的模型了。好,然后这时候敲回车,咱们只需要等待欧拉玛去安装千问就行了,很快咱们就可以看到。哎,我的千问三点五就已经安装到本地了啊,这时候呢,我知道有同学就说了,说,磊哥啊, 我本地的电脑配置不是特别高,问三点五能不能部署啊?这个还真能,为什么呢啊?因为在欧拉玛里面的这个问三点五的这个模型,大家可以看到了,后面跟了一个谁呀? cloud, 这个是欧拉玛新推出的一种 云端的模型啊,这些新模型呢? ok, 大家可以看到它都是有 cloud 标识的,像 win 三点五呀,智普的五呀,还有像 mini max 的 二点五啊,都是 cloud 的, 那么这个 cloud 是 什么意思啊? 啊?它指的是欧拉玛远程帮你已经部署好了满血版的这些模型了,你只要有欧拉玛的这个客户端,你就可以快速的去连接欧拉玛帮你部署好的这个开源模型了,所以这时候你不需要担心自己的电脑不好,因为这个满血版的大模型, 它的本质上是没有在你本地部署的,而是在欧拉玛的服务器上部署的,你有欧拉玛,你是可以直接去用的啊,所以它是这样的一个逻辑,因此呢,你电脑不好没有关系,是可以去用的。好, ok, 那 么很快咱们就部署好了啊,部署好了之后呢,接下来第三步啊,咱们就去登录我的欧拉玛账号。好,这时候复制这行命令, 来到命令窗口里面输入这行指令敲回车,然后敲回车之后呢,它会自动打开页面啊,这个是欧拉玛的登录页面,如果说他没有出现,大家看这个地址了没,复制这个地址,手动的粘贴到你的浏览器里面就行了。好,那这时候 ok, 去填写你的欧拉玛账号。那有人说,哎,那磊哥我没有欧拉玛账号怎么办?那没有邮箱的情况下呢,我们就去点击底下这个注册按钮啊,然后点击完成之后呢,然后接下来 在上面这个输入框里面去填写你的邮箱信息啊,那我就填写我的这个邮箱信息,点击继续。好,这时候呢,他让你去输入创建一个密码啊,那你就输入密码,然后点击继续, 然后点击下一步。好,点击完成之后呢,他要求登录到你的邮箱了,他把这个验证码收到你的邮箱了。好,输入完邮箱之后呢,他要求绑定一个手机号啊,那我们这时候呢,就去填写我们的手机号, 然后点击发送验证码。好,然后拿到手机上的验证码之后呢进行输入啊,输入完成之后呢,咱们就完成了登录了啊,大家看到没?我就登录了 啊,登录完了之后呢, ok, 去点击呃,底下的 connection, ok, 它就显示已经登录成功了,那么到这咱们的第三步就已经完成了啊,完成之后呢,接下来咱们就可以执行最后一步了, 使用这行命令来去启动你的 open class 啊,就可以完成 open class 接入欧拉玛里面的问三点五的模型了。好,那这时候呢,咱们最后一步啊,使用这行命令 来启动进行交互了。好,那这时候咱们来试着启动一下,回到命令窗口里面,把这行命令呢输入进去。好,稍回车。好,那么等待片刻之后呢,咱们可以看到啊,咱们的 open class 了,并且使用的模型呢,是欧拉玛的千问三点五的 cloud 模型啊,但是能不能用呢啊,那么接下来咱们可以打开命令窗口, 或者是打开咱们的飞书啊,来测一下。那我这呢就打开我的命令窗口啊,然后完了之后呢?好,接下来咱们就呃给他新开一个 new session 吧, 新开一个窗口啊,然后咱们来问一下他,我给你更换了新的大模型,告诉我你使用的大模型是啥,那咱们就给他一行这个命令啊,然后点击 send。 好, 那这时候咱们来看一下他给咱们返回的模型是啥,看到没?那他说的是我现在用的就是啥呀,问三点五的模型了,那这样的话,咱们就使用 openclo, 可以 免费的使用 欧拉玛里面的问三点五的模型了,好,这时候可能有人就问了,说,难道这么简单吗?我可以这样免费的去使用欧拉玛的云端模型吗?有没有限制啊?答案是有的啊,比如说欧拉玛的云端模型,人家也是有成本的吧, 所以说那么欧拉玛的调用云端模型的调用也是有额度限制的,然后这个额度限制在哪呢?给大家来看一下啊。这时候呢去点击账号右上角的这个账号啊,点击完了之后呢,在这大家看到没, 这块呢就是云端模型的使用限制啊,它是有一个百分比的,那么每周它会有一定的额度,然后每四个小时会有一定的额度,那么当你把这个额度用完之后呢,那么云端的模型就不能掉了, 所以我刚才问了两个问题,那么基本上就消耗了百分之一点二,所以这个免费的模型的话,每四个小时应该是能够调用一百次左右啊,根据你的这个上下文的这个计费是不一样的, 所以总体来看,这个免费的额度相比于其他的免费的额度来说啊,欧拉玛还是更实在一些。那么到这儿咱们就完成了在 opencloud 里面去接入问三点五的功能了。我是李哥,每天分享一个干货内容。

vib coding 发展非常如火如荼,几乎每天都有新的模型发布。今天我们做一期 ai code 发展观察。 为了测试目前的编程大模型效果,我用了同一条提示词看本地这两个以 i m g 开头的图片,它们是一个立体种植系统的实拍, 在现有 react 项目里新增页面,用锥点 js 在 三维空间实现忽略椅子、箱子等物品, 同时 mark 空气温湿度、光照、土壤温湿度,并接入真实天气与太阳高度数据要求从头到尾开发过程中要看到浏览器效果并持续调整比例。可以安装 skills tools mcs, 而且要先检查图片大小再理解内容。第一位选手是 qw n 三点五 plus 加 open code。 首先出场的是 qw n 三点五杠 plus 采用的工具是 open code, qw n 三点五很多自媒体宣传都很不错,所以我非常想试一试。我先在阿里云百链平台拿到 epi key, 再通过 open code connect 把模型接入。 真正跑同题后,一开始就因为图片太大把自己卡住了。具体报错是 exceeded limit on max bytes per data ur item ten million four hundred eighty five thousand hundred sixty。 我 把这个错误贴回输入框,让他重新思考再试还是犯同样的错误。作为补测,我又去 coder 点 q w e n 点 ai 跑了同题,结果过程里改动不少,但最终提交到 github 的 有效内容偏少。 第二位选手是 mini max 加 cursor。 最近 mini max 貌似风头正劲,所以我开通了 starter coding plan, 并把它放进 cursor 的 模型列表。它没有因为大图片需求描述把自己玩死,但是表现的不那么 geek, 本地明明是 pmpm 项目,他直接上 npm 代码也偏一次性脚本套路。不过这些都不是关键问题,他真正的问题是没法从截图里看出自己实现哪里不对,后续修正能力不够。 第三位选手是 gpt 五点三 codex 开发过程朴实无华且枯燥,我基本是没感情的点 allow 机器也可以配置成完全自动挡生成的第一个版本录屏,虽然还比较粗糙,但能看出它的图片热域抵理能力还是挺好的。 美中不足有两点,一是没用 react 翠这种更贴合 react 的 库,而是直接把必要文件下载到当前文件夹。二是代码几乎都堆在一个大文件里,这类问题可以通过条 skills 或在提示词里提前说清偏好来规避。 第四位选手是 cloud ops 四点六加 co pilot。 cloud ops 四点六是 co pilots 里最贵的模型之一。开发过程没太多槽点,但铲除有一个很大的问题, 他似乎没有清楚理解我提出的需求,加入了很多自己的合理想象,对于这种高约束任务,这类偏移会直接带来反攻。 最后一节阶段性结论,这次测评不追求一句话定胜负,而是尽量尊重同题施测的过程与结果。 不同,模型在稳定性、调试闭环和需求贴合度上各有长短。对开发者来说,最实用的做法还是持续复测,固定评测脚本,并把片号写进提示词,让模型服务真实交付目标。

二月十六日除夕当天,阿里巴巴正式开源全新一代大模型千问困三点五 plus, 性能媲美 jameson 三 pro、 gpt 五点二等顶级闭源模型,登顶全球最强开源模型 千问三点五,实现了模型架构的全面革新。此次发布的困三点五 plus 版本总参数为三千九百七十亿,激活仅一百七十亿。以小胜大 性能超过万亿参数的 quan 三 max 模型,算力部署成本降低百分之六十,推理速度提升八倍,多项精准评测结果媲美超越 gpt 五点二这门 i 三 pro 等闭元第一梯队模型。原声多模态训练也带来千万三点五的视觉能力飞跃。 在多模态推理、通用视觉问答、 dk 文本识别和文件理解、空间智能视频理解等众多权威评测中,千万三点五均斩获最佳性能。相比上一代昆三 max 模型推理效率大幅提升,最大推理存储量已升至十九倍,且上下文越长,速度优势越明显。 在模型部署端,千万三点五通过混合注意力极致显著优化长文本场景的显存占用,并结合高希书猫架构,将每次推理的时机、计算量控制在极低水平,部署显存占用降低百分之六十。 这意味着大模型第一次真正具备了下沉到边缘设备陷入日常应用的工程可行性。当行业仍聚焦于跑分竞赛时,千万三点五已将竞争推向新阶段,谁的模型更实用、更易用、更多人用得起? 不光卷性能,阿里在 ai 应用端也实属卷亡。一月十五日,千问啊发布全球首个消费级 ai 购物 age 的 春节期间,千问 ai 购物 age 的 六天时间帮用户完成了一点二亿笔订单,在全球首次实现大规模真实世界任务执行和商业化验证。 age 的 能力大幅增强的千问三点五,将进一步打开千问 app 在 工作和生活中帮人办事的想象空间。

家人们,春节党可不只有电影神仙打架, ai 圈这波王炸才是真的杀疯了。今天这条视频,我敢说会彻底颠覆你对大模型的所有认知。你是不是还以为现在的大模型拼的就是堆参数比跑分,看谁烧钱更多?是不是觉得模型越强就越贵,越遥不可及, 只能被大厂攥在手里,普通人小公司根本碰不到。我告诉你错!今年春节,阿里直接扔出一枚行业核弹,天文困三点五 plus 除夕当天重磅开园,直接打破了整个大模型的游戏规则。先给大家说一个特别扎心的真相,过去两年,整个大模型行业陷入了一场疯狂的烧钱竞赛。大家都信奉一句话,大力出奇 迹,参数从千亿堆到万亿,部署要专用,集额算力,中小企业望而却步,个人开发者想碰都碰不。 技术越来越强,却离我们真实的需求越来越远,最后变成了大厂专属的炫技工具。但千万三点五 plus 偏偏就不按厂里出牌,他不去拼参数有多大,只 拼技术到底有多聪明。总参数三千九百七十亿,但是只激活了幺七零亿,用最小的身材干出了最猛的效果,性能直接对标甚至超越那些靠堆参数堆出来的老款模型,媲美 g p t。 三点五 pro。 更狠的还在后面部署,显存占用直接降了百分之六十,推理效率直接翻了十九倍。但最炸的还不是性能,是价格, 千万三点五 plus 的 a p i 价格,每百万 token 只要八毛钱,仅仅是同类产品的十八分之一。可能有人会说,便宜而已,有什么了不起? 告诉你,这根本不是简单的降价,这是架构创新带来的效率拐点,是整个大模型行业的一次真正革命。你以为便宜就会牺牲性能吗?恰恰相反,它不是靠压缩成本,不是靠补贴烧钱。而 全新的底层架构,天生就决定了它可以又强又快又便宜。这是行业里第一次把最强和最便宜揉进同一个模型里。当整个行业还在死磕谁的跑分更高时,千万已经把竞争带到了下一个维度,谁更好用,谁更实用, 谁更多人用得起。为什么我敢说,性价比会是未来 ai 的 核心竞争力?因为 ai 的 时代已经彻底变天了。过去是聊天机器人,现在正在全面迈向 ai 智能体时代。 一个高频使用的 ai 应用,一天就要消耗数亿 token。 对 中小企业、对开发者来说,他们不需要过剩到浪费的极 致性能,他们只需要恰到好处的智能,更关心的是能不能覆盖成本,能不能真正赚钱。性价比就是通往万物 ai 时代的唯一门票。阿里的布局从来不是搞技术炫技,而是双线进攻。技术上追求星辰大海,深耕底层创新,打破算力天花板,应用上服务人间烟火,让 ai 真正走进我们的生活。就说千问 app 上线才三个月,日活直接冲到七千三百五十二万大榜,应用商店免费榜上线四百多项 ai 办事功能,是全球首个能完成真实生活复杂任务的 ai 助手。春节期间 ai 大 免单活动,六天时间,用户通过 ai 一 句话下单超过一点二亿笔, 奶茶买年货、订机票、订酒店,说一句话全部搞定,这是全球首次 ai agent 在 真时世界大规模商业化跑通,别人还在圈聊天,千万已经在帮我们办事了。讲到这里,我可以非常肯定的说,千万三点五 plus 的 发布,一定会彻底改写 ai 行业的格局。 第一,它会让技术红利不再只属于金字塔尖,个人开发者、创业团队、中小企业都能用得起顶级大模型。第二,它会催生无数新的创业机会,让 ai 不 再 是空中楼阁。第三,它会推动开源力量全面崛起,把 ai 基础设施的标准制定权从闭源巨头手里转向开源生态。第四,它会让 ai 真正落地千行百业,走进每一个普通人的生活。记得点赞关注哦!