最近, antropics 的 命令型工具 cloud code 源码意外在海外社交平台上泄露了。这份未经修饰的底层代码,暴露了一个颠覆认知的真相。 市面上很多文章都在吹捧多 agent 互相聊天的复杂切作,也就是粗暴模式。但看完大厂源码,你会发现,真正的工业级企业 agent 系统,核心根本不是多 agent 群聊, 而是极其稳健的单线层循环。加上精密的僵持控制,这期视频我们就深度拆解这份极具含金量的泄露源码,带你看懂大厂到底是怎么做 agent 架构落地的。 我们先来看它的大局架构。 coco 的 架构本质是分层调度,而不是对等结构。整个系统有一个统一的心脏, 叫做 query engine, 也就是单线程执行循环。在它的旁边,挂载着三套在后台并行运行的记忆机制。当用户输入指令后,系统会判断任务复杂度。 遇到简单任务, agent 直接通过单线程自己查资料、写代码,一条龙搞定。遇到复杂任务,系统才会切换到协调制模式。 这时候协调者不会自己干活,而是通过 xml 指令向下派发任务给下属 worker 去执行。 worker 干完活之后,必须把结果交给给协调者统一汇总,这是一种严格的上下级父子关系。看懂了这个流程,我们就能提炼出这个架构的三个工程关键点。 第一,万物皆 query engine。 无论是指挥千军万马的协调者,还是底层干活的执行者,他们底层跑的都是同一套思考在行动的循环机制。 第二,模式切换的成本极低。协调者其实根本不是什么特殊的程序,它本质上就是一个换了系统提示词的普通 agent。 注入协调者的提示词,它就是指挥官。换掉提示词,它就是执行者。 第三,记忆系统是完全独立的,它没有硬塞在对话历史里,而是由专门的模块在后台一步处理。这就保证了主循环绝对不会被庞大的历史数据拖慢计算速度。 接下来,我们把目光切入系统的心脏。 coco 的 底层根本没有用第三方框架,大约四十个工具的注册效应和分发,全靠自己手搓的一个单线城地归循环。这个循环非常硬核,它的流程是这样的,先组装上下文, 然后调用大模型 api, 接着判断返回结果。如果是纯文本,直接输出给用户。如果是工具调用,系统会串行去执行工具,执行完把结果塞回历史记录,然后带着新结果再次调用 api。 这是一个非常典型的同步地归过程。这种设计虽然看起来不够并吧,但在工程上极其可控,只要出了 bug, 你 看一眼盗用战,马上就知道是哪一步挂了。同时,这个循环每一轮都在精打细算,计算都肯,预算快,用完时就会自动触发压缩,防止任务中途崩溃。 在刚才提到的组装上下文环节,大厂的做法也非常值得借鉴。它的系统提示词绝对不是一个写死的几千字长文本,而是像乐高积木一样,在每次调用 api 前实时拼装。 它一共分了六层,第一层是固定的安全规则,第二层是决定身份的模式,第三层是几十个工具的描述, 第四层是项目的长期记忆,第五层是实时的代码仓库状态,最后加上对话历史。这种分层设计的最大好处就是极致的结偶。举个例子,如果你接入了一个新工具系统,只需要更新工具层,那一小块积木完全不会影响前面的规则层和记忆层。 这也就是为什么刚才说系统切换模式的成本极低,只要换掉第二层积木就可以了。当任务复达到单线层搞不定时,系统会启动协调者模式。元码里长达三七零型的系统提示词规定了一个极其严格的四阶段工作流, 第一步是调研,由工作者并行查代码,接着是最关键的第二步综合。这里有个极其重要的工程认知,协调者绝不能偷懒,只说一句, 根据调研结果去修复 bug。 这是把理解工作推卸给了下属。相反,协调者必须亲自阅读调研报告,理解问题,并写出包含具体文件、行述和逻辑的详细实施方案。方案定次后,第三步和第四步才交给工作者去实施和验证。 记住,并行干活是下属的超能力,但综合决策是长官雷打不动的职责。在派活给下属时,系统提供了两种选择,一种是 fork, 它会继承附近城的完整上下文,非常适合那种需要接着干的延续性修改。 另一种是 fresh agent, 它是从零开始的,不带任何历史包袱。这在代码审查场景下特别管用,因为我们不希望审查者带着实现者的预设偏见去看代码。 与此同时,源码里还划了两条斜作红线,第一条是不准偷看,下属正在跑的时候,协调者严禁去翻动中间过程文件,否则会把没处理好的噪声引入到主上下文里。 第二条是不准抢跑,只要下属没报完结果,协调者绝对不能为了回应用户而瞎猜进度。长周期中最容易遇到的问题就是 token 溢出。 cloud code 的 第一道防线是短期记忆压缩, 它采用了一种部分压缩策略,也就是只把靠前的旧内容压掉,而保留最近几轮的原始对话。这样既能省下大笔 token, 又能保证当前的交流细节不走样。更硬核的是,它把意识压缩成了一份久断式的结构化摘药,里面包含了技术概念、具体的修复方案, 甚至连原始代码片段都会保留。特别要注意,源码里规定所有的用户消息必须逐条保留,绝不能遗漏。这种精细化的管理,让 agent 在 长时间运行后依然能准确把握用户的初衷。 接着是中期记忆萃取,这是一个完全在后台静默运行的词 agent, 每当你们的一轮对话结束,它就会自动扫描刚才的内容, 它能敏锐地抓取出那些值得长期保存的信息,比如你特殊的编码篇号或者项目特有的技术规范,然后自动把它们写进项目的记忆文件里。这种设计最精妙的地方在于无改, 你不需要像用其他工具那样刻意对 ai 说。请记住这个规范系统,自己在干活的过程中就能把知识一点点萃取出来,实现所谓的自我进化。最后是最有意思的长期记忆整合,它的代码名称叫 auto dream, 这个名字借鉴了认知科学里睡眠整理记忆的概念。当 agent 发现你现在没在用它,处于空闲状态时,它就会在后台开始做梦。它会先读取旧记忆,再收集最近绘画里的新信息,然后进行深度合并。 他甚至聪明到能把昨天这种相对词汇转换成具体的绝对日期,并删掉前后矛盾的旧观点。最后,他还会对记忆缩影进行修剪,防止文件变得无限大。通过这套压缩萃取加整合的组合权, agent 才真正具备了支撑超长周期复杂任务的能力。 源码里还有几个体现顶级品味的工程细节。第一个是缓存优化。原本可用的 a 键列表是写在工具描述里的,但问题是,只要插件加载或者权限变了,这个列表就会跟着变。列表一变,整个工具描述的缓存就失效了。工程师们想了个招, 把 agent 列表从工具描述里拿出来,改成通过消息附件注入,这样工具描述就变成了完全的静态内容,缓存命中率大幅提升。就这一个小改动,直接帮系统节省了超过百分之十的 token 成本。 第二个细节是定时任务的抖动设计。当用户要求每天早上九点提醒时, clockcode 不 会傻傻地把定时任务设成九点整,而是会随机偏移几分钟, 比如设成八点五十七分或者九点零三分。这是因为如果全球用户都设在整点, api 请求会在那一秒钟集中爆发,把服务器顶满。这种偏移对用户来说完全没感知,但对服务端来说,他把恐怖的附带波峰变成了一条平滑的曲线,这就是典型的生产环境思维。 第三个细节是关于防止模型手件的。在做历史记录压缩时,我们只需要模型出载药,不需要它调工具。 但像 samsung 这种高级模型,有时候会自作主张去调一下工具,一旦调了,整个压缩任务就会报错。工程师们的方案是在提示词的最开头加上一段极其强硬的指令,明确告诉模型,任何工具调用都会被拒绝。 为什么要放在最开头呢?因为模型对开头部分的注意力最集中,把约束写在前面比写在后面有效的多,这能极大的降低模型不听话的概率。看完这份原码,我最大的感受是行业重心正在发生转移。 如果说前两年大家还在卷题式词怎么写,那么现在真正的战场已经变成了江城工程,模型本身的能力差异正在缩小。真正决定一个 agent 能不能在生产环境稳定运行的,不再是模型有多强, 而是你围绕模型构建的那一套控制系统。这包括你怎么编排工具,怎么管理不同周期的记忆,以及怎么在托管爆炸前做好资源控制。模型是马,而江神工程就是那一套决定马往哪跑、跑多快的控制系统。 最后, blockquote 给我们留下了三条落地铁率。首先,关键逻辑千万不能只指望提示词,必须要有代码层面的校验和降级兜底。其次,要把推理和执行分开,让大模型只负责做决策,而那些确定性的计算任务统统交给代码去跑。最后, 最好的数据收集是无感的,像系统自动整理记忆,这样让用户在正常工作的过程中自然贡献数据,而不是逼着用户去填反馈表单。做 agent 其实并不难,难的是做好那根控制他的僵绳。希望这次深度拆解能对你的阴谋落地带来启发。
粉丝141获赞955

那如何把可乐扣的接入更便宜的国内大模型呢?那今天给大家分享一个技巧,只需要两步就可以让你的可乐扣的接入国内大模型。第一步,安装 cc switch。 那 cc switch 是 什么?以及具体如何使用,我在前期的视频中已经介绍过了,那如果不知道的朋友可以再去翻一翻。简单来说呢, cc switch 就是 可以方便的帮你在不同的模型厂商之间进行切换,避免你手动去改配置。 那已经安装过 c c switch 的 同学,记得一定要把你的 c c switch 更新到最新的版本,因为最新的版本预设了很多的国内的 api 供应商,那你配置起来会非常的方便。 那第二步,我们只需要选择一个国内的模型厂商,把它配置填进来即可。那这里我们以 mini max 为例,那我们在 mini max 的 开发者后台先把 api k 给复制出来,然后在 c switch 选择 mini max, 把 api k 给填进去, 然后点击添加即可。那在首页的面板只需要点击使用,那我们的模型就切换到了 mini max 了。那我们回到命令行看看效果, 使用 model 命令查看当前是什么模型,我们看已经是 mini max 二点五了。好,那我们看下 api 能否正确响应, 那已经成功了,那看是不是很简单。那你现在的 color code 已经开始可以正常使用国内的大模型了。那如果你在安装的过程中有遇到任何的问题啊,欢迎在评论区告诉我,我是星星,每天分享一个 webkit 的 小技巧。

hello, 大家好,今天我来录一期怎么安装这个 coding code, 并且给这个 coding code 装上一些国产的大模型,就是用国产的一些大模型装它的一些 就作为它大脑吧。 ok, 我 们先理解一下这 coding code 它是什么?它是一个就是 ai 编程助手嘛,它可以直接在命令行理解编辑运行你的代码, 但是他他他只是一个,他需要用用到大模型的吧,用大模型作为他的脑子,然后就作为他大脑,但这个大模大圆模型你可以自己选,好吧,你可以自己选自己想用哪些用哪些,所以说就需要 你可以选一些用一些国内的一些大模型作为他脑子,然后然后用让这个 callin code 的 去用那个大模型。 ok, 怎么安装呢?你可以直接问豆包。好吧,你这怎么安装?可立扣子它会给你一些方式啊,最最最快的,最快的方式就是直接用一行命令,好吧,就用这个 npm 安装全平台。呃,需要 note g s 就是 直接这一行命令文件复制以后你直接打开这个终端,然后复制到这里,直接一回车它直接就安装了,好吧,就安装好了。 呃,这很简单,安装是很简单的呃,但是前提是你要有这个 n p m 工具,好吧,如果你要是电脑上没有这个 n p m 工具的话,你可以去搜一下怎么安装这个 n p m 工具也非常简单,就是直接安装怎么安装 n p m 工具就去官网下载一个,然后 一一下安装就行,安装以后你要去判断你有没有这个 note。 呃, note 和 npm 的 工具,好吧,你可以看一下,像我的话就已经安装好了吧,所以说它有这些工具,然后你有这些工具的话,你就可以一行命令直接安装这个核定扣的,你直接把这个,把这一行命令给它复制到终端上,然后一回车它直接就下载好了。 安装好以后你可以呃验证一下这个 coding vision, ok, 如果你这个这行命令打出来以后,呃就是它能够显示版本号,就说明你的 coding code 安装好了,好吧,安装是很简单的,但是怎么使用它呢? 呃,它其实就是一个呃,呃终端的一个命令,好吧,终端的一个工具怎么使用它呢?但是呃它你要使用它,你必须得给他接大模型,对吧?你不给他接大模型 他都没有脑子,对吧?就是大模型就相当于是他的大脑,好吧?然后这克林扣的就相当于是可以理解成他的四肢吧。 ok, 所以 说你现在相当于是只有了他的四肢,但你还没有他的大脑,你需要给这个克林扣的接上他大脑 啊,他默认用的是一些国外的一些模型,好吧?所以说你肯定用不了,你要去翻墙,或者说他那个药价比较贵吧。所以说我们大家一般可以用有一个工具叫做什么叫 cc switch, 这个 cc switch 他 就是呃来给这个, 相当于是给这个 colin code, 呃配置一些大脑吧。 ok, 那 你怎么安装这个 cc switch 呢?你就直接去搜好吧,你可以直接搜啊, cc switch 起,然后这就是它的一个 gitlab 的 一个地址,然后点进来以后他看这个文档,看他这个文档,然后点中文的, 点中文的以后,然后你一直往下滑,他应该告诉你从哪下载,呃,下载看 windows 用户,我们 windows 用户怎么下载?他说从这个 release 页面,我们点进去, 点到这个 release 页面以后,然后换成中文版的,然后你就直接向一直向下滑。呃,还有一个,它这里有,这里,这里什么?这里是对应版本,知道吧?因为它这个 cc 四位企业有很多的版本,你可以随便选一个吧,直接选这个版本,然后再点这个 release。 ok, 点以后你自己继续往下滑,你滑到最下面,呃,滑,呃,滑到最下面,就这就这,它就是你根据你的系统嘛,看你是 windows 还是还是苹果的系统。我像我,我是 windows 的 话,就加这个,就点它,点它,然后它就可以自动下载,从下载完以后,你就可以直接它是个压缩包,好吧?你就可以直接解压,呃, 像我的话,我就把它下到这了,好吧,我找一下我这个 c c o, ok, 它这个压缩包你解压以后它就成这,你直接点这个 exe 文件,它就直接直接安装好了吧?直接点它就可以到这个页面,到这个页面以后它就你现在就可以来配置你这 codelink 的 它的大脑了。 ok, 怎么配呢? 嗯,我们,我们要要配,你要给他配大圆模型,我们我用的是阿里百炼的,好吧你,我用的是阿里百炼的这个,嗯,大模型,你可以,你可以先去找好吧。大圆,你直接直接搜这个,直接搜这个阿里,阿里云百炼,阿里百炼,然后他会到这个页面,到这个页面,你先登录一下。登录以后, 呃呃。登录以后,你先去申请一个 api k, 好 吧?申请一个 api k, api k 就 相当于是你的密码,好吧?就相当于是你的密码啊,因为你要使用这个 大模型就要有密码,不然的话谁都可以用了。 ok, 所以 说你要创建一个 api k, 你 直接创建一个,创建一个,创建以后它就会生成这,然后你就复制一下,复,呃,你就可以复制,然后,好,你这 api k 准备好了, 这边 apikey 准备好了以后,你就可以来这配了,你直接点这个加号,点这个加号,添加新的供应商自营配,自定义配置。好吧,你这是名字,名字我就叫阿里百元二吧。 ok, 这个备注,这可不用写,可不用写好,这个 apikey 就是 您的那个,好吧,这,这里的 apikey 就是 你这里这里的,你复制一下,然后复制到这,你看一下。 ok, ok, 看一下,哎,这里你这 api 可以 不要暴露给别人,好吧?如果你要是暴露给别人,别人的话,就可以用你的 api 去啊,就相当于是有了你的账号,然后它就可以去访问你的大模型 啊,就利用,呃,利用你的账号去访问大模型,他会把你那个额度给刷刷完,好吧,所以那 api 可以 不能暴露。 ok, 那 api 写好以后,请求地址,呃,他就知道去哪里请求,对吧?所以他这个请求地址你要写一下他的请求地址写哪呢?你可以看一下这个 api k, 我 们先你看 api k, 然后,呃,点这个使用指南吧, 然后新窗口打开,就有一些使用指南,我给你拿到这个,呃,新窗口以后,他这里有一个坑,好吧。呃,你,你,你这里要选哪个呢?正常的话,假如说你看这个是 bc 二,有的人他可能会直接复制上面这个,或者复制下面这个,复制上面这个,但是这有个坑,好吧?因为你看他说常用的配置工具,他这里有扣领扣的, 所以说你就肯定要选这个,他专门的给扣零扣的准备的那个 bc 二 l, 好 吧?所以说你不要,不要应,应该不能选上面这个,应该要选下面这个,我给你点,点了以后,他下面他这里就有这个 bc 二 l, ok, 然后你就把这个复制一下,复制一下放到这个请求地址这里,放到这个求求地地址里面 以后,然后,呃,然后这里还有一些你可以看,好吧?看下面这个是否和这个相同,好吧?是否和这个 它这里里提示了相同,你看,呃,哦,你看这里它好像有点不太相同,对吧?比如说它这里是 also token, 然后它这里写的是 api k。 啊,那我们应该换一下这个高级选项吧?高级选项应该是真正做断,我们应该选成 api k 吧,保,保证这个一样好,保证它和这个文档一样, ok, 这样的话其实就可以了。但是你现在是只是,呃知道了 他这个,他只是知道了你要访问这个地址,但是他不知道用哪些模型,对吧?因为这个阿里云版他有很多模型,你还不知道用哪个, ok, 所以 说你这里要配一些模型啊。模型怎么配呢?你就去找呗,找他找点那个模型,然后全部模型里面你找一个模型,因为他有很多模型,找一个自己想想用的,比如说这个吧,啊?你就点 点,然后你把这个模型的名称复制一下吧,这模型的名称你不能输错吧?输错的话他就识别不到,然后他是他也是大小写敏感了, ok, 然后你就可以复制复制到这主模型吧?主模型和推理模型,他这个是什么意思呢?主模型?什么推理模型?哈库模型,他这意思就是他那个, 呃呃,他这个意思就是,呃。你那个 qq 模式还有什么松林扣的?他有很多种模式,好吧?比如他有什么推理模式,还有什么松林摸一模型,就他有很多不同的模式,比如说他有的模式他 能够更深度的思考,还有一些模式,比如说一些简单的他,他给你提供一些快速的一些模式,然后就可以根据这个不同的模式配置不同的模型,对吧?你可能比如说,嗯,你一些深度思考的,需要深度思考的场景,你就给他配配一个。 呃呃,比如说推理模型吗?你可以给他推一个配一个好一点的模型,然后比如说这个有些快速,快速的那些模式的话,你就可以给他配一点那种差一点的模型,好吧?大概就这个意思。然后这里我就全配成这个,全配成这个,好吧?全配成这个房间这里有显示。 ok, 那 这样这样其实就好了,好吧?这样其实就好了,你就可以直接添加了, 添加以后你可以测试一下吧。刚刚添加,你要测试一下点这个点,这个是测试的哦,你看他测试阿里云百炼二运行正常, 他运行正常。 ok, 到这你其实就好了,好吧?你可以点这个起用,好吧?点起用,点起用的话就可以起用,起用好,起用,这时候你这个口令,呃,口令扣的就相当于是有大脑了,好吧?就现在有大脑就可以直接用它怎么用呢?它其实是一个终端工具。好吧?怎么用呢?它其实在终端运行,比如说, 呃,咱随便找一个文件夹吧。好吧,我随便找一个文件夹啊,找一个扣的吧。 ok, 我 找一个扣的,然后怎么用的? 呃,它其实是一个终端,你可以直接在终端用。好吧?你直接 c m d, 然后它它直接就到这了,然后你可以在这,在这就可以用,你可以打一个什么那个启动命令叫啥来着?我也忘了,好像叫 callin code 的。 呃,好像启动命令是这个,好像,试一下, 哎,你看,然后它就它就给你个提示,对吧?你试一下,你看,然后它就它就给你个文件夹 啊,然后啊,你看这时候它编辑的就相当于是它给这个文件夹连接起来,好吧?现在连接起来,然后你现在它这个编辑 code 就 可以利用这个 code 里面的一些文件。比如说你让它创建一个文件吧,比如说,呃,帮我, 帮我在文件根目录下创建一个文本文件,里面写一个 hello world 吧, 我随便写一个,然后你直接回车,然后他就开始执行,然后,呃,他会让你确认一下吧,他会让你确认你,你确定是否要创这个你要确认,然后你可以选第二个。呃,就是 你要是选第一个的话,就是他每次创建文件的时候都会让你确认一下,第二个的话就是,呃,你不用确认了,后面就不用确认。 ok, 我 直接选确认, 哎,你看他如果就帮我们创建好了,创建到这了,然后这个是重转工具。 ok, 但是你这样用不是太丑了吗?你只能用在这工具这这个终端里面用,很丑,好吧?呃,也也不好用。然后然后它,嗯,它就会在你的一些编辑器,比如说你用的是 vs code, 或者是你用的是 part time, 它里面都会有一些插件,好吧?哎,我看我这是啥呀?它里面都会有一些插件,它会集成这个 扣领扣的啊,你就可以直接去搜,好吧?像是我还没下载呢。这个当然你可以自己去搜,你直接搜这个扣领扣的,应该是,应该是扣领扣的吧,你直接搜,他应该都会有一些插件,然后你你,你去下载那个插件,下载那个插件他是速度也慢, 你看扣领扣的。 for vs 扣的,你去下载这个插件,然后他可能就会给你提供一些啊图形化的页面,好吧?有更好看一点,或者怎么样?然后还有这拍卡模,我在这个拍卡里面集成了这个扣领扣的吧,然后他也是这样,只不过有点丑。 反正就这样啊。这,这就是口令扣的,然后你就可以用它,它,它现在就相当于和你整个文件关联起来啊,你就可以用它去操作一些文件,比如说这里就让它, 然后再说一下吧,就它这个口令扣,它有很多模式或者很多命令,比如说你打一个斜杠,还有很多很多什么这种命令什么的,比如说你写一个 model, 好 吧, model 是 model, 然后他就现在就让你选模型的嘛,就是选那个模式或者什么的, ok, 然后就这样,大概就这样,大概大概就这个意思, ok, 然后比如说你可以帮我分析一下项目结构吧, 然后它就自动开运行,它相当于和你这个结构文件结合起来,会啊,这就是可听歌的用法吧?然后你就可以直接问他或者怎么让他帮你携带吗?或者帮你做事情等等等等一些,然后他就开执行。然后它的聪明程度取决于什么?取决于你给他配的大脑,对吧?他给你配的这个阿里百炼这个大脑, 然后你,你给他配一些聪明的大模型,他肯定能够更聪明一点,好吧?但是,但是他应该是需要收费的,好吧?这个,这个阿里云白电他需要收费的,但是他会给你提供一些免费的额度,好吧?像我这个,呃,看免费额度, 看我这只剩百分之七十,好吧?我可能我刚用了用了电,然后他用百分之七十,所以说他还是要付钱的。 嗯,但是这个付钱也不是 qq 的 收你的,好吧?它应该是你个大模型厂商收你的,像它是肯定阿联版链收你钱的吧?要给这阿联版链里面充钱,然后这就是 qq 链的用法吧? ok, 希望能帮助到大家,好吧,结束。

这种感觉啊, top code 的 skill 一 大堆,但你根本不知道该装哪个。其实最简单的方法就是抄冠军的作业。 github 上有个项目叫 everything cloud code, 这是啊, hackson 冠军整理的一套 cloud code 的 工作流不是几个 prompt, 而是一整套的工程化配置。里面直接打包好了,五十六个 skills, 三十三个 commanders, 还有十四个 agents。 而且你还能看到很多高手的工程套路,比如说头看优化记忆,持久化并行执行,还有紫 a 阵的编排等等。 安装也特别简单,两行命令。唯一要注意的就是 m c p 不要全开,因为工具描述本身会占用上下文。所以如果你不知道装什么 skill, 那 就先抄冠军作业吧。

我发现啊,大部分朋友虽然订阅了高级的 ai 套餐,但实际上他能看到的 ai 世界就只有这么一点点。 那么今天通过这个视频,我要教大家一种方法,让你们能打开思路,看到整个的 ai 世界的版图。而且你们会学到一种新的思路,就是用模型的组合来解决更加复杂的问题。 那么问题到底出在哪呢?现在大家不是都有了小龙虾了吗?而且也订阅了很高级的 coding plan, 能解决一些问题了。但是我不知道你们有没有这样一种感觉,就是 能干的事好像也就这么一点,是不是有一种就这的感觉?其实这里有一个误区啊,就是在很多人的认知里,大研模型就是 ai 世界的一切了。现实是这样子的,你只是雇用了这个世界最聪明的一个大脑,而且这个大脑被关在一个黑屋子里, 他没有手没有脚,又瞎又聋,而且他只能通过文字和你来沟通。我今天要给大家介绍的就是什么叫全能的 ai 中书。我工作的场景是这样子的,我写稿的时候,同时脑子里就会有一些画面,这时候除了 ppt 之外,我还需要一些壁肉的素材, 能够帮助我更好的表达。那这个时候我左边的屏幕上的 a i a 呢,就会帮我把讲稿转换成必录素材,右边呢,随时去看结果。如果任务时间比较久的话,我就先去干点别的, 他完成后会自动通过音箱通知我,我不满意的时候也可以直接发语音,让他直接修改,完全不用守着电脑。这听起来挺厉害的吧,但是我的智能中书其实没有这么复杂的, 他其实就是一个小龙虾,作为大脑,连接着家里的各种设备,比如说电视和投影,他负责展示成果,宏帕的 mini 负责通知我,结果 ipad 实现了一些功能的控制面板,我通过手机上的飞书来语音控制我的小龙虾,让他帮我干活。但其实这些设备都没有什么大不了的,真正让他们火起来的,其实是背后的模型。 这就是我今天想讲的 ai 世界的模型版图,当你掌握了这个版图,你就有能力构建自己的 ai 超级中书了。 很多人认为 ai 就 只有大元模型,但其实模型的种类非常多,我给大家快速过一遍啊!首先,你最熟悉的叉 gpt、 cloud、 千问这些,它是负责理解、推理、生成文字,也就是中书的指挥官。 那么 v l m 是 一种能够看懂图片和视频,比如说 k 二点五、千万三点五,你给他一张截图,他就能告诉你哪里出错了,你给他一段监控视频,他就能总结发生了什么。 那么全模态模型 omni 是 什么呢?这是我最关心的一类模型,比如说小米的 miimo v two omni, 他能同时理解文字、图片、声音、视频。比如说你丢一段语音,加一张图给他,他能同时听懂你说了什么, 看懂了图里有什么,还能感知到你的情绪。而且如果是千问系的奥尼模型,他甚至还能用不同的音色直接回答你,这活脱脱就是一个贾维斯啊。 那么 asr 模型,它能把语音转换成带时间轴的文字,不只是转录那个时间轴,还能用来做字幕,甚至用来剪辑视频。 tts 模型可以把文字变成语音,还能克隆特定人的音色,让 ai 助手有自己的声音。 图模型咱就不用说了吧,文字变成图片,这个太多了,做封面,做配图,做逼肉素材,做你的宣传文案的东西,你只要描述什么就能得到什么。 那么生视频的模型现在越来越火了,我之前介绍那个 ltx 二点三就可以从文字或者是文字加图片来生成。那么音频分离模型,这个比较有意思啊,而且很实用,它能把一段音频中的人声和背景音乐、环境音乐完全分开,变成多个音轨。 哇,这个就有用的场景太多了,我们稍后说。那 ocr 模型大家听得更多了,就是可以从图片 pdf 中提取文字识别报表、识别公式等。还有一类模型叫音乐生成模型,我最近也开始研究,因为我想给我的视频里配一些 bgm, 这些模型可以根据你的描述来生成不同风格的 bgm 和音乐,所以你再也不用找那种版权音乐了。 还有向量模型和重排序的模型,你把文字变成向量放在数据库里,这样你就可以把它当做一个知识库来解锁了。你问一个问题,他就可以从海量的文档里帮你找到最相关的答案, 甚至还有什么物体识别模型,因果分离模型,总之就是太多了,好多我连我也不知道,我也在慢慢的学习。 我刚才一个个的介绍,你们可能觉得每个模型好像也就那样,但是你们想一想啊,人的眼睛、鼻子、嘴巴还有手, 单独的话哪个也干不成什么大事,但是当他们配合起来,人就无所不能了。模型也是一样的道理,配合起来才能完成复杂的事情。那么我举两个场景,你们一下就明白了。 比如说第一个短句的多语言版,大家知道吧?你有一部中文短句,你想做成日文版,该怎么办呢?五个模型,我可以把它串成一条流水线。首先音频分离模型,先把人声和背景声分开, 然后 asr 模型,识别出每个角色的台词和时间轴。大元模型,把台词翻译成日语 tts 克隆每个角色的音色,生成一个日语的配音,最后再按时间轴把日语对白和背景声合成回去,这样一部多语言的短剧就做出来了。 场景二,假设你是一个电商,你有一段暴躁的语音,并且附带了一个错误的截图, 传统的文本型的客服机器人呢?怎么办呢?他完全看不懂图啊,他也没有办法去理解用户的情绪,所以你就等着被投诉吧。但是如果你用 omni 模型,他同时听懂了语音,看懂了截图,甚至他还能感觉到用户的情绪,他用户在发火。 于是他识别了截图,调用了向量数据库,找到了这个问题的答案,生成了安抚的话术,还送上了代金券。 这样一个模型就把传统的三个、四个系统才能干的事全都搞定了,你们说这厉害不厉害? 你们看,我脑子里其实有无数的这样的场景,所以我就特别热衷于测模型,为什么呢?因为有的流程已经实现了,有的确实还缺那么一两块拼图,所以每次有新模型发布的时候,我都特别激动,因为以前跑不通的流程,可能现在就跑通了。 我之前也讲过吧, ai 时代最重要的信息源就是模型,所以如果你们对这张版图足够熟悉的话,脑子里又有无数的痛点和工作流。那么新模型一发布,你第一个直觉就是哪些模型能组成 combo。 这就是建立超级中书的意义,你要做一个超级个体,一人成军,你就一定需要一个超级中书来扮演你的程序员、设计师、音效师、 摄像师、导演。这时候可能就有很多朋友抱怨了,我们哪有那么多钱?你这有好的 gpu, 你 那站着说话不腰疼,这门槛是不是太高了?是不是还得花好几万买个四零九零服务器?我告诉你们,完全不需要,完全不需要! 你需要知道的是,即使你只有一块十六 g 显存的 mac mini, 或者是一块四零六零太几千块钱的成本 就足够运行上面大部分的模型,哪怕极端一点,你一点硬件也没有,那也有解决方。很多厂商的偷根破烂里,不仅可以用大语言模型,甚至还包括了生图、生视频、做音乐、做配音的能力。 而且各大云厂商也汇聚了各式各样的 toc 付费制的上述模型。但最重要的一件事其实是,你不能仅停留在学习,你必须去上手试。为了让大家能动起来, 我刚偷偷把我女儿打游戏的这块四零六零肽给拔下来了。如果大家感兴趣的话,可以点个收藏,然后在评论区告诉我, 我下个视频就用这块四零六零肽手把手的教大家从零开始搭建一个属于你们自己的超级 ai 中书。那么以上就是本期的全部内容了,谢谢大家。

上一期视频介绍 autoclave 的 时候,发现有个编号叫做 polly 阿尔法奥特代号模型,现在这个模型这不正式发布了,叫 glm 五 turbo, 看起来是 glm 五加强版,在工具调用、多智能体协助、常用协同等方面的能力尤其突出。我近期刚好在看 cloud code 新出的 agent teams 的 特性 很有意思,能让多个智能题一起协作并行完成一个任务,比较考验模型在复杂指令和多智能题协作上的能力,这不就刚好和质朴的 g o m 五 turbo 模型能力匹配上了?话不多说,那就直接上手实测。 agent teams 目前还只是卡洛克德的实验性功能, 在这个功能下,首先会有个 team lead, 它会去分析并拆分任务,并把任务分给下面的执行的智能题,比如前端、后端测试等等。 在这个模式下,执行的智能体之间可以互相沟通,共同完成任务。而 team lee 会在整个过程中一直协调每个智能体的工作,询问进度。这也太像真实的工作场景了吧。 team lee 的 角色会主导开始整个项目的生成, 在生成过程中,可以通过 shift 加下方向键查看每个队友的输出以及代码生成情况。 tim lee 的 也会在过程中多次查看队友是否完成任务,并且会不断更新整体的任务进度以及完成情况。当所有任务完成之后, tim lee 的 还会对代码进行审查。最后清理团队资源,来看一下效果,来创建一个新的时间线, 比如输入苹果公司,点击生成,就开始调用我后台配置的智普的 a p i 了。生成出来是这样一段时间线可以自定义编辑, 没有问题就保存下来。在自己的列表中可以看到保存的时间线,也可以查看详情。数据都是保存在 posgrid 中的。 使用 cloud code 结合 agent teams 加上 g m 五 turbo 模型,在做一些需要跨层协调的任务的时候,效果会好很多,尤其是在编程场景,现实中本身就是产品经理, ui 前后端测试多个岗位,用 agent teams 就 十分合适了。以上就是本期视频的全部内容了,我是鱼仔,我们下期再见。

coco 这次原码泄露,真正泄露出来的不是 snoop 最核心的模型秘密,而是 ai agent 最值钱的产品工程和设计方法。对同样大厂来说,这可能只是少了一点信息差,但对做 agent 产品的人来说,这几乎就是一次近距离拆解顶级产品的机会。 所以这期视频我们不仅会聊这个事故本身,以及 coco 接下来会往哪走。我觉得更重要的是,对于我们这些做 agent 产品的人来讲,这次事件到底有什么真正的启发? coco 这次其实是发布时出了问题,于是外界顺着这个文件把大量原码还原了出来。 所以这次被大家看到的不只是 coco 这款最先进的 coding agent 是 怎么做的,也包括它接下来可能会往哪走。我们能看到一堆零散的功能,比如主动模式、后台任务、远程规划、多 agent 协助以及跨设备任务续接。但这些看起来零散的功能,其实背后都在说明一件事, coco 正在从一个聊天室变成助手,变成一个真正的 agent operating system。 它未来不再只是你问一句,它答一句,而是要变成一个能接任务、推任务、跑任务,甚至跨平台把任务续上的系统。 而它真正关键的地方,也不在于单个 agent 有 多聪明,而在于工具、权限、记忆、任务和多 agent 的 分工都被自动化工程化了。也正是因为这样,我觉得这次 leak 最值得看的地方不只是它暴露了哪些功能,而是它背后的那套系统设计。所以我们再来聊聊这件事情,对我们做 agent 产品到底有什么借鉴。我觉得至少有三点。第一, 真正拉开 agent 差距的不是模型,而是 operating model。 所以 我们这次要学的不只是他们的内存 prompt, 外面的整套系统 pl 和产品体验统一成了一整套运行系统, 很多时候差的不是模型,而是这套产品工程。那第二呢,就是成熟的 agent, 不是 更自动,而是更可治理。那 cloud code 这套东西里,最成熟的恰恰不是放权,而是治理。 他们有 permission mode, 有 hacks, 有 ask deny, 这些 mode 有 风险动作边界,甚至连工具调用前后都能被拦截和修正。它追求的不是舞蹈自动,而是可控自动。第三,就是下一代 agent 产品拼的是任务连续型,因为用户真实的工作流不是一次性完成的, 而是会被打断,会切后台,会跨设备,会从本地切到远程继续。所以 coco 暴露出来另一个很强的方向是,它已经按照任务系统来设计,有 a sync background remote 的 life cycle, 有 task system, 也有 transcript resume clean up 续接这些任务的痕 迹。所以未来 agent 产品比拼的不只是一次回答到底多聪明,而是谁能把任务接住,持续推进,最后交付结果。那这次事件让大家更清楚地看到,下一代 agent 产品真正拉开差距的,很多时候已经不是模型本身,而是系统设计和产品共存。

如果你也想了解 cloud 的 这种 a i a, 这到底是怎么设计实现的?这个网站你一定要看一天,了解一个 ai 工具。第一期今天要分享的是这个网站基于 cloud code 的 原码静态分析整理而成,将 cloud code 的 架构、安全、核心机制、组建体系都进行了整理分析。比如你想了解它的 memory 能力 是如何设计实现,点进对应文档,它帮你将总体设计底层存储模型记忆分层机制 agent 使用记忆的方式记忆共享、记忆优化全给你。讲的明明白白,不用你自己去啃几十万行代码就能参考学习顶级 ai agent 框架的记忆设,如果你也在学 agent, 建议直接收藏。

昨晚,智普突然扔了个大招,距离 glm 负五发布才一个多月, glm 负五点一直接杀到编码能力暴涨百分之三十,得分从三十五点四直接跳到四十五点三。 cloud op 四四点六,才四十七点九,差距已经肉眼可见地在缩小。六个月前,这个差距还是十几分,现在只差二点六分,达到 cloud op 四四点六的百分之九十四点六。在实际编码场景中,这个差距几乎可以忽略, 有人甚至说应该直接叫 g l m 负五点五。还有用户测试发现, g p t 负五点三都没搞定的问题, g l m 负五点一直接解决了。看数据, s 大 愈减, bench verified 得分七十七点八,开元模型最高 turmnobench 二点零,得分五十六点二,超过詹姆奈三点零。 pro 擅长复杂系统工程和长城 agent 任务使用体感逼境 cloud opus 四点五,这是目前国产编程模型的天花板。说价格, cloud opus 按量计费每百万 token 大 概十五到七十五美元。 g l m 负五点一,通过 coding plan 使用 light 套餐,三美元起步,按量计费每百万 token 只要一元, 用 cloud 十分之一的价格,获得百分之九十四点六的体验。使用方式超级简单。如果你已经在用 g l m coding plan, 只需要找到配置文件,比如 cloud code 的 sighting store js, 把模型名改成 g l m 负五点一就行了。 一行配置无缝切换,支持 cloud code、 cursor、 open cloud 等主流。 coding agent 质朴也很坦诚,说了两个现实问题,第一,高峰期可能限流, 每天下午两点到六点,系统负债最高,编程任务会被优先保障,非编程场景可能会排队第二。高峰期消耗三倍额度,非高峰期只按一倍抵扣,建议错峰使用,体验会好很多。重点来了,现在到四月底, g l m 负五点一 在非高峰期只按一倍抵扣,这个福利期间用起来超级划算。三美元的 lite 套餐,日常开发完全够用。 pro 和 max 套餐适合重度用户,发布几小时内已经大量用户上手体验, x 上好评不断。 有人说稳定性比 g r m 负五好很多。有人说长链路 a 阵这任务终于不崩了,从三十五点四到四十五点三的百分之三十暴涨,不是吹的,是实打实的工程能力提升。如果你是国内开发者,不想翻墙用 cloud, 又想要接近 opus 的 编码能力, g l m 负五点一目前是最佳选择,尤其适合复杂工程任务和长城 a 阵开发。 g l m 负五点一国产编程模型的天花板编码能力直逼 cloud, opus 价格只要十分之一。邀请码在评论区点赞加关注,赛博杨千焕明天见!

九 b 的 蒸馏模型工具调用测试居然打了满分。大家好,我是 ai 学习的老张, cloud opus 蒸馏 q n 三点五这条线我从 v 一 追到现在,今天 v 三来了,这次改动大到连名字都换了,叫 q opus 三点五。 q n 加 opus 的 合体 v 一 是让小模型学会推理, v 二是让他想得更少,答得更快。 v 三的核心是让他学会用工具干活,从会思考到会行动,这是一个质变。 先看数据,九 b 的 g g u f 版本下载量十点九千,断崖式领先,说明什么大家心里清楚,九 b 就是 甜蜜点, 十六 gb 的 macbook 就 能跑, windows 上普通显卡也没压力。再看跑分, humanivowv 三拿了百分之八十七点八,比原版 q 三点五的九 b 高了将近五个百分点。 v 二在九 b 上其实没啥提升, v 三一下子拉开了差距, mmlu pro 通用知识能力 v 二掉了百分之七点二,当时我说这是代价。 v 三把这个问题修了,反超原版一点四,三个百分点,代码更准,知识也没丢,这在蒸馏模型里非常少见。 效率方面,思维链缩短百分之二十五,推理效率提升百分之三十一点七,用更少的 token 办更多的事。 最让我兴奋的是,工具调用 v 三专门做了针对工具调用的强化学习训练。我用凸口十五跑了一遍,十五道题全部通过满分。之前 v 二的二七 b 才做到这个成绩,现在九 b 就 行了。我的判断,这是这个系列真正成熟的一代。 想本地跑一个能写代码,能调工具,还不吃资源的模型。 q r p 三目前最值的是关注,老张,我们下期见!

我去,这也太强了!这个新出的帧率模型,通过 colloud 优化后改良的思维链,让我的 max studio 本地部署的小龙虾能力直接提升了一倍。之前囤的六十四 gb 的 max studio, 现在真的变成 a 级的神器了。先说之前的问题啊,我挂 mini max 做运营总监写文案那是真的强,但是让他做复杂的推理,比如让我分析淘宝的店铺数据, 做更多步骤的工作流,他就经常漏步骤,考虑不全面,还会突然变得很傻得反复纠缠。我现在换了这个纤维,三点五二十七 b 的 klop 四点六 ops, 名字虽然很长,但是你只需要记住一件事情, 他就是把 klop 的 四点六 ops 的 推理能力震就到一个二十四 b 的 小模型里面。二十七 b 意味着什么?我这些六十四 gb 的 max 六六就能满处跑,不需要二百五十六 gb 的 性能怪兽。我给大家看一个实际场景呢,同样的任务,让 a 经理分析一个淘宝竞品的店铺,拉价格、销量趋势,评论关键词。 之前的模型,我得来回一个三四轮,提醒他,你漏了这个指标那个指标。换了这个真六模型之后,我一轮对话直接全部拉完。中间你就正,再说速度啊, 在我这台 m 三要求上,推理速度体感跟线上的 klog 差不了多少,但关键是零透根消耗,不花一分钱。用线上 a p i klog 一个月随便就得几百块,贵的还得上千,我这边电费几块钱就能搞定。而且这个模型特别适合做 a 阶的执行层大佬, 现在配置是 ceo 模型,还是用大参数的负责决策和调度,但下面干活的这些小 app 写代码拉数据做分析的,全部换成这个蒸馏模型,成本直接就砍掉,效果反而更稳了。说实话,蒸馏模型这个方向一出来,我就知道本地部署这条路彻底走通了。 以前总是有人说本地模型跟线上的模型差距大,那是因为以前确实差,但现在这些被顶级模型蒸馏过的小模型,真的是让六十四 gb 的 机器也能跑出接近线上的体验。一人公司加本地 i 这件事越来越 real 了。

如果今天让我们自己做一个 agent team, 我 觉得最该借鉴的不是界面,也不是几句提示词,而是它背后那套 agent run time。 因为真正决定产品能不能落地的就是这一层。 第一层是交互入口,用户可以从 cli 发起任务,也可以从 id 里调起,还可以直接在 p 二评论区触发。重点不是入口多炫,而是所有入口最后都要落成一个标准任务。 第二层是主调度 agent, 也是整个系统的大脑,他先理解目标,再把任务拆成任务数,然后判断哪些能并行,哪些必须串行。没有这层多 agent 很 容易变成多人同时乱干。 第三层是专业子 agent, mvp 阶段,我建议先上四个角色, planner、 implementer、 tester 和 reviewer, 数量不用多,但每个角色都必须边界清楚,而且拿到的是最小必要上下文。 第四层是运行时治理,也是最容易被低估的一层。 agent 真正跑起来之后,风险不在他会不会写代码,而在他会不会乱调用工具越权操作,或者在错误路径上无限消耗 token, 所以权限 sandbox、 hooks 和审计必须内建。第五层是工具和记忆,团队规范不能只存在脑子里,必须写进 team 文档、角色定义、共享命令和项目知识也都要文件化。 说白了就是把 prompt engineering 升级成 team engineering。 如果真的要落地,我建议先做最小版本,先把四个 agent 跑通,只接读代码,改代码、跑,测试这些核心能力, 等主链路稳定以后再接 github、 cia 和知识库,不要一上来就追求全自动。 最后给一个结论,下一代 coding agent 的 核心不是让一个模型更会聊天,而是做出一套能组织多个 agent 稳定协助的执行系统。这件事如果做成了,才是真正的 agent team。

给女生和文科生的克拉扣的安装教程,装不上来,评论区阿图亲自教你。我们一共要干两件事,第一,准备好一个模型,这个模型也就是 alien 的 大脑。二,下载克拉扣的,并且把这个大脑接进去就可以使用了。先说模型,理想情况下是直接用 cloud 的 自家的 ops 四点六模型,但因为它们的限制加封号, 我们实际上是很难用上的,所以为方便我改用 mini max 的 token plan, 这个东西相当于手机流量那样的包月套餐,可以先选个最便宜的来体验。 买完后你要获取三个东西,后面会用到 a, p, i, k, base, u, r, l 模型名称,你不知道怎么获取的话,可以直接找他们的客服。第二步,我们安装一个 cc switch, 它是方便我们把 mini max 这个大脑接入到 cloud code 的 一个工具。用搜索引擎搜索 cc switch, 点击第一个结果,进去页面往下拉,找到右侧的 release, 然后往下翻动,找到 assets, 展开,这里面是各个系统的安装包,因为我刚买了一台 mac mini, 所以 直接用 mac 来展示,直接下载安装就行了。 装完后, command 加空格,搜索 c c, 打开 c c switch, 点击添加供应商,往下滚动 provider name 随便填,我直接填到 mini max。 接下来填我们最开始准备的三样东西,分别对应这里的 a, p, i, k, 请求地址,还有高级选项里主模型。最后点击添加就配好了。接下来是安装 cloud code, 直接浏览器输入 cloud dot com, 然后在 products 这里点击 cloud code, 把这个安装命令复制粘贴到终端运行网,快的话三十秒就能安装成功,安装完后可能会提示运行一个命令,作用是可以随时随地运行 cloud code 的, 我们复制粘贴运行下。最后就是启动了,我们在桌面右键新建文件夹,名称无所谓,我这里填的 test, 然后在这个文件夹上右键选择最后一项,打开终端,最后在终端里输入 cloud, 然后一路回车, 铛铛我们进去了,然后你就可以给 innit 发个嗨打招呼了, bingo 有 反应就说明配置成功了。最后送上一个彩蛋,你可以输入斜杠八 d 领养一只全球唯一专属于你的宠物,它会一直在这个界面陪着你。至于这个宠物的更多信息以及克拉蔻的怎么玩,我会在后面的视频里和大家分享。我是阿图,下个视频见。

随着小龙虾这样的新一代的智能企业落地啊,然后越来越多人呢,开始思考,说自己在本地去生产 token, 然后这个老哥啊, 他自己设计了一套简单但是全面的测试框架,想弄清楚呢,哪个本地模型最适合去跑 agent, 他 呢,测了千万三点五全系列的模型,结果二十七 b 的 大模型竟然打赢了三百九十七 b 的 大模型,我们具体来看一下,可能呢,对你本地去跑大模型有一些参考作用, 我们看啊,它呢设计了十五个场景,然后用了十二个工具,然后呢把温度设置为零,这样做的好处啊,就是每次可以让实验结果稳定可复现,专门去测试本地模型的这个工具调用能力。 切吻三点五全系列模型啊,其实是分成两种架构的,一种呢就是二十七 b 的 dance 模型,中文呢叫做稠密模型。什么叫稠密模型呢?就是所有的参数啊,每一次都会全部参与计算,但是其他的像比如说更大的三十五 b 啊,三百九十七 b 呢,都是 m o e 模型, 叫做混合专家模型。参数呢,其实你数字上看起来好像大很多,但其实啊,每次只激活其中的一部分,我们来看一下结果,结果呢,就是十五个测试全部跑下来啊, 完全通过的就只有这个二十七币的模型,就是相对来说参数比较小的稠密模型。来看一下他的几个大哥,三百九十七币的这个模型呢,挂了两个任务。一百二十二币的这个模型呢,挂了一个任务, m o e 模型呢,几乎全军覆没。然后你去看这些参数更小的模型啊,那就更惨了, 有时候就直接紫循环超时。这个作者特别是看了一下,让所有 m o e 模型全军覆没的是这样一道题,就是搜索冰岛的人口,并计算其中百分之二是多少。这三个参数比较大的 m o e 模型啊,就完全无视工具返回的数据,调用了自己记忆里面的这些大概的数字,相当于调用了工具,但是呢,又不相信工具, 我觉得这个还蛮离谱的。接着呢,我们要来这个理解一下,为什么二十七币的模型能够战胜三百九十七币的模型。 m o e 模型,三百九十七币,听着吓人啊,相当于这个三千九百七十亿的参数。但其实呢,每次激活参数只有十七币, 就相当于每次实际干活的只有中间的十七 b 的 这样的参数,这关键时刻我需要的专家,他没有被激活,所以就会出错了。但是这个 dance 模型啊,几乎就是每次全员出动,二十七 b 的 参数呢,看起来数量上虽然小一点,但生成一个 tock, 实际参与计算的参数啊,反而会更多。作者在文章里面是这样总结 的,他说呢,小模型呢,会去编数据,大模型呢,会去无视数据,只有二十七 b 的, 这这个模型啊,他会实实在在的把数据传下去,最终显示给用户。 我们知道这个 agent 智能体啊,去调用工具,最重要的无非就是三件事情,一个呢就是指令认得准,第二个呢就是上下文跟得住。第三个呢,就是数据传的对稠密模型相比较, m o e 模型啊,层数更深,然后注意力机制呢,占比更大,追踪上下文的能力天然也更强。比如说像 zorope 的 cloud, 就是 公认的 agent 智能体领域最强的模型。之前我看到有篇技术文章提到过啊,就是现在主流的前沿呢,早就转到了这 m o e 架构了。 开源这边呢, dance 二十七 b 的 模型打赢了所有 m o e 的 这些大哥。 b 源那边呢, agent 最强的也是这个 dance 模型。所以啊,我觉得这大概率不是一个巧合。最后跟大家总结一下, m o e 呢,当然更快,然后也更省算力, 日常我们去跑呢,也够用了。但是如果运行 agent 执行相对复杂的这个任务啊, dance 的 这个稠密模型有结构性的优势。好了,今天视频就到这里了,我是 dj 小 宇超,我们下次见。