咱们今天来聊聊 cloud 吧,它的编码能力,哇,是真的强,但是那个命令行界面说实话是不是有说挺折腾人的? 如果你也觉得是你想要一个更直观、更高效的方法来跟 ai 一 起写代码,那我们今天要看的这个开源神器 craft agents, 你 绝对要了解一下,它可能会彻底改变你和 ai 合作的体验。 好,那接下来几分钟我们会聊些什么呢?咱们先看看为啥命令行会是个瓶颈,然后今天的主角 craft agents 就 要登场了, 我们会深入了解它那个又安全又聪明的工作流,看看它怎么连接你所有的工具。最后也是最重要的,咱们一起判断一下,这东西到底是不是你的菜。准备好了吗?我们马上开始。行,咱们先来说第一个问题,也是大家可能都感同身受的一点,命令行这个东西, ai 编码代理的能力没得说,非常强大。但老实讲,把这么强的工具塞在传统的终端里,就好像让一个 f one 赛车手去开一辆老爷车,真的不仅施展不开,还特别影响效率。咱们来看这个对比,简直是天差地别。 左边呢,就是我们熟悉的终端对吧?一条道走到黑,你说一句他回一句,聊完了上下文可能就没了。 再看右边, craft agents 完全是另一个世界,你可以同时进行好几个对话,每个任务的历史和状态都给你存得好好的,代码改了,哪里还能用格式化的方式来对比, 这差别可太大了。所以这最大的痛点是什么?说白了就是在多任务之间来回切换的时候,感觉自己快精神分裂了。 你想想看那个场景,你正让 ai 帮你重构一个大模块儿,结果线上突然来了个紧急 bug, 等你手忙脚乱地救完火儿再回来。哎,刚才的思路到哪了? ai 的 上下文还在吗?估计早没影了。这种打断呢,对开发效率来说简直是致命。 那怎么办呢?难道就没别的办法了吗?当然有,这就是我们今天的主角 craft agents 登场的时候了。 你可以把它想成是给 cloud 的 那个强大的编码运行,配上了一个超现代格式化的驾驶舱。它用的底层技术跟官方的 cloud code 是 一样的,但用起来的感觉那可就完全不一样了。所以, craft agents 到底是个啥? 简单来说,它就是一个开源的桌面应用,但它最牛的地方在于,它把跟 ai 协作这个事儿变成了一个我们再熟悉不过的。嗯,电子邮件收件箱。 没错,每个编码任务都像一封邮件,有状态,比如待处理或者已完成,你可以随时切换,随时归档,就像处理邮件那么简单。这个比喻是不是一下子就懂了? 这种新玩法带来的好处,那可太明显了,你看对话都能存下来,还带状态标记,就像聊天记录一样,你可以同时开好几个 ai 代理,让它们去干不同的活,然后在这些任务之间随便切换,完全不用担心思路断掉。 这对于要同时搞好几个功能或者修好几个 bug 的 开发者来说,简直是解放生产力啊。它本质上是把现行的一问一答变成了并行的项目管理 好。如果说前面我们聊的都是效率,那接下来这一部分就要解决一个更核心的问题,一个所有开发者都特别关心的问题,那就是信任。 这也是我个人觉得 craft agents 最聪明的设计,一个更安全、更智能的工作流,它的核心思想就一句话, ai 再厉害,最终拍板的也必须是你开发者自己。 他是怎么做到的呢?就靠这个三步走的权限模型。第一步,探索,这时候 ai 只能看不能动,去搜集资料做规划。第二步,请求编辑, ai 会把具体的代码修改方干交给你,等你批准,只有你点了头才能到。第三步,自动执行。 这个过程你有没有觉得,就好像你带了一个特别聪明的实习生,先让他去调研,然后把计划书交给你审批,你同意了才让他动手去干,每一步都在你的掌控之中。 所以你看这个先探索后执行的模式,就像换灯片上说的,真的是很多 ai 工具都应该学学。为啥?因为他找到了一个完美的平衡点,既发挥了 ai 的 能力,又保证了开发者的控制权。 这就解决了咱们用 ai 时最大的一个顾虑,生怕它自作主张把代码给改崩了。这道安全锁是建立信任的关键,而且啊,跟这个安全流程配得天衣无缝的,就是它的多文件差异查看器。 讲真的,告别那个黑乎乎的端端吧,再也不用眯着眼睛看那些加号减号了。现在你可以在一个很清爽的界面里,并排看到所有文件的改动,就像老师批改作业一样,一个一个的确认或者拒绝, 这种掌握感和清晰度是命令行给不了的。 ok, 如果前面的功能已经让你觉得哎呦不错哦,那第四部分,廉洁万物绝对会让你看到 craft agents 真正的潜力有多大。它可不只是一个写代码的工具, 它更像是一个能打通你所有工作流程的中疏系统,你看它能连上什么? github、 linear、 slack、 craft 文档,基本上你工作里用到的东西它都能接上。还不止这些,任何标准的 api 和你本地的文件也全都不在话下。 这就等于给了 ai 一 双眼睛和无数指手,让它能看到你看到的东西,操作你用的工具。咱们来想象一个场景啊, 你跟代理说去把 linear 上这个任务搞定,然后他呢,就自己去读任务,去 github 上把代码拉下来分析改好,甚至最后还能在 craft 文档里给你写个总结报告。 你看整个过程, ai 就 像你的全能助理,一次对话就把所有工具都串起来了,它的核心价值就在这儿,帮你消灭了在不同工具之间来回切换的那些繁琐操作和信息损。 当然了,它还有一些给专业用户准备的贴心功能,比如配置,全都是用 markdown 和 yammo 咱们开发者最熟的,定制起来特别方便,你还可以直接把 pdf 图片拖进去让 ai 分 析, 而且它还能自动给每次的绘画生成文档,这对于团队分享和项目复盘来说,真的太有用了。 好了,说了这么多强大的功能,咱们回到一个最现实的问题上,这东西到底适不适合你呢?毕竟啊,没有最好的工具,只有最合适的工具。咱们就把它跟传统的 clotcode 端通工具,来个面对面的 pk 这张表其实就说得很清楚了,简单一句话,如果你是那种在命令行里敲代码行云流水的键盘侠,特别享受那种即刻范儿,那 cloud code 肯定还是你的菜。 但如果你更像个项目经理,需要同时盯着好几个人物,希望整个流程看得见摸得着,还很看重团队协助,那 craft agents 绝对就是为你量身打造的智慧中心了。 最后还有一个超级加分享,我觉得这也是他特别有魅力的一点,他完全开源,用的是阿帕切二点零询许可,这意味着什么?这意味着它不属于任何一家大公司,它是我们社区的, 你可以放心地用,甚至可以自己动手去改它。它的未来是由我们所有开发者一起来决定的。 所以咱们今天聊了这么多,回过头来看, craft agents 其实做了一件特别重要的事儿,它在强大的 ai 和我们开发者之间搭了一座又结实又好用的桥。 这就让我们忍不住去想一个更大的问题了,像这种更直观更安全的交互界面,会不会就是那把关键的钥匙?能真正推动 ai 成为每个开发者日常工作离不开的伙伴?它会不会就是那个引爆点呢?这个趋势想想就让人兴奋,咱们拭目以待吧。
粉丝4347获赞8.9万

二零二五年十月十六号, anthropic 正式推出了 agent skill。 起初官方对它的定位相当克制,只是希望用它来提升 cloud 在 某些特定任务上的表现。但大家很快发现,这套设计实在是太好用了,因此行业里很快就跟上了节奏,包括 vs code、 codex、 curser 等工具都陆续加入了对 agent skill 的 支持。在这样的背景下,十二月十八日, anastropics 做出了一个重要决定,正式将 agent skill 发布为开放标准,支持跨平台、跨产品服用。 这意味着 agent skill 已经超越了 cloud 单一产品的范畴,正在演变为 ai agent 的 领域的一个通用的设计模式。那么这个让大厂纷纷跟进的 agent skill 到底是解决了什么核心痛点?它和我们所熟悉的 mcp 又有着怎样的区别和联系呢? 今天这期视频我们就分几个部分彻底讲清楚这个 agent skill。 我 们首先从 agent skill 的 概念出发,也就是给大家讲明白 agent skill 到底是个什么东西。然后我来给大家演示一下它的基本使用方法。 在了解了基本用法之后,我们再来看看它的高级用法。高级用法一共是包含两块,分别是 reference 和 script。 最后,我会把 agent skill 和 mcp 做个比较,告诉你到底应该选哪一个。 好了,话不多说,让我们直接开始哦,不好意思,只是想证明自己不是 ai, 那 我们现在真的要开始喽。 那什么是 agent skill 呢?用最通俗的话来讲, agent skill 其实就是一个大模型,可以随时翻阅的说明文档。 举个例子,比如你想要做一个智能客服,你可以在 skill 里面明确交代,遇到投诉得先安抚用户的情绪,而且不得随意承诺。 再比如,你想要做会议总结,你可以直接在 skill 里面规定,必须要按照参会人员一提决定这个格式来输出总结的内容。这样一来,你就不用每次对话都去重复粘贴那一长串的要求了。大模型自己翻翻这个说明文档就知道该怎么干活了。 当然,说明文档只是一个为了方便理解的简化说法,实际上 agent skill 能做的事情要远比这个强大,它的高级功能我们待会儿就会讲到,不过在目前的起步阶段,你就把它当成是一个说明文档就行。下面我就用会议总结这个实际的场景,带大家看看它到底是怎么使用的。 这里我们使用 cloud code 来演示如何使用 agent skill。 要想使用 agent skill, 那 当然是要先创建一个了。 根据 cloud code 的 要求,我们需要在用户目录下的 dot cloud skill 文件夹创建我们的 agent skill。 所以呢,就让我们先进入到这个文件夹中,然后执行 maker 会议总结助手来创建一个文件夹,这个文件夹的名字就代表了我们 agent skill 的 名字,然后再使用 vs code 来打开这个文件夹,这样的话我们编辑文件会更方便一些。打开这个文件后,我们在里面创建一个叫做 skill 点 md 的 文件, 然后填好这个文件的具体内容就是这样了,每一个 agent skill 都需要有这么一个文件,它用来描述这个 agent skill 的 名称,能干什么事以及怎么干这个事情的。比如我们这里要创建的 agent skill 就是 用于总结会议目录内容的, 它的 skill 点 m d 一 共分为两部分,头部的这几行被两段短横线包起来的是叫做原数据,英文叫做 matte data, 这一层就只写了 name 和 description 这两个属性。 name 呢是 agent skill 的 名称,必须与文件夹的名字相同。 name 的 下面呢是 description, 它代表这个 agent skill 的 描述,主要是向大模型说明这个 agent skill 是 用来干什么的。然后再看下面剩余的部分,这个呢就是具体的 agent skill 的 说明了, 官方把这一部分呢是叫做指令,对应的英文是 instruction, 这一部分就是在详细描述模型需要遵循的规则。比如说你看这里,我规定了它必须要总结参会人员议题和决定这几个方面的内容, 然后为了确保他真的理解了,我这里还举了一个例子,输入的是会议的录音内容,然后输出的呢就是我们所需要的格式了。好,现在我们的 agent skill 应该是做好了。对,就是这么简单,就是一个说明文档, 下面我们打开 cloud code 来验货,首先随便找一个空目录,打开 cloud code, 然后输入下面这个问题,你有哪些 agent skill? cloud code 给我们回答了,可以看出他已经发现了我们写好的 agent skill。 然后我们来看看 cloud code 是 怎么使用这个 agent skill 的。 我们输入请求总结以下会的内容,然后粘贴一段会议录英文本回车,让我们看看 cloud code 会如何应付我们这个问题。 好, cloud code 有 反应了,大家注意看屏幕,这里 cloud code 并没有直接开始下编,他根据我的指令意识到了这事归我们刚才上传的那个 agent skill 管,所以呢,他是在向我询问能不能使用这个 agent skill, 那 我们当然是同意了。同意之后,他就开始读取我们写的那个会议总结助手了,主要就是读取其中的那个 skill 点 m d 文件,让我们稍作等待 好,结果出来了,参会人员议题决定三点都清清楚楚,这完全符合我们在 skill 里面定的规矩。这个呢,就是 agent skill 的 基础用法了,是不是很简单?现在你知道了如何创建和使用 agent skill, 那 不妨让我们想想刚才到底发生了什么。 首先,整个流程中一共有三个角色,用户 cloud code 以及 cloud code 的 背后所使用的大模型。在我们的例子里,这个就是 cloud 模型 流程一开始的时候,用户会输入请求,此时 cloud code 会把用户的请求连同所有 skill 的 名称和描述一起发给大模型。注意,这里只带了名称和描述, 也就是我们前面所说的 skill 原数据层。虽然说我们之前只演示了一个 skill, 但是你可以想象一下,哪怕你装了十几个 skill, 此时的大模型呢,也只是在看一份轻量级的目录, 因为毕竟只有名称和描述嘛。在接到了用户请求和每一个 skill 的 名称描述后,大模型会发现用户的请求呢,可以使用会议总结助手这个 agent skill 来解决, 此时呢,他就会把这个信息告诉 cloud code。 cloud code 接到大模型的响应之后,会去会议总结助手那个目录里面读取完整的 skill。 md 正文儿对,这个时候读取的呢,才是 skill md 的 全部内容,之前就只是名称和描述, 而且要注意,他只读取了会议总结助手这一个 agent skill 的 内容哦。在拿到了会议总结助手的 skill md 内容后, cloud code 会把用户的请求和完整的 skill md 内容发给大模型, 大模型会根据 skill 点 m d 的 要求来生成响应,并且把响应发给 cloud code, cloud code 进而呢,会把这个响应发挥给用户,这样呢,用户就会看到结果了。 这就引出了 agent skill 的 第一个核心机制,按需加载。虽然 skill 的 名字和描述是始终对模型可见的,但具体的指令内容只有在这个 skill 被选中之后才会被加载进来给模型看,这个呢,就节省了很多的 token 了。 前面我们讲了,一开始 cloud code 会把所有 agent skill 的 名称和描述都给到模型,比如说什么爆款文案 skill、 会议总结 skill、 数据分析 skill 等等, 模型呢,会从中选择一个,之后只有选中了那个 skill 的 skill 的 md 文件才会给到模型。说白了呢,就是按需加载, 这个呢,已经很省 token 了,但是它还不够极致。大家试想一下,我们的会议总结助手可能会越来越高级,我们希望它不仅仅是简单复述,而是能够提供更有价值的补充说明。 比如说,当会议决定要花钱时,它能直接在总结里标注是否符合财务合规,当涉及到合同时,它能够提示法务风险。这样大家在看会议总结的时候,就不需要再去翻规章制度,一眼就能够看到这些关键的补充信息,这就非常方便了。 但问题在于, skill 能做这些事情的前提是它要把相关的财务规定和法律条文都写入到 skill 点 m d 文件里,这些文件可能会非常长,都写进去的话, skill 点 m d 文件就会变得无比的臃肿, 哪怕只是开个简单的早会,都要被迫加载一堆根本用不上的财务和法律。废话,浪费模型资源。 那能不能做到暗虚中的暗虚呢?比如说,只有当会议内容真的聊到了钱, cloud code 才会把财务规定加载给模型看。 其实这个呢,也是可以的, agent skill 呢,提供了 reference 的 概念,干的就是这个活,让我们来试一下。首先我们来给它加一个文件,也就是 agent skill 术语里面的 reference。 我们把这个文件叫做集团财务手册,里面写明了各种费用的报销标准,比如说是住宿补贴五百一晚,餐饮费人均三百一晚之类的。然后我们在原来的 skill 点 m d 文件里面新增一个财务提醒规则,里面写明仅在提到钱预算采购费用的时候出发。 出发的时候呢,需要读取集团财务手册,点 m d 这个文件,根据文件内容指出会议决定中的金额是否超标,并明确审批人,这就可以了。我们回到 cloud code 这里再试一下。 这次我们的请求仍然是总结下这个会议的内容,不过呢,这次使用的会议内容稍微换了一下, 这段对话呢,我们就不细看了,你只需要知道,在这段对话里面,老陈让小李订一千二百一晚的酒店,这涉及到了钱。按道理来说, cloud code 应该触发我们刚才新增的财务提醒规则,让我们看看 cloud code 能不能意识到这一点。 首先, cloud code 意识到了这个请求跟我们的会议总结助手相关联,请求使用这个 agent skill, 我 们同意。 然后他意识到了这个会议跟钱相关,根据 skilled md 文件的指示,他请求读取集团财务手册,这个文件用于查看里面的财务合规信息,这个呢,我们也同意。 最后,他根据实际的会议内容生成了总结,可以看出,总结中不仅包含参会人员、议题、决定等基本信息,还包含了财务提醒,这完美符合我们的需求。 这个呢,就是 reference 的 核心逻辑了。在 agent skill 的 体系里面,集团财务手册点 m d 这个文件就是一个典型的 reference, 请大家记住它的特性,它呢是条件触发的。 在刚才的例子里面,只有当 cloud code 读取完 skill 的 md 文件,判断出需要查账时,才会去加载这个文件。反过来说,如果这是一个跟钱无关的技术复盘会,那么这个财务文件就只会躺在硬盘里面,绝不会占用哪怕一个 token 的 上下文。 好,讲完了 reference, 接下来我们来讲讲如何让 agent skill 跑代码,毕竟查资料只是第一步,能直接动手运行代码,帮我们把活干了,这才是真正的自动化。这个呢,就用到了 agent skill 的 另一大能力, script 让我们在文件夹里面创建一个 python 脚本,文件名就叫做 upload 点 pi, 用于上传文件。之后我们填好这个代码文件的内容,然后我们来到 skill 点 m d 这个文件里再加上一段关于上传规则的描述, 如果用户提到了上传同步或者是发送到服务器这样的字眼,你必须运行 uploader pi 脚本,将总结内容上传到服务器。然后呢,我们来到 cloud code 这边,输入请求,总结下这个会议的内容,并把它上传到服务器中,然后我们粘贴会内容。 跟之前一样, cloud code 意识到了这个请求与我们的会议总结助手相关,所以呢,他请求使用这个 agent skill, 我 们同意,然后他把会议的总结内容输出了出来,并准备上传到服务器中,他请求执行 up 六点 pi 文件来实现这个功能,我们也同意 好,上传成功。而且 cloud code 还把上传相关的一些信息也展示了出来,非常棒。 这里面呢,有个小插曲,大家注意一下,我这次所使用的会议内容跟钱其实没什么关系,所以 cloud code 呢,也并没有去读取集团财务手册那个文件, 结果中呢,也没有财务提醒相关的内容。这正好印证了我前面所说的观点, reference 是 按需加载的,如果用户没有提到与 reference 相关的内容,那 cloud code 是 不会去读取它的,这样就达到了节省上下文 token 的 目的。 好让我们再回到代码执行部分,注意看这里, cloud code 申请执行这个 uploader pie 文件,它并没有去读取这个文件。没错, agent skill 里面的代码只会被执行,不会被读取。 这就意味着,哪怕你的脚本写了一万行复杂的业务逻辑,它消耗的模型上下文呢,也几乎是零。 cloud code 只关心脚本的运行方法和运行结果,至于这个脚本的内容,它可以说是毫不在意。 所以呢,虽然 reference 和 script 都属于 agent skill 的 高级功能,但是呢,它们对于模型上下文的影响其实是截然不同的。 reference 是 读,它会把内容加载到上下文里面,所以呢,是会消耗 token 的。 script 呢,是跑,它只会被执行,不会占用模型的上下文。讲到这里,我们需要停下来稍微做个总结,聊一聊 agent skill 的 渐进式批漏机制。 agent skill 的 设计其实是一个精密的渐进式批漏结构,这个结构里面一共有三层,每一层的加载机制都不太一样。 第一层是原数据层,这里有所有的 agent skill 的 名称和描述,它们是始终加载的,相当于大模型里面的目录。大模型每次回答前都会看一下这一层的信息,然后决定用户的问题是否与某个 agent skill 相匹配。 第二层是指令层,对应 skill 的 md 文件里面除了名称和描述之外,其余的部分,只有当大模型发现用户的问题与某个 agent skill 相匹配的时候,它才会去加载这一层的内容。所以呢,我们称这一层为按需加载。 第三层是资源层,这个呢,是最深的一层,它一共是包含 reference 和 script 两方面的内容。其实按照官方最新的规范,应该还有一个组成部分叫做 assets, 不 过我看了一下,它跟 reference 的 定义似乎有部分重叠,因此我们这里先忽略它。 好,我们刚才例子里面的集团财务手册和 uploader pie 脚本就属于这一层,只有当模型发现用户问题与财务或者上传相关的时候,它才会去加载这一层的内容, 这就相当于是在按需加载的指令层基础上又做了一次按需加载,所以我们可以称它为按需中的按需加载, 当然这是我起的名字啊。 reference 和 script 的 加载方式其实不太一样, reference 是 被读取的, cloud code 会把对应文件的内容放到模型的上下文中,一共回答式参考。而 script 是 被执行的, cloud code 根本就不会去看代码的内容,它只关心代码的执行结果。 当然这个也不是铁律啊,如果你没有把代码的执行方法说清楚, cloud code 还是有可能会去看一下代码的,毕竟跑不下去了嘛,这样的话呢,就会占用模型的上下文了。所以还是请大家写 skill 的 时候尽可能的把一切都解释清楚。 那聊完了 agent skill 的 用法,很多朋友可能会有种似曾相识的感觉, agent skill 好 像是跟 m c p 有 点像啊,本质上都是让模型去连接和操作外部世界。既然功能重叠,那我们到底应该用哪一个呢? 关于这个问题,按 serapic 官方写过一篇相关的文章来解释,核心观点就一句话就在这里, mcp connects cloud data skills teach cloud what to do with that data。 这句话可以说是直接点明了 mcp 与 agent skill 的 区别,它其实就是在说 mcp 给大模型供给数据,比如说查询昨天的销售记录,获取订单的物流状态等等。 而 skill 是 教会大模型如何处理这些数据的,比如说是会议总结必须要有个议题啊,汇报文档必须要包含具体的数据啊等等。到这里,有些同学可能就会问了, 不对啊, agent skill 里面也能写代码?我直接在 agent skill 里面写连接数据的逻辑不就好了吗?这样呢,就不需要 mcp 了, agent skill 就 直接把这两个活都给干了。 确实啊, agent skill 也能连数据,功能上与 mcp 有 所重叠,但是能干并不代表适合干, 这就好像是瑞士军刀也能切菜,但没有人会这么干。我们这个场景呢,其实也是这样, m c p 本质上是一个独立运行的程序,而 agent skill 本质上是一段说明文档,它们的本质不同决定了适合的场景也是不同的。 agent skill 更适合跑一些轻量的脚本,处理简单的逻辑。在代码执行方面, agent skill 的 安全性和稳定性都不及 mcp, 所以 大家还是要根据场景选择合适的工具。甚至在很多的场景下,我们需要把 agent skill 和 mcp 结合起来一起使用,以便尽可能的满足我们的需求。 好,今天的视频呢,就到此结束了,我是马克,用最通俗的语言讲最硬核的技术。如果我的视频对你有帮助,欢迎点赞订阅,我们下次再见,拜拜!

大家好,我是 kitty。 mini max agent 升级了,包含两个核心功能,一是桌面端应用,你把一个本地文件夹交给他,他就能围绕这个工作空间做文件整理、数据分析、自动化网页等操作。相比 cowalk 只能 mac 电脑使用, minimax 的 桌面端也支持 windows 电脑使用。二是专家 agent 在 网页端使用,你像选专家同事一样选 agent 或者自定义 agent, 也能看到它的工作流提示词会调用哪些子 agent, 便于复合。 目前官方也开启了限时免费体验,先给大家快速看一下 minimax agent 能帮我做什么。 第一个是电影标人格式化页面, agent 帮我挑选了合适的字体海报呢,也是他自己搜索下载的最重深层的应用,非常美观。第二个是 small 模型训练手册解读 hackinface, 他 分享的这份训练手册非常好, 但 pdf 有 二百一十四页,内容量很大,我让 a 经理帮我做了可适化整个页面,包括 pdf 阅读、音频理解、思维导图,手册的中文解读,页面设计也很精致。 第三个是 ai 官鸟挑战落地页,这项目是 agent 帮我写 prd 在 生成网页,网页里的视频和图片都是 agent 生成的,无论是 prd 文档还是最终的页面,效果质量都很高。 接下来详细看一下怎么用升级版 agent。 打开 minimax agent 官网可以看到 agent 呢,新增了 custom 模式,支持按需选择或者自定义子 agent, 包括代码执行、图片生成、音频生成、视频生成、网站部署等能力。左边栏还新增了 explore experts 入口,点进去呢,可以看到多个官方预设的专家 agent, 每个专家 agent 都能看到它的提示词 以及调用了哪些子 agent, 我 选择了 icon 制作器,让他帮我做一个视频封面。生成网站的图标 agent 先让我选择网站的主要功能 和喜欢的风格方向,选定之后呢,它调用 icon generator agent 生成了两个图标,我觉得不够简洁,让它换成极简风格。第二个极简风格图标我很满意,接着让它帮我生成适配安卓应用的完整图标集, 并打包下载。打包好的文件,我用 office 四点五复合了一下,没有问题。之后,我让 mini max 搜索 cloud code 二点零零版本之后的所有更新,要求分门别类, 对重要的功能做详细的解读,最终生成了美观的 html 页面。可以看到, mini max 搜索了多个网页,提取相关内容并编码, 并且很快完成了部署。我检查后发现一个问题, c c 已经更新到二点一点一二了,但它生成的页面呢,只显示到二点一点零的功能,我告诉它要补上二点一点零之后的更新内容。修正后,它生成了最终的页面。 目前 mini max 模型和 c c 适配非常好,但 c c 更新太快,官方更新呢,重点又不够突出。 用 mini max 生成这样的格式化页面,众人很直观的了解每次更新的要点, agent 生成的导航呢,也很清晰,想了解哪个功能就点哪里。 再来看一下电影标人格式化页面。我的提示词很简单,搜索电影标人的相关情况,官方信息和网友评价, 整理成一个追片指南。格式化页面,用 html 实现页面风格参考电影标人的海报。 agent 呢,先搜索多张海报,然后基于海报的设计风格来创建页面, 最终采用了深色背景,金黄色调和水墨武侠风格,跟电影海报的气质很搭。不让 agent 生成 small 模型训练解读页面的时候,他先问我目标受众的学习水平,我选择了中等。由于手册有两百多页 agent, 他 分了多次阅读。处理过程中,他调用了内容分析,指 agent 来分析内容,格式化生成 agent 来生成思维导图, 还用音频生成 agent 来生成音频解读。 agent 最初生成的页面是紫色的,我觉得不太理想,就让他重新设计一个明亮的、独特且有个性的配色方案。 最终生成的页面呢,很满意。 expert agents 里面有一个热点追踪 agent 非常好用,我让他追踪坐高铁可以不用自己扛行李了。这个热点 要求输出大众能看懂的相声演绎版长文。他先调用输入分析 agent 来分析需求,然后调用 researcher 来进行搜索,找到了三十多个有效信源。 星云的质量呢,是以权威媒体为主,真诚的完整报告,包含十大部分,还划出了最具传播力的内容和建议文章角度。 接着 agent 挖掘爆点话题,并行对四个话题进行深入搜索,之后调用 article writer 来写作。 写作之前呢,他还分析了文风要求,要相声结构要求和配图要求,生成的初稿内容就已经很不错了。 接下来是我最喜欢的一部 a 正呢,开始对文章进行严格的事实和查,发现了几个错误,并且进行了修改。最终生成的文章质量很高,风格诙谐幽默。 您瞧瞧,这是靠谱。读这篇文章就感觉在看相声表演非常不错。 expert agents 里面有一个 p i d 助手,我让他帮我生成一个三十天 ai 观鸟挑战的落地页。 p i d agent 生成了完整的页面结构与文案,包括主视觉区、 价值主张区、三步流程等,还给出了主件与版式建议,以及需要准备的素材类型。接下来,我把这份 prd 放到落地页制作助手里, agent 帮我生成了视频和多个图片素材,很快就生成了一个图标并茂的落地页。现在来看一下如何在 minimax 桌面端使用类似 cloud cowalk 的 功能。首先,从 minimax agent 官网 下载桌面端应用,安装后选择目标工作文件夹。我先让 agent 帮我整理文件夹,要求分门别类,遵循最佳实践。 很快呢,他就诊断出目标文件夹存在多个问题,文件混杂、项目不独立、缺乏逻辑分组等。接着他给出了建议的整理方案,我看了觉得不错, 同意执行,很快就收获了一个整理好的文件夹。接着我让他处理电脑里的零售店销售数据表格,进行可量化分析。 agent 呢?生成的报告呢,非常全面,包括数据概览、描述性统计、相关性分析、分布分析、异常值检测, 还有业务洞察,图文并茂,我个人很满意。另外值得一提的是, minimax agent 和 cloud comwork 一 样,生成的中间文件非常多,每一个都可以点击进行查看, 非常方便附和它生成的脚本也可以直接附用,后续处理类似数据就很省事了。 minimax 桌面端有一个很突出的工具叫浏览器专家。 我让桌面端 agent 登录 minimax agent 的 官网,输入五个不同的提示词,生成五个体数艺术页面, 可以看到 agent 正在打开目标网页,查看页面加载状态和界面布局,还能理解图片内容,然后点击中央输入框,聚焦输入内容并执行。 点击右侧的文件列表,可以看到它在处理过程中产生了非常多的截图,方便回溯每一步操作。最终通过 minmax 生成的体述艺术页面效果非常棒。 稍有遗憾的是,目前浏览器专家的处理速度还有些慢,期待后续优化升级。 highlagent 根据本地的表格搜索并整理二十家 sats 产品的价格对比信息,它不仅生成了详细的价格表,还输出了一份完整的 sats 竞品价格对比分析报告。总的来说,升级后的 minimax agent 给我的体验还是很惊喜的。 网页端专家, agents 覆盖热点追踪、 p、 r d、 落地页制作、图标生成等场景,而且调用列录透明,适合学习和复合。 桌面端 workspace 更接近真实工作流,文件夹整理、数据分析、表格处理都能做,浏览器专家也能把很多重复操作自动化掉。如果你想体验的话,记得二十二号之前是免费的推荐体验。

大家好,欢迎收看本期视频。今天我们来聊聊 craft agents, 这是一款用于管理和协助 ai 智能体的开源桌面应用,由 craft do 团队打造。它本质上是 cloud code 的 替代品,虽在终端,但界面更精美, 并且拥有一些非常出色的独特功能。 craft agents 基于 cloud agent sdk 构建,这也是 cloud code 的 底层基础。 因此你可以使用所有相同的核心工具,例如 read, write、 edit、 bash、 glob 和 grip。 但最大的不同在于用户体验 与其在终端里敲命令,你面对的是一个精美的收件箱式界面,就像是邮件和任务管理器的结合体, 所以我们来聊聊这有什么区别。和直接用 code code 相比, 首先就是界面本身,这里的对话不仅可以持久保存,还带有状态,这一点真的很棒。你可以让多个绘画保持运行,同时在它们之间随意切换,而且历史记录都能完整保留,这是光靠终端工具很难实现的。 使用 craft agents, 你 可以随时开启一个任务,切换到另一个对话去处理别的事,然后再回到原来的任务, 所有的上下文都会完整保留。当你需要并行开发多个功能 或同时调试不同问题时,这就非常有用。第二个重点是全线模型,它提供了三种模式探索,这是指读模式、请求编辑,即修改前需经理批准以及自动模式, 也就是让智能体完全自主运行。我非常喜欢探索模式,因为你可以让 ai 先进行调研和规划,而无需担心它会误改你的文件。 一旦你认可了它的方案,就可以切换到自动模式,让它执行这种先探索后执行的工作流,其实是我希望更多 ai 编程工具能具备的。接下来,真正有趣的地方来了。 craft agents 几乎可以连接任何服务, 它们支持 m c p 服务器,这样你就能连接 guitar、 linear slack 和 craft 文档, 甚至还能连接任意 r e, s t a p i 或你的本地文件。系统单词对话就能同时从多个来源调取数据。这一功能极其强大,比如,你可以让智能体读取 linear 工单, 查看 github 仓库的相关代码,并在 craft 文档中生成总结。 所有操作都在这一场对话中搞定。换做平时,这种工作流需要大量繁琐的人工上下文切换。 此外,它的定制性也相当出色,所有配置均通过 y a, m l 和 markdown 文件完成。无论是技能主题状态还是权限设置,通通都是你可以直接编辑的文件,没有任何复杂的界面或设置菜单。 如果你用过 cloud code、 cloud 密文件或技能文件夹,那你会感到倍感亲切。说到技能, craft agent 支持超过三十二种 craft 文档工具,均借助 m c p 集成。所以如果你本身就在用 craft 记笔记或写文档, 这种集成体验会相当丝滑。如果你想通过源码进行构建,你可以从 getup com 搜索 lucio apps crafts agent sauce 克隆代码库, 然后运行 bounce install 和 bounce run electron start。 安装完成后,你需要配置计费信息,你可以使用自己的 anthracic api key 或者绑定 cloud mac 订阅。接着创建一个工作区, 接入 gitlab 仓库或本地文件夹等数据源。一切就准备就绪了。它的技术栈也非常现代化。它基于半路运行时使用 electron 开发,桌面端 用 react 构建界面,搭配 shift c n 和 tailwind 处理样式。此外,它还使用 aes 二五六 gcm 加密来存储频据, 这一点非常值得肯定。我特别喜欢的一个功能是它的多文件差异查看器。当智能体修改代码时,你可以在批准前通过直观的界面查看所有变更。这比在终端里费劲地检查代码改动要强太多了。 你能清晰地看到跨文件的具体修改,逐项接受或拒绝, 从而完全掌控智能体的一举一动。这种直观的格式化程度非常有用,尤其是当你让 ai 修改代码库的时候。文件的拖拽功能也很棒。 你可以直接把图片、 pdf 或 office 文档拖进对话窗口, 无需手动输入文件路径,也不用麻烦地复制粘贴。智能体随后便能分析这些文件、提取信息,或者将其作为当前任务的上下文背景。另一个值得一提的功能是绘画文档化, 每次对话都会记录下所做的决策以及实现背后的推理逻辑。你可以把这些绘画分享给团队,或者附在 github issue 和 pull request。 这样当有人问起为什么要作词修改时,直接在对话历史里就能看到完整的上下文。那么它比 cloud code 更好吗?这得看你的工作流。 如果你习惯在终端里工作,并且偏爱极简风格, code code 依然很棒。但如果你想要更直观的界面,更强的多任务支持和更便捷的团队协助, craft agents 绝对值得一试。 图形界面更加直观易用,让不习惯面临行的用户也能上手,且支持工作区隔离,能为不同项目提供完全独立的环境。开源也是它的一大加分项。 该项目采用 ipad 十二点零许可,你可以自由复刻、定制甚至回馈社区仓库维护,非常活跃。同时也欢迎大家的贡献, 如果你发现了 bug 或者想添加新功能,都可以直接提交 pull request, 总的来说它相当不错。好了,欢迎在评论区留言并订阅频道, 也可以通过超级感谢来支持我,或者加入频道会员获取专属福利。下期视频见,拜拜, 谢谢大家!
![Copilot 与 Agents:从入门到高手 - 重塑工作方式:立即动手构建你的首个 Agent.
「Copilot 与 Agents:从入门到高手」系列活动第五期,我们将一起探索 Microsoft 365 Copilot Chat 与 SharePoint 中的零代码智能体,如何让日常工作焕然一新。本次学习体验将带领大家掌握创建、管理与使用智能体的方法,从而简化流程、提升效率。
内容包括:
- 动手打造你的第一个智能体
- 深入了解预构建的 Microsoft 365 Copilot 智能体及其强大能力
[EventID:26417]
#Copilot #Agents #AI #Microsoft365 #SharePoint](https://p3-pc-sign.douyinpic.com/tos-cn-p-0015/oID2eYfSFpsrpFJAUWwBAPDgEHQAtQ5g9gg1jg~tplv-dy-resize-origshort-autoq-75:330.jpeg?lk3s=138a59ce&x-expires=2084972400&x-signature=jR8xf52ddD3cszVBHbVBP%2FqB%2Fbk%3D&from=327834062&s=PackSourceEnum_AWEME_DETAIL&se=false&sc=cover&biz_tag=pcweb_cover&l=20260128231439C2D103C6F545869952B3)

这是 cloud code, 如果你让他开发一个美观的博克网站,他给你的结果啊,可能是这样的,这一点也不美观,对吧。于是啊,你告诉他, 不要使用蓝紫渐变色,不要使用 emoji 图标,而要使用 svg 图标。把上面这一堆要求呢,都告诉 cloud code, 让他再重新开发一个美观的博克网站。这一次啊,情况就要好很多了。 那么问题来了,我不想每次开发项目的时候,都啰里啰嗦的写这么一大段,能不能让 class code 记住这些要求,我不用每次都叮嘱呢, 哎, class code 提供了一个方法,我们可以把这一大段要求啊,放到一个单独的文件中,以 markdown 的 格式书写。那后续呢,我们再让 class code 干活的时候啊,他就把这个文件一起带上,发给 ai 了,这样呢,就不用每次都要写一遍了。但这样呢,有一个新的问题,如果我只是在 class code 里面聊聊天,提提问, 反正不是开发网站,他也要把这一堆内容发给 ai, 这不是白白浪费托管吗?能不能简化一下这个流程,只有当真正需要用到这个文件的时候, clark 才把它发给 ai 呢。我们可以这样做,给这个文件啊,取个名字,然后加个描述,放在文件最开始的地方。 同样呢,还是以 markdown 格式书写,这两个字都啊,简单介绍了这个文件叫啥,是干啥用的。然后 cloud code 在 与 ai 沟通的时候呢,他告诉 ai, 我 这里啊有个文档,他的名字和描述是这样的,如果你有需要,可以问我要具体的内容。 后面 ai 收到用户的指令,发现是要开发网站。这个时候啊,他在告诉 cloud code, 把这个文件给我发来就可以了。那经过这样一通改造呢,就避免了每次都要把这个文件传给 ai 浪费拖开的问题了。 你发现这一招还挺好使,于是啊,如法剖制写了一堆不同的文档,比如 svg 动画制作点 md, 用来详细指导 ai 如何制作网页。 svg 动画 ppt 制作点 md, 用来详细指导 ai 如何制作美观的 ppt 日报生成点 md 呢,用来详细指导 ai 如何书写符合你们公司风格规范的工作日报。那可乐扣的与 ai 交互的时候呢,只需要把这些文档的名字和描述信息作为一个目录清单发给 ai, 就像他当初把 m c p 服务清单发给 ai 那 样, ai 根据用户的提示词呢,自行决定动态加载哪些文档。 那同样的 cloud code, 同样的 ai 大 模型,因为有了这一堆文档的加持呢,你手里的这一套比别人多了很多技能,他更擅长做出好看的网站 ui, 更擅长做 svg 动画,更擅长做 ppt, 更擅长写日报,完美 nice! 刚刚这套技术啊,有一个闪亮的名字,它就是 agent skills。 这一个个文档呢,就是一个个的 skill, 也就是一个个的技能。简单理解的话,这些个 skill 呢,就是一个个的技能手册, cloud code 和 ai 根据这些手册呢,就能完成特定的工作。 为了规范管理呢, cloud code 通过文件夹的形式来管理这些 scale, 并且把每个 scale 的 主文件都统一命名为 scale 点 md, 回到我们这个网站 ui 设计的 scale, 随着你不断的迭代啊,这个 markdown 文件也变得越来越长, 因为好看的 ui 样式啊,实在太多了,各种各样的风格呢,层出不穷,你很难用一个单一的 markdown 文档来全部写完。而且,就算你能全部写在里面,但实际上呢, ai 只能用到其中的一部分, 其他大部分用不上的内容呢,又白白浪费了上下文的 talk 了。于是啊,你打算把每一种风格单独拎出来写一个文件,然后在原来这个主文件里面呢,做一个汇总,里面写上,如果要做简约风网站呢,就读取简约风点, md。 如果要做科技风网站呢,就读取科技风点 md, 如果要做小清新风格的网站呢,就读取小清新点 md。 这样一来啊,当你用 cloud code 做一个科技风的网站的时候呢, ai 发现要先读取网站 ui 设计这个 skill, 在 读取这个主 markdown 文档之后呢,再根据需要进一步读取科技风调 md, 这个文档。这样按需渐进式的加载啊,极大节省了 talkin, 让 ai 只在有必要的时候呢,才读取相应的内容。 再后来啊,你发现需要对网站的 ui 做更精细化的控制,比如按钮、段落图标、配色图标等等。用这样的单个文档方式呢,还是不太好维护。你决定啊,技术升级,把这些细力度的 ui 内容啊,全部用数据表来进行管理。那为了简单起见呢,你选择了用 csv 表格文件来进行管理。 然后,你希望 ai 在 开发网站的时候呢,按照下面这一套工作流来确定最终选择的样式。为了让 ai 知道如何搜索啊,上面的每一步呢,你都写了详细的文字说明,你还专门编写了一个 python 脚本,并告诉 ai 如何执行这个脚本,来从这一堆 csv 文件里面进行搜索。 现在 ai 大 模型在 colorado 的 配合下,在拿到你这个 scale 的 md 文档之后啊,就按照你写的流程,一步步执行里面的操作,执行拍成脚本,完成解锁,最后拿到完整的 ui 设计信息,开始为你开发网站。 事情发展到这里啊,这份 scale 不 仅是提供简单的文字信息供 ai 参考,还能指定工作流,还能提供程序让 colorado 来执行完成更加复杂的工作了。 上面介绍的这个 scale 呢,不是我虚构的,而是一个真实存在的 scale。 它在 github 上面啊,已经收获了超过十四 k 的 star 了。通过这个 scale 呢,我们可以让 colossal 的 这样的编程智能体啊,开发出 ui 更美观的产品。而这个 scale 背后的原理呢,正如我们前面介绍的那样。 最后,让我们来梳理一下整个的过程。首先,每一个 scale 呢,都需要一个 markdown 文件,并且在文件的最开始呢,有名字和描述两个字段,这属于这个 scale 的 原数据, metat 对 它 cloud code 在 启动的时候呢,加载这些原数据,并将它们包含在系统提示词中。 因为这两个字段呢,本身内容比较短,所以呢一般不会占据太多的托根。第二,每个 markdown 文件除了前面的原数据之后的中文内容呢,叫做指令,它本质上呢就是一段提示词,用来指导 code code 如何做特定的事情。 只有当 ai 需要使用这个 skill 的 时候呢,才会加载它,官方称之为触发时加载。第三,资源和代码 skill 相关的其他文件和代码脚本呢?只有当 ai 在 使用 skill 的 过程中需要用到的时候呢,才会动态加载,官方称之为按需加载。 以上啊,就是 astonrapik 推出的 agent scares 技术了,扒掉这些晦涩的名词概念呢,它其实就是一项提示词工程技术的应用,和之前的 m c p 技术呢,也有很多类似之处。如果你还不知道 m c p 是 什么,欢迎观看我的这期视频。 agent skills 也好, m c p 也好,那本质上都是属于提示词的工程,只不过是符合特定规范,相对复杂的提示词。而为了规范管理和各种工程设计考虑啊,引入了一堆技术名词而已。那现在你知道什么是 agent skill 了吗?你还知道有哪些不错的 skill, 也欢迎在评论区分享。 好啦,以上呢,就是这期视频的全部内容啦,如果觉得有帮助,别忘了点赞、收藏转发哦!我是轩辕,我们下期再见!

本期视频为大家带来逻辑 cos 键盘的开箱与简单介绍。这款键盘发布于二零一七年的夏季,说起来确实已经不是最新款了,但他惊人的外观以强大的多功能使他的售价依然至今为止在千元以上,这对一款键盘来说确实不能算便宜。 这款键盘的外形线条非常的流畅硬朗,配色的深空灰也极具商务范,配合 max 使用的话,相信对于创作者的效率会有极大的提升。当然了, cos 键盘本身也并非专门为 mate 定制,我们从功能键区域就可以看出,他的左右两侧分别对应了 max 与 windows 两个系统平台, 配合逻辑的 opx 软件在对应的平台都可以实现非常丰富的功能。拿到包装之后会发现整体的感觉也很专业,不像普通几十块钱的薄膜键盘那么轻,这一键盘本身就有九百六十克的重量也有关系。正面包装非常简洁, 是键盘本身的样子。左上角的 clout 说明了他的系列下方是逻辑的完整版 logo。 逻辑在二零一五年更换 logo 之后,比较喜欢在外包装上使用他的完整版 logo, 而在内部产品上刻的往往是缩写版,这一点还是比较有趣的。侧面的话依旧也是非常简约的库尔斯标志与逻辑的 logo, 另一侧则列出了一些基本信息,比如你的电脑需要互联网连接来下载他的 opx 软件实现更多功能。另外还告诉了你键盘支持通过蓝牙或者逻辑自己的幽灵技术来连接电脑。那根据我自己用逻辑外设的经验来看,如 如果你的电脑通过蓝牙的方式连接的设备比较多,在新增一台蓝牙设备很有可能就会发生干扰或者断裂。比如之前我用的逻辑 k 八幺幺键盘通过蓝牙与我的电脑相连,这个时候他的信号就会与我房间的蓝牙音箱打架。两的设备不是蓝牙音箱 断断续续,就是键盘打字会断断续续。最后的解决方案就是我把键盘的连接换成了逻辑自己的优点,他背后的技术其实就是不走蓝牙,走二点击和字无形传输,这么一来一定程度上也可以解决干扰的问题。所以如果你在使用这款键盘的时候遇到了连接性方面的问题,也可以采用这种方案。 包装背部重点展示的这款键盘上的多功能旋钮,这个旋钮的功能并不是固定的,在不同的软件里面,他可操作的功能是不同的。如果对于官方还没有支持的软件,你可以实现一些简单的定制,但 如果软件厂商自己愿意的话,也可以下载逻辑提供的 sgk 去适配这个旋钮。这一点逻辑考虑的还是很全面的,后面我会给大家简单演示,再割掉贴纸之后,我们将盒子翻过来就可以打开包装。逻辑这次包装并没有采用阿婆键盘的那种左右推拉式,而是采用了上下分离式。 打开盒子之后,首先见到的是键盘本身,外面有一层塑料纸保护着,整体被放置在一个塑料托盘上。键盘拿出来之后,我们看到下面的配件,左边是一份快速入门指南,相信在网上做足了功课,购买这款键盘的人应该也不会去看吧,中间是逻辑的幽灵接收器,就像 像我上面说的那样,如果你的环境与蓝牙连接不稳定,建议把这个吸收器插在电脑上,使用二连击和自去连接。值得一提的是右边这根充电线,因为他是一根 typec 接口的充电线。要知道二零一七年的时候, type c 接口才刚刚开始被一些手机厂商采用,而罗晋居然在他的键盘上也采用了这个接口设, 是一个非常大胆的举动,而且距离一七年已经两年过去了,如今很多新发布的设备充电接口也已经换成了 top c。 事实证明了逻辑是对的,所以这是一个非常有前瞻性,也非常大胆的举动。把这些配件 都拿开之后,我们看回这个键盘本身,相信很多观众都在期待这一刻。呃,我决定先不说话, 这就是 coft 的样子。正面上方中间是逻辑的 logo, 左侧是这款键盘标志性的多功能旋钮,右侧是一枚指示灯,下方是 foxs 的全键盘。值得注意的是,键 盘上方的 f 一到 f 十二默认的是 max 的快捷键,你可以通过按住方形来切换,也可以在逻辑的 opps 软件里面把它直接调回标准的 f 一到 f 十二。键盘两侧的 的键与 oppo 键采用的是左右互换的形式,如果你在 max 平台下使用,就看左边, windows 就看右边,右边上方一二三意味着你可以同时与三台蓝牙设备配对,在设备之间切换,只需要按对应的数字键就行,非常方便。 最右边的数字键盘区域也是很多 max 用户非常想要的,同时上方也有一排快捷键可供使用。键盘左上方就是多功能旋钮,值得注意的是,这个按钮的四周是能感应到触摸操作的。 如果你在当前的窗口里不知道按钮对应的功能是什么,可以轻轻触碰一下他,屏幕上就会提示对应的功能。这个按钮本身有左右旋转、按下与按下并旋转三个操作。 键盘前面最左侧是开关,中间是 type c 的充电接口,右侧是信号区域光线感应区,整体非常好看。 如果你想要充电的话,只要把电源线连接到 type c 充电接口,键盘正面右上方的指示灯就会开始呈现呼吸灯的效果,充满后呈现绿色常亮。 值得一提的是,罗记 clus 键盘是有全键盘的背光灯的,为了看的更加明显一些,我关掉了整个房间的灯,只保留了桌面的灯带。 可以看到 clout 会自动感应你当前的手指距离键盘的位置,在手指接近的那一刻亮起背光,离开的时候,按键背光会逐渐熄灭,节省电量。但是不知道为什么, cluf 的标称是有光线感应的,可是我这台光感似乎并不是很灵敏。 显示器上挂着一个铭记的 spa, 他的光线会垂直打向桌面,照亮整个工作区域。理论上键盘的背光灯这个时候是不应该亮的,可是我的这个键盘背光灯在这个情况下却还是会亮,有点奇怪。键盘整个与电脑连接的过程 与传统的蓝牙设备没有差异。打开开关之后,在 macus 右上角点击进入蓝牙编号设置一会,你的电脑就会发现这台设备, 点击右侧的连接会让你在键盘上输入一串数字来确认。我们在键盘上敲完这些数字之后,点连接一会就完成了配对工作,这个时候你的键盘打字已经完全没有问题了。 后,我们打开逻辑的 opx 软件,因为我一直在用逻辑的鼠标,所以电脑里已经装好了,打开之后会发现我的键盘他已经找到了,并且显示在了右边。点击进去之后,如果是首次使用,会弹出引导界面,告诉你一些基本的功能,比如 比如多功能旋钮是可以触摸的,有多重功能也可以点按等等,大家可以简单的看一看。最后点击完成, opx 会告诉你你的电脑里现在有哪些软件是逻辑已经帮你适配了这款键盘的。点击下方的安装配置文件,只需要输入电脑用户的 密码,安装完成后点击继续就可以进到主菜单,这就已经全部完成。说回快的左上角的多功能旋钮,首先如果你不知道他当前可以做什么,可以通过轻轻触碰他 屏幕底部就会告诉你他现在的功能。比如我在常规状态下触摸屏幕上会显示音量,此时意味着如果我左右旋转,它就可以调高或者调低系统音量。而如果我打开酷我们浏览器,此时再触碰旋钮就会显示标签切换,此时意味着我可以左右旋转,它就可以切换我在酷我们浏览器里打开的标签页。 当然了,逻辑本身还适配了很多软件,你可以在 opx 软件里切换到不同的软件,查看多媒体与群友对应的功能,如果逻辑没有适配,你也可以自己添加。比如我房间的音箱是 sonos 的,需要用 sonos 专门的控制器软件来控制,而逻辑并没有适配 sonos 的控制器软件。如果我在 sonos 控制器软 键,你左右旋转,多功能按钮调节的是整个系统的音量,这是没有意义的。此时我们可以在 solos 的帮助里面先看一下他的快捷方式是什么。看到 solos 定义的音量调节是 come on 的键与加减号的组合,这个时候我们再回到逻辑的 app, 点击右上方的所有应用程序,很明显这里面是不会有 sonos 的,我们拖到底,点击添加,把我们要定制的软件添加进来,然后切换到多功能旋钮选项卡,点击向左后向右转,在弹出的自定义按钮对话框中,左侧选择自定义旋钮,右边第一行我们给一个命名,比如这里我就叫音量加,然, 然后在下方向右转中,我们在键盘上按下 come on 的加加号键,向左转中我们按 come on 的加减号键,这与刚才在 solos 里面查到的快捷键是对应的。接着关掉保存,此时回到 solos, 我们转动旋钮,就会发现左上角音量 条在变化了,设置已经生效,但是不知道为什么,多功能旋钮选项卡里下面的按下与按下并保存,似乎都不能分配成自定义按键。比如我原本想把按下操作设置成 solos 里面的静音 时候就实现不了了,也就是说你只能对左旋与右旋这两个操作去自定义按键。不知道逻辑是怎么考虑的,希望后面能通过软件升级,放开对下面两个动作的自定义控制,不然真的有些积累。 讲到最后是键盘的手感舒适度,真的让我觉得他依然还是逻辑,与我之前用的 k 八幺幺相差不大,不管是建成还是按键回弹都非常的舒服。而且 clus 每个按键中间都有圆形下线,一定程度上也贴合了指尖,大家可以听一下敲击的声音。 总体来说, cos 依旧是一款优秀的键盘,从基本的输入功能来讲已经做到了近乎完美。感应式的背光 灯不但节能,也可以让人在暗光环境下看得清键盘左上角特色的多功能旋钮,在不同的软件中会有不同的组合效果。当然还是要说希望逻辑能放开更多的定制选项,让用户充分定制他的功能,不要让硬件因为软件限制而变得积累。 整个来讲,这款键盘适合的是需要用电脑进行创作的人,比如视频文字编辑工作者、设计人员、开发人员或者音乐制作人。 对于游戏玩家而言,虽然也不是不可以,但是相信他们应该会更青睐于机械键盘吧。好了,希望这个视频可以对大家有所帮助,如果您喜欢我的视频,可以给我一个赞,让我知道,当然如果可以的话,我更希望您能订阅我的频道,我们下期视频再见!

大家好,我是小木头。如果你是一个开发者,你可能遇到过这样的场景, 花了几个月时间开发了一个很棒的开源项目,或者一个有意思的 sas 产品。代码写得很优雅,功能也很实用,但是没有人知道。 或许此时你需要一个推广视频,那传统的做法是什么呢?第一种,找设计师或者视频制作的外包, 但问题是他们不懂你的技术栈,不理解你的产品特色,你需要写很长的文档解释,沟通成本也非常的高。最后做出来的视频很有可能还达不到你的预期。 第二种,自己学习 after effects 或者 premium, 但是这类产品的学习曲线很陡峭,而且改一次要重新渲染,等半天。你是个开发者,不是设计师,为什么要花这么多时间在非核心的技能上呢? 第三种,用模板工具,比如 camera, 剪映。这些确实很方便,但太通用了,没办法体现你产品的技术特色。 或许这些都不是最要命的,最要命的是,你的产品会迭代,功能会更新,每次迭代视频就意味着要重新做一遍,这完全无法规模化。那有没有更好的方式呢? 今天我想和你分享一个全新的视频制作范式。开发者用 agent skills 生态来轻松地完成视频的制作,这不仅仅是一个新的工具,而且是一种思维方式的转变。 在视频分享中,我会用一个真实的项目来演示如何快速地基于代码仓库直接生成一个专业的推广视频。那现在我们就开始吧。 在近期的视频分享中,我们介绍了许多 agent skills 方面的内容,那它是什么呢?简单来说就是给 ai 助手预装的技能包, 就像 npm 之于 javascript。 agent skills 是 ai 助手的包管理器,你可以安装不同的技能包,让 ai 在 特定的领域拥有专业知识。 remotion 是 一款非常流行的视频制作工具,可以使用 react 来创建真实的 mp4 视频,非常非常的强大。感兴趣的朋友可以来到官方网站了解一下究竟它有哪些优秀的应用场景。 在一月二十号,他们就发布了自己的 agent skills, 使得开发者能够在 ai 场景中轻松地利用 remote 来制作视频,不需要了解 remote 的 技术细节,通过自然语言交互,就可以轻松生成非常精彩的视频片段。 那本期视频我们来寻找一个项目,看看它生成的视频效果究竟如何。我们就利用 session 这个产品来做演示,为它生成一份推广视频。 session 是 我最近开源的一款浏览本地 clockcode 绘画的桌面应用,希望能够以一种非常优雅方便的方式帮助大家浏览在本地众多的 clockcode 绘画。它会以项目为单元,组织过去所有的历史绘画, 在绘画中能看到所有的交流信息,不仅仅是 ai 的 响应,还包含了工具的调用,思考的过程。 大家也可以来到官方网站点击下载尝试,也欢迎大家来到代码仓库提意见,提合并请求。 作为一个新上线的项目,我希望呢能够为他做一款推广视频。咱们现在就来到 session 代码仓库,给他这么一个需求,我期望他阅读当前的代码仓库,了解这个项目的本质,抓住他的亮点和主要的功能和特性, 然后使用 remote skill 来生成一款推广视频。我们呢给他一些时间,看看他的生成效果。 到现在, remote 技能包完成了他的视频准备工作,现在呢,会启动一个开发服务器,我们可以在本地预览生成的视频效果。 在这个网页环境中,我们可以预览这个效果,如果没有问题呢,再在本地通过命令的执行来生成 mp 四版本的视频。我们先来看看它的效果吧, 大家觉得这个效果怎么样呢?我个人还是非常满意的,它已经抓住了 session 这个桌面应用主要的功能特点。对于目前这个项目来讲呢,这个推广视频应该足够了。当前呢, cloud 还在利用 chrome 开发者工具来测试推广视频的开发环境,我觉得已经很不错了,就让它终止了。 如果需要,大家还可以引入在过去视频分享中我们介绍的 ui ux pro max 这类技能包,对当前生成的这个视频的效果风格样式呢进行自定义, 尝试使用一些更加不同的风格来生成不同的推广视频版本,从而选择最符合自己需求,最满意的一款来推广。 我告诉他这个视频已经足够好了。接下来我想要生成 mp 四的版本该怎么做? 很简单,来到对应的目录,运行 mpm run build 就 可以生成 mp 四版本。在底下,它还给到了我们一些满足我们不同需求的视频规格,比如更高质量的,四 k 的 等等。我们就生成一个标准版的吧,大家来看看效果。 好了,视频生成,打开看看效果吧, 大家觉得怎么样呢?这跟刚才我们阅览的是一样的,如果期望更高清分辨率的呢,我们可以选择添加参数,在这里呢咱们就不再演示了,接下来我们或许可以再配上一些精彩的背景音乐,这样就有了一个非常非常完善的推广视频。 好了,今天的视频分享呢就先到这里,感兴趣的朋友一定要来尝试一下,特别是个人创业者,你的产品是否需要一款精彩的推广视频呢?除了找人帮你完成, 你还可以使用 remote agent skills, 非常方便的就能够帮助作为开发者朋友的你做出一款完美的视频哦。那大家在使用中有什么心得和体会,也欢迎在评论区给我留言。那今天的分享就先到这里,我们下次视频分享再见同学们,拜拜!

在上一期视频中,我们精读 devon 那 篇不要构建多 agents 系统的文章,得出了一个结论,编程本质上是一种高密度的写操作。为了避免决策冲突和灾难性的代码合并,在限阶段 坚持使用单智能体往往比盲目堆弃多智能体更可靠。单智能体决策统一,但它的上下文窗口终究是有限的。 当对智能体的期待从写一个函数提高到开发一个需要数天才能完成的复杂 web 应用时,成千上万行的代码测试、认知和思维链很快就会撑爆这个单一智能体的上下共传。这就陷入了两难境地。用多智能体并行吧,容易出现决策冲突。 用单智能体串行吧,智能体的能力又不够用,怎么办呢?今天我们要精读的这篇 antropics 工程博课 effective harnesses for long running agents, 正是为了解决这个难题。这篇文章详细批露了 cloud agent sdk 背后的架构设计,它教我们如何在坚持单智能体决策流的前提下, 通过巧妙的工程设计,突破上下文窗口的物理上限,实现无限续航。首先,让我们严格按照原文的逻辑来看这个问题的演变。因为上下文窗口是有限的,而复杂项目的代码量很大, 所以我们被迫将工作拆解成一个个离散的绘画。这就导致了一个核心难题,每一个新的绘画开始时, 智能体都是完全失忆的。这里需要解释一下,离散的绘画,它指的不是多个智能体同时并行干活,而是串行的接力。是因为前一个智能体的脑容量满了,必须强制注销,然后启动一个新的 空白的智能体来接受 session a 和 session b 之间隔着一道无法逾越的记忆高墙。想象一下,你负责一个大项目,但你只能工作八小时,下班时你的记忆会被强制清空,第二天早上接替你的虽然还是你,但脑子却是一张白纸。 你不记得昨天代码写到了哪儿,也不记得那个棘手的 bug 到底修没修好。这就是目前 long running agent 面临的真实处境。每一个新的绘画都是一个完全失意的新员工。你可能会问,我们之前讲上下文工程时,不是提到过摘要压缩吗? 把上一轮的对话总结一下,传给下一轮不就行了?这篇博克指出,在严肃的工程领域,压缩是远远不够的,摘要是有损的。 当你把十万 token 的 代码调试记录压缩成几百次的摘钥时,丢失的往往是那些最关键的变量名、依赖关系和附线步骤。接班的智能体只能依靠模糊的摘钥去猜测之前发生了什么。 在精密的代码世界里,猜测就意味着灾难。试想一下,如果你是一名程序员,你接手同事的代码时,他没留文档,只留了一张写着我写了一部分功能的变条,你会怎么做?你大概率会花好几个小时去读代码, 试图搞懂他到底想干嘛。在这个过程中,你很可能会误解他的意图,甚至把通过的代码改坏。这就是为什么单纯靠压缩或记忆解锁无法解决 long running agent 问题的根本原因。 高精度的工程任务容不下模糊的记忆摘药,在这种不知道上一任干了啥,又必须硬着头皮干活的焦虑下, anthropic 观察到了智能体出现了两种典型的崩溃模式。第一种叫贪多嚼不烂,智能体试图在一次绘画里把整个 app 全写完,结果往往是写到一半, token 耗尽,上下文强制截断,代码写了一半戛然而止, 既没有注视,也没有文档。下一个接班的智能体一上线,面对的就是一个烂尾楼,直接崩溃。第二种叫盲目自信,这通常发生在项目后期, 因为压缩后的上下文信息模糊,新来的智能体仪上线,扫了一眼文件列表,发现文件都在,就误以为活干完了,他甚至不去跑测试,就直接汇报任务完成。这是一种典型的由信息缺失导致的幻觉。 该怎么办呢?既然内部记忆不可靠,那就把记忆放到模型脑子之外。他们构建了一个外部记忆系统,其核心逻辑是靠文件和日制,而不是靠上下文来交接。这套设计非常巧妙的解决了我们前面提到的问题。 针对失忆问题,他们引入了持久化的日制文件和 get 历史,这样新 session 不 再依赖旧的上下文,而是直接从硬盘里提取记忆,彻底消除了失忆的风险。针对信息不足导致 agent 需要猜测的问题,他们强制要求生成一份结构化的功能清单, a 政不用猜了,所有任务都在清单里,状态一目了然。针对贪多嚼不烂的问题,他们把一次只做一个功能变成了硬性规则,并由清单驱动,让 agent 无法跨步。针对盲目自信的问题,他们设定了默认失败的原则, 所有功能默认都是 false, 必须完成测试才允许改成 true, 从而消灭了幻觉。最后,针对烂尾文件污染环境的问题,他们引入了整洁状态和 get 回滚机制。其所谓整洁状态 指的是适合合并到主分支的代码标准,没有重大错误,代码井然有序且文档完善。开发者能够直接开始新功能开发,而无需先清理无关的混乱代码。基于这个洞察,他们提出了这套文章的核心解决方案,一个 agent, 但分成两个阶段来运行。第一个阶段的角色叫做出使化智能体 newscary agent。 他的职责非常特殊,他不写业务代码,只存在于项目的第一天。他的任务是搭架子。这就像是一个经验丰富的架构师,在所有程序员进场前,先把服务器环境配好,把进度打卡表建好,把 gut 仓库出使画好。 他要确保后续所有的工作都有据可查,把隐性知识变成显性文档。第二个阶段的角色叫做编码智能体 code agent, 这是真正干活的角色,在后续成百上千次的绘画中,都是由他来接力,但他被施加了一个严格的约束,增量循环。 他每次醒来只能领一个任务,写完测试然后提交。这里有一个贯穿全书的核心概念,叫做 clean state 干净状态。 entropic 给他定了一条铁律,不管你这一班干了多少活,下班交接前必须保证代码能跑通。文档已更新,用原文的话说,必须达到主分支合并标准,绝不能把翻译报错的代码留给下一班。 讲到这里,很多人可能会误以为这是一套多 agent 架构。虽然 antropic 在 文中使用了 numulation agent 和 coding agent 两个名字,但原文脚注里特别说明,之所以叫两个 agent, 只是因为初使用户提示不同,但底层采用完全相同的系统提示词。工具级与整体控制框架, 它是同一个大脑在不同工作模式下的串行接力。在时间上,至少在这个 demo 的 设计里,它们从未同时出现过。 上一个绘画结束了,下一个才接手。在交互上,他们不对话,只通过冷冰冰的文件 file io 来传递灵魂。我们可以把它形容为 一个患有短期失忆症的天才工程师,为了完成一项宏伟的工程,强迫自己养成了极其严苛的写日记和存代码的习惯。他知道自己睡一觉就会忘掉一切,所以他必须把每一天的进度都刻在石头上,留给明天的自己。这套架构的本质不是在堆砌 a 阵的数量, 而是在用最朴素、最严谨的软件忠诚手段,文件读写 g i t 版本控制 t d d 测试驱动开发,去对抗 l m 那 个不可避免的失忆本能。 最后,我想带大家回看一眼我们在上一期深度解析 devon 那 篇不要构建多 agent 系统时得出的结论。我们当时说要警惕多智能体的陷阱。我们认为编程中写操作特性决定了串行往往比并行更安全。 今天 entropic 的 这篇文章在工程实践层面呼应了这个观点。哪怕是为了解决上下文耗尽这个超级难题, entropic 依然优先选择了串行接力,而不是并行分工。 为什么?因为只有串行才能保证每一个 agent 接手时拿到的都是一个整洁状态 clean state? 但在文章的最后, antropic 对 未来做了一个耐人寻味的展望。他们坦言,虽然目前这套串行单体方案跑通了,但未来是否多智能体架构会更好,这依然是一个未解之谜。讲到这里,大家可能有些迷惑,刚刚我们还在说写代码目前最稳妥的是单智能体,怎么 antropic 这里又开始展望多智能体了? 其实这并不矛盾,这恰恰揭示了目前 agent 领域最真实的现状,架构尚未收敛,共识远未形成。为什么现在选择单智能体?因为在当下的工程实践中,稳定性是第一位的。正如我们之前分析的,编程核心是写操作,为了避免决策冲突, 为了保证每一次交接都是干净状态,我们必须把权力集中在一个大脑手里,让他排队干活,这是为了不把代码写崩的底线选择。为什么未来展望多智能体?因为当稳定性解决后,我们必然追求专业度。 entertropic 在 文中设想的角色,比如测试智能体质量、保证智能体代码、清理智能体, 这些角色大多偏向于独操作或验证操作。也许未来的终极形态是闲代码的,依然是独裁的单智能体,以保证逻辑统一。 但围在他身边找茬、修饰、验收的是一群分工明确的专家团队。所以,不要在单智能提好还是多智能提好这个问题上钻牛角尖过,大家都在摸索限阶段。为了工程稳定性,我们采用单 agent 架构,并且通过工程化思路解决他上下文窗口限制的瓶颈。而未来随着模型控制力的增强,也许我们会解开束缚, 迎来真正的多 a 阵邪作。这就是为什么我们要精读这些文章,不是为了背诵某一个固定的结论,而是为了看懂这群世界上最聪明的工程师,是如何在失忆的限制与洪大的野心之间,在单体的统一与群体的智慧之间, 寻找那个微妙的平衡点。好了,本期就到这里了,下一期我们讲详细讲解 ontropolis 这套解决方案具体的实践。

欢迎来到我的频道,前几期视频我介绍了从我开发的第三方 windows phone 应用商店里面安装一些应用,这些应用都是我开发的,有人要问了, 能不能从网上下载包,将它放到我的应用商店里面呢?我的回答是,可以,是可以,但是很麻烦。为什么呢?因为微软提供的 api, 它只支持 u p 的 应用, 而 u w p 的 应用它每一个包都需要一些依赖项,我必须找到这个应用的所有匹配的依赖项,才能把它放到第三方的应用商店里面。所以目前的做法是,我只发布我自己开发的 u w p 应用,因为我自己开发的应用 可以很容易的将依赖向加到安装包里面。另外,由于 u w p 应用的限制,第三方应用商店它只能安装 u w p 的 应用,而不能安装 x a p, 也就是 windows 早期的安装包,这是被限制死的。当然 也是有办法通过手机安装 sap 包的,这个做法比较麻烦,如果想把这个功能加到第三方应用商店里面,手机必须解锁, 而且还要安装一个命令行的环境,比较麻烦。不是说所有的 windows phone 手机升级到 windows 十目标系统以后,打开设置,打开开发人员模式就可以安装了,所以我这个 安装 x a p 包的这个功能没有实现。那么怎么安装 x a p 包呢?我有了另外一个实现方式,也就是将 x a p 包加到电脑的应用商店里面,于是 便有了 app craft for w p 这个扩展功能。在刷机迷的工具箱里面,点开工具箱往下拉,有一个 app, 我 们可以点击打开,这是一个类似电脑版的应用商店,不过它需要通过数据线 连接手机来进行安装。我里面添加了一些从网上下载的 xap 包,使用方法也很简单。首先你需要确定你的手机系统是什么版本,可以点开这里的设置,点击这里的手机系统 或者是 windows 八点一系统,那么这里选第一个,如果是 windows 八点零,可以选第二个。 不过目前为止 windows 八点零解锁的手机比较少了,这个必须要开发者解锁,然后点击确定。 还有一个是安装路径,这个安装路径是可以修改的,它是存放从网上下载的 sap 包,这个文件的位置可以默认,也可以修改。还有一个是开机启动,这个就没必要了啊,开机启动也就是当你的电脑 启动以后, app crop for wp 这个应用,随着电脑启动,我们可以将这里的勾选去掉。这个商店里面的内容很少,我只加了几个比较常用的游戏,里面的内容只有几个,应用也没多少,游戏 也不多,这个分类里面有些也是空的啊。这只是一个实验性质的功能,使用方法也很简单,我们点一个切水果吧。 安装一个切水果,点开以后,将手机的设置打开,打开更新和安全,针对开发人员,将模式设置成开发人员模式。如果是 windows 八点一系统,那么需要开发者解锁,可以看我以前的视频。 如果是 windows 十 mobile 系统,那么只需要把这个打开就可以了。解锁是不需要的,只需要把开发人员模式打开就可以进行安装了。接着将数据线 连到手机上,连接电脑,连接电脑以后,打开此电脑要能看到 windows phone 的 图标,这样说明电脑已经识别手机了。接着点击安装, 这时候会弹出一个提示,选择手机安装或者是本机安装,如果没有这个提示的话,默认是安装到手机上的。这个提示需要 先打开刷机迷,点击工具箱,里面有一个 sap 启动器,将它打开,打开以后需要安装 visual studio 二零一五,把里面的虚拟机给勾上,安装方法是这幅图, 把这两个勾选上,然后在这里就会出现默认的模拟器, 这里可以选择模拟器的版本,选择好以后点击修改。那么当点击 app craft for wp 这个应用里面安装应用的时候,就会弹出这样一个提示,这时候你可以选择本机启动,或者是手机安装, 本机启动,它就会弹出一个虚拟机,然后将这个应用安装到电脑的虚拟机上。我们先安装到虚拟机上吧,点击本机运行 好,这时候会弹出 windows phone 的 虚拟机, 等待安装完成好。安装完成, 我们将虚拟机横屏, 现在你就可以用虚拟机来玩这个游戏了。 接着我们点击运行,然后点击手机运行,这时候就会将这个游戏安装到手机上, 如果出现刚才的提示,我们可以点击这里的从酷删除,然后再点击安装, 接着点击手机安装,接着这个游戏就会安装到手机上。好,手机上已经安装完成了啊,我们其实现在已经可以将这个游戏打开了, 数据线也可以拔掉了。 好,这时候 app craft, 它出现一个设备没有连接的提示,这其实是一个 sdk 的 bug, 我 们可以不用管它,直接点好就可以了。现在手机上已经安装了刚才的这个游戏,有了 app craft 四 wp 以后,你可以在没有 windows 手机的情况下,在电脑上通过模拟器 来玩这些比较经典的 x a p 的 游戏。好,今天的视频就到这里,各位拜拜。

我用 skill 把马斯克在 youtube 上三个小时的深度访谈播课整理成了结构化笔记,并且在 obsidian 上可以用 markdown 格式和 converse 的 格式进行展示我的 skill 是 如何设计?首先,在设计思路上,我可以把这个 skill 分 成两部分。首先,前半部分呢,是用于视频内容的获取和整理的。 后半部分呢,是将整体的内容转化成兼容 opending 格式的纯文本文件,并且还能支持对文件的再编辑。对于前半部分,我需要先输入视频链接啊,之后呢,让 ai 调用本地的外替 dlp 工具获取视频的字幕啊,之后呢,我会需要对视频字幕进行数据清洗 啊,用于去除容易重复的文本信息。完成之后,就可以让 ai 按照我们要求的格式来梳理内容了。 在完成内容的梳理之后,就可以进入后半部分,将内容转化成 markdown 格式或者转化成 converse 格式,并且生成相应的文本文件。如果你对这个文件的内容或者文件的形式有一些呃调整的需求,你就可以在 code 中直接提出你的要求就可以了 啊,就可以进行对文件的再一次编辑。另外呢, skill 的 前半部分是需要我们自己进行设计的,或者是我们结合 ai 进行辅助生成的。对于后半部分,我是在 github 上搜索 obsidian skill 然后下载得到的。 之后呢,我是融合两部分内容,得到能够生成 markdown 文件的 skill, 以及呢,能够生成 current 文件的 skill。 之后呢,我就可以在 嗯 call 框中调用 skill 啊,并且输入相应的视频链接啊,就可以得到我们需要的一个结果。最后如果大家感兴趣的话,可以点赞、收藏、关注啊,我把我整理的 skill 分享给大家。

最近呢,这个 agent skill 讨论非常的多啊,有人说呢,这是 ai 编程真正开始工程化的标志。也有人说呢, skills 其实就是一套复杂一点的提示词的模板。那在我看来的话呢,这个 agent skills 或许是二零二六年最值得我们关注的 ai 使用方式。 那今天呢,我们就不讲概念,也不争谁对谁错啊,我直接用一个一个的案例来让你对 agent skills 有 一个更加详细的了解。 这上面呢,它就是把一类任务的工作方法从一次性 prompt 升级为可附用,可组合,可长期使用的能力模块。 注意啊,我们这边呢,出现了三个英语单词,第一个是 prompt, 第二个是 agent, 第三个是 skills。 那 我再额外给大家补充三个吧,一个是 m c p, 另外是 rules, 还有这个 memory。 这六个单词呢,大家或多或少都听说过啊,有一定的了解。那为了能够更加简单直观的把它们的本质以及使用场景讲清楚的话呢,我这边画了一个表格。首先这个 prompt 啊,它的本质是什么呢?它其实就是一个一次性的输入文本,那它是不可附用的,也不是啊,长期有效的,所以说呢,它就强依赖当前的上下文。 agent 呢,它是一个正在运行的 ai 执行的实力,它不是附用的,也不会长期有效,结束了就消失了。 而 agent skills 呢,它是一个可赋用的工作方法的模块,并且它这边是跨任务跨绘画的。然后 m c p 呢,它其实是一种外部工具和数据访问的协议啊,这边是可以赋用,也是长期有效的,与 agent 的 这个生命周期是啊, 无关的。最后是 rules 啊,它这边呢,是一个局的 ai 行为的约束啊,也是可以赋用和长期有效的,并且是始终生效的。 那最后呢,是这个 memory 啊,就是可以去持续地存储某一类状态,它这边也是可以附用和长期有效的。那这里的话呢,大家可能对这个 agent 不 可附用啊提出质疑啊,那我来解释一下, agent 呢,它本质是一种运行状态啊,就是类似一个正在工作的进程或者是现成。 那任务完成了之后呢,这个 agent 的 生命周期其实也就相应地结束了啊,你不能说我想要去附用上一次那个 agent, 你 只能说我再启动一个新的 agent 实力。 那为什么很多人会感觉这个 agent 呢,好像能够服用呢?这是因为我们的这个 agent 呢,它当中啊有这个 prompt, skill, rules 和 memory 这些配置。所以说呢,真正可以服用的其实是 agent 它自身的这个配置, 而不是 agent 的 本身。那上面这个表格呢,我们其实已经讲到了六者之间的不同的分工啊,那接下来的话呢,我们来看一下它们之间的一个差异吧,这里我也让 chat 的 gpt 帮我会总了一个 表格。首先我们来看这个关注点啊, prom 呢?他是说什么?然后 agent 呢?是谁来做? agent? skills 是 怎么做? 然后 m c p 呢?是我们要用到什么样的一个工具?而 rules 呢?是啊,我们去归约了,什么事情是不能做的?最后这个 memory, 是 啊,有一些长期的这个对话的过程,想要去让你去记住的一些记忆点, 这个大家可以暂停来看一下。 ok, 那 下面的话呢,我们正式进入这个实操环节啊,首先呢就是我们来解决一个大家比较关心的问题,这个 agent skills 到底是从哪里来的啊?是不是每次我们都需要自己去写这个 agent skills 其实是不用的啊,因为现在社区它已经有很多成熟县城 拿来就能用的 skills 啊。第一个就是这个 atroc 它官方的这个 skills 仓库,那这个仓库呢,它非常重要的一点就在于它给出了官方推荐的一些啊 skill 的 写法啊,这个就是行业规范, ok 也提供了一些比较基础的这种 demo 势例。 第二个来源呢,就是这个 awesome cloud skills 这个项目啊,它这里呢是汇集了成百上千个 skills 啊,覆盖的这个场景是非常的多,那它更像是一个 skills 的 目录和生态集合啊。那第三个来源呢,就是这个 skills mp 点 com 这个网站,这个网站它的交互是非常有意思的啊,有点像一个命令行的界面啊, 你可以去按照分类浏览,也可以去啊按照你自己的这个用途和这个喜好去搜索。那这个呢,我就不展开了,回头大家可以去自己慢慢探索一下。呃,目前的话呢,我们主流的这个 a 编程工具其实都是支持 agent skills 的 啊,而且它的这个安装方式其实也都是大同小异的。 这里呢我提前就下载了 athropic skills 那 个开源项目,然后现在的话呢,我们就演示如何安装到 coder 当中去。首先呢我们打开一个项目,然后在这个项目的根部路呢,去创建点儿 coder skills 这样的一个文件层级,接下来的话呢,我们只需要去把一些开源的 skills 的 文件复制过来就可以了。那这里呢,就是复制以后的一个文件层级了。 ok, 现在的话呢,我们来尝试做一下对比啊,比如说同样的提示词,我们让 coder 去做一个 toto list 的 这样的一个小应用, 左边呢是不带 skills 的, 右边是带 skills 啊,那可以看到呢,右边的这个设计,它明显是更加高级,更加美观的。 是因为呢,我们这个提示词当中的前端 ui 设计触发了这条 skill, 而这条 skill 呢,它不是在教 ai 去啊怎么写这个前端的代码,而是呢,它在替 ai 做一个规约啊,就是当你去做前端设计的时候呢,你必须向一个真正的 设计师那样去思考。这里呢,我也让 ai 去分析了一下这条 skill 啊,感兴趣的同学呢,可以来暂停看一下。 ok, 那 到这里的话呢,你其实已经不难发现了,就是其实不是一个效果好不好的问题,而是一个做事方式, 呃,要不要改变的问题啊?就是加了 skills 之后呢, ai 并不是变得比之前更加聪明了,而是呢,他开始知道在这一类任务当中啊,什么样的事情,它的这个优先级是最高的, 哪些判断是不能够随便啊糊弄过去的啊,就是它会减少 ai 的 一个幻觉,更加的去标准化,更加的去符合我们人类的一个定义和预期。 那这也是为什么同样一句提示词,加不加 skills, 你 可以看到它的这个结果完全是不一样的, ok, 所以 说 agent skills 它真正的一个价值不在于它写的有多么的复杂,而是在于它能不能够稳定地去改变 ai 面对一类任务时候的一个行为方式。 ok, 当你开始呃真正的在项目当中去使用 ai, 而不是只去做一些简单 demo 的 时候呢,你就会越来越在意这种稳定性,而不是, 嗯,就是 ai 的 某一次。呃,灵光乍现表现很好啊,就是你会在意它的一个稳定性。那所以说的话呢,下一期我们也会直接带大家去从零到一的写出一条自己的这个 agent skills。 然后呢,我也会讲清楚一个真正可以附用的 skill 应该怎么样去设计,以及什么时候我们该用 skill, 什么时候该把这个东西交给 m c p 来做。感兴趣的同学啊,可以来关注我。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频再见, peace。

前两期我们讲清楚了 skill 的 原理,它让智能体从会聊天变成能做事,并通过渐进式纰漏机制实现了几乎无限的上下维。这一期我们来到 entropy 文档的最后部分,也是最重要的一部分。如何真正编辑、 评估并安全地使用自己的 skill? 接下来,我们将从四个角度带你理解 skill 的 完整开发思路。首先要从评估开始。在构建 skill 之前,要让智能体自己暴露问题,让它去执行真实任务,比如填写表单、声称报告或分析合同,仔细观察它在哪些地方出错卡顿, 或者频繁需要额外提示。这些错误和瓶颈就是 skill 设计的起点。 entropy 建议我们从评估出发,用问题来驱动建设,不要空想功能,而是用任务中的失败样本去反推缺陷。 每一个 skill 都应是针对具体能力、短板的修复,而且要小步走,先写出一个简单的版本验证可行性,再通过多轮使用逐步扩展内容。 skill 的 成长来自持续验证,而不是一次写完。接着要为规模而设计。当 skill 变得复杂时,一个文件往往不够用了,这时要学会拆分,让结构更清晰。 例如把主流程写在 skill 主文件中,表单填写或视力说明放入单独的文件,再在主文档中引用。这样的结构不仅更好维护,还可以显著降低模型的记忆负担。文档给出了一个非常有启发性的分层设计,最上层是原数据,也就是 skill 文件开头的名称和简介,大约只占一百个 词。中间层是正文,也就是主要步骤和说明,通常在五千词以内,底层是附属文件,比如脚本或参考文档, 由 cloud 按需读取。通过这种分层方式,智能体在使用时只加载需要的部分,既节省算力,又能随时扩展。 entropy 还特别提醒, skill 中的代码既可以被执行,也可以被阅读,关键是让 cloud 明白哪些脚本要运行,哪些只是参考。说明这一点其实延续了前一级的核心思想,让思考和执行分离。 cloud 只记住必要的知识,而真正的计算在外部执行环境中完成,这就是无限上下文的底层逻辑。在结构之外,还要从 cloud 的 角度思考, skill 的 作者是人类,但使用者是 cloud, 因此在设计 skill 时,要考虑它是如何理解和选择技能的。 cloud 在 判断是否调用某个 skill 时,主要依赖名称和简介这两个字段,它会基于这些描述决定哪个技能与当前任务最匹配。所以, skill 的 命名和简介不是装饰,而是 cloud 做出决策的信号。 一句准确的描述往往决定了一个技能能否被正确使用。同时,我们还应观察 cloud 在 实际使用中的行为,它是否误触发了技能,是否在某个场景过度依赖特定的上下问,这些观察结果都是改进 skill 的 依据。最后,在编写过程中,要与 cloud 一 起迭代 anthropoid 提出一个非常重要的理念, skill 的 成长应该是人机共同完成的过程。当 cloud 成功完成任务时,让他自己总结哪些做法有效,哪些提示最关键, 然后把这些总结写回 skill 中,让它成为下一次执行的标准步骤。当它出错时,也不要直接重试,可以让它反思哪里出错,为什么误解, 缺少了什么信息。通过这种反思式迭代, cloud 会逐渐学会如何改进自己的行为。 skill 也会随着经验不断进化,这就是一种人机共创式学习, 让经验真正沉淀为 s o p。 以上四点构成了编写 skill 的 核心方法,而当你真的开始创建技能时,还有一个更重要的维度,安全。 skill 的 强大同时也意味着风险,因为它可以运行脚本、访问文件系统,甚至连接外部网络。如果来源不安全,就可能引入恶意行为。 anthropic 提供了三条安全建议,第一, 只安装可信来源的技能。第二,使用前要仔细阅读技能中的所有文件,特别是脚本依赖和外部资源链接。第三,理解它的执行逻辑,明确哪些代码需要运行,哪些只是文档,说明 skill 的 开放性让 cloud 真的 能做事,但同时也需要我们具备安全工程师的意识。安全不是限制能力, 而是保护信任。最后,我们来看看 anti fotik 对 skill 未来的展望,他们认为 skill 不 仅是一种技术结构,更是一种知识协助机制。目前, skill 已经在 cloud ai、 cloud code agent、 sdk 以及开发者平台上全面支持。接下来, anthropic 将推动它进入一个全新的阶段,共享与发现未来,个人和组织都能创建、编辑、发现、共享,并使用 skill 形成一个完整的生命周期。这意味着 cloud 将不再只是一个人的助手, 而是能访问全社会技能库的智能体。个人可以上传自己的专业技能模块,企业可以共享内部 sop、 api 和工作流, cloud 在 调用时就能直接继承这些结构化知识,这将让知识从孤立变为互联,让不同的智能体之间形成真正的知识网络。同时,文档还特别提到了 skill 与模型上下吻合,也就是 m c p 的 关系,两者并不是重复,而是互补。 skill 提供任务知识,教 cloud 如何完成一类工作,而 m c p 提供外部连接,但 cloud 可以 访问数据库、 api 和软件资源。当两者结合时, cloud 就 能实现混合式智能, 既懂得做事的方法,又能真正动手去执行。例如,一个合同审查技能,可以通过 m c p 连接企业数据库,提取合同条目, 自动比对风险自断,最后输出完整的审查报告。 skill 让 cloud 拥有了思维的框架,而 m c p 则赋予它行动的手臂,两者结合将成为未来智能体架构的核心驱动力。 anthropapic 还提出一个更远的愿景, 未来 agent 将能自主创建、编辑并评估自己的技能,他们会把反复验证的思维与操作模式转化为可附用的能力模块。当那一天到来时, skill 将不仅是人类写给智能体的说明书,更是智能体写给自己的成长记录。 总结一下今天的内容, skill 让智能体从会说话变成能做事,渐进式批露让它在有限的上下坟中获得无限的能力。安全与共享机制则让 skill 成为一个能持续演化的知识生态。 anthropocopy 用这套体系为未来的智能体世界建立了第一个可编程的行为层标准。好了,本期视频就到这里,感谢收看本系列。