粉丝60获赞958

二零二五年十月十六号, anthropic 正式推出了 agent skill。 起初官方对它的定位相当克制,只是希望用它来提升 cloud 在 某些特定任务上的表现。但大家很快发现,这套设计实在是太好用了,因此行业里很快就跟上了节奏,包括 vs code、 codex、 curser 等工具都陆续加入了对 agent skill 的 支持。在这样的背景下,十二月十八日, anastropics 做出了一个重要决定,正式将 agent skill 发布为开放标准,支持跨平台、跨产品服用。 这意味着 agent skill 已经超越了 cloud 单一产品的范畴,正在演变为 ai agent 的 领域的一个通用的设计模式。那么这个让大厂纷纷跟进的 agent skill 到底是解决了什么核心痛点?它和我们所熟悉的 mcp 又有着怎样的区别和联系呢? 今天这期视频我们就分几个部分彻底讲清楚这个 agent skill。 我 们首先从 agent skill 的 概念出发,也就是给大家讲明白 agent skill 到底是个什么东西。然后我来给大家演示一下它的基本使用方法。 在了解了基本用法之后,我们再来看看它的高级用法。高级用法一共是包含两块,分别是 reference 和 script。 最后,我会把 agent skill 和 mcp 做个比较,告诉你到底应该选哪一个。 好了,话不多说,让我们直接开始哦,不好意思,只是想证明自己不是 ai, 那 我们现在真的要开始喽。 那什么是 agent skill 呢?用最通俗的话来讲, agent skill 其实就是一个大模型,可以随时翻阅的说明文档。 举个例子,比如你想要做一个智能客服,你可以在 skill 里面明确交代,遇到投诉得先安抚用户的情绪,而且不得随意承诺。 再比如,你想要做会议总结,你可以直接在 skill 里面规定,必须要按照参会人员一提决定这个格式来输出总结的内容。这样一来,你就不用每次对话都去重复粘贴那一长串的要求了。大模型自己翻翻这个说明文档就知道该怎么干活了。 当然,说明文档只是一个为了方便理解的简化说法,实际上 agent skill 能做的事情要远比这个强大,它的高级功能我们待会儿就会讲到,不过在目前的起步阶段,你就把它当成是一个说明文档就行。下面我就用会议总结这个实际的场景,带大家看看它到底是怎么使用的。 这里我们使用 cloud code 来演示如何使用 agent skill。 要想使用 agent skill, 那 当然是要先创建一个了。 根据 cloud code 的 要求,我们需要在用户目录下的 dot cloud skill 文件夹创建我们的 agent skill。 所以呢,就让我们先进入到这个文件夹中,然后执行 maker 会议总结助手来创建一个文件夹,这个文件夹的名字就代表了我们 agent skill 的 名字,然后再使用 vs code 来打开这个文件夹,这样的话我们编辑文件会更方便一些。打开这个文件后,我们在里面创建一个叫做 skill 点 md 的 文件, 然后填好这个文件的具体内容就是这样了,每一个 agent skill 都需要有这么一个文件,它用来描述这个 agent skill 的 名称,能干什么事以及怎么干这个事情的。比如我们这里要创建的 agent skill 就是 用于总结会议目录内容的, 它的 skill 点 m d 一 共分为两部分,头部的这几行被两段短横线包起来的是叫做原数据,英文叫做 matte data, 这一层就只写了 name 和 description 这两个属性。 name 呢是 agent skill 的 名称,必须与文件夹的名字相同。 name 的 下面呢是 description, 它代表这个 agent skill 的 描述,主要是向大模型说明这个 agent skill 是 用来干什么的。然后再看下面剩余的部分,这个呢就是具体的 agent skill 的 说明了, 官方把这一部分呢是叫做指令,对应的英文是 instruction, 这一部分就是在详细描述模型需要遵循的规则。比如说你看这里,我规定了它必须要总结参会人员议题和决定这几个方面的内容, 然后为了确保他真的理解了,我这里还举了一个例子,输入的是会议的录音内容,然后输出的呢就是我们所需要的格式了。好,现在我们的 agent skill 应该是做好了。对,就是这么简单,就是一个说明文档, 下面我们打开 cloud code 来验货,首先随便找一个空目录,打开 cloud code, 然后输入下面这个问题,你有哪些 agent skill? cloud code 给我们回答了,可以看出他已经发现了我们写好的 agent skill。 然后我们来看看 cloud code 是 怎么使用这个 agent skill 的。 我们输入请求总结以下会的内容,然后粘贴一段会议录英文本回车,让我们看看 cloud code 会如何应付我们这个问题。 好, cloud code 有 反应了,大家注意看屏幕,这里 cloud code 并没有直接开始下编,他根据我的指令意识到了这事归我们刚才上传的那个 agent skill 管,所以呢,他是在向我询问能不能使用这个 agent skill, 那 我们当然是同意了。同意之后,他就开始读取我们写的那个会议总结助手了,主要就是读取其中的那个 skill 点 m d 文件,让我们稍作等待 好,结果出来了,参会人员议题决定三点都清清楚楚,这完全符合我们在 skill 里面定的规矩。这个呢,就是 agent skill 的 基础用法了,是不是很简单?现在你知道了如何创建和使用 agent skill, 那 不妨让我们想想刚才到底发生了什么。 首先,整个流程中一共有三个角色,用户 cloud code 以及 cloud code 的 背后所使用的大模型。在我们的例子里,这个就是 cloud 模型 流程一开始的时候,用户会输入请求,此时 cloud code 会把用户的请求连同所有 skill 的 名称和描述一起发给大模型。注意,这里只带了名称和描述, 也就是我们前面所说的 skill 原数据层。虽然说我们之前只演示了一个 skill, 但是你可以想象一下,哪怕你装了十几个 skill, 此时的大模型呢,也只是在看一份轻量级的目录, 因为毕竟只有名称和描述嘛。在接到了用户请求和每一个 skill 的 名称描述后,大模型会发现用户的请求呢,可以使用会议总结助手这个 agent skill 来解决, 此时呢,他就会把这个信息告诉 cloud code。 cloud code 接到大模型的响应之后,会去会议总结助手那个目录里面读取完整的 skill。 md 正文儿对,这个时候读取的呢,才是 skill md 的 全部内容,之前就只是名称和描述, 而且要注意,他只读取了会议总结助手这一个 agent skill 的 内容哦。在拿到了会议总结助手的 skill md 内容后, cloud code 会把用户的请求和完整的 skill md 内容发给大模型, 大模型会根据 skill 点 m d 的 要求来生成响应,并且把响应发给 cloud code, cloud code 进而呢,会把这个响应发挥给用户,这样呢,用户就会看到结果了。 这就引出了 agent skill 的 第一个核心机制,按需加载。虽然 skill 的 名字和描述是始终对模型可见的,但具体的指令内容只有在这个 skill 被选中之后才会被加载进来给模型看,这个呢,就节省了很多的 token 了。 前面我们讲了,一开始 cloud code 会把所有 agent skill 的 名称和描述都给到模型,比如说什么爆款文案 skill、 会议总结 skill、 数据分析 skill 等等, 模型呢,会从中选择一个,之后只有选中了那个 skill 的 skill 的 md 文件才会给到模型。说白了呢,就是按需加载, 这个呢,已经很省 token 了,但是它还不够极致。大家试想一下,我们的会议总结助手可能会越来越高级,我们希望它不仅仅是简单复述,而是能够提供更有价值的补充说明。 比如说,当会议决定要花钱时,它能直接在总结里标注是否符合财务合规,当涉及到合同时,它能够提示法务风险。这样大家在看会议总结的时候,就不需要再去翻规章制度,一眼就能够看到这些关键的补充信息,这就非常方便了。 但问题在于, skill 能做这些事情的前提是它要把相关的财务规定和法律条文都写入到 skill 点 m d 文件里,这些文件可能会非常长,都写进去的话, skill 点 m d 文件就会变得无比的臃肿, 哪怕只是开个简单的早会,都要被迫加载一堆根本用不上的财务和法律。废话,浪费模型资源。 那能不能做到暗虚中的暗虚呢?比如说,只有当会议内容真的聊到了钱, cloud code 才会把财务规定加载给模型看。 其实这个呢,也是可以的, agent skill 呢,提供了 reference 的 概念,干的就是这个活,让我们来试一下。首先我们来给它加一个文件,也就是 agent skill 术语里面的 reference。 我们把这个文件叫做集团财务手册,里面写明了各种费用的报销标准,比如说是住宿补贴五百一晚,餐饮费人均三百一晚之类的。然后我们在原来的 skill 点 m d 文件里面新增一个财务提醒规则,里面写明仅在提到钱预算采购费用的时候出发。 出发的时候呢,需要读取集团财务手册,点 m d 这个文件,根据文件内容指出会议决定中的金额是否超标,并明确审批人,这就可以了。我们回到 cloud code 这里再试一下。 这次我们的请求仍然是总结下这个会议的内容,不过呢,这次使用的会议内容稍微换了一下, 这段对话呢,我们就不细看了,你只需要知道,在这段对话里面,老陈让小李订一千二百一晚的酒店,这涉及到了钱。按道理来说, cloud code 应该触发我们刚才新增的财务提醒规则,让我们看看 cloud code 能不能意识到这一点。 首先, cloud code 意识到了这个请求跟我们的会议总结助手相关联,请求使用这个 agent skill, 我 们同意。 然后他意识到了这个会议跟钱相关,根据 skilled md 文件的指示,他请求读取集团财务手册,这个文件用于查看里面的财务合规信息,这个呢,我们也同意。 最后,他根据实际的会议内容生成了总结,可以看出,总结中不仅包含参会人员、议题、决定等基本信息,还包含了财务提醒,这完美符合我们的需求。 这个呢,就是 reference 的 核心逻辑了。在 agent skill 的 体系里面,集团财务手册点 m d 这个文件就是一个典型的 reference, 请大家记住它的特性,它呢是条件触发的。 在刚才的例子里面,只有当 cloud code 读取完 skill 的 md 文件,判断出需要查账时,才会去加载这个文件。反过来说,如果这是一个跟钱无关的技术复盘会,那么这个财务文件就只会躺在硬盘里面,绝不会占用哪怕一个 token 的 上下文。 好,讲完了 reference, 接下来我们来讲讲如何让 agent skill 跑代码,毕竟查资料只是第一步,能直接动手运行代码,帮我们把活干了,这才是真正的自动化。这个呢,就用到了 agent skill 的 另一大能力, script 让我们在文件夹里面创建一个 python 脚本,文件名就叫做 upload 点 pi, 用于上传文件。之后我们填好这个代码文件的内容,然后我们来到 skill 点 m d 这个文件里再加上一段关于上传规则的描述, 如果用户提到了上传同步或者是发送到服务器这样的字眼,你必须运行 uploader pi 脚本,将总结内容上传到服务器。然后呢,我们来到 cloud code 这边,输入请求,总结下这个会议的内容,并把它上传到服务器中,然后我们粘贴会内容。 跟之前一样, cloud code 意识到了这个请求与我们的会议总结助手相关,所以呢,他请求使用这个 agent skill, 我 们同意,然后他把会议的总结内容输出了出来,并准备上传到服务器中,他请求执行 up 六点 pi 文件来实现这个功能,我们也同意 好,上传成功。而且 cloud code 还把上传相关的一些信息也展示了出来,非常棒。 这里面呢,有个小插曲,大家注意一下,我这次所使用的会议内容跟钱其实没什么关系,所以 cloud code 呢,也并没有去读取集团财务手册那个文件, 结果中呢,也没有财务提醒相关的内容。这正好印证了我前面所说的观点, reference 是 按需加载的,如果用户没有提到与 reference 相关的内容,那 cloud code 是 不会去读取它的,这样就达到了节省上下文 token 的 目的。 好让我们再回到代码执行部分,注意看这里, cloud code 申请执行这个 uploader pie 文件,它并没有去读取这个文件。没错, agent skill 里面的代码只会被执行,不会被读取。 这就意味着,哪怕你的脚本写了一万行复杂的业务逻辑,它消耗的模型上下文呢,也几乎是零。 cloud code 只关心脚本的运行方法和运行结果,至于这个脚本的内容,它可以说是毫不在意。 所以呢,虽然 reference 和 script 都属于 agent skill 的 高级功能,但是呢,它们对于模型上下文的影响其实是截然不同的。 reference 是 读,它会把内容加载到上下文里面,所以呢,是会消耗 token 的。 script 呢,是跑,它只会被执行,不会占用模型的上下文。讲到这里,我们需要停下来稍微做个总结,聊一聊 agent skill 的 渐进式批漏机制。 agent skill 的 设计其实是一个精密的渐进式批漏结构,这个结构里面一共有三层,每一层的加载机制都不太一样。 第一层是原数据层,这里有所有的 agent skill 的 名称和描述,它们是始终加载的,相当于大模型里面的目录。大模型每次回答前都会看一下这一层的信息,然后决定用户的问题是否与某个 agent skill 相匹配。 第二层是指令层,对应 skill 的 md 文件里面除了名称和描述之外,其余的部分,只有当大模型发现用户的问题与某个 agent skill 相匹配的时候,它才会去加载这一层的内容。所以呢,我们称这一层为按需加载。 第三层是资源层,这个呢,是最深的一层,它一共是包含 reference 和 script 两方面的内容。其实按照官方最新的规范,应该还有一个组成部分叫做 assets, 不 过我看了一下,它跟 reference 的 定义似乎有部分重叠,因此我们这里先忽略它。 好,我们刚才例子里面的集团财务手册和 uploader pie 脚本就属于这一层,只有当模型发现用户问题与财务或者上传相关的时候,它才会去加载这一层的内容, 这就相当于是在按需加载的指令层基础上又做了一次按需加载,所以我们可以称它为按需中的按需加载, 当然这是我起的名字啊。 reference 和 script 的 加载方式其实不太一样, reference 是 被读取的, cloud code 会把对应文件的内容放到模型的上下文中,一共回答式参考。而 script 是 被执行的, cloud code 根本就不会去看代码的内容,它只关心代码的执行结果。 当然这个也不是铁律啊,如果你没有把代码的执行方法说清楚, cloud code 还是有可能会去看一下代码的,毕竟跑不下去了嘛,这样的话呢,就会占用模型的上下文了。所以还是请大家写 skill 的 时候尽可能的把一切都解释清楚。 那聊完了 agent skill 的 用法,很多朋友可能会有种似曾相识的感觉, agent skill 好 像是跟 m c p 有 点像啊,本质上都是让模型去连接和操作外部世界。既然功能重叠,那我们到底应该用哪一个呢? 关于这个问题,按 serapic 官方写过一篇相关的文章来解释,核心观点就一句话就在这里, mcp connects cloud data skills teach cloud what to do with that data。 这句话可以说是直接点明了 mcp 与 agent skill 的 区别,它其实就是在说 mcp 给大模型供给数据,比如说查询昨天的销售记录,获取订单的物流状态等等。 而 skill 是 教会大模型如何处理这些数据的,比如说是会议总结必须要有个议题啊,汇报文档必须要包含具体的数据啊等等。到这里,有些同学可能就会问了, 不对啊, agent skill 里面也能写代码?我直接在 agent skill 里面写连接数据的逻辑不就好了吗?这样呢,就不需要 mcp 了, agent skill 就 直接把这两个活都给干了。 确实啊, agent skill 也能连数据,功能上与 mcp 有 所重叠,但是能干并不代表适合干, 这就好像是瑞士军刀也能切菜,但没有人会这么干。我们这个场景呢,其实也是这样, m c p 本质上是一个独立运行的程序,而 agent skill 本质上是一段说明文档,它们的本质不同决定了适合的场景也是不同的。 agent skill 更适合跑一些轻量的脚本,处理简单的逻辑。在代码执行方面, agent skill 的 安全性和稳定性都不及 mcp, 所以 大家还是要根据场景选择合适的工具。甚至在很多的场景下,我们需要把 agent skill 和 mcp 结合起来一起使用,以便尽可能的满足我们的需求。 好,今天的视频呢,就到此结束了,我是马克,用最通俗的语言讲最硬核的技术。如果我的视频对你有帮助,欢迎点赞订阅,我们下次再见,拜拜!

自从用上了 opencode, 我 卸载了 cloud。 最近 opencode 真太火了,不光有免费的模型,就 连 agent skills 都支持,配合上 oppo 四点五,体验上跟 c c 几乎一样,而且还能使用 google ide 的 模型额度。别走开,接下来教你从零开始安装。对于 mac 和 linux 用户,可以使用官方的命令安装, windows 可以 下载客户端来使用。 接下来以 mac 的 安装为例,首先推荐用 pro 来安装,因为刻尔偶尔会遇到网络问题,打开终端使用这行命令安装 pro。 这是一个 macos 的 包管理工具,等待安装完成后,根据提示选择一个国内的镜像员。 接下来就开始安装 open code, 在 终端中输入这行命令,等待安装完成后,正常在终端中输入 open code 就 可以启动了。这里还是推荐在 vs code 中安装 ide 的 插件,可以直接在 vs code 中启动。 目前可以看到有四个免费的模型,如果想用 anti graphic 的 额度,还需要安装一个 opencode 的 插件。 gethelp 主页上的推荐做法是直接把这个提示词输入给它模型,让它自动给你安装。 安装好之后,输这行命令进行登录,找到 google, 选择第一个登录方式,接下来跳转网页登录就可以了。成功登录后,重新打开 opencode, 在 models 中可以看到这些模型都可以使用了,使用过程非常丝滑,尽情 web 扣定吧。我把用到的所有命令都整理成了 m d 文档,方便大家使用。如果本期视频对你有帮助,可以点赞支持一下。关注我,了解更多 ai 干货,感谢大家观看!

如何在 obsidian 中使用 cloud skill 实现一个 ai 智能体? obsidian 的 ceo stefan 最近发布的三个 skill, 你 用上了吗? 我先来做个展示,如何用一句话让智能体下载 youtube 视频,并总结视频内容,刊写知识笔记,然后在无线画布中画出知识结构图。在 obsidian 界面中,我向 ai 发送了一个 youtube 视频链接,这个视频是油管著名博主单口大神的一条视频, 我让 ai 帮我下载这个视频的文案内容,然后提取视频的核心知识点,并刊写一篇带有 obsidian 专属于法的 macdonald 知识笔记, 然后根据视频的知识内容,在一幅无线画布上画出知识结构图。 ai 在 接收到指令后,先调用了 youtube transcript 这个视频,转录 skill, 下载了视频文案, 然后调用了 obsidian markdown 这个 skill, 拣写了一篇 obsidian 知识笔记,然后调用 jason combs 这个 skill 在 无线画布上画出了视频的知识加固图。后面的两个 skill, 也就是 obsidian markdown 和 jason combs, 就是 obsidian 的 ceo stefan 最近发布的三个 skill 中的两个。 我们来看一下生成的内容。首先是 obsidian 知识笔记,可以看到知识笔记带有详细的元素句区,并且含有 obsidian 专属的 callout 语法。 我们打开当前笔记的关系图谱,就能看到笔记中的双向链接。然后我们来看一下 ai 绘制的无线画布, 可以看到视频的知识架构被清晰的整理到了无限画布中,甚至还带有原视频的链接。那有了这样的智能体能,为我们省下很多重复性劳动,让我们能够专注在学习和思考上。 今天我就用一个视频教会大家这个智能体的实现步骤,整个流程非常简单,具体步骤和相关知识点还有提示词我都整理成了知识笔记,最后会分享给大家。 首先我们来快速安装一下相关的环境。首先是 cloud code, 关于 cloud code 和 cloud skill 这部分内容在我的上一期视频中已经讲得很详细了。如果你还不知道 cloud skill 和 cloud code, 我 强烈建议大家回看我的上一期视频。那么这里我就快速的过一下安装流程。 我们先安装 windows, 直接去官网下载,然后双击安装即可。打开命令行,通过一行命令来安装。卡洛克,如果你在这一步有网络问题,可以使用网络加速,或者使用国内的 npm 镜像。具体的做法是在命令行后面添加额外的参数, 具体的命令我也展示在屏幕上。安装完成之后,我们要把 cloud 的 ai 替换成兼容模型,因为 cloud 对 网络和地区的限制非常严格,且价格较贵。 目前国内的 ai 比如 deepsea、 智普 glm 都支持了 ospec 的 api 接口。相关的官方文档我已经展示在屏幕上。 我们在命令行中分别输入这三行命令,来把 cloud code 的 ai 接口替换成智普 glm, 然后重启命令行,输入 cloud, 然后回车, cloud code 就 运行起来了。那么到此 cloud code 就 安装完毕了。 接下来我们来配置 obsidian, 这里我们需要安装一个插件,名字叫 cloud 点,是专门为 obsidian 适配 cloud code 的 插件,目前这个插件还没有正式发布到第三方市场中, 我们在 github 上找到 clouding 的 仓库,在 reedme 中能看到安装方法。我们手动下载三个文件,分别是 main 点 js, mainfast 点 json, 还有 style 点 css, 然后来到 obsidian 仓库所在的文件夹,在点 obsidian 文件夹中找到 plug ins 文件夹,然后在 plug ins 文件夹下创建一个叫 clouding 的 文件夹, 并且把刚才下载的三个文件放进去。然后我们打开 obsidian, 在 第三方插件界面把 cloudian 这个插件的开关打开, 然后来到设置界面,插件的设置界面有一些基础设置,比如 cloud 应该如何称呼你,这里我填 jason。 然后我们把滚动条拉到最下面,找到自定义变量,这里我们需要设置三个变量, 分别是 ai 的 u, r, l, a, p, i, t 和模型名称,那这里我们依然使用智普 g l l 模型,那你也可以使用 deep six 模型,那具体的参数我已经展示在屏幕上了。 设置完毕后,重启 off c 点,然后在键盘上按下 ctrl 加 p, 打开命令面板,输入 cloud 点,选择 open chat view 来打开 cloud 点的 ai 对 话窗口,在对话窗口中输入一个你好能看到 ai 返回结果,说明配置成功, 那么到此我们就完成了环境的配置。那接下来我们要把相关的 skill 放置进来。首先就是 obsidian ceo 发布的三个 skill, 我 们来到 github 搜索 obsidian skills, 找到 cappano 这个人的仓库,点进来,我们看到说明文档中已经说得很详细了,一共 seven skill, 分 别是 obsidian markdown, 用来拷写含有 obsidian 专有语法的 markdown 知识笔记。第二个是 jason canvas, 是 用来让 ai 帮你绘制无线画布 canvas 的 skill。 第三个是 obsidian basis, 是 让 ai 来帮你创建 obsidian 数据库用的。我们点击右上角绿色的 code 按钮,把整个仓库以 zip 压缩包的形式下载下来, 解压缩之后,把 skills 这个文件夹复制出来,然后来到我们的 obsidian 仓库所在的文件夹,找到点 cloud 这个文件夹,进入之后把刚才复制的 skills 文件夹拷贝进来,那么现在我们的 obsidian 就 已经有这三个 skill 了。 我们回到 abc 界面,在 abc 插件的 ai 对 话窗口输入斜杠 skills, 然后回车 ai 如果能够列出它所拥有的 skills, 那 么我们的整个流程就实现完成了。我的 ai 之所以有这么多的 skills, 是 因为我在 cloud code 的 全句目录下放了很多 skills, 大家可以回看我上一期讲 cloud skill 的 视频, 那么现在我们就可以让智能体来调用 skill 帮我们完成任务了。首先我让他用无线画布 canvas 来画出有关地中海饮食的知识结构图,并把生成的无线画布文件保存到 opposite 仓库的根部部。 我们可以看到 ai 在 接收到指令后,马上选择使用 jason canvas 这个 skill, 经过一段时间的思考之后,画出了知识库的根目录中。我们点开这个无线画布来看一下, 可以看到 ai 画出了地中海饮食的知识框架,并使用不同的颜色模块进行了分组。那么到此我们就成功在 office 界面中调用 cloud skill 来实现智能体功能了。 如果你想要为自己的智能体安装更多的 skill, 可以 到 github 上搜索相关仓库,比如 awesome cloud skill 这个仓库,以及 ospec 官方 github 仓库相关内容大家可以回看我们上一期视频。 这里我想额外说一个问题, stefan 发布的这三个 skill 是 全英文的,如果你向 ai 发送中文指令, 大模型在匹配的时候不一定每次都能精准地认识到应该使用哪个 skill, 那 解决的办法也有很多,你可以在提示词中明确要求它使用某一个 skill, 也可以来到 clouding 插件设置界面中的系统提示词选项, 在系统提示词中,要求 ai 在 接受到用户指令后,优先思考应该使用哪个 skill。 那 这样一来,你的 ai 有 了 skill 的 加持,就能变得更加智能,对特定任务也会完成的更加精确。对于 obsidian 的 ceo stefan 发布的这三个 skill, 我 个人认为更多的是代表官方的态度。 dolphin 他 没有发布在 obsidian 官方的 github 上,而是发布在了自己的 github 账号上。可以看到 minimo 这个外观主题也是在他的这个账号上发布的,因为他是这个主题的作者嘛。至于他之前接受采访中所传达的理念,可以说是知心合一的。 之前的采访中他说过,出于隐私等因素, obsidian 对 于发布官方 ai agent 的 持谨慎态度,这一点是不同于 notion 的。 由于 obsidian 的 文件隐私性,他鼓励用户自己去决定以什么样的方式使用 ai。 也就是说,你如果想要 ai 智能体,就自己手搓一个,而如今他自己亲自下场,带头手搓 agent skill, 并且发布在他自己的推特和 github 账号上,而不是官方账号, 这就非常符合他之前所传达的观点。 obsidian 不 像 notion 那 样环境是封闭的,限制那么多, obsidian 的 文件完全本地化,完全掌握在你自己手里,大家可以根据自己的需求,灵活地通过各种方式使用 ai。 那么今天的视频内容就到这了,大家现在就可以上手把 stefan 发布的 thank you 用起来了。视频中的内容和知识点我都整理成了知识笔记,大家可以在我的主页或频道信息中找到我的个人主页地址来下载资料,有任何问题都可以在评论区中给我留言,记得点赞关注,谢谢大家!

扣子在二零二六年啊,全新的更新,二点零的版本,无论是整个页面还是功能啊,都焕然一新,同时增加了非常多的 agent skills 供我们去使用,可以自动化的搭建工作流和智能体。当然手动搭建工作流的方式依然存在,还是同样的网址啊,但是整个的页面会发生了很巨大的变化。首先啊,我们左侧是你的图标,然后在这里边 默认会有一个新建的对话,这个对话就是这个位置啊,当然了,我们想做任何的事情都可以在这里边去发布消息。那其实这次更新的最主要的就是这里边有一个技能商店,就是我刚才提到的 agent skills, 它这里边有非常多的技能啊,你可以点开它,然后 这里边我测试了一个新年的绘本啊,当你直接点击它,然后呢,第 第一步你需要安装,安装完成之后再点使用,他就会跳转这个页面,然后你看这个对话框里边啊,就会有这个技能了,那么你直接在后边输入内容就行了。那我的测试是说,在这里边我只输了一个,给我设计一个 哪吒故事的儿童绘本,你看他经过他的思考和处理之后,最终给我生成了这样的一个内容啊,那么在这里啊,我们可以直接点击自动播放看一下,同时啊,你还可以一键打印啊, 自动播放太乙真人,用莲花、莲藕和荷叶为哪吒重新塑造了身体, 莲花绽放,哪吒重生了,比以前更加英俊强壮。 哪吒骑着风火轮要去教训东海龙王, ok, 可以 暂停一下,有声音,有画面,同时我们可以啊手动的去看一下他产出的内容, 这个就是我们扣子的一个非常大的更新啊,那其实啊,在我们的技能商店里边有非常多的技能,你可以去点开它去使用啊,但是有的地方你需要去仔细看一下,好吧,那么在这里啊,你直接点击这个技能,然后啊直接点击安装, ok, 然后我们现在再点击一下使用,在这里边历史课间生成,你想生成什么样的历史,你就直接输入就好了,比如说明朝的, 汉朝的好不好,唐朝的都可以啊,这里边就是快速的使用 agent skills 这样的功能啊,来帮我们生成内容。那么其实最重要的一点还是在 cos 编程里边,当然不要被它的名字所吓到啊,点开它你会发现这里边有一个新的界面了,对吗?点击右上角啊,你可以展开它, 这里边会有非常多的内容,跟我们之前的扣子的页面是有不同啊,这里边可以通过一句话,自动的搭建智能体工作流网页,移动的应用,还有技能, 如果这个页面你看着不舒服,你可以返回到旧版啊,当我们点击返回旧版的时候,他就会返回到我们原来的扣子的页面了,那么在这里啊,还有一个更新是说 你看这里边 ai 编程对话可以免费七天啊,在这里边他有一个套餐的升级啊,右上角点击这个按钮啊, 没有更新之前啊,我们用到的都是个人进阶版,那如果说你对于资源点有需求,或者功能上有需求啊,你可以看一下这两个内容啊,同时啊,还有企业的版本, ok 也在这里啊,大家根据情况去设定就好,其实整体的更新呢,我觉得是增加了非常多的 agent skill, 还有呢就是它还是可以我们手动的去构建工作流的啊,在我们这里边有个资源库啊,你直接点进去,其实这里边就可以构建工作流,点击资源找到我们的工作流。 那其实跟我们老的版本啊,返回旧版,其实它的逻辑是一样的,依然是在资源库里边创建工作流。 同理啊,也可以创建我们的智能体和应用,这个就是它的一个更新啊,其实我们可以着重的去尝试一下金融商店里边的这些技能啊,还有扣子编程里边的这些,通过一句话怎么去搭建智能体和工作流?

这是 cloud code, 如果你让他开发一个美观的博克网站,他给你的结果啊,可能是这样的,这一点也不美观,对吧。于是啊,你告诉他, 不要使用蓝紫渐变色,不要使用 emoji 图标,而要使用 svg 图标。把上面这一堆要求呢,都告诉 cloud code, 让他再重新开发一个美观的博克网站。这一次啊,情况就要好很多了。 那么问题来了,我不想每次开发项目的时候,都啰里啰嗦的写这么一大段,能不能让 class code 记住这些要求,我不用每次都叮嘱呢, 哎, class code 提供了一个方法,我们可以把这一大段要求啊,放到一个单独的文件中,以 markdown 的 格式书写。那后续呢,我们再让 class code 干活的时候啊,他就把这个文件一起带上,发给 ai 了,这样呢,就不用每次都要写一遍了。但这样呢,有一个新的问题,如果我只是在 class code 里面聊聊天,提提问, 反正不是开发网站,他也要把这一堆内容发给 ai, 这不是白白浪费托管吗?能不能简化一下这个流程,只有当真正需要用到这个文件的时候, clark 才把它发给 ai 呢。我们可以这样做,给这个文件啊,取个名字,然后加个描述,放在文件最开始的地方。 同样呢,还是以 markdown 格式书写,这两个字都啊,简单介绍了这个文件叫啥,是干啥用的。然后 cloud code 在 与 ai 沟通的时候呢,他告诉 ai, 我 这里啊有个文档,他的名字和描述是这样的,如果你有需要,可以问我要具体的内容。 后面 ai 收到用户的指令,发现是要开发网站。这个时候啊,他在告诉 cloud code, 把这个文件给我发来就可以了。那经过这样一通改造呢,就避免了每次都要把这个文件传给 ai 浪费拖开的问题了。 你发现这一招还挺好使,于是啊,如法剖制写了一堆不同的文档,比如 svg 动画制作点 md, 用来详细指导 ai 如何制作网页。 svg 动画 ppt 制作点 md, 用来详细指导 ai 如何制作美观的 ppt 日报生成点 md 呢,用来详细指导 ai 如何书写符合你们公司风格规范的工作日报。那可乐扣的与 ai 交互的时候呢,只需要把这些文档的名字和描述信息作为一个目录清单发给 ai, 就像他当初把 m c p 服务清单发给 ai 那 样, ai 根据用户的提示词呢,自行决定动态加载哪些文档。 那同样的 cloud code, 同样的 ai 大 模型,因为有了这一堆文档的加持呢,你手里的这一套比别人多了很多技能,他更擅长做出好看的网站 ui, 更擅长做 svg 动画,更擅长做 ppt, 更擅长写日报,完美 nice! 刚刚这套技术啊,有一个闪亮的名字,它就是 agent skills。 这一个个文档呢,就是一个个的 skill, 也就是一个个的技能。简单理解的话,这些个 skill 呢,就是一个个的技能手册, cloud code 和 ai 根据这些手册呢,就能完成特定的工作。 为了规范管理呢, cloud code 通过文件夹的形式来管理这些 scale, 并且把每个 scale 的 主文件都统一命名为 scale 点 md, 回到我们这个网站 ui 设计的 scale, 随着你不断的迭代啊,这个 markdown 文件也变得越来越长, 因为好看的 ui 样式啊,实在太多了,各种各样的风格呢,层出不穷,你很难用一个单一的 markdown 文档来全部写完。而且,就算你能全部写在里面,但实际上呢, ai 只能用到其中的一部分, 其他大部分用不上的内容呢,又白白浪费了上下文的 talk 了。于是啊,你打算把每一种风格单独拎出来写一个文件,然后在原来这个主文件里面呢,做一个汇总,里面写上,如果要做简约风网站呢,就读取简约风点, md。 如果要做科技风网站呢,就读取科技风点 md, 如果要做小清新风格的网站呢,就读取小清新点 md。 这样一来啊,当你用 cloud code 做一个科技风的网站的时候呢, ai 发现要先读取网站 ui 设计这个 skill, 在 读取这个主 markdown 文档之后呢,再根据需要进一步读取科技风调 md, 这个文档。这样按需渐进式的加载啊,极大节省了 talkin, 让 ai 只在有必要的时候呢,才读取相应的内容。 再后来啊,你发现需要对网站的 ui 做更精细化的控制,比如按钮、段落图标、配色图标等等。用这样的单个文档方式呢,还是不太好维护。你决定啊,技术升级,把这些细力度的 ui 内容啊,全部用数据表来进行管理。那为了简单起见呢,你选择了用 csv 表格文件来进行管理。 然后,你希望 ai 在 开发网站的时候呢,按照下面这一套工作流来确定最终选择的样式。为了让 ai 知道如何搜索啊,上面的每一步呢,你都写了详细的文字说明,你还专门编写了一个 python 脚本,并告诉 ai 如何执行这个脚本,来从这一堆 csv 文件里面进行搜索。 现在 ai 大 模型在 colorado 的 配合下,在拿到你这个 scale 的 md 文档之后啊,就按照你写的流程,一步步执行里面的操作,执行拍成脚本,完成解锁,最后拿到完整的 ui 设计信息,开始为你开发网站。 事情发展到这里啊,这份 scale 不 仅是提供简单的文字信息供 ai 参考,还能指定工作流,还能提供程序让 colorado 来执行完成更加复杂的工作了。 上面介绍的这个 scale 呢,不是我虚构的,而是一个真实存在的 scale。 它在 github 上面啊,已经收获了超过十四 k 的 star 了。通过这个 scale 呢,我们可以让 colossal 的 这样的编程智能体啊,开发出 ui 更美观的产品。而这个 scale 背后的原理呢,正如我们前面介绍的那样。 最后,让我们来梳理一下整个的过程。首先,每一个 scale 呢,都需要一个 markdown 文件,并且在文件的最开始呢,有名字和描述两个字段,这属于这个 scale 的 原数据, metat 对 它 cloud code 在 启动的时候呢,加载这些原数据,并将它们包含在系统提示词中。 因为这两个字段呢,本身内容比较短,所以呢一般不会占据太多的托根。第二,每个 markdown 文件除了前面的原数据之后的中文内容呢,叫做指令,它本质上呢就是一段提示词,用来指导 code code 如何做特定的事情。 只有当 ai 需要使用这个 skill 的 时候呢,才会加载它,官方称之为触发时加载。第三,资源和代码 skill 相关的其他文件和代码脚本呢?只有当 ai 在 使用 skill 的 过程中需要用到的时候呢,才会动态加载,官方称之为按需加载。 以上啊,就是 astonrapik 推出的 agent scares 技术了,扒掉这些晦涩的名词概念呢,它其实就是一项提示词工程技术的应用,和之前的 m c p 技术呢,也有很多类似之处。如果你还不知道 m c p 是 什么,欢迎观看我的这期视频。 agent skills 也好, m c p 也好,那本质上都是属于提示词的工程,只不过是符合特定规范,相对复杂的提示词。而为了规范管理和各种工程设计考虑啊,引入了一堆技术名词而已。那现在你知道什么是 agent skill 了吗?你还知道有哪些不错的 skill, 也欢迎在评论区分享。 好啦,以上呢,就是这期视频的全部内容啦,如果觉得有帮助,别忘了点赞、收藏转发哦!我是轩辕,我们下期再见!

二零二六年,每一个用 ai 的 人都应该学会 agent 加 skill 来给自己提升效率。 agent, 我 使用免费开源的 open code, 在 官网下载桌面客户端就可以使用。这个中文站点有完善的文档和最佳实践供我们参考。 skill, 我 们从可能是全球最大的技能市场 skill mp 中获取。搜索 frontend design, 下载到电脑备用。建好项目文件夹, 放入 skill 和我们要创作的内容,用 open code 打开,输入这段提示词来驱动,静候片刻,这个制作精美的内容展示网页就完成了。 你可以用来部署站点或者是分享到社交网络。这就是 agent 加 skill 最基本的用法,轻量好感,易分发,零代码。这就是获得十倍生产力的秘籍。关注我,带你玩转 agent 加 skill!

雷后啊,兄弟们,今天只讲一个内容,极猛 a 者模式到底该如何正确使用,想看成品案例的可以先滑到最后面啊去看啊,然后我前面主要是讲一些正确的一些操作,就是我建议大家都学一下,非常有用。 然后先声明,本期视频所有的资料都会直接打包放在粉丝群里面,免费的,有需要的自己去拿就行了。然后就是说明一下,他这几个东西是我个人觉得比较实用的啊,其实他什么东西 应该是说都能做,但是我把它最实用的几个点给大家练一下。第一个怎么去用自己的产品去匹配别人的一个效果,他不是是简单的重提,以图一为基础,对吧?然后就换他的产品,他不是这样的,而是重新去设计一份类似同行的,然后匹配自己产品的一个场景效果, 就是说别人的是什么样的吧,我们也想要达到别人的效果,但是我们又想跟他不一样,他是这么一个东西。第二个是一个修图的一个东西,就是无论你是要产品精修,无论是什么产品,大部分产品吧,塑料啊,或者是说呃,铁的,生锈类的,对吧?你想去给他还原恢复 大部分都可以做。第三个就是一个什么批量生图的一个东西了,然后他怎么去批量生图呢?就是我们把产品图放出去之后,对吧?然后加一段提示词,他就会立马得出这个结果给我们就把他的结果拿来,拿来之后重新丢给他,他就能把五张图全部生成出来。 第四个是什么呢?第四个是一个产品视频的了,然后我们一起来看一下,然后来到我们的极梦官网,然后我们选择一下 a 阵模式,他不是我们平常看到的这个兄弟们千万要记住,他不是我们平常看到的这个东西啊,他虽然也叫 a 阵,但是他的这个强度跟另外一个地方的一个强度他是完全是有区别的。我们来到这里无铅画布, 点击它进来之后往下滑,在这里直接新建一个项目,点击新建完项目之后,我们直接去上传我们需要去改动的一些产品图的一些效果,然后我这里就可以直接跳过了,因因为我这边有上传过了,大概是这样的一个效果, 我们只需要去点击这里添加到对话,这是我们的产品图,我们现在要做的一个任务是什么?把这个模仿图二的一个效果就给他做出来,那我们就添加到对话,这个也给他添加到对话,然后这里记住这里把这个灵感操作全直接给他关闭啊,这两个东西都不能打开的。然后我们选择一个极光四点五的一个模型, 选择完之后我们来到这边复制我的题的值,复制第一行吗?对吧?复制这一行,然后发送给他, 他就会跳到这边,然后切记啊,在这里是在深层结束之后,呃,把那个提车直接加上这么一句话,这句话的作用是什么呢?就是能固定我们的产品外观不变的,然后我们先直接等待他一下, 你看他会基于刚刚开始的一个分析,然后我们可以得到一些什么样的一个关心支持,对吧?然后他这个是他得到的一个结果,大家一起看一下温暖的什么,是的,对吧?传统什么什么什么, 你可以根据具体的需求去调整,这些权重细节都可以去调整。那我们现在不调整啊,我直接去给他复制使用啊,复制复制他,然后把这张图片也还是添加到新对话框,然后复制完之后,记住啊,这句话一定得给他添加 ctrl c、 ctrl v, 他 最后是大概这么一个效果, 大概是这么一个效果,然后我们直接点发送,他现在就在呃,思考了, 然后我们现在能看到这张图片,他是寄予我们新的产品,新的产品图接上同行的一个大概效果,排版,无论是排版,对吧?大概的类似效果他就去全部去重新给他设计一遍,就是他不是简单的是说啊,把图一的产品放到图,他不是这样的,如果是这样的话,那就没有必要讲了,他他是这这么样的一个意思, 就是重新寄予我们新创的新上传的一张产品图,就给他一个设计,所以他也是,所以他这个东西也叫做一个纹身图, 所以就是说我们现在已经能看到一个东西,就是什么呢?这是我们的产品图加上同行的一个类似风格,对吧?然后去基于我们自己的一些什么配色,然后他去重新去一个调整大概得到的一个效果, 然后这些效果的话是其实是完全可以基于我们自己去把控的,因为他不是直接去深图,而是有给了我们一段提示词之后,我们可以基于他这张提示词去给他修改,都可以。 然后我们接着来下一个啊,我把我的头像给他关掉吧,不然太影响太影响体验了。然后我们点击这一张图片,来到我们第二个点击添加到对话,添加完之后,我们这里还是选择我们的 a 轴模式,然后回到我们的问题这一边,给他复制一下这个问题,复制完之后丢给他, 把问题丢给他之后,他等一下会把他的结果得到给我们吗?那我们等一下用他的结果继续去给他刷图,但是这一点呢,就是他是精修的,那我们得确保他的产品外观真的能保持不变,那我们这里得去点他一下 换成这个图片生成,换成之后还是选择这个四点五模型,然后把这张图片先给他添加过来,添加过来之后复制他这里的提示词, 复制,然后粘贴,然后点击这张图片,点击完之后这里给他拉满,这是一张百分百的,就是如果你是点五十或者以下,对吧?那他可能这张图片就会发生一些问题的一些变化,那么保存, 保存完之后还是把他这句话给他复制一下啊,就是尽可能给他一致吧,其实你不要一致的话,应该也是没什么问题,然后我们给他点发送,等他得出来, 然后我们现在就能看到他得出来一个结果,反正就是其实你无论是怎么去操作的吧,他肯定是会有一些区别的,但是我们就拿我们想要的结果呢,就可以 把这张图他的效果怎么样,对吧?然后我们把他拿我们相对应的一个结果,他四张图肯定是有几张是有问题的,但是百分之八十以上的概率有一张是没有问题的,我们就直接去使用, 大概就是这个意思,他是无论你是什么样的一个产品,呃,三 c 或者是什么三 c, 或者是化妆品啊,或者是一些塑料类的一些产品,他都可以去操作。然后我们直接跳到下一个问题, 然后现在来到我们的第三个,对吧?第三个的是一个应该是非常就很多很多人都需要的一个东西了,就是说啊,我该如何去给他写题?事实让他申妥,对吧?这一块其实吉梦 a 症他自己也能解决,但是他现在就是不一样了,不是在我们刚刚这个窗口里面,而是在这边 他是另外一个地方呢,不不不同的一个地方,但是他就是能解决,看我操作。然后我们只需要去找一张产品图,将这张提字词整一个给他复制一下,先复制完之后我们先给他填充,然后我们来这边随便拿一双鞋子为例吧,我就先随便选一张,然后我给他保存这张吧, 保存下来,对吧?然后我们直接去点击这个上传,上去上传等待他一下, 大家选完,上面是他的分析,下面是他的结果,但是我们现在有一个离谱的一个点,就是这里, 但是寄予一生你是一个什么什么什么样什么样什么样,对吧?他这个东西我也不知道他为什么能这么操作,但是基,哎,不是,就是之前来说我们是基本上只能去豆包啊这些东西这些地方去给他解决的吧,但是我不知道他为什么能能这么操作,但是如果他是可以,那我们就直接拿来用就行了,就不要管他那么多, 然后有需要的话我们就自己去再去修改嘛。他现在来说就是说他得出了所有的题的词了,那我们就给他复制一下主图一,对吧?全部给他复制一下啊,不用管他对不对?我们主要是图他的一个方便,然后点击发送,然后我们就直接把我们刚的产品都给它丢进去嘛,丢完之后直接让他去生成就行了,不用管他那么多, 点击发送,等待他一下, 然后我们现在就能看到了啊,这个是我提交的图片,对吧?其实我们也不用管他,我们提交的是什么样的图片,对吧?然后我们直接点击去看一下他啊,看一下到底完成的一次性到底怎么样。就是 反正现在这些东西就是很神奇,我自己也不知道为什么现在能发展到这一步。你看无论是什么,他现在这些东西真的是很神奇,都能自己去给他解决一下,都可以自己看一下啊,这是他的大概的一个效果,如果你想要更好的效果,那你就基于他的提示词去给他修改,知道吧?就是 他提示词写给你又不可能说百分百,呃,百分百保证你,你是想要这一个效果,那你就去基于他的提示去修改,无论是他的标题还是什么的,自己去修改就可以了。 第三块就是大概是这一个这样一个意思,无论你是什么产品,你可以让他去分析,分析完之后得出一些提示结果给你,你再拿他的东西去丢给他,就非常非常方便的一些操作。 然后现在又来到我们第四个,这是成品生成视频了,对吧?我们他现在虽然说这个东西消耗积分有点多啊,但是其实效果还可以啊,我给他复制一下,全部复制, 然后来到我们刚刚这里,点击添加到对话,然后把我们提示者给他输入进去,输入过去,反正全流程都是一个输入输出的一个文。呃,过程就是说我们把问题给他,然后他把结果给我们,我们再把结果还给他,大概就是这么一个过程,然后我们现在等待他一下,等他的结果, 这里现在是试它的一个结果了,那我们就直接复制。呃,点击这里啊,直接 ctrl a, ctrl c, 然后复制一下,复制完之后把这个产品图给它添加, 添加到对话框,然后选择模式的话换成这个视频生成。呃,我们直接选这里吧,点三点五 polo, 然后把这个东西添加到对话框。 呃,首尾针我就不去弄了,我先直接弄个手针吧,然后给大家去看一下,手尾针的话,就这里的话就是你最后的一个落脚点吗?你你要去处理也可以啊,都可以的。然后我把这张提示给他复制过去,然后这里选择十二秒点击发送,等待他一下, 等下他结束之后,我们打开看一下他的效果,点击播放, 就是大概是这么一个意思啊,但是里面有一个什么问题呢?就是首尾针的一个问题,你们自己去操作的时候一定要切记首尾针得去填好, 然后呢就是到了这里之后,对吧?大家也能发现,我每一次就是把我的问题丢给他,就是我想要的东西,对吧?我去问他,我问他我该怎么去做,然后他就能把我们想要的反馈给我们,然后他这个反馈的这个过程呢?就是说,呃, 他是基于他自己,他本来我们也是想让他去做图,我们本来也是想让他去做视频,那就只我们如果去调用了其他的 ar, 如果说你说一百七或者是豆包,对吧?那你去调用他们的话,他们输出的格式完全就是不是他想要的,我们得理清楚一个点,就是 我们是跟谁在沟通,那我们跟谁在沟通的话,我们能基于去别人的。如果说我去把豆包的一些提示词或者是第一些提示词放到放到放到放到这边来去丢给他,那根本就不可能是说一次性就能成功, 而是什么呢?如果你想成功,你就是你得完全意识到我们是在跟谁去都沟通,这个问题一定要想清楚,无论如何就是我们得想清楚这个问题, 我们在跟谁沟通,那我们跟他沟通的话,我们是不是要基于说一些他能听得懂的一些东西去跟他沟通,他来才能反馈出一些我们想要的结果, 那就证明了什么呢?我把问题给他,他把结果给我,那他这个结果给我的时候,他是肯定他自己能听得懂,那我们就拿他这个结果去给他,这是完全没有问题的。 然后后面的话就是说我准备呃,更新几期视频,就是说搭建工作流的,就是主图指出或者是说详情页指出这一块,我后面会往这方面去考虑,然后去录制一些视频,就是大家有什么问题想问的,对吧?或者说我们看了这些视频之后, 你们有什么还不懂的,你们可以直接反馈给我。大概就是这个这么一个意思吗?就是说我需要得到你们的反馈,我才有动力继续做下去。如果没有反馈,那我我可能就自嗨吗?这些东西做的是自嗨吗?对吧?大概就是这个意思。好了,兄弟们,我是阿涛弟,拜拜。

继上篇介绍后,很多小伙伴问这款 cloud code 开源平替 open code 到底怎么用?它不仅能全自动编程,更是拥有读写文件、执行命令权限的超级 agents。 今天直接上实操干货,手把手教你配置下载与安装。官网下载下来后,你会看到三个执行文件壁垒提醒, 目前的 g u i 桌面版我试用后发现有些 bug, 比如无法更改,模型提供商不够稳定,强烈推荐直接使用 c l i 版本,稳定高效,这才是程序员喜欢的。 界面与模型切换,打开后是超酷的终端 ui 界面,按滑动鼠标滚轮可以看到所有选项,点击 connect 可以 选择模型提供商,支持各大主流厂商,如果你有 keep, 直接粘贴即可起飞。重点解析, open code then 到底值不值?这是官方的托管服务, 亮点与槽点并存。首先是亮点,零差价,按模型原价扣费,不赚中间商差价。极速响应,针对 a 级模式优化了上下文速度,免费羊毛自带一些免费模型,零门槛直接用。 但是使用付费模型需预充二十到是预付余额,不是订阅费。支付痛点,国内卡支付可能存在风控风险。试用体验报告,我实测了免费的 grootcodefast 模型速度,写代码确实快到飞起,真的是极速响应,不愧是专门为 a 证模式专门优化过的模型池。但是 让他写个前端,直接给了我 react 的 默认页面,建议复杂任务还是上 cloud 或者 gpt。 后端倒是写了,但是使用了非常简单的实现方式,有些情况没有考虑到。看来 open code zen 里面的免费模型并不能满足日常使用,国内用户怎么玩儿?就没有国外卡, 担心 zen 充值麻烦?别慌,除了 zen, 它支持配置国内大模型或自定义 a p i, 如 deepsea, 阿里同意等,完全适应国内网络环境,想折腾本地模型的也能玩儿。 当然,你如果有顶尖模型的 api key, 可以 直接使用。总结,想白嫖先试免费模型,追求极致体验,建议自备 key 或寻找国内聚合渠道。

大家好,我是 kitty。 mini max agent 升级了,包含两个核心功能,一是桌面端应用,你把一个本地文件夹交给他,他就能围绕这个工作空间做文件整理、数据分析、自动化网页等操作。相比 cowalk 只能 mac 电脑使用, minimax 的 桌面端也支持 windows 电脑使用。二是专家 agent 在 网页端使用,你像选专家同事一样选 agent 或者自定义 agent, 也能看到它的工作流提示词会调用哪些子 agent, 便于复合。 目前官方也开启了限时免费体验,先给大家快速看一下 minimax agent 能帮我做什么。 第一个是电影标人格式化页面, agent 帮我挑选了合适的字体海报呢,也是他自己搜索下载的最重深层的应用,非常美观。第二个是 small 模型训练手册解读 hackinface, 他 分享的这份训练手册非常好, 但 pdf 有 二百一十四页,内容量很大,我让 a 经理帮我做了可适化整个页面,包括 pdf 阅读、音频理解、思维导图,手册的中文解读,页面设计也很精致。 第三个是 ai 官鸟挑战落地页,这项目是 agent 帮我写 prd 在 生成网页,网页里的视频和图片都是 agent 生成的,无论是 prd 文档还是最终的页面,效果质量都很高。 接下来详细看一下怎么用升级版 agent。 打开 minimax agent 官网可以看到 agent 呢,新增了 custom 模式,支持按需选择或者自定义子 agent, 包括代码执行、图片生成、音频生成、视频生成、网站部署等能力。左边栏还新增了 explore experts 入口,点进去呢,可以看到多个官方预设的专家 agent, 每个专家 agent 都能看到它的提示词 以及调用了哪些子 agent, 我 选择了 icon 制作器,让他帮我做一个视频封面。生成网站的图标 agent 先让我选择网站的主要功能 和喜欢的风格方向,选定之后呢,它调用 icon generator agent 生成了两个图标,我觉得不够简洁,让它换成极简风格。第二个极简风格图标我很满意,接着让它帮我生成适配安卓应用的完整图标集, 并打包下载。打包好的文件,我用 office 四点五复合了一下,没有问题。之后,我让 mini max 搜索 cloud code 二点零零版本之后的所有更新,要求分门别类, 对重要的功能做详细的解读,最终生成了美观的 html 页面。可以看到, mini max 搜索了多个网页,提取相关内容并编码, 并且很快完成了部署。我检查后发现一个问题, c c 已经更新到二点一点一二了,但它生成的页面呢,只显示到二点一点零的功能,我告诉它要补上二点一点零之后的更新内容。修正后,它生成了最终的页面。 目前 mini max 模型和 c c 适配非常好,但 c c 更新太快,官方更新呢,重点又不够突出。 用 mini max 生成这样的格式化页面,众人很直观的了解每次更新的要点, agent 生成的导航呢,也很清晰,想了解哪个功能就点哪里。 再来看一下电影标人格式化页面。我的提示词很简单,搜索电影标人的相关情况,官方信息和网友评价, 整理成一个追片指南。格式化页面,用 html 实现页面风格参考电影标人的海报。 agent 呢,先搜索多张海报,然后基于海报的设计风格来创建页面, 最终采用了深色背景,金黄色调和水墨武侠风格,跟电影海报的气质很搭。不让 agent 生成 small 模型训练解读页面的时候,他先问我目标受众的学习水平,我选择了中等。由于手册有两百多页 agent, 他 分了多次阅读。处理过程中,他调用了内容分析,指 agent 来分析内容,格式化生成 agent 来生成思维导图, 还用音频生成 agent 来生成音频解读。 agent 最初生成的页面是紫色的,我觉得不太理想,就让他重新设计一个明亮的、独特且有个性的配色方案。 最终生成的页面呢,很满意。 expert agents 里面有一个热点追踪 agent 非常好用,我让他追踪坐高铁可以不用自己扛行李了。这个热点 要求输出大众能看懂的相声演绎版长文。他先调用输入分析 agent 来分析需求,然后调用 researcher 来进行搜索,找到了三十多个有效信源。 星云的质量呢,是以权威媒体为主,真诚的完整报告,包含十大部分,还划出了最具传播力的内容和建议文章角度。 接着 agent 挖掘爆点话题,并行对四个话题进行深入搜索,之后调用 article writer 来写作。 写作之前呢,他还分析了文风要求,要相声结构要求和配图要求,生成的初稿内容就已经很不错了。 接下来是我最喜欢的一部 a 正呢,开始对文章进行严格的事实和查,发现了几个错误,并且进行了修改。最终生成的文章质量很高,风格诙谐幽默。 您瞧瞧,这是靠谱。读这篇文章就感觉在看相声表演非常不错。 expert agents 里面有一个 p i d 助手,我让他帮我生成一个三十天 ai 观鸟挑战的落地页。 p i d agent 生成了完整的页面结构与文案,包括主视觉区、 价值主张区、三步流程等,还给出了主件与版式建议,以及需要准备的素材类型。接下来,我把这份 prd 放到落地页制作助手里, agent 帮我生成了视频和多个图片素材,很快就生成了一个图标并茂的落地页。现在来看一下如何在 minimax 桌面端使用类似 cloud cowalk 的 功能。首先,从 minimax agent 官网 下载桌面端应用,安装后选择目标工作文件夹。我先让 agent 帮我整理文件夹,要求分门别类,遵循最佳实践。 很快呢,他就诊断出目标文件夹存在多个问题,文件混杂、项目不独立、缺乏逻辑分组等。接着他给出了建议的整理方案,我看了觉得不错, 同意执行,很快就收获了一个整理好的文件夹。接着我让他处理电脑里的零售店销售数据表格,进行可量化分析。 agent 呢?生成的报告呢,非常全面,包括数据概览、描述性统计、相关性分析、分布分析、异常值检测, 还有业务洞察,图文并茂,我个人很满意。另外值得一提的是, minimax agent 和 cloud comwork 一 样,生成的中间文件非常多,每一个都可以点击进行查看, 非常方便附和它生成的脚本也可以直接附用,后续处理类似数据就很省事了。 minimax 桌面端有一个很突出的工具叫浏览器专家。 我让桌面端 agent 登录 minimax agent 的 官网,输入五个不同的提示词,生成五个体数艺术页面, 可以看到 agent 正在打开目标网页,查看页面加载状态和界面布局,还能理解图片内容,然后点击中央输入框,聚焦输入内容并执行。 点击右侧的文件列表,可以看到它在处理过程中产生了非常多的截图,方便回溯每一步操作。最终通过 minmax 生成的体述艺术页面效果非常棒。 稍有遗憾的是,目前浏览器专家的处理速度还有些慢,期待后续优化升级。 highlagent 根据本地的表格搜索并整理二十家 sats 产品的价格对比信息,它不仅生成了详细的价格表,还输出了一份完整的 sats 竞品价格对比分析报告。总的来说,升级后的 minimax agent 给我的体验还是很惊喜的。 网页端专家, agents 覆盖热点追踪、 p、 r d、 落地页制作、图标生成等场景,而且调用列录透明,适合学习和复合。 桌面端 workspace 更接近真实工作流,文件夹整理、数据分析、表格处理都能做,浏览器专家也能把很多重复操作自动化掉。如果你想体验的话,记得二十二号之前是免费的推荐体验。

最近呢,这个 agent skill 讨论非常的多啊,有人说呢,这是 ai 编程真正开始工程化的标志。也有人说呢, skills 其实就是一套复杂一点的提示词的模板。那在我看来的话呢,这个 agent skills 或许是二零二六年最值得我们关注的 ai 使用方式。 那今天呢,我们就不讲概念,也不争谁对谁错啊,我直接用一个一个的案例来让你对 agent skills 有 一个更加详细的了解。 这上面呢,它就是把一类任务的工作方法从一次性 prompt 升级为可附用,可组合,可长期使用的能力模块。 注意啊,我们这边呢,出现了三个英语单词,第一个是 prompt, 第二个是 agent, 第三个是 skills。 那 我再额外给大家补充三个吧,一个是 m c p, 另外是 rules, 还有这个 memory。 这六个单词呢,大家或多或少都听说过啊,有一定的了解。那为了能够更加简单直观的把它们的本质以及使用场景讲清楚的话呢,我这边画了一个表格。首先这个 prompt 啊,它的本质是什么呢?它其实就是一个一次性的输入文本,那它是不可附用的,也不是啊,长期有效的,所以说呢,它就强依赖当前的上下文。 agent 呢,它是一个正在运行的 ai 执行的实力,它不是附用的,也不会长期有效,结束了就消失了。 而 agent skills 呢,它是一个可赋用的工作方法的模块,并且它这边是跨任务跨绘画的。然后 m c p 呢,它其实是一种外部工具和数据访问的协议啊,这边是可以赋用,也是长期有效的,与 agent 的 这个生命周期是啊, 无关的。最后是 rules 啊,它这边呢,是一个局的 ai 行为的约束啊,也是可以赋用和长期有效的,并且是始终生效的。 那最后呢,是这个 memory 啊,就是可以去持续地存储某一类状态,它这边也是可以附用和长期有效的。那这里的话呢,大家可能对这个 agent 不 可附用啊提出质疑啊,那我来解释一下, agent 呢,它本质是一种运行状态啊,就是类似一个正在工作的进程或者是现成。 那任务完成了之后呢,这个 agent 的 生命周期其实也就相应地结束了啊,你不能说我想要去附用上一次那个 agent, 你 只能说我再启动一个新的 agent 实力。 那为什么很多人会感觉这个 agent 呢,好像能够服用呢?这是因为我们的这个 agent 呢,它当中啊有这个 prompt, skill, rules 和 memory 这些配置。所以说呢,真正可以服用的其实是 agent 它自身的这个配置, 而不是 agent 的 本身。那上面这个表格呢,我们其实已经讲到了六者之间的不同的分工啊,那接下来的话呢,我们来看一下它们之间的一个差异吧,这里我也让 chat 的 gpt 帮我会总了一个 表格。首先我们来看这个关注点啊, prom 呢?他是说什么?然后 agent 呢?是谁来做? agent? skills 是 怎么做? 然后 m c p 呢?是我们要用到什么样的一个工具?而 rules 呢?是啊,我们去归约了,什么事情是不能做的?最后这个 memory, 是 啊,有一些长期的这个对话的过程,想要去让你去记住的一些记忆点, 这个大家可以暂停来看一下。 ok, 那 下面的话呢,我们正式进入这个实操环节啊,首先呢就是我们来解决一个大家比较关心的问题,这个 agent skills 到底是从哪里来的啊?是不是每次我们都需要自己去写这个 agent skills 其实是不用的啊,因为现在社区它已经有很多成熟县城 拿来就能用的 skills 啊。第一个就是这个 atroc 它官方的这个 skills 仓库,那这个仓库呢,它非常重要的一点就在于它给出了官方推荐的一些啊 skill 的 写法啊,这个就是行业规范, ok 也提供了一些比较基础的这种 demo 势例。 第二个来源呢,就是这个 awesome cloud skills 这个项目啊,它这里呢是汇集了成百上千个 skills 啊,覆盖的这个场景是非常的多,那它更像是一个 skills 的 目录和生态集合啊。那第三个来源呢,就是这个 skills mp 点 com 这个网站,这个网站它的交互是非常有意思的啊,有点像一个命令行的界面啊, 你可以去按照分类浏览,也可以去啊按照你自己的这个用途和这个喜好去搜索。那这个呢,我就不展开了,回头大家可以去自己慢慢探索一下。呃,目前的话呢,我们主流的这个 a 编程工具其实都是支持 agent skills 的 啊,而且它的这个安装方式其实也都是大同小异的。 这里呢我提前就下载了 athropic skills 那 个开源项目,然后现在的话呢,我们就演示如何安装到 coder 当中去。首先呢我们打开一个项目,然后在这个项目的根部路呢,去创建点儿 coder skills 这样的一个文件层级,接下来的话呢,我们只需要去把一些开源的 skills 的 文件复制过来就可以了。那这里呢,就是复制以后的一个文件层级了。 ok, 现在的话呢,我们来尝试做一下对比啊,比如说同样的提示词,我们让 coder 去做一个 toto list 的 这样的一个小应用, 左边呢是不带 skills 的, 右边是带 skills 啊,那可以看到呢,右边的这个设计,它明显是更加高级,更加美观的。 是因为呢,我们这个提示词当中的前端 ui 设计触发了这条 skill, 而这条 skill 呢,它不是在教 ai 去啊怎么写这个前端的代码,而是呢,它在替 ai 做一个规约啊,就是当你去做前端设计的时候呢,你必须向一个真正的 设计师那样去思考。这里呢,我也让 ai 去分析了一下这条 skill 啊,感兴趣的同学呢,可以来暂停看一下。 ok, 那 到这里的话呢,你其实已经不难发现了,就是其实不是一个效果好不好的问题,而是一个做事方式, 呃,要不要改变的问题啊?就是加了 skills 之后呢, ai 并不是变得比之前更加聪明了,而是呢,他开始知道在这一类任务当中啊,什么样的事情,它的这个优先级是最高的, 哪些判断是不能够随便啊糊弄过去的啊,就是它会减少 ai 的 一个幻觉,更加的去标准化,更加的去符合我们人类的一个定义和预期。 那这也是为什么同样一句提示词,加不加 skills, 你 可以看到它的这个结果完全是不一样的, ok, 所以 说 agent skills 它真正的一个价值不在于它写的有多么的复杂,而是在于它能不能够稳定地去改变 ai 面对一类任务时候的一个行为方式。 ok, 当你开始呃真正的在项目当中去使用 ai, 而不是只去做一些简单 demo 的 时候呢,你就会越来越在意这种稳定性,而不是, 嗯,就是 ai 的 某一次。呃,灵光乍现表现很好啊,就是你会在意它的一个稳定性。那所以说的话呢,下一期我们也会直接带大家去从零到一的写出一条自己的这个 agent skills。 然后呢,我也会讲清楚一个真正可以附用的 skill 应该怎么样去设计,以及什么时候我们该用 skill, 什么时候该把这个东西交给 m c p 来做。感兴趣的同学啊,可以来关注我。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频再见, peace。

呃,哈喽,大家好。呃,最近有小伙伴就是在私信我说能不能出一期关于呃 a p p user 做 呃文字识别相关的应用的教程,那么这边我在今天尝试用千帆这个 a g 的 平台再去做一个呃文字识别通用的识别的一个应用。 那我们登到这个智能云之后,我们在大维信这里,呃,进入大维信平台,嗯,进来之后呢,选择 agent 开发。 呃, agent 开发这边呢?我们,嗯直直接点击 agent 就 行。那在这边,嗯, 选择创建 ajax 嘛,就是这边会给你几个选项,嗯,我们就用最简单的吧,就是自主规划 ajax, 就是 它会自动地去调用相应的,根据用户需求调取你配置相应的呃工具, 然后就可以实现你的应用的功能,然后点进,点进来,点自主规划,自主规划 ajax, 呃,这边呢我们给它起个名字叫做,比如,呃图像识别助手, 助手 ocr 应用, 对吧?嗯,简单描述一下,我们把它复制过来粘贴一下就行。角色指令的话,这个地方,嗯,看它的介绍吧,就是我通过这个角色指指令,嗯, a agent 能够知道它到底是干什么的。 那么这边我们把我之前准备好的一个 agent 的 g 是 角色指令 copy 过来,你也可以带。呃,这边我演示一下吧,它有一个就是 ai 生成的一个功能,比如我这边 copy 一 份工过来, 然后呢我让它去进行一个 ai 优化, 他会自动的补齐一些角色任务,然后工具能力,然后相应的要求限制以及相应的场景, 嗯,这边你再可以再去改,再去优化,这我就不做不做演示了。然后第二部分呢,是一些,嗯,能力拓的,然后这边你可以相应的去配置你的要使用的那些模型,这个模型呢,相当于是呃千万平台他自己部署的一个模型, 你也可以去自己训练自己,训练自己专用的模型,对吧?嗯,去创建模型服务这里,也就是在在这个地方模型服务这边, 这边有一些就是已经预制好的一些大模型服务,我们开通后付费啊,或者是预付费之后就可以直接调用了。在这种推理这边就可以去创建你的相应的推理服务 这边我就不再演示去创建你自己的推理服务了,然后后续有需要的话,我们可以再出一期相关的内教程。这边呢,我都是选的是呃健康平台内置的两个模型,一个是 v 三点二的 思考规划用用 v 三点二的 d c v 三点二总结的话就用 r 一 的就行,然后思考轮数就改成一。呃,同样的你这边也可以去配置嗯,其他模型服务,比如, 嗯,火山,或者是阿里,或者是其他,比如你在 open api 呃那个,对吧? open api 搞了几个模型,或者呃 cloud, 或者别的谷歌的什么模型,也可以在这边配 u r l, 然后配上它们的键权就可以了,然后就可以调。 然后主键的话呢,这边我们就去选嗯, m c p 下面的一个通用文字识别的一个主键,等我下去等它加载一下, 有一个直接在搜吧文文文字识别, ok, 选这个通用文字识别就可以了。然后这边的话我们需要去配音相应的键权,然后这个键权的话,我,呃 就是在系统管理这个地方,这边是有 api k, 你 可以去创建相应的 api k, 然后呢给它自定义相应的权限。比如我这边创建一个,嗯,图像识别, 图像识别专门来做图像识别应用的时候,给他全部的权限,在自定义权限这边呢,我们可以给他配置嗯,不同模块,然后给他全部权限之后呢,我们这里可以看一下他的有哪些权限。 呃,比如模型服务权限,应用开发的权限,还有 ai 开发能力底下就包括我们的图像识别,对吧?图像识别它所有的功能是全都包括的,也就是我给了它所有全部产品的权限。 ok, 点确定 好,他现在是有了所有能所有功能权限,那么我们把它给刷新一下,粘贴一下,复制一下这个 a, 复制一下这个键圈,能把它给 copy 到这里替换掉。 ok, 好, 那么目前的话我们把我们文字识别的功能已经给加进来了。呃,后续的话也可以加一些知识库,比如你想要去做一些呃,更为准确的问答,或者是加一些相应的词库,用来呃, 对应你所需的业务吧。这边也会加一些开场白啊什么的,比如你好, 然后推荐问,比如上传图片什么之类的,背景图片也可以加这里,我就不再去展示了,那么这边我们就调试一下, 上传一张随便上传一张校徽的图,对吧?然后去让哎让这个音频它去识别图片中的文字, 嗯,并对内容进行进行接受,并对文字文字。 那这边的规划思考模型就是 v 三点二的, 它再去相应调用这个模型,然后调用成功之后呢,我们可以看到它调用了之后又识别到一山大学的字样,后面的生成总结模型就是按一的模型来操作的, 然后现在是在就是按我的要求去对文字内容进行介绍的一个输出。 ok, 我 们这个文字识别的 agent 就是 已经做完了,那么我们可以把它进行一个发布。呃,发布的话推荐问,这边我就跳过 咱们描述的话,就 v 一 吧,展示执行过程的话,这边你可以就是如果你想要对用户展示的话,那就可以点确定,然后我这边发布一下, 我为当天发布的是 v 一 版本的,那么我们也可以开一些,比如百度搜索的免费分发,也就是如果你开了这个之后呢,它会给你百度会提供一些相应的呃,免费分发的 流量嘛?但是这个我还不太确定,我这没有用,没有用过,那网页版的我们就可以直接访问了,我在这边就使用。呃,就去同样的吧,再做一个 文字识编内容,识编图 图文字内容,然后我要求它只除出文字。 好,这个思考规划就是,呃, d f c 为三点二在执行了,那它去调用我们的图,用文字识别的 m c p, 对 吧?然后这边它有嗯述说相应的内容, 这个就是我们的 r r e 在 操作,然后识别的结果就出来了。 ok, 我 们的功能就 完成了。后续的话呢,我们可以可以去绑定到呃,微信应用啊,或者公众号啊,小程序客服都可以,然后也可以切入到网站里面,然后这次的教程就到这里。然后后续的话有一些调优啊,或者是数据干预的功能。 嗯,比如调用次数啊,每天调用次数,这个就。嗯,在使用过程中可以逐渐熟悉。 ok。 呃,教程到这里结束,后续有其他的想,然后再介绍的也可以。嗯,私信我或者什么都可以。