几乎所有的 ai 工作流开发都面临着一个核心问题,就是如何权衡我们 ai 的 灵活高效和我们工作流的安全稳定。今天我们将为你介绍基于 dp 平台的 agent skills, 有 了这项技术,将能节省你百分之七十的编排时间,为你生成灵活智能、稳定高效的应用,让大模型真正为你的工作流赋能 好。第一部分,我们会为你介绍我们的 agent 智能体,它到底有哪些演进的过程。第二部分,我们会为你讲解我们现在工作流将化的一个痛点,还有我们的 m c p 协议,它目前呢是有哪些落地的瓶颈? 第三部分,我们会为你讲解 agent skills 怎么把我们的大模型打造成通用智能体,来为你的业务实现智能化的。最后,我们会带你演示如何基于我们的 dp 平台 中的 s k i 插件,然后呢,使用我们的 agent skills 进行工作流的编排,让大模型真正融入到你的工作流中。好,我们先来看一下从我们的对话到我们的 agent 发生了哪些改变。 之前呢,我们的自然语言交互就是我们需要人和 ai 进行一个聊天,无论是我们想让 ai 为我们写故事,写文章,还是为我们进行翻译,其实呢,这些都属于文本创作的范围。那这个时候, 即使我们让 ai 为我们生成一些代码,它也只能通过文本的形式交付给我们,根本就没有办法对代码进行测试。很多时候为我们生成的包含大量错误代码,而且呢极大地影响了我们的效率。 当我们有了工作流之后,我们实际上呢,是把大模型和各种工具代码做了一个整合,现在呢,它确实可以为我们生成一些 word 和 ppt 这样的交付产物。 但是你会发现,在整个工作流中,大模型只是工作流中的一环,而且呢,他根本就不知道其他工具的存在,没有发挥出我们大模型他的智能,他的决策,他的规划性这样一个便捷。 所以说,我们现在要解决的问题就是如何让我们大模型可以在我们工作流中发挥他的智能。 我们先来看一下我们的 m c p, 它到底有什么局限性?之前我们这样一个大模型加 m c p 的 一个形态,为什么是不可以的? 好,我们 m c p 的 全称呢,它叫模型上下文协议。实际上呢,很多人对 m c p 存在误解,认为 m c p 呢是一个被大模型使用的工具,但实际上不是这样, m c p 我 们把它类比成 ai 时代的 usb c 接口,实际上呢,它要做的只是一个协议, 只要我们的大模型通过我们的 mcp 协议连接到我们的 mcp 服务器之后,就可以发现我们 mcp 服务器上提供的各种可以使用的工具或者服务。这样呢,就简化了我们程序员的开发流程,它只需要呢为我们的 mcp 服务器开发工具,大模型就可以直接使用, 但是这样确实能让我们的大模型高效的使用工具,但是它没有缺点吗?显然不是的, 可以看到。首先呢,如果你想要开发我们的 m c p 工具,你就需要呢对我们的 m c p 协议和标准规范进行学习,它有一定的学习成本要求, 而且在实现协议的过程中,我们就需要进行对照着我们协议和接口的规范进行开发,至少呢你应该有开发的功底。 而且最重要的是我们通过 m c p 协议本质上还是通过网络进行使用工具,它很容易受到我们的网络和外部环境的影响,而且呢我们还需要对这个服务器上的服务进行维护,和我们对协议的一些兼容性和我们模型的兼容性进行一个维护。 它的系统复杂度呢是相对来说是有一些的,但是呢它可以为我们提供即插即用的这样一个 工具,比如说我们的 m c p service, 它上面呢它只要添加了这个工具,我们现在立刻就可以进行使用,对吧?然后呢我们来看一下我们的 agent skill, 它到底是如何解决现在的这个痛点的?它到底包含哪些内容呢? 首先我们可以看到 agent skills, 它包含三个部分,第一个部分呢就是原数据,这里呢原数据它有一个非常好的优点,就是它只包含名称和描述, 比如说现在有这样一个工具,它的名字呢叫 pdf 生成器,然后它的描述呢就是通过文本生成 pdf。 好, 那有了这样一个工具之后呢,就可以在大模型启动的时候,我们就给它加载,这样呢大模型就立刻知道自己有哪些技能可用,而且能看到技能的描述。 最重要的是整个的这个技能,也就是我们的 skill, 它只需要一百个 token 左右的占用,可以让我们大模型呢节省我们的 token 预算,最终呢为我们达到一个经济上的一个性价比。 可以看到现在呢,我们就可以进行我们的 ai 对 话了,比如说我现在呢跟大模型说,我需要使用到这个工具,请帮我生成一篇这样一个 pdf, 对 吧?接下来当我们接收到指令的时候,大模型确定要使用这个 scale 之后呢,就会触发到我们的指令,整个指令呢,它是包含指导和一些具体的命令的。 怎么理解呢?他像一个记事本,他呢会告诉你,你如果想完成这个任务,你需要一步一步按照我这个记事本上给你提供的一个任务,你需要逐次去完成。 那这样呢,就保持了我们这个 ai 他的一个完成任务的准确性,让 ai 呢必须按照每一步流程进行执行。这里呢会为我们的 ai 介绍如何去做每一步的操作, 整个呢头肯占用,这个时候呢可以按需读取需要哪个技能才读取他的指令好看一下。第三部分就是我们的资源和代码, 资源和代码呢,他实际上就是当我们阅读这个指令之后发现呢,有一些部分是需要使用我们的代码工具进行完成的,这个时候呢就来到了我们的资源和代码部分 代码中呢,它都是在一个沙盒里进行执行的,实际上呢,就是我们在计算机中单独呢开辟出这样一块虚拟的环境啊,让它呢来执行我们的这个 python 代码。 大模型只需要提供你需要执行哪个 python 代码,然后传入的参数是什么。当我们执行完成之后呢,会把结果返回给大模型, 得益于这样一个巨大的优势,你会发现呢,我们代码文件根本不需要给我们大模型看,就可以极大地节省我们的 token 成本,让大模型呢只需要通过阅读极少的内容,就可以为我们生成准确稳定的结果。好,接下来我们来看一下 agent skills, 它到底有哪些优势? 可以看到左侧的图片呢,就是刚刚我们描述的整个流程,整个呢我们先看一下头部,也就是刚刚我们说的原数据部分,这里呢就描述着这个工具,它的名字呢叫 pdf 对 吧?然后呢,它的工具描述就可以呢用来处理我们的 pdf 和文本,对吧? 那如果说我们现在呢大模型确认需要使用这个工具了啊,确认需需要使用我们这个 skill 了,现在呢,它就可以去阅读我们的指令,我们整个指令文件呢,它也是分为这几部分,大模型呢会先看这样一个预览的部分,然后呢 根据业务决定呢要去详细阅读哪一份指令,这样呢就可以给我们带来非常大的优势,我们看一下到底有哪些优势。 首先呢,我们来编辑这个 skill 的 时候,我们就不需要非常专业的一个代码能力,它的开发效率非常高,我们只需要呢给它写一些简单的 python 脚本,让它去做一些指令和代码的交互,就足以满足我们的业务逻辑了。 而且呢编辑它就像编辑一个记事本一样,很容易就可以理解,根本不需要去理解我们的底层协议。 最重要的是它呢是完全本地的执行,一方面呢隐私性上是比较优先的,而且呢没有网络延迟,可以极大地简化我们在企业内部部署的一个负担。 最后呢它维护升级非常的简单,我们只需要从文件夹中删除我们现在的 skill, 再将新的 skill 添加进去就可以了。 然后呢,比如说我们用它构建自动化文档的处理的工具,包括我们的代码质量审查工具等等,我们只需要将我们工程师他的一个代码审查的习惯编写成这样一份 skill 交给我们的大模型,它就能呢符生成符合我们团队代码规范的最终的一个审查的结果, 极大的提升了我们的工作效率。好,接下来我们来看一下如何使用我们的 dp 平台进行我们的 skills 的 使用。好, 我们现在首先呢需要安装一个插件,这是我们的这个 dp 平台,它里面的一个插件由这位作者呢进行开发。然后呢有了这个 skill agent 这样一个插件之后,我们就允许在我们的 dp 平台中进行我们的 agent skills 的 使用了。现在我们将通过浏览器为大家演示。 首先呢我们会带家大家看一下如何去获取我们的 skill, 这里呢我们可以看到我们输入呢 skill mp 点 com 这样一个网站 就可以呢进入到我们这个 skill 商城。现在呢我们就可以根据分类选择我们需要的内容。然后呢通过我们的 star 数排行,可以挑选最好的最好用的部分进行下载。 好,我们点击一下呢就可以进入到我们的预览菜单中,在预览菜单中呢,我们就可以阅读整个 skill, 它到底有哪些功能?我们看一下右侧啊, 右侧呢它就有一个下载的按钮,我们只需要点击呢就可以下载我们的 skill。 下载完成之后呢,我们可以来看一下我们现在的 agent skills 的 低品平台。这里呢 我们首先需要配置一下我们的大模型,我们只需要点击右上角的这样一个头像,这里呢有一个设置,我们就可以进入到我们的设置菜单, 在设置菜单中呢,我们可以在模型和供应商这边安装我们相关供应商的一个插件,安装完成之后我们就可以在这里配置我们的 api 密钥。然后呢输入我们的 endpoint 地址,一般呢是我们模型的平台就会为我们提供,比如说我们现在使用的 deepsafe, 它的 api 端点地址就是我们下面视力中的这个地址。好,而且呢它有教程,我们可以通过简单的点击就可以直接前往。接下来配置完成模型之后,我们回到我们的工作流中,可以看到这个工作流呢总共包含了两个核心部分,第一部分呢就是我们的技能管理, 技能管理呢就是我们的核心的目标,可以给我们提供一个查看技能,新增技能,删除技能和下载技能这几个功能。 然后它和我们的 skill agent 是 一体的,它们呢就是都来自于我们的 agent skills 的 插件。刚刚我们讲述到了这里呢,就是用来让我们大模型进行使用的场景了。这里呢我们首先要配置一下我们大模型,这里呢我使用的是 deepsea resourcener 啊,是一个思考模型, 然后呢我们现在就需要进行一些简单的设置,比如说这里的执行轮数,就是让大模型可以通过多少轮思考来完成我们的任务。 第二个呢记忆窗口,就是说大模型可以保存用户和大模型多少轮的对话,这里呢我们都建议设置到十以上。 然后现在呢我们就需要来搞定我们的技能管理,这里呢我们使用了一个条件分支,实际上就是我判断一下,如果用户呢再说新增技能,删除技能,查看技能或者是下载技能这些管理技能的部分呢,我们就让他来到我们的技能管理模块, 如果说用户直接说了一些问题,然后呢我们就让他来到我们的 skill agent 界面,让让我们的大模型呢对他的问题进行一个回复。好,我们现在呢来点击一下运行,看一下我们的效果。首先呢我会通过我们刚刚说的查看技能 来看一下我们有哪些技能可以发现啊,我们的整个工作流运行正常,对吧?我们现在技能管理模块为我们回复,现在有个技能叫 post to wechat, 实际上呢是我们下载的一个公众号生成的一个 skill, 对 吧?现在我们可以通过删除技能,我们来测试一下。 好,我们输入这个技能的它的一个序号。好,可以看到呢,我们现在就可以删除这个技能,现在我们技能列表就没有技能了,我们可以使用新增技能这个命令。 接下来呢我们就需要上传我们的技能,点一下,这,这边我们可以选择从本地上传,这里呢我提前为大家准备好了,就是我们的 postway chat 这样一个技能,我们点击打开, 接下来呢,我们直接点击我们的执行,你会发现呢,现在我们就已经把我们的技能安装到我们的这个插件中了。接下来我们可以直接和我们大模型进行对话,比如说现在我要求大模型,请你为我生成一个 公众号文章,对吧?公众号的文章, 然后呢,关于什么?关于新年祝福, 好,我们摁一下回车,现在呢,我们大模型就可以进入到我们这个 skill agent。 然后现在我们大模型呢正在使用我们的 skills 为我们生成内容。 这里呢可以看到大模型正在查看技能说明书和技能说明书中的文件结构,我们现在稍作暂停,等我们的结果生成完成再大带大家仔细看一下。 好的,我们现在呢可以看到大户型呢,已经帮助我们生成了一篇公众号的文章,可以看到在整个过程中,他查看到了我们的技能说明书。然后呢,通过按照说明书写入我们的 new year blessing 这样一个文件,最后呢把我们的文件标记成为交付文件。 实际上呢,现在我们就可以点击直接下载这个 markdown 格式的文件,我们来看一下效果,可以看到在整个部分中,它按照我们的 skills 为我们编写了这样一篇新年祝福的文章, 它整个流程中是使用了符合我们 wechat 标准的一个排版,而且呢效果是比较不错的。好,我们现在呢回到我们的 ppt 来做一下最终的总结。 可以看到现在呢,有了我们 agent skills, 我 们在整个工作流上发生了一些巨大的变化。我们现在呢,不再需要依赖海量的节点进行一个拼工具了,而是我们现在可以把 agent skills 引入进去,让我们的智能体充分发挥它的智能, 而且有 skill 的 它的一个稳定和可靠,为我们的大模型生成内容进行一个保障。而且如果说你是一个业务人员,希望把你的技能迁移给我们的大模型的话,现在有了 agent skills, 你 只需要编辑我们的 markdown 格式的文件,就可以把你的技能传授给大模型。 第三个部分,现在呢,我们 agent 它呢,配合我们的 skills 和一些说明书资料,它就能适应几乎所有的业务场景,只需要你给他提供一些你的符合你习惯的一些文档。 最后企业私有化的 agent 部署,再加上我们今天讲到的 agent skills 工作流,它就既可以保护你的数据安全,而且呢,为你增加你的工作效率。好,本节课程就到这。
粉丝1.7万获赞6.1万

兄弟们,一分钟让你生成 ai skills, skill six 开源神器,能把技术文档 get up, 代码 pdf 自动转成 agent skills, 并且自动化检查冲突,使用场景非常多,根据对应的网站识别内容生成可以给 ai 使用的 skills。 接下来我们就实际操作一下,首先它需要拍摄环境才能使用,目前比较推荐的方式 使用 python 三点一版本。首先复制下面的指令,打开终端,复制粘贴安装 skillseekers, 返回,这样的结果就安装成功了,这里官方推荐也是使用 paper 进行安装,如何使用,这里也有详细的教程,感兴趣的可以学习一下。接下来我们就来实际操作。在我们开发中,比如要使用这个 tailwindx, 我 们想给我们 ai 有 它的 skills 就 可以使用这个开源项目。这个开源项目主要就是帮我们自动生成 skills, 我 首先准备好了 tailwindx 一 些获取的配置信息, jen 文件, 准备好这些信息是因为需要它会根据提供的这些信息自动化识别页面内容,然后生成 agent skills, 能让我们后续提高开发效率。然后复制粘贴这个指令,根据我们的 config 文件夹下的配置文件去生成识别 skills, 这样它就会去根据我们给的配置文件去自动获取内容生成, 最后生成完成,左边会多一个文件夹 skill 点 m d 文件是主进的文件, references 文件夹下的都是详细内容文档,这样你就生成了 tailwinds 的 skills, 你 也可以运用在比如识别 pdf 或者其他的技术文档中生成 skills, 感兴趣的赶紧收藏,防止找不到!

梅猴王朋友们, agent skill 最近真的太火了,但很多朋友肯定还是很困惑, skill 到底是啥?有什么牛的?没关系,草旅从 skill 大 全它来了。 今天呢,我们会通过一个逐步升级的案例来理解 skill 的 结构和原理,然后我们还会学会定制自己的 skill 这个 skill 呢,只需要我们说帮我做一个促销海报啊,优惠券,员工服装,它就会生成符合我们品牌风格,带 logo 的 物料图片。 另外,我也会推荐给大家一些好用的必用的 skill, 比如说帮你的文章配图,把杂乱的知识变成教学网页,一句话处理表格等等等等。 我还做了个秋之技能生成器,大家只要回答一下 ai 给的选择题,为你量身定制的技能就轻松完成了。并且今天所有的资料链接以及补充资料我都做成了一个网页,大家只需要一步步的跟着做,跟着看,就一定能搞定, 非常值得一个点赞收藏关注哦!来吧,准备好我们 go go! go! 首先,到底什么是 skill skill 呢?翻译过来就是技能呗, 它其实和人类的技能是类似的,比如说你是一个厨师,那你就有炒菜的技能,处理食材的技能,摆盘的技能等等等等。那每个技能里面,比如说炒菜技能,这里面就包含了你的流程,你要先炒什么,后放什么, 还有你的配方,你的油温多高,盐放多少。有了流程和配方呢,你可能还会需要一些工具,需要煤气灶什么的, 甚至你可能还会有一些独家的材料,有一勺秘制辣椒酱什么的。那 agent 的 技能也是同理,它要来做菜,它也得有流程、配方、工具和材料。 所以在 agent skill 的 术语里面呢,它就是 skill 点 md, references, scripts 和 assets 这些东西打包成一个文件夹,这就是一个技能,一个 skill 了。我们先来个简单的, 比如说我们要做一个写作 skill, 那 我们就在 skill 里面可以要求他先去啊这些网站去搜集信息,然后再按这个爆款原则去写个大纲,然后再参考这个语气来写稿啊,最后按照平台要求来审稿等等等等。那有朋友就很疑惑, 那这不就是写提示词吗?哎,本质上还真是的,毕竟啊,我们跟大模型的交互其实都离不开提示词, 但是呢,这并不是 agent skill 的 全部,它在工程上是有很多优势的,能做的肯定比我们拷贝粘贴提示词要多很多。好处我们后面都会说到,那先让我们通过创建一个 skill 来理解它的结构和原理, 我这里用的是谷歌反重力来做编辑器来看文件,然后呢,用的是 cloud code 来做 agent 来处理任务。这俩东西的下载方式呢,我也都放在资料里了,非常清晰简单,大家一步步跟着做就行了。 接着你只要在反重力的这里创建一个项目,比如说我的就叫丘之 project 吧,然后呢,我们调出终端, 输入 cloud cloud code 就 调用出来了,这个界面大家看着会有点复杂,但是不要怕,跟着我一步步来就可以了,之后我们跟 agent 的 对话都会在这里进行。 ok, 那 我们开始创建, 那我们先要做的是一个最简单版本的 skill, 后面呢,我们会逐步升级的哈, 那现在假设我是一家轻食店的老板,那这是我们秋之餐厅的一个品牌 logo, 那 我希望做一个 skill 呢,能够按照我的品牌调性和视觉规范,帮我们去想各种物料的创意,做一个创意生成器。 那按照 cloud 的 规定,我们创建一个 skill, 得在规定的点儿 cloud skills 文件夹里面去创一个 skill 文件,那我们用最原始的方式,直接手动的来创建这些文件夹哈,点儿 cloud skills, 然后我们再创建一个文件夹,这个文件夹的名字呢,就是我们 skill 的 名字,我们叫它秋之创意吧。那这个 skills 的 文件夹里面呢,必须规定有一个 skill 点 md 的 文件,这个大写的文件,那文件里面放啥呢?我已经写好了, 粘贴进来,那就是这么些文字。好了,这就是一个 skill 了,大家先压住脑子里面的问号,我们再来细看一下,那这个文件里呢,上面这两个横线里面的它叫做元信息 matlab, 写着两个东西啊,一个呢是 skill 的 名字,一个呢是 skill 的 描述,这两个东西专门用来告诉 ai 这个 skill 叫什么名字,是干嘛用的,什么时候可以用它,那我这就写着是做创意物料用的啊,当用户说要做个海报什么的物料,他就自己触发它了。 而下面这些信息呢,叫做指令 instruction, 其实就是具体告诉 ai 怎么样做的一些提示词喽。 ok, 那 我这写了我们的餐厅叫做秋之餐厅,品牌的风格有这么些要求,输出的格式让他是这样等等等等,非常的简单哈,那我们保存好一个 skill, 真的 就创建完了?来,我们启动 cloud code 来问问他,你有哪些 skill? ok, 你 看,他现在就已经识别到了我们的秋之创意 skill 了。 ok, 我 们直接问他,我要做一个秋之餐厅的春节促销海报,让他给个创意 好,他这里就开始提示我们,他正在加载这个 skill 了,我们同意 ok, 他 就输出了创意,并且是按照我们的要求和格式来的。 那有朋友就受不了了,哎呀,这一通操作不还是提示词吗?跟我自己写一段这个提示词存着给 cloud code 看有什么区别呢?最大的区别之一在于它是按需加载的, 什么意思呢?其实啊,当我们正常的这样跟 cloud 去聊天的时候,大模型它只会看到我们这个 skill 里面这两行短短的圆信息。 只有当我们说我们要做一个秋之物料的时候,他才意识到,哦,该看具体的指令了,他才会去加载这下面这部分的完整指令,否则这些他都不会看到。 这样的好处就是方便我们可以同时拥有很多个 skill。 每次 a 正的都会看一遍所有 skill 的 简短的原信息,但是只有当 a 正的意识到他要去具体调用一个技能了,他才会去看下面的一大堆指令,而且 ai 的 回答也会更精准, 因为他没有了其他提示词的干扰,那 ai 加载的少了, open 自然也就省了一堆。那这是他按需加载的第一层。 当然了,刚刚这个 skill 实在是太基础了啊,就算一口气把它下面的指令都加载完,好像 token 也不多哈。 但是如果我们的要求变得复杂了呢,比如说我们秋之餐厅的物料其实分很多种, 常规的呢,有海报、菜单,也有比较特别的一些实体物料要设计,比如说餐盒、杯子,员工服装,还有一些社交媒体的物料,比如说公众号封面,微博配图等等等等,他们的尺寸都不一样,配色要求也不一样, 还得符合各平台的一个规范。每一个物料呢,我们都假设它有详细的长长的说明,那这时候我们如果把所有物料的要求都写进 skill 点 m d 里面,那这个文件就会变得巨长。 但是很多时候呢,我只是想做一个,比方说实体餐盒的设计大模型,根本就不需要知道公众号封面的规格,但是 ai 还是得把整个文件都读一遍,那这就造成了 token 的 浪费,也可能会造成一些信息干扰。那怎么办呢? isopec 就 又规定了一个文件夹叫做 references, 我 们呢可以把实体的物料和社交媒体的物料这个两个规格单独拆出来,单独的给它放到这个 reference 文件夹里面去。 那这个实体物料规格点 md, 我 们就写一些线下的工服呀,餐盒之类的要求, 那这个社交媒体物料规格呢,我们就去写公众号封面呀,微博配图这些的尺寸和要求,甚至我们都可以拆得更细。 然后呢,我们只需要在 skill 点 m d 这个总指令里面只留下那几个常见的物料要求,并且我们还需要写上一个指引 啊,告诉他如果用户要做线下物料的话,那就要去读这个实体物料规格点 m d。 如果要做社交媒体类的图,那就要去读社交媒体规格点 m d, 那 现在同样的一句话, 他给出的方案就更精准了。这样当我们只做常规物料的时候,这两个 reference 的 文件大模型压根就不会看。然而当我们说做实体参合的时候,他也会通过 skill 点 md 的 指引,只去看 reference 里面的这个实体规格文件, 那这就是它的进一步按需加载了。那我们可以想象,我们可以有好多种不同情况的 reference, 反正它只会在需要的时候自己去看指定的文件。 但是现在我们的秋之创意 skill 呢,只能输出创意,还得我们自己去做图,所以呢,我就还想让它可以按照我们的品牌规格,直接帮我们把图做出来, 也没有问题。那这就要用到 skill 的 另一种文件夹了,叫做 scripts, 那 这个 scripts 里面呢,一般放的是一些可执行的脚本, 那我这里呢,实际上也就放了一个非常短非常简单的脚本,其实就是在调用 nano banana 的 api 来生图的一个脚本。那有了这个脚本之后呢,我们还得去 skill md 里面在指令里说一声,告诉他,如果用户要求直接生成图片, 那他就得把之前我们想的这个创意转化成生图的提示词,然后按照这个命令去调用这个生图脚本,这样他就能一句话自动去生成精准的图片了。 不然我们还得自己去拷贝提示词,打开软件再粘贴,再生成,再下载保存,现在我们一句话就搞定了。 另外我还有个需求,我希望深层物料的图片能保持秋之餐厅的 logo 不 变, 所以我们还得给他几张 logo 图作为深图的这个参考。那我们就可以再建一个 最新规定的一个 s s 文件夹,我们把两张的 logo 图片放到这个文件夹里,当然我们还要回到 skill 的 md 里面,告诉他参考图在这个 s s 文件夹里面,如果要深图的话,需要把这个图片当做参数给脚本传进去来执行。 好朋友们,现在这个 skill 就是 一个完整的官方完全形态了,其实有点像我们在用自然语言写程序,对吧?那我们先来试试效果,来帮我做一张周六饮料免费的一个实体海报, 你看它发生了什么?它先是加载了这个 skill, 然后它内部可能发现啊,要做的是这种实体物料,它就要去看另一个解说,于是它去检查了这个实体物料的规范。那并且它意识到我们需要的是直接生成图片, 所以呢,它又生成了提示词,把这个提示词和 logo 图片一起给到,并且运行了这个脚本。那最后它输出的图片告诉我们,在这里我们看看结果, 你瞧瞧它这个尺寸,配色 logo 是 完全符合我们这个品牌规范的啊。那为了防止这个是一次性的结果,我还多试了几次,它这个深层的效果都很不错。 然而如果我们的要求还跟之前一样,我们只要创意并不要直接深图的话,那他的这个脚本他也不会被执行。 而且呢,刚才我们说到这个 scripts 脚本,这里面其实还有一个重点,这个脚本里的代码它是写好了的, agent 根本就不需要去看里面写了什么,它只要知道我们在 skill 点 m d 里面写的那些指引,告诉它传什么参数,会输出什么,它只管运行脚本就行了。 所以不管我们在 scripts 里面写了多少行代码,大模型它都不会去读取,一点 token 都不占。 当然了,如果我们在 skill 点 md 里面的那个指引写得不够清楚,大模型不知道怎么用这个脚本,那他有可能也会不得不自己去看一下这个脚本,但他的机智和园艺是不需要去读这些脚本的。 好,那我们来回顾一下,其实创建 skill 就是 在指定的文件夹下去创建一些文件,那最简单的 skill 呢?只要一个 skill 点 m d 就 够了,里面有这个原信息和指令,而完整形态的 skill 可以 加上 references, script s s 这些可选的文件,那这些东西是怎么配合工作的呢?这就是 skill 最重要的设计。按需加载的三层结构,第一层,源信息。 这一层呢,是始终加载的, ai 的 每一次对话都会看一眼所有的 skill 的 源信息,它去看到自己有哪些技能,就像一个目录。那第二层,指令层, 这层是只有当 ai 判断并且决定我要用这个 skill 的 时候,它才会去加载完整的 skill 点 m d 文件。第三层,资源层, 这层包括了 reference 里面的参考资料, scripts 里的脚本, assets 里的资源。只有当 ai 进一步判断任务需要更详细的信息,或者它需要执行某个脚本的时候,它才会去按需加载,并且脚本它是只执行不读取的,完全不占用托克。 好了,这下我们完全理解 skill 的 按需加载,也就是官方定义的渐进式批漏机制和三层结构了。可是对于普通人来讲,这又是写 markdown 又是脚本的,好像创建一个 skill 还是挺复杂的。 no no, no, 现在谁会用手写呢?我是用这个创建 skill 的 skill 啊,秋之 skill creator 创建的。 那这个呢,是我基于很火的 skill 创建器改良的一个更加互动式,更加小白的一个 skill 创建器。那大家把它下载下了以后,放到这个点儿 cloud skills 文件夹里面就好了。那下好之后,我们想要创建什么 skill, 直接打开 cloud 直接跟它说就行, 或者我们也可以斜杠来调用他,那他呢,会开始一步步的引导和追问我们,来帮我们梳理这个需求。而且我特意设计的是这种用选择题的方式来追问我们整个过程,我们就只需要用大白话回复他的问题,以及按一按上下键做一做选择题就好了。 他这个追问的过程啊,到时候大家问题可能和我现在这个不一样,因为他会根据你的需求去做灵活的调整啊,他都是现编的。 然后呢,这个过程中因为我们要做图片,所以我们还需要给他提供 logo 图的参考,以及那个 nano 不 nana 的 a p i 和文档。那我也给他直接拖到了这个项目文件里,然后告诉他了一下这个文件的路径, 他就会自己去参考和把它们放到 excel 文件夹里面。那这两个素材我也都已经放在了我们的课后网页上了,大家可以去用做练习来试试复现它。 那问完这些问题之后呢,他还会给我们核对一下方案,如果我们看着方案没问题,那他就会自动帮我们生成所有的 skill 文件了。 那做好 skill 之后呢,他还会帮你想几个例子来跑一下测试。我们这里其实测了好几个,风格都很一致,很好看。大家在这个调整的过程中,也可以去点开他写的这些 skill 文档来手动的修改一些,反正都是提示词嘛。 所以总之只要你有明确的输出要求,或者有明确的方法规范流程知识,创建器就会指引你帮你来写出一个定制的 skill。 而且除了自己创建,网上也有很多现成的 skill 资料里,我也整理了一些集合网站和 skill 仓库,成千上万的 skill, 大家可以去逛逛。并且我也给大家打包了几个普通人常用的必备 skill, 比如做 ppt, 处理文档, excel, pdf 这些基础的,我们直接把它拖进 skill 文件夹就可以,一句话让它帮你把乱糟糟的表格梳理得整整齐齐。 还有这个官方的前端设计 skill, 这是直接让 cloud code 生成的前端网页,而这个是挂载了这个前端 skill, 做出来的网页,效果明显大幅提升。还有这个动画生成的 skill, 用这么一段提示词就可以做出这样一段演示动画。 当然大家也不用去装一堆自己根本用不上的技能,一个游戏英雄也只需要四个技能 q w e r 就 能杀遍全场。所以最有效的还是把你最最高频做的几件事,打磨成一个你独家的稳定产出的 skill。 尤其是你对结果有明确的要求,你有经验和方法,你验证过的事情。 比如说打工人,你的周报每周都要写,那就做一个让 ai 来主动采访你,然后出周报的一个 skill。 比如说老师每节课都要背课,那就做一个你只要给出课题,就能给你一整套课件习题和 ppt 的 skill。 又比如说,你总是要给你的文章配图,那就做一个给他一篇文章,他就按你的风格做配图的 skill。 又比如说,你总是在审核,那就做一个按照你的规矩自动批阅合同来写备注的 skill。 因为大多数的人都不需要成为一个技能开发者, 我们只要先把自己掌握的小技能交给 ai, 让他替你重复劳动。好了,资料链接都在评论区了,大家动手试试吧!这个时候呢,点赞、收藏、关注的技能就该出发了,我们下次见了!

如何让 ai 帮你打造你想要的 skills? 首先我们了解一下 skill 到底是什么,其官方的解释就是一个文件夹,这个文件夹包含了 ai 帮你完成动作时需要的指令、脚本和需要的资料。这个文件夹包含了最主要的文档,就是 markdown, 文档名称为 skill, 里面存储的就是 ai 执行任务的操作说明书,其余的就是执行这个说明书需要的各项资源。 skill 能够帮助你快速地完成一个标准化的任务, 比如你每天都要处理的一批数据,或者每天都需要查看收集的新闻,将其转化成标准的指令给 ai, 你 就只需要轻轻一敲就可以获得结果。上一条视频也有朋友提到, m c p。 m c p 和 skill 应该是可以组合的关系,帮助 ai 获取更多的资料和资源。 这个视频我将展示搭建一个简单的收集 ai 资讯的 skill, 自动收集并生成文案。首先先简单描述我想要 skill 完成的任务, cloud 反馈给了我一个完整的 skill 文件夹包含的所有文档, 同时给出了基础的步骤来完成我的诉求。紧接着我说我希望我可以给你链接,这样可以直接读取已经筛选过一遍的内容。我们就得到了需要 m c p 进行协助的反馈。这很简单,要求 cloud 告诉我们如何配置即可, 按照要求在终端配置即可。同时我们继续细划 skill, 我 要求他把整个任务拆解出来,这样我们可以一步一步地细划,可以看到他把任务拆解成了八个模块,分别是原数据、信息源、评估维度、 图纹模板、视频脚本、工作流程、快捷指令和注意事项。比如这一步要进行确认,能访问我要求的信息平台来一起确认,保证需要的信息员可以顺利获取。其次,修改了我对信息优先级的要求,把 github 上的内容排到了第一。 同时,如果你想定向收集一些媒体的信息,你可以提供一个名单给他,也就是 skill。 可以 有自己内置的数据资料库,同时配 m c p, 就 有了外部获取资料的能力。像这样每一步进行确认。如果你不知道自己的任务有哪些准确的要求,你也可以要求 ai 反问你来获得答案。或者像我一样 直接给他账号背后的产品背景、面向群体以及目标给 ai, 让他阅读资料,自己理解,他会自动根据资料准确定位,有可能比你给出的更加准确。可以看到他给出了非常详细的拆解不同平台的账号风格和预设场景。文案模板包含了详细的文案 tag, 包括帮你寻找可用的素材,基本上是一份完整的账号策划书了。这些自动生成的内容就算不能直接发,也省去了百分之八十构思和寻找素材的时间。进行筛选和润色,就可以完成之前繁琐的任务。 同时也打开了人的思路,构建了庞大的素材库,供你选择和思考。用户输入指令, ai 收集资讯、评估、咨询价值。文案和视频脚本生成最后输出 非常清晰的流程,并且还有使用的快捷指令,一个 skill 就 完成了定向内容的收集和处理。加工。不会配置也没关系,它会为你生成配置文档, 只需要扔给 cloud code 就 自动配置。完成了,后续我会继续更新。如何优化一个 skill, 让它自动录入到素材库,同时可以录入数据,搭建动态的账号数据内容库。这就是最终版本获得的数据库, 能够看到每一个资讯下自动生成的文案,包括多个平台的文案,同时标注了优先级别,还可以录入数据,形成自己的账号记录。都去找 ai 试试吧。顺便打个小广告,我们团队新上线的 a p i 站点,支持多个先进模型,感兴趣的可以看评论区。

号称 ai skills 生成第一工具的 skillseekers 到底有多强?你可以把一整套记出文档、开源代码,甚至几百页的 pdf 通通丢给他,帮你一键打包成 ai! 能读能懂还能互动的 skill。 使用方式非常简单,异形命令就能完成,重抓取分析增强到打包,整个流程就是这个 skillseekers 开源七千颗星,爽歪歪!

大家好,我们今天来介绍 google 的 notebookgram, 这是 google 的 一贯风格,名字像起的一个不知所谓的笔记本儿,功能却强得离谱。别被这名字给骗了,这是我目前用过的最好的个人知识库工具。 这都二零二六年了,各路大模型都能拿奥数金牌了,可回到正经工作,他们有两个硬伤一直没解决。第一个就是我不知道,而是会一本正经的编一个给你。 第二是上下文有限,你扔给他一个一两百页的文档,他可能只能看到前面几十页,后面的要么忽略,要么张冠李戴。 notebook lm 的 思路完全反过来,你提供精准的素材,他负责消化输出,他解决了三个老大难的问题。第一,超长记忆, pdf 视频网页,扔进去多少他都能消化完。第二,有据可查,每句回答呢,都带着引用出处,不编不猜。第三,他能跨格式理解, 音频、视频、文档,都不再各自为战,而是真正能够把这些信息之间的关系串联起来。 第二,大脑的概念提出者 diagoforty 说过, notebook lm 就是 他设想当中的未来形态。传统的第二大脑工具呢,像 notion、 obsidian, 门槛太高了,很多人用着用着就变成了一个积灰的收藏家。 而 notebook lm 把最费劲的两件事,整理和关联都交给 ai 了,你只管提问,他负责思考, 光说没用,我们来实操吧。今天我们就用第二大脑的经典框架 code 来进行收集、整理、消化和表达,从零开始,搞定一个硬骨头, call the skills。 为什么选它?因为这是 osapic 十月份刚提出来的概念 模型,训练的时候可没见过这些材料,而且信息还比较分散。正好看看 notebook lm 怎么能帮我们在十分钟以内把这些碎片变成一个能用的专家知识库。 notebook lm 目前有网页和 app 两个版本,功能基本一样。 今天演示,我们以网页版为主,打开浏览器,输入对应的网址, notebook lm dot google dot com, 然后点击新建,创建一个新的笔记本。 这次我们要研究的主题是 cloud skills。 为了确保这个信息最准确,我们得从源头找起,直接用 cloud 官网定义的页面来作为我们第一个信息源。 复制网址黏贴进去,你会发现 notebook lm 的 理解能力相当强,它不仅能够自动归纳主题,提取要点,还能够根据你的系统语言设置,把英文的内容翻译成中文的摘要。 现在我们对 skills 有 了基础的认知,可以回到官方的介绍页面快速浏览一下。比如说这里官方强调了 skills 的 四个特性,可组合、可移植、按需加载代码执行。 那通俗点说, skills 的 设计思路看上去就像乐高,标准化、可拼装、按需取用。这时候我会把页面底部的技术细节链接也加入到来源里。 加入新来源以后呢,系统会自动给笔记本进行重新命名。接下来就是重点了,怎么吃透这些材料? 我的经验是,初期先用自己的语言去追问,比如在对话框里问一句 cloud skills 的 核心概念有哪些,它会严格根据你投喂的材料来回答,决不下冰。 如果你觉得文字太枯燥或者思路卡住了,可以试试它的思维导图的功能,它可以一键把复杂的概念拆解成结构图。如果哪个节点没看懂,比如说 skills 怎么结合代码工作,点击节点,系统就会自动析化,解读非常的直观。 不过官方的文档往往只告诉你是什么,很难教你怎么用。这时候技术博主的视频往往比官方的文档更接地气。这也正是 notebook r m 的 杀手锏,它能够看懂 youtube 视频, 不管是三小时的长视频,还是技术峰会上的演讲,它都能够瞬间提取重点。我们可以去游馆上搜一下关于 carlos skills 的 最新视频,比如这个 ai engineer 的 博主,他们常规上会收入大量技术峰会的干货分享。 这视频的标题也挺有意思,叫 don't build agent build skills。 正好我也想搞清楚 skills 和 agent 到底有啥区别。复制链接导入除了给定的链接, notebook airm 现在还支持直接搜索来补充信源。 比如我们搜索 skills 最佳实践,它会列出相关的结果。这里我也提醒大家,信息呢是贵精不贵多,我们挑两篇官方的和一篇 reddit 上的高分分享加进去就行。 此外, notebook lm 还有强大的文件导入能力,除了链接本地的 markdown、 word、 pdf, 甚至如果你有 ppt, 也可以转成 google docs 来上传。 一托于 google 的 多模态的理解能力,你甚至可以直接扔图片和音频文件进去,他全都能读懂。资料收集完了。现在的挑战是如何把这七个长短不同的信息融汇贯通,尤其是刚加进去的长视频,搜索结果内容挺多的,我们很难一下抓住重点。 这时候我们可以利用 notebook lm 的 信息图来帮我们进行梳理。系统呢,会根据它对内容的理解和内容之间的相关性生成一张信息图。我们内容比较多,生成信息图的过程可能会花上一段时间。 信息图生成完毕,它告诉我们啊, skills 是 专业的支持指令的手册,它是新一代 ai 架构。 但是说实话呢,这个拆解呢,让我觉得比较通用啊,有点水,不太符合我自己的一个认知的习惯,对我的帮助不大。 这里分享一个进阶技巧,自定义信息图。可以点击生成信息图按钮,上面的铅笔图标会有一个自定义的界面。我们可以要求 ai 扮演一个产品专家,他通过啊,标准化的五 w e h 的 模型啊,然后呢,对 这一系列我们的文档进行结构化,可落地的拆解。这次信息图生成的结构就非常符合我的需求。 比如说呢,在定义上,他清晰地指出了 skills 是 可附用的专家知识包。在受众上呢,他直接点名的核心用户呢,是开发者和企业团队。 在价值上强调了 skills 是 一种标准化的能力,用来解决这个重复指令和一些啊工作区之间孤立的问题。所以对比刚才的默认的信息图, 这种自定义的结构化输出呢,更符合我们自己的认知习惯,其认知效率会更高。有了宏观概念,接下来我们要深挖细节。刚才导入的视频里有个观点特别炸裂,叫做 don't build skills build agent。 我 想知道这后面的逻辑支撑到底是什么? 这里面的关键是在左侧的来源区只勾选这个视频。这样呢, ai 的 回答会严格的限定在这个视频的内容范围以内,不会被其他材料干扰。 我们在对话框里直接发问, skills 是 用来替代 agents 的 吗?请详细对比两者之间的关系。 看这次系统的回答会非常的明晰,它会告诉我们, agents 正在变得通用化,是执行的主体,而 skills 是 执行主体,用来使用的技能包是为 agents 提供插件式扩展的。换句话说呢,一个通用的 agents 通过加载不同的 skills, 就 能够瞬间变成各种领域的专家。系统还生成了一个对比表格,把两者之间的差异和关系分析得清清楚楚。这个回答非常有价值,我可以通过保存笔记,把它保存到我们自己的笔记本当中。 按照第二大脑的 code 模型,我们已经搞定了信息的收集和组织。接下来就是最痛苦也是最关键的一步,消化和萃取 distrib。 面对像 cloud skills 这样的全新概念,我们的大脑很容易卡住,光靠老套路去类比,很容易变成磕头求见,反而丢掉了新技术的闪光点。这时候,我们需要一点外部的强动能来推着我们往前走。 notbook lm 有 一个严重被低估的宝藏功能,就是学习指南。默认的聊天窗口只是一个被动的问答机器, 当你切换到学习指南的模式,它瞬间就变成了你自己的 ai 私教。它不再被动等待,而是给你甩出一条路径,从核心概念到结构解剖,再到运行机制,一步一步带着你走,我们先看看它的概念解读。这里面这个比喻倒是非常形象, agent 像是个智商三百的天才,而 skills 就 像天才身边的财务管家,老实靠谱。这一下把这个声色的概念讲得挺明白的。 跟着他的节奏深挖,我们还能发现 skills 的 内部解剖。一个标准的 skills 包包含了作为说明书的 skills 导 m d 及相关执行任务的脚本程序,还有相关的资源。然后他还提到了分层加载策略, skills 确保纸在需要时才调用。说实话,这一点真是切中痛点。之前我在用 m c p service 的 时候遇到一个大坑,就是稍微加载几个复杂的 m c p, 几百 k 的 上下文就没了。不光 疯狂消耗我的托克,还经常让我的 code code 因为达到库塔上限而罢工。 而 skills 这种按需取用的设计,显然就是为了解决 m c p 这个缺陷而生的。当然,如果私教的高强度输出让你觉得大脑缺氧,这时候必须记出 notebook l m 的 杀手锏,音频预览 点击生成。稍等片刻,你听到的就不是毫无感情朗读,而是一期双人对谈播客。两位 ai 主持人像聊八卦一样,把刚才的 skills 架构展开讨论,这里我们可以听听它的效果。 我们就直接跳进那个最热闹的 reddit 帖子,有个用户发帖分享了他觉得最牛的十个技能,听起来确实呃,很诱人。 比如一个叫 rub m c p connector, 宣称能一口气把 cloud 接上,五百多个应用,五百多个对 slack notion、 谷歌全家桶说是不在话下,甚至还有一个挺好玩的叫 slack gift creator, 能直接让 cloud 在 slack 里给你生成动态表情包。哈哈,这个听起来不错是吧,听起来是挺酷的。 我个人非常依赖这个功能。这种旁听讨论的感觉往往比闷头看书更能刺激灵感,特别是在通勤路上,听听别人怎么拆解这些复杂概念,效率极高。另外,英文版甚至都支持实时打断,你可以随时加入讨论。 虽然中文版还没上线,但这绝对预示了未来的学习形态。完成对概念的消化工作,我们就来到了 code 流程的最终章表达 express。 常说,学以知用,知识不能只停留在听过和看过,真正的掌握必须通过表达和输出来验证。很多时候,只有试图把一个概念讲清楚的时候,你才会发现自己认知上的缺憾和逻辑漏洞。 notebook lm 自带的演示文稿的功能,就是能帮我们迈出这第一步的神器。首先,我们看到生成的幻能片风格还是非常一致的,逻辑也挺顺畅。它从现状输入 解释了为什么要构建技能这技能 skills 的 这些概念的起源,并且引用了一些 我们材料当中的精华观点,比如说指出了构建 skills 是 当前更高效的形式,包括还结构了一些间接式批漏,并且还推荐我们去创建一个登物页这样的一个实践案例, 整个结构还是很专业的。当然, ai 生成的 ppt 只是一个起点,如果你完全依赖它,就无法验证自己是否真正内化了这些知识。我建议可以拿这份生成的稿子 去给自己的同事和同学们做一次分享,看看你能不能看着片子把这些概念给说明白。可这时候有些小伙伴可能会觉得串词很难,不愿意和人面对面沟通。这时候可以借用 notebook lm 的 这个视频预览功能, 它能够生成带有语音讲解的动态换能片,你可以把它当成你自己的口语陪练,学习如何将这个视觉信息转化成口头表达的,这对表达能力有非常大的帮助。 这就好比你要报税了,你会找一个数学天才,让他从头帮你推到一遍税法吗?肯定不会啊,你肯定会找一个对各种表格流程都了如指掌的税务会计 ai 啊,也是一个道理。那要怎么把这个天才实习生快速变成专家呢? entropy 给出的答案就是智能体技能, 你可以把它看作是一本给 ai 准备的堪称完美的入职手册。那么这个技能到底是个啥呢?其实说白了,比你想做是一本给 ai 准备的堪称完美的入职手册。那么这个技能到底是个知识胶囊。 这个胶囊里面打包好了完成某项特定任务需要的所有说明书、小工具,还有参考资料。你把这个胶囊喂给通用的 ai, 咚它一下就成了这个领域的专家。 最后我还会分享一个实用技巧,生成小红书图文分享。我们可以利用 notebook lm 的 自定义指令,让它直接输出符合小红书调性的图片文案。 和之前一样,只要啊点击演示文稿旁边的那个铅笔图标,我们就可以进入这个自定义演示文稿的这个界面, 我这有一套小红书规格的提示词,我后面会分享给大家,输入提示词可以让它生成小红书风格的这个幻灯片, 比如说他会要求这个根据小红书的图片规格,比如说他会要求他的原调性点击生成。那我们看一下生成以后的结果。他的标题还是 挺抓人的,直接用了这个,百分之九十的人用错了科尔多这种反共字标题来去吸引大家好奇心。这里面痛点也挺精准的,也遵循了小红书上的传播规律。 那概念解析这一块儿,他也挺聪明的,把的士司工程解释成给科罗多建立一套 s o p, 并且还强调了 skills 和 prompt 的 基本区别。最后还有一个行动呼吁,还给出了一个说你最想把哪个工作流变成 skills 的 互动话题。 好到这里,我们把第二大脑的收集、整理、消化、表达,四步跑完了。回想一下十几分钟之前我面对 code skills 的 这个新概念,脑子里还一团雾水,手里的资料呢,也只有一些官方的网页。 但是现在不光明白了 osopik 设计 skills 的 设计思路,以及它在完成特定任务上的优势,甚至呢,我们还有了一套可以直接发布的小红书图文。 今天我们介绍 notebook lm, 其实想说的就是一件事,在二零二六年,可能光使用那些通用的 ai 工具, ai 的 聊天机器人已经不重要了,重要的还是我们要找到合手的工具去做信息的筛选、组织和内化。 notebook lm 不 只是个总结工具,它更像一个脚手架,帮你把散乱的材料先撑起来,至于最后盖成怎么样,还是你说了算。今天演示过程当中用到的这些提示词我会放到评论区。 在下次的视频里,我准备给大家介绍一下如何用 cloud skills 来完成一项目前知识工作者都需要的一个工具,就是如何下载播客音频,并且把它加入到这个 notebook lm 的 信息源当中,希望大家能够继续关注。

你看我在这个过程当中做了什么?我在这个过程当中只是把视频丢给他,然后写了四个字,剪视频啊,你看看啊,我们只是说话的功夫,我已经实现了什么?我已经实现了 ai 帮我剪视频, 他现在已经把这个生成结果输出到了我的这个文件夹里,我要讲的是 别人的技能,只要打包好了,到我这我直接立马就能用,我没有学习成本呢?而我现在屏幕上展示的是什么?我说你想做一个剪映,普通人可以,可能吗?不可能,对不对?但是 别人把这个技能打包好了,打包好成一个 skill, 我 在我的电脑上既能安装又能使用, 我给大家证实的是这件事,也就是说我把人家的技能拿过来,直接就变成了我的技能。好,大家看这个变化啊,首先我丢给他一个视频,然后呢我就打四个字啊,剪辑视频。 然后呢?你们看啊,你们看,他现在开始思考了啊,大家现在开始思考了啊? 首先呢他告诉我什么呢?检查一下这个文稿啊?执行人必要的这个,这个,呃,什么东西啊?然后呢?他现在呢在执行剪辑剪辑视频的脚本, 那然后呢?这里还失败了啊?然后他就思考啊,然后他要使用使用什么工具,然后来修改这个脚本,那然后剪辑视频这个东西,这个东西我,我是在星期三的时候啊,我是在星期三的时候刚接触 啊,然后呢?我稀里糊涂的啊,去把这个东西,把这个技能拿过来, 到现在我已经可以开视频,开直播跟大家讲这件事了,你觉得你觉得世界疯不疯狂?

如何把 ai 生成的我们想要的答案,还有表格直接导出成为 word, excel 或者 pdf, 方便我们下载下来。如果你直接把 ai 生成的那些文本拷贝到 word 或者 excel 里面, 一个是它的排版,看起来就很乱很难受,然后再重新搞字体啊,还有排版什么的,就很浪费时间。所以我想着有没有什么办法可以让 ai 给我生成一个直接把生成出来的连排版表格直接就可以导出的一种方法。后来我手搓了一个 ai 网页出来,你给大家看一下。 我们先找到文本,这个是 ai 之前生成出来的文本,就是文本加速什么都有的。最下面的这个是我让 ai 把文本形式生成为 markdown 格式的文本,就是相当于让 ai 转换一下,然后我们给它粘贴进去, 有个实时预览,可以看出它转化以后的样子。可以生成 pdf, excel 还有 word, 这个是 pdf 的 感觉和 ai 生成的录屏的感觉一样。还有 word 因为有文本,所以 excel 的 就不延时了, 像这个排版其实都差不多,后面再稍微调一下就可以了。我也搜过很多其他博主方法,基本都是让 ai 生成文本的 html 代码生成网页,然后在网页里面设置一个下载按钮, 但是这样的话,每次生成的内容都需要去重新走一遍,那个流程就很麻烦,所以我做了一个这个出来感觉挺方便的,唯一就是需要把文本转化成 markdown 格式,然后我把大概的步骤给大家过一遍,有需要的可以自取或者参考。 首先我们打开 excel, 然后跟他说一下我们的要求,我是对代码一无所知的小白,我想作为一个网页功能是把 ai 生成的 markdown 文本转化成其他的文件格式,像 excel、 word 或者 pdf, 可以 自己选择想要转化的文件格式。关于这个想法的实现,向我提几个问题 啊。首先说一下 markdown, markdown 就是 一种超简单的文本标记规则,像 ai 生成的答案,它其实里面都有标注,那么标注字体加速啊等等这些其实都可以通过 markdown 的 文本格式来实现,就是来找啊,就是下面视频演示的那个格式。 然后关于这个想法的实现,你向我提几个问题。这样说的目的就在于因为你现在只是有个大概的想法,但是很多细节方面你是不知道的,叫 ai 向我们问问题的目的就在于因为我们对这个网页的功能等等方面,可能一时还没有想到, ai 向我们提问的话,可以让我们想到我们需要这样的一些功能进去, 就像这边你的这个网页的主要用户是自己用还是本地使用,像这个我们就直接是本地使用,因为只有我们自己使用。 然后关于功能的细节,这边就会分为关于功能的,然后关于用户体验等等一些这些我们就可以按照他所说的去回答,他,就相当于是添加了这些功能,还有这些要求,最后确定跟他确定,敲定完以后他会给你生成代码啊,然后我直接复制, 复制完以后,在桌面复制完以后,在桌面新建一个文本档, 把前面的代码都拷进去,再保存一下,后退就跑到这边来,这个就是我们前面的, 就它会有吸引力的,就是 markdown 文本,就你看这边前面加个简号,它可能就是以一个标标题形式出现的字体, 它这边下面像表格这些它都是这些都是 markdown 的 格式,但是它如果生成出来的话,就是像这种表格形式,我也给我们加了实时的预览,就是 生成的 markdown 文本,可以看它转化完以后的样式。然后这 ai 给我们加了三个选项,因为这也是我自己提出的 pdf、 excel 的 word, 它也给我们增加了一点其他的选项,我自己是想不到的,但 ai 会帮你,有些东西它就会帮你去添加进去,方便去操作。你在这块里面,比如说我想要增加 什么什么样的功能,我不要什么 都可以跟 ai 说,然后它就会根据你说的去更改它的代码,但是这个有一个注意点,你要是修改一处等个代码,那时间耗费也挺长的,你可以一次性把所有要更改的功能都写上去,然后让 ai 一 次性统一的帮你去生成出来。 然后最后可能运行的时候会有 bug, 有 bug 的 话你就有什么 bug 都可以跟 ai 在 这里说,什么页面不显示啊,还有像什么按钮没有啊,这些都可以跟 ai 说,它都会再去推理,然后去生成新的代码,然后你再按照刚才 t m r 格式的操作就可以了去运行,就可以 整体从沟通到生成大概就半小时左右,真的非常简单,推荐大家去自己尝试一下。

如何通过扣子 q 技能和工作流把 pdf 转成 word 文档?大家好,今天分享两种转换方式,因为这个转换格式功能在其他 app 和网站里可能需要收费,所以有需要的小伙伴可以看一下。好,我们直接来看。第一种方式,也就是最近比较火的扣子编程, 这几天一直在测试这个功能,测试下来发现其实没那么好用,之前测试的是用大白话的方式丢给扣子提示词,结果重复的提示出错,跑不出来。后来我就换了一种方式,我把需求和目的直接交给豆包 deepseek, 让他们给我一份提示词,这个是我的一个需求,然后让豆包给我生成的一份提示词。 先说结果吧,按照两个平台给的提示词技能都已经创建成功,豆包的能转换出来, 这个是豆包技能创建成功了,然后这个是文档的一个转换成功,那 deep secret 的 一直在执行任务,没有出结果,十多分钟后我就直接放弃了,也不想再试了。但是豆包给的提示词转换的文件和原文格式有一些格式错乱,大家可以看一下文件, 这个是我需要转换的 pdf 文件,这个是通过扣子技能转换的一个文件,大家可以明显的看到这里面是有一些格式错乱的。 那这个文档呢?就是通过扣子工作流只用添加了一个插件转换出来的文件,大家可以看到这个非常的一个稳定,然后一致性非常高。 那再说一下。第二种用扣子搭建工作流的方式,直接三步搞定, 大家可以看一下,只用在中间添加一个插件,那输出转化的效果也是非常稳定,并且一次性很高。所以结合我个人的一个经验总结,如果大家要玩扣子编程,用其他大模型给的提示词,如果经常出错的情况下,可以换成豆包的试一下。 我的理解是豆包给的提示词可能会更适合扣子平台一点。那第二个是复杂一点的任务,还是用工作流来的稳定靠谱一些。 如果大家想了解这个工作流是怎么搭建的,可以在评论区里告诉我,我会再专门出个视频来教大家如何搭建。另外这个转换功能在扣子技能商店里是收费的,那大家可以自己去动手做一下。

cloud skill 到底是什么?应该如何使用?我们先来看一下效果。我在 cloud code 中输入了一段提示词,我要求 ai 读取一个 youtube 视频链接。这个视频是油管著名博主单口大神的一期视频,我让 ai 提取视频中的核心知识点, 并整理成一篇 obsidian 格式的 markdown 知识笔记,然后把视频中的知识结构用无线画布画出一幅知识结构图,最后把生成的知识笔记转换为电子书格式,方便我离线阅读。 我把这个指令发送给 cloud code 之后,我的双手就离开键盘了,完全由 cloud code 来接管这个任务。 color code 调用了四个 skills 来完成这个任务。这四个 skills 分 别是 youtube transcript, 也就是 youtube 视频的文案转录,还有 obsidian, macdunn 和 jason combs 这两个 obsidian 的 skill, 以及 macdunn to epub 这个电子书生成 skill。 我 们可以看到,在当前文件夹下,他先下载了视频的字幕文件点 v t t, 然后提取知识点,并拣写成 macdunn 知识笔记, 然后又用无线画布画出了知识结构图,最后生成了电子书文件。在任务全部完成之后,他还进行了自我检查,确认我要求的文件全部创建成功,然后才结束任务。 我们来检查一下生成的文件,首先字幕文件点 v t t, 可以 看到这是单口大神的原版英文口播字幕是带有时间戳的。我们再来看看生成的 macdunk 知识笔记和无线画布。我们把这两个文件放到 obsidian 中,首先看 macdunk 知识笔记, 笔记中是带有 obsidian 专有语法的,比如 copy 块儿,同时还建立了双向链接,我们可以在当前笔记中的知识图谱中看到它所建立的双链儿。 我们再来看无限画布,在 comics 文件中, ai 根据视频的内容画出了知识结构图。那最后我们用电子书工具打开 ai 生成的电子书文件,可以看到生成的电子书文件也是没有任何问题的, 所以你看,如果你看到了一个知识博主的视频,就可以用这样的方式,只输入一段提示词,就可以实现视频内容的下载和转录,生成知识笔记和结构图。这就是 cloud 为我们带来的智能体以及智能体的专属操作手册 cloud skill。 那 么今天我就用一期视频来快速带领大家安装并运行起来这个智能体整个过程非常的简单,而且我们还可以避开 cloud 的 严格的地区和网络限制, 哪怕你在中国大陆也一样顺畅使用。今天的视频分为以下几个部分,首先我们来快速的安装 cloud code, 并且使用兼容模型,绕过 cloud 的 账号和地区限制。 然后我们来看一下什么是 cloud skill, 以及如何在 cloud code 中使用 skill。 最后我会带大家浏览一些 astropic 官方发布的 skill 以及一些优质的第三方 skill, 大家完全不需要自己手写 skill, 很多常用的 skill 都是现成的,直接拿来就可以使用。那视频中的知识点和详细流程我都总结成了知识笔记。视频的最后会分享给大家,那我们就正式开始。 首先我们快速安装 cloud code, 第一步就是安装 node js, node js 是 我们的老朋友了,我在我之前的 n 八 n 和 m c p 相关视频中都使用过它。安装方式也很简单, 来到 note g s 官网下载之后,双击安装就可以了。安装完毕后,打开命令行窗口,输入 note 空格横线 v 和 npm 空格横线 v, 查看版本号,能够输出版本号则证明安装成功。 然后我们运行一个命令来安装 cloud code。 这个命令我已经展示在屏幕上了。如果你在这一步的安装过程中遇到了网络问题,那么你可以考虑使用网络加速,或者使用国内的 n p m 中转命令,我也展示在屏幕上了。安装成功之后, cloud code 就 已经在我们电脑上了。但是不要急,我们需要解决 cloud 账号的问题。我们都知道 cloud 对 地区的限制非常的严格,封号也很严重, 仅限欧美地区用户使用。那如果你身处欧美地区,并且能够成功申请 cloud 账户,那你现在只需要直接在命令行中输入 cloud 空格 log in, 然后再打开的浏览器中登录 cloud 账号,就可以使用 cloud code 了。 但如果你所在的地区不被 cloud 支持,那么我们可以使用其他兼容的大模型来解决这个问题。 目前类似智普 g l m deep sec 都推出了兼容 astropix 的 a api。 地址相关的官方文档我已经展示在屏幕中了。 我们在命令行中分别输入屏幕上的这三行命令,这三行命令的意思就是把 cloud code 的 背后所使用的大模型 url 和 api t 替换成智普 g l m 的 大模型。那这样一来,我们就不需要走 cloud 的 官网的登录,就可以直接使用 cloud code 了。 那另一种方法是通过修改本地的配置文件来修改这些环境变量。二指的原理是一样的,我已经把这种方法展示在屏幕上了。 在 cloud 的 全句目录下创建 settings 点 json, 把屏幕上的内容复制过去,把里面的 a p i t 替换成你自己的 a p i t。 a p i t 可以 在智谱的官网找到,然后在你的用户目录下找到点 cloud 的 点 json 文件,添加一个属性叫 has completed onboarding 值设置为处就可以了,大家可以自行修改。那么我们切换为 glm 模型,相比于使用 cloud, opus 四点五有什么优劣 呢?在性能方面, cloud 肯定是编程领域的 number one, 毫无争议,但是呢,它对地区的严格限制以及昂贵的价格是它最大的劣势。所以如果你对 cloud code 的 需求并不是那种产业链级别的需求, 要拿它做商业交付式的编码,那么你是没有必要非要使用 cloud 模型的。尤其是像我刚才展示的下载 youtube 视频并转载知识笔记这种任务,肯定是不需要使用 cloud 的, 类似 glm、 deepsea 这样的大模型足够胜任,并且它们的价格便宜,性价比高,网络和地区限制也非常宽松。所以这个方法目前是解决 cloud 的 地区限制的最好方法。 只有当你要做项目级的商业交付的时候,再去考虑用各种中转方式使用 cloud, 同时你要注意风险。 那么到此,我们的 cloud 的 code 就 安装完毕了。我们来到命令行输入 cloud, 然后回车, cloud 的 code 就 启动起来了,随便输入一个你好就能看到 ai 返回结果,那么就说明成功了。 我这里使用的是 glm 四点六模型,因为有免费额度啊,可以专门用来做视频。呃,目前 glm 最新的版本是四点七,性能非常强,大家根据自己的需求来切换模型就可以了。 那么接下来我们来看一下什么是 skill, 如何在 cloud code 中使用 skill。 我 们打开一个 skill 文件,可以看到它是 markdown 格式的,长得非常像我们平时使用的 ai 提示词,那其实它就是一个包含了详细功能指南的,更专业更详细的提示词, 通用的 ai 智能体,比如 cloud code, 它就像是一个刚大学毕业,智商很高,但是没有实际工作经验的大学生, 那它的技能是靠海量的训练数据。而 skill 就 像是给他写了一本专业级的操作手册,告诉他在遇到这样一个特定任务的时候,应该执行哪些操作。那有了这个手册, ai 就 成了这个领域的专家, 你也可以理解为在游戏中你的法师角色学习了一本技能书,什么暴风雪、火球树这些,那么火球树这本技能书其实就是 skill。 那 么我们来看一下如何使用 skill。 首先我们来到 cloud 的 全局目录,默认地址是 c 盘用户你的用户名点 cloud, 在这个文件夹下创建一个文件夹叫 skills, 全小写。然后在这个文件夹内创建一个文件夹,名字就叫 skill 的 名称,比如 markdown to epub。 很 明显这个 skill 就是 把 markdown 转换成 epub 电子书。 而 skill 文件夹内必须要有一个文件是 skill 点 m d, 其中 skill 这五个字母必须大写, 这个文件是必须的,我在屏幕上展示了一个文件夹结构,那除了 skill 点 m d 之外,还可以有一些资源文件,比如代码模板。 至于对于这个目录结构,大家了解一下就可以了,也不要觉得麻烦,因为就像我视频开头所说的,很多通用的 skill 我 们都可以下载得到,一般不需要自己手写。 我现在的文件夹里就是从 github 上下载了二十多个 skill, 比如 pdf, excel, word, ppt 的 相关 skill, 还有关于头脑风暴和前端设计的 skill。 我 们来简单看一下 skill 文件的内部结构。首先是原数据区,它的作用就是匹配用户的指令 属性, name 和 description 分 别代表 skill 的 名称和描述。 description 就 会被 ai 用于匹配用户指令,如果用户发出的指令与这个 skill 的 description 相匹配,那么 ai 就 会调用这个 skill。 那 只有第一部分,这个元素句式会在你发送指令的时候被 ai 读取, 那后面的内容只有在 skill 被调用后才会录取,是非常节省 token 的。 那接下来第二部分就是具体的指令,指令会告诉 ai 遵循什么样的要求去执行任务,这里的内容可以是具体的步骤,以及调用哪些资源和代码。 那第三部分就是资源区,列出 skill 需要用到的具体文件,比如 python, 代码、文档、数据等等,那这些资源就是我们在刚才的目录结构中放置的那些资源文件。 那么以上就是 skill 的 本质,我们在这里创建了 skill 之后就可以直接使用了。在这个 user 文件夹下的点 cloud 文件夹内创建的 skill 是 全局 skill, 你 也可以在你的项目文件夹中创建点 cloud 文件夹并放置 skill, 层级结构是一样的, 只不过这样的话,这个 skill 就 只作用于当前项目。我们来测试一个 skill, 我 这里有一个叫 frontend design skill, 前端设计啊,是生成网页的,这是一个 cloud 的 官方发布的 skill, 我 们在 cloud 的 code 中输入提示词, 为一家叫 nexus 的 ai 初创公司制作一个网页,风格要求是暗黑风发光渐变毛玻璃特效保存到当前文件夹, 然后回车,科拉的 code 就 开始运行了。这里他识别出了我的命令,然后问我是否要使用 frontend design script, 我 直接输入确定,然后他就开始设计网页了,过程中需要一定的时间,我就把过程进行了加速,那最后他生成了一个 index 点 html 的 网页, 我们把这个网页打开来看看,我们可以看到这个网页的样式设计的其实非常好,非常符合 ai 初创公司的风格。 呃,其实说实话,做视频的时候我都被这个样式惊艳到了,不愧是 cloud 的 官方的 skill。 呃,我之前视频里拿 jimmy 的 canvas 做的网页确实比这个丑多了,那么这样我们就成功执行了一个 skill。 那 么我视频开头展示的用一个提示词,让智能体下载视频字幕提炼总结成知识笔记,在无线画布中画出知识图谱,然后再生成电子书,这个任务大家就可以自己进行尝尝试了。 那视频开头我做展示的时候授予了 cloud 的 完全自主权,而不是每次调用 skill 都征求我的同意,想授予 cloud 的 这个权限,你可以在启动 cloud code 的 时候添加参数。那具体的命令是, cloud 空格横线横线 dangerously 横线 skip 横线 permissions。 但是就像这个命令你的内容一样, dangerously 危险。 cloud 有 了完全自主权就可以随意删除代码和文件了,你要谨慎使用这个命令,那我在视频开头完全是为了做展示才这么做 的。那接下来我为大家展示一些可以直接下载的现成的 skill。 首先就是 cloud 官方发布的 skill, 在 github 上,也就是 app 的 官方 github, 大家可以找到这个仓库。 另外一个我推荐给大家的是一个叫 awesome cloud skill 的 get up 仓库,这里面汇总了很多优质的 skill, 我 之前展示的大部分 skill 都来自于这两个仓库。 另外,如果你是 obsidian 用户, obsidian 的 ceo 最近亲自下场发布了三个 skill, 大家直接搜索 obsidian skill 就 能搜就能找到。 那我的下一期视频就会单独针对 obsidian 的 skill 来为大家讲解如何在 obsidian 中调用 cloud code 并执行 skill 来实现 obsidian 的 aia 任何功能。 那么以上就是今天视频的全部内容,大家现在就可以上手尝试使用 cloud code 和 cloud skill 了。视频内容中的知识笔记可以在我的个人简介和频道信息里找到我的个人主页地址,然后进行下载。大家如果在使用过程中有什么问题,可以在我的个人简介和频道信息里找到我的个人主页地址,然后进行下载。大家如果在使用过程中有什么问题记得点赞关注,谢谢大家!

用 skill 做自媒体也太方便了吧,在这个地方录入计划的发布时间, ai 会根据你的发布时间去预测爆款选择题,断写脚本位置好每个脚本对应的封面, 三分钟带你把它搓出来。首先我们需要理解一下 skill 的 搭建方式,简单的说就是提示词加流程的组合。我们在前端输入指令后, ai 会依次调取我们准备好的提示词,并最后给出输出结果。回到我们的任务,让 ai 根据发布时间帮我们预测爆款选择题并生成内容。我们输入的是发布时间, ai 一 次调取选择题脚本封面的提示词。所以在整个搭建 skill 的 过程里面,准备提示词是一件非常重要的事情。提示词之间需要遵循循序渐进的顺序,第一条选择题, 它的书写过程遵循常规的提示书写方式即可。便当的部分已经帮大家标注出来,需要替换成自己需要的内容。那接下来的脚本提示词,它在第一句话里面需要对选题提示词做一个承接,以及最后的封面提示词也是对脚本提示词的内容做承接。当提示词全部都书写完成之后,我们就可以开始正式搭建我们的 skill。 打开这个软件,切换到技能,回到文档,把我们准备好的导语粘贴过去,点发送,这时候 ai 会告诉我们需要依次提供三段对应的提示词, 再回到飞书。在全部收到三段提示词之后, ai 会开始给我们构建这个 skill, 耐心等待就可以。好,可以看到当右边预览的部分出现内容之后,就说明这 skill 已经构建完成了,那我们可以在这个地方做一个简单的测试,输入我们的发布时间,他已经按照我们要求的步骤在给我们生成内容了。 首先是选择题,然后接下来是脚本文案,最后是封面的会制。如果你对这个 skill 的 输出结果有什么不满意的地方, 在对话框里面输你的要求,让他继续去帮你做调整,觉得 ok 的 话就可以部署。当打包构建部署的三个步骤完成之后,后面就可以非常轻松的去掉取我们的这个 skill 了。点击右下角的更多,把你设置好的 skill 调取出来,就可以快捷方便的生成内容啦。

notebook lm skill 让你直接拥有满级知识库,厉害!哈喽,大家好,我是姚鹿行,最近在技术群里看到有人分享说自己花了两个小时整理技术文档,结果通过命令行, ai 三分钟就给它生成了播客和思维导图,还配置了 ppt。 一 开始我还不太信,直到我自己试了一下现在的一个 notebook lm。 notebook lm 是 谷歌推出的一款 ai 驱动的原导向笔记本工具, 我的记忆一直停留在之前的播客能力,在最新版本中,谷歌直接把桌面三 pro 加了进去,再配合 nano banana pro 的 生图功能,真的太强了。 以前在用 notebook lm 得打开网页慢慢点,慢慢等。现在好了,有位开发者直接把整套功能搬到了命令行里,变成了 skill。 项目名叫 notebook lmpy, 地址如下, 刚在 github 上面开源,就被一大堆大佬疯狂点赞。我们先来说说如何安装使用这个 skill, 我 以可拉扣的举例,当然也可以是其他支持 skill 的 工具。第一步,找到项目并安装简单的处理方式呢?你可以直接跟 ai 说,帮我安装一下这个 skill, 然后把链接甩给他, ai 会自动处理安装流程。第二步,确认安装完成。装完之后呢,你的工作目录下会多出一个点 cloud 的 文件夹,里面就是 skill 的 配置,打开看看,你会发现它已经把 nodebook lm 的 各种能力都已经封装好了。 第三步,直接使用,接下来就可以直接对话,让 ai 帮你调用 nodebook lm 功能了。接下来我们来实战一下。 假设你是个技术博主,最近在 youtube 上看了一堆关于 a i a 政策的视频,想整理成一套完整的一个学习资料,以前怎么做呢?看视频,手动记笔记,然后整理笔记,画思维导图,最后做 ppt 录,讲解音频。 整套流程下来,少做也得三五个小时。现在用 notebook lm skill 可能仅仅需要一杯咖啡的时间。 第一步,准备工作,先找几个视频链接,比如安德烈卡帕蒂的 lm 教学以及 loken 官方教程系列,并总结到一个文档中。第二步,让 ai 帮你干活,直接跟卡拉克提需求, 然后就看着 ai 开始工作了,列好 to do list, 一 步步完成。他会先调用呢步给 lm 的 批量导入功能,把视频内容抓下来,然后跑模型分析,提取关键信息。 接着生成思维导图,把知识点梳理清楚,再根据结构生成 ppt, 最后合成音频。 第三步,检查得到的成果。思维导图清晰展示了 ai agent 各方面的内容,并且每个分支都带有详细的说明,比自己画的还专业。 ppt 的 话,二十页左右,排版精美,该有的都有,微调一下即可。播客音频, you know that feeling when you open up a new chat window oh yeah every single day, whether it's chat gpt or claude or 两个虚拟主持人。讨论这些视频的一个核心内容,非常自然, 这就是 no book lm 的 强大之处,它不仅仅是简单的把文字转化为其他的格式,而是真正理解了内容,表达了出来。 除此之外,再介绍几个 notebook lm skill 的 一个使用场景,比如技术调研、会议纪要、知识沉淀、内容创作等等,有这些方面需求的同学一定要去尝试一下,非常强大,感谢大家的三连,谢谢大家,记得关注再走哦。

大家好,今天我要为你介绍 open code 的 四大视频制作技能,这些技能可以帮助你从脚本创作到音频生成,再到视频同步,一站式完成专业级视频制作。 第一个技能是 broadcast scriptwriter, 这是一个分段广播脚本创建工具,专门用于制作带有精确时间控制的视频配音脚本。你可以使用它来创建分段脚本,包含时间标记、语速建议和逐段内容, 每个段落都有明确的开始时间和持续时长,非常适合与视频画面同步。第二个技能是 segmented audio generator, 这个技能可以将 markdown 格式的分段脚本转换为独立的音频文件,它会根据脚本中的语速建议,自动为每个段落生成对应的 tts 音频。 你可以获得多个分段的音频文件,每个都有精确的时长信息,方便后续的剪辑和同步工作。 第三个技能是 remoteaudio sync, 这是专为 remoteion 项目设计的音视频同步工具,它能解决音频截断缺失、时间不匹配等常见问题。 通过精确的帧级同步,你可以确保音频和画面完美对齐,实现流畅的视频播放效果。 最后一个技能也是最强大的技能 video producer, 他 整合了前三个技能,提供一站式视频制作工作流。你只需要提供视频主题和内容要求, video producer 就 会自动完成脚本创作、音频生成、 remotion 同步, 这三个步骤无缝衔接,让你可以轻松创建专业级视频内容。总结一下, opencode 提供了完整的视频制作解决方案,从脚本音频到视频同步,每个环节都有专门的技能支持, 尤其是 video producer, 让整个视频制作过程变得前所未有的简单高效,现在就去试试吧! 使用 video producer 非常简单,只需要一个指令,使用 video producer still 创建一个视频,介绍某某技能,时长约两分钟,风格为教育风格, video producer 会自动为你完成所有工作。创建分段脚本生成音频同步视频,这就是 open code 视频制作的完整解决方案。

年末了,送你一套自动化的 ppt 制作方案,完全不需要自己动手,连网页都不需要打开一下,全程使用 agent 加 skill 的 技术实现。跟我一起三步搞定这套方案。 第一步,安装这个免费开源的 agent 工具 open code, 具体的安装方法和避坑指南在这个中文文档上都可以找到,亲测有效。第二步,安装 skill, 在 open code 里输入这句魔法口令, 让它帮我们装好 notebook lm 的 skill。 notebook lm 是 谷歌出品的知识管理 工具,可以免费使用,我们用它来生成优雅好看的 ppt。 第三步,完成 ppt 的 制作,准备好你的文稿,在 open code 里输入这一句魔法指令,创建笔记本,上传你的素材,生成 ppt, 一 会儿回来它就生成好了。 用这套方案就可以批量生产优雅好看的 ppt, 总结汇报都用得上。关注我,带你用 skill 完成自动化的内容生产。

用 cloud 官方 skill 三步生成文字可编辑和风格可配置的 ppt。 首先从 github 下载官方 ppt skill, 放到这个目录,我用的是 codex, 其他工具放置目录请参考截屏。 第二步,准备好 ppt 内容素材和模板,最后打开 codex 斜杠 skills, 调出制作 ppt 的 skill, 输入如下提示词,生成 ppt 生成的 ppt 的 确可编辑。

大家好呀,我看到龟曾老师把他一个票句风格的提示词,包括纹身图的一个功能做成了 skills, 已经上到 get up 了,现在已经有一百个星星了,我就赶紧去拿过来,然后跟大家来分享一下。 这个 skills 主要包含的功能有,第一个是它可以分析当前文件夹下的文档,然后批量的生成图片。第二个生成的图片也支持二 k 和四 k, 然后支持横版和竖版,同时它会需要你来选择是否生成封面,一个文档的话,图片一般生成三到六张, 对,然后它这个图片生成的,特别是报表版的啊,非常适合发小红书微信图文,那我们一起来看一下吧。第一步去 get up 上面找到这个 skill 阅读 let me, 它会告诉你怎么样快速开始。对,然后安装非常的方便啊,推荐你使用 npx 模式,在终端直接回车输入就可以, 它会自动会载入这个 skill, 然后会询问你你需要把这个 skill 安装到哪个 agent 上面,那可以选择 cloud code 或者 codex, 安装成功之后去进行一个信息的配置。第一步就是配置完 api key 完成之后,你去安装 python 的 依赖,然后再进行一个验证,下面我们来看一下它的一个效果。 首先我这里放了一个测试文档,内容就是什么是 web coding, 对, 然后我跟 codex 说紧急于这个文档帮我生成图片, 对,就只要这么一句话,然后他就会去读这个 skill 了,然后他会基于这个流程让我做一些选择啊。第一个是图片的比例,你是要横版还是竖版?第二个是是否需要封面?第三个是要多少张?我只要按照他的格式回复给他就可以。 那我们来看一下结果吧,界面玻璃的样式整体风格是非常棒的,在文字的一个整体呈现上面还存在部分乱码的一个情况,但是整体上可以接受的。 我已经知道这个形式之后,就是说帮我生成配图数版报表格式,不需要封面一张,如果是这样的回复给他,直接会进行一个生成,而且非常快生成的一个样式, 我进行了一个左右对比,在一张图片的情况下,目前这一个报表格式的里面字体基本上都是没有乱码的啊,而且他摘取的这个摘药啊,跟这个文章是非常匹配的。对, 所以我觉得这个功能就非常好。对于我们小红书发帖而言,或者是你经常发公众号的文章而言,那简直就是一个很大的福利喽。嗯,我觉得大家赶紧就去用起来吧。嗯,今天就分享到这里,记得一键三连哦,拜拜。

欢迎回到 ai 邪修视频剪辑第二期,你正在看到的这些专一级动画都是用一段题日词直接生成的。这几个月,一个全新的概念 skills 正在彻底降低这项技术的应用门槛。 今天我们就来使用 cloud code 配合 remotion 官方刚刚推出的 skill, 带你动手,把它真正融入到你的视频创作中。题日词和案例我都给大家整理成了清晰的笔记,点好收藏、关注赞!开始今天的实战修行吧! 嗨,这里是头哥不请自来的 ai 频道。那么到底什么是 skill? 二零二六年, ai 工具已经发展到了具备可靠的推理和执行能力, 各大 ai 公司都在推动 agent 与外部工具的能力整合,而 skills 正在成为一种通用的行业标准。比如,我们可以给 ai 安装一个动画制作 skill, 这个 skill 包里有 remote 官方提供的全套 api、 文档、代码示意和最佳实践。 当你的指令里提到视频生成或动画制作时,智能体会立即激活这个 skill, 直接调用经过验证的函数和模板来生成动画。而这些技能只有当任务需要时,相关的 skill 才会被加载。 这种在技术上被称为渐进式批漏的架构,可以把 ai 处理复杂任务时的 token 消耗降低百分之六十到八十, 同时还能让 ai 更准确的理解并执行我们的指令。接下来我们就来动手安装这个 scale。 安装过程非常简单,全程只需要几行命令。温馨提示,整个安装过程默认你的电脑中已经安装好了 node js 环境,没有安装环境的小伙伴留言找我帮你。 首先,我们需要在终端创建一个 remote 项目,这个命令会帮助你出使画一个视频项目的骨架结构, 选择空白模板添加已有组建。我们可以看到程序已经原生支持添加官方的 skills。 为了让你更清晰的了解 skill 是 怎么被安装的,这里我们先选择 no。 项目创建好了,下一步就是安装 remote 官方提供的 skill, 复制并执行这段命令。 安装过程中他会询问你要为哪个智能体安装 skill。 我 们直接选择 cloud code 安装范围,我们选择本项目 安装方式,选择推荐的 same link 回车直到安装完成。这就是我们安装好 skill 的 完整 remotion 动画项目了。接着我们在项目中使用终端打开 cloud code, 输入这个命令来验证 remotion skill 是 否加载成功。看到它出现在列表里,就说明我们的 cloud 已经成功继承了这些专业的视频制作能力。 技能准备好了,接下来我们直接进入实战。第一个案例,我们来挑战复刻以前很难剪的视频素材。比如像这样的视频弹幕,我会输入这样一段指令,请实现一套滚动弹幕动画视频 clock code 在 识别到任务后自动激活了 remotion skill, 仅仅用了不到一分钟,这个弹幕动画效果就做好了。如果你不喜欢这个样式,可以直接跟他说,再帮我设计一版弹幕的配色,他会瞬间重写整个动画逻辑。还有像这样随机飘落的理发纸,这样循环滚动的 logo 卡片, 以及这样动态打字机效果,都是我用 remote 几句话搞定的,这就是 skill 给我们带来的最直观的改变。如果说刚才那些只是基础的素材生成,那接下来我们来尝试一些更复杂的逻辑场景, 比如制作一个数学几何的教学动画。通常这类动画需要专业的数学可塑化工具才能完成,学习门槛非常高。而现在我们也完全可以交给 remote skill。 以泰勒斯定律为例,我们将设计好的 prompt 直接交给 ai。 这一次我们详细描述了视频的尺寸、帧率、整体风格、持续时间以及时间轴和动画的完整细节。 看这个效果,圆直径三角形完美呈现,随着点 c 在 圆弧上移动,直角标记始终保持准确。对于教育工作者或者知识类创作者来说,这意味着你可以快速将抽象的数学概念转化为直观的动态视频, 而无需深入学习那些复杂的教学工具。不仅仅是我,自从 remotion 的 skills 发布以来, 全球的开发者和创作者们都已经开始疯狂测试。但为什么同样的 ai, 同样的 skill, 有 些人还在玩,有些人已经能用来盈利了?要想真正驾驭这股力量,你必须掌握这三条核心用法。 第一,明确时间轴。你不能对 ai 说这段稍微快点,你必须明确告诉他,第零到一点二秒,标题应该出现第一点二到三点五秒,图表要展开眉帧为什么存在,你都要说的清清楚楚。 第二,用参数定义结果。你会说,这里给我来一个丝滑的过渡,要有科技感。 ai 听不懂什么叫丝滑,什么叫科技感。 remotion 只认状态的变化,高手会说,透明度从零变到一, evx 从四十变到零,缩放从零点九六变成零点七二。 学会用参数说话,而不是用感觉。第三,视觉元素各司其职。你的视频里至少要有三种角色,信息载体负责承载文字、图表、数据 情绪载体负责背景光影留白,引导载体负责运镜层次变化。如果你说不清这个元素是干嘛的,那他一定会破坏整体的视频效果。 最后,说的再多,不如你亲手尝试一次。我真心希望看到这里的每一位朋友都能亲自打开终端,去感受一下这种全新的 skill 式的视频创作模式。智能只是手段,人类才是答案。这里是头哥,不请自来,我们下期再见!拜拜!

上一期我们解读了 skill 的 定义,知道它是由指令、脚本和资源组成的结构化文件夹,用来补足 agent 在 过程知识和组织背景上的能力缺口。 但这只是概念层面。这一期我们将一步步理解 skill 的 内部构成、渐近式批录的三层加载机制,以及它为什么能让 cloud 拥有近似无限上下文的工作方式。每一个 skill 都是一个文件夹, 而它的核心文件是 skill 点 m d, 可以 把它理解成这项技能的使用说明书和入口。在最上方是一段 yml frontmatter, 也就是原数据区。它包含两个最基本的字段, name。 技能名称,例如 pdf description。 简要说明这项技能能做什么,比如从 pdf 中抽取文本和表单字段。系统在 a 阵的启动时, 会自动扫描所有技能的 skill 点 md, 并把每个技能的 name 和 description 预加载到系统提示词中。这意味着当 quod 启动后,他就已经知道我具备哪些技能和这些技能大致做什么, 而不需要一次性加载所有技能的全部内容。这种设计让技能可以被锁影而不被展开,也为接下来的渐进式批录打下了基础。原文将渐进式批录比作一本组织良好的手册, 你先读目录,确定主题,再读相关章节,掌握要点。最后只有在需要时才查找详细的目录。这种阅读方式正是 skill 的 结构逻辑。我们来逐层看它的加载方式。 首先是 level 一 v a m l 原数据层,它的文件位置就是 skill 点 m d 顶部的 e a m l front matter, 内容是技能的 name 和 description 加载方式是始终加载,大约消耗一百个 token。 它的作用就是告诉模型有哪些技能和它们是做什么的。接着是 level 二论文内容层,它的文件位置是 skillder md 的 markdown。 论文部分内容是技能的核心指令与 s o p 逻辑。加载方式是在技能被触发时加载,平均消耗小于五千个 token。 它的作用是当 cloud 决定使用这个技能时,它才真正打开这部分内容。最后是 level 三级以上附属文件层,它的文件位置是技能文件夹中除 skill 点 md 外的其他文件,包括 markdown 文档,比如 forms dot md, reference dot md 也包括配置文件,比如点 jn 以及脚本,比如点 py。 加载方式是按需加载,理论上的 token 上限是无限的。它的作用是 cloud 只有在 s o p 指令中被要求访问这些文件时,才会读取或执行它们。通过这种分层结构, cloud 不 再一口气读完整本手册,而是像阅读文档一样逐步展开,随用随取, 这就是渐进式批录机制的精髓。这里会有一个问题,既然 level 三可以包含大量文件甚至脚本,为什么不会撑爆上下文?核心在于认知与执行的分离。 cloud 的 上下先可以被看作它的思考空间, 而文件系统和执行工具则构成它的行动空间,二者在架构上是分离的,但协调工作、认知空间只包含模型推理所需的文字信息,也就是 level 一 的原数据,加上被触发技能的部分 level 二内容,它的体量小,可被直接加载进上下文。 而执行空间包含所有外部文件、脚本和数据。任务执行发生在外部虚拟机中, cloud 不 会阅读这些脚本,而是调用工具执行。 举个例子,在 pdf skill 里,当 cloud 读到 forms 点 md 的 指令,请运行 scripts extract underscore fields dot py。 他 不会把那份五千行的 python 代码加载进上下文, 而是向虚拟机发出 run bash command 命令。脚本运行结束后,虚拟机返回一小段结果,自段提取完成。结果已保存为 form's domain。 cloud 在 上架粉里只看到这个结果,不承担脚本执行本身。原文写道, agents with the fist frame state and code copcation tools don't need to read the entirety of a skill into their context window the amount of context that can be bundled into a skill is effectively unbounded。 模型并不扩大上下文窗口, 而是通过外部化执行,让技能包的体积与上下文无关。此外,原文在最后还强调了代码执行的另一层意义,确定性与效率。语言模型可以写代码,但在处理排序、提取或数学运算时,效率低,成本高。而外部脚本执行既快速又可重复,结果可验证。 因此, skill 不 仅让 cloud 知道怎么做,还确保每次都能做对原文用一张示意图展示了唱下文在 skill 被触发时的动态变化,我们来还原这个过程。在初识阶段, cloud 的 上下文中包含系统提示所有技能的原数据片段,也就是 name 和 description, 以及用户的初识输入。 当技能被触发时,如用户请求,请帮我填写这份 pdf 表单。 cloud 判断任务与 pdf 技能相关,于是调用工具读取 pdf s k i l l 点 md 的 中文内容,这部分被加载进上下文,接着按需展开复录。如果正文中提到,请阅读 forms 点 md。 cloud 再次调用工具读取 forms 点 md 的 内容,这时 forms 点 mandy 的 文字进入上下文儿, 而未被提及的 reference 点 m d 仍然留在文件系统中。然后执行外部脚本。当 s o p。 要求运行脚本时, cloud 发出执行命令,脚本在外部虚拟机中运行, 只将执行结果返回上下文。最后任务完成。 cloud 综合当前上下文中的内容,包括 s o p。 读取结果、脚本输出、继续生成、最终响应。从始至终, 上线部都只包含完成当前任务所需的信息,而技能包的完整内容则留在外部世界,随时可被访问。我们可以把本期的内容总结为三层逻辑。首先,在结构上, skill 是 一个包含 skill 点 md 的 文件夹,它的顶部原数据在系统提示中被预加载。 其次,在机制上,渐进式批露让 skill 分 为三层,目录、正文、副路 cloud 按需展开,信息逐层显露。最后,通过认知与执行的分离,模型的思考空间始终清亮,执行空间可以无限扩展。外部脚本带来了确定性、效率和复现性, 因此近似无限。上下文并不是模型参数的魔法,而是一种架构思想,让模型的上下文只装载需要思考的那一页,而把真正的世界留在它随时可访问的文件系统里。好了,本期内容就到这里,下一期我们将学习如何开发、评估与安全的使用 skills。