微软Skill Opt：让skills.md也深度学习！ #微软 #skills

Skillopt意义

41

10

15

2

举报

发布时间：2026-05-31 07:37

查看AI文稿

AI文稿

微软的 skill up，让 skills 点 m d 也深度学习，那么很多人都觉得啊，现在 ai 行业最近是不是有点感觉变慢了呢？甚至啊，是有一些审美疲劳，疲劳了啊。那么就在前几天，也就是二零二六年的五月二十五日，微软联合着己所顶尖的高校就悄悄地发布了一篇长达二十七页的重磅论文，彻底就打破了这个瓶颈。那么这篇论文就介绍了一种叫做 skills up，也就是翻译成中文叫做技能选择的系统。那么在很多人眼里啊，这可能只是一个让 ai 自己优化提示词的普通研究。但是如果您仔细的看这篇论文，您就会发现，这根本不是什么提示词工程，而是人类正在尝试用训练神经网络的方式去训练文字本身。他在不改变 ai 底层模型参数的前提下，建立了一种文本空间的梯度下降的机制，让 ai 能够自主稳定迭代来引进自己的工作技能。这可能预示着整个 ai 系统的构建方式现在又迎来了一场改革。当我看到这篇论文的时候，我真的惊叹于微软的这些研究院的这些人了，真的很有想法啊。那咱们今天就用这个短视频来说一说这个微软的技能选择一核心的痛点，为什么软件一点零的补丁它不管用了呢？那么要理解 skill up，也就是技能选择为什么这么厉害，咱们要先看看现在的 ai 智能体遇到了什么瓶颈。现在啊，大家让 ai 干活主要靠两种方式，第一种就是写一堆长篇大论的提示词，告诉他身份规则流程，但这种方式非常的脆弱，往往改了前一句，后一句就失效了，而且完全没有记忆和持续进化，或者叫演进的能力。那么第二就是写外围代码，也就是 harness，用传统的 python 或 c 语言来写一个外壳，或者说脚手架，死死地把大模型套在里面。那么论文的作者管第二种方式叫什么呢？在软件二点零，也就是神经网络之上，强行打了一层软件一点零的死补丁，这种外壳非常的僵硬，极易破碎，而且换一个模型往往就不能用了。那么其实啊，近半年来，像 openclaw 或者是 hermes agent 这样的前沿智能体已经开始引入，叫做一个叫做 skills 点 markdown，也就是 skills 点 md，这个 markdown 的文件把任务拆解成了具体的技能文件，比如专门去处理一张表格，或者是专门去分析一段代码儿，那么就都写在这个 skills 点 md 里。但是这些技能文档目前全靠人类的手工去写，您写一句让 ai 跑一下，哎，发现不对，您就在人肉去改这个 skills 点 md，那么这种人肉迭代不仅极其痛苦缓慢，而且人类根本不知道哪种措辞才是真正的最有劲。二、解决方案，文字空间的梯度下降，那么微软的这个 skill 点 off skill up 就是技能选择，就提出了一个极其大胆的思路，就是保持大模型的底层权重完全冻结，也就是说不花高昂的代价去重新训练模型，而是把技能文档，也就是 skills 点 m d 本身当成可以训练的资产。 oh great idea 真的很好的想法，那么为了做到这一点，他在内部构建了一套非常严密的类似于传统深度学习的训练壁环，整个系统有两个模型配合着完成，咱们一个一个看啊。第一个模型叫做执行模型，就是负责拿着技能文档去干活，去跑流程。那么第二个模型就是优化模型，负责盯着模型的表现，如果执行模型他干砸了，那么优化模型就会对技能文档进行增加，删除替换的文字修改。那么为了防止 ai 修改技能的时候走火入魔，或者是随意在那瞎改，那么 skill up，也就是技能选择就像素级的复刻了。神经网络的训练的原则，咱们一起来看一看啊！文本编辑的预算，那么类似于神经网络的学习率啊， ai 每次迭代只能修改百分之几的文字，不能够把整个文档推翻重写，研究就表明啊，没有限制的重写只会让智能体崩溃。认知的进化或者叫眼界必须要保持连续性。验证级守门，那么所有的修改必须在一个完全隔离的验证级上，要跑出更高的分数才会被系统接受并写入文档，如果分数没有变甚至降低了，那么这个修改就会被无情的拒绝，那么还有就是复知负面的知识点，那些被拒绝的错误的修改不会被丢弃，而是被当成错误错题的集，哎，你犯的所有的错误都保存起来哎，作为反面的反馈去警示 ai，防止他以后犯同样的错误。那么这套机制本质上就是把人类用了几十年数学上的随机梯度下降翻译成了流程性语言指令的定向演技。三，数据说话惊人的性能飞跃，那么这种严密的这种训练的原则就带来的效果是立竿见影的。呃， skill up，也就是技能选择在 gpt 四点五等七个目标模型，六个主流的精准测试，以及三种主流执行外壳，包括 cloud code 等。啊上在这个下面去进行了五十二组全面的评测。在所有的测试之中， skill up 全部拿到了第一或者是并列第一。咱们先来看看几组啊最直观的准确率的数字。在电子表格的精准测试之中，准确率就从百分之四十八点一飙升到了百分之八十点七。在办公问答也就是 office q a 测试之中，准确率从百分之三十三点一提升到了百分之七十二点一。在实时数学也就是 live math 的测试之中，准确率从百分之三十七点六提高到了百分之六十六点九。更重要的是啊，这些巨大的提升在部署的时候没有增加任何额外的推理成本，也没有增加任何模型调用的次数，因为演进完成之后，最终留下来的只是那些一本轻量级的不足一千字的技能文档。另一个重要的发现是可迁移性，当研究人员把一个模型上训练好的技能文档直接打包扔给另外一个完全不同规模的模型，或者是切换到完全不同的代码环境去运行环境的时候，这些技能依然能够保持极高的有效性，这就证明了优质经过优化的技能，其生命力远比外围僵硬的代码的外壳要顽强的多。那咱们最后啊，也总结一下吧，未来的 ai 会是什么样子呢？那么谷歌的投资人 gary，他也是 yc 的 ceo 啊，他这些人啊，在社交媒体上就兴奋地指出，这绝对不是一个躺在实验室里边的理论框架，利用现在的开源社区的工具，这种既能自我进化的架构，今天就可以在 opencloud 或者是 hermes 的智能体内部快速落地。这篇论文向我们展示了一个极具启发性的未来，就是过去我们把提示词当成一个一次性的随手扔掉的临时指令，那么未来我们可以把提示词变成可以持续训练，持久存在，能够跨模型迁移的认知软件模块。以后我们构建 ai 系统，可能不再需要动辄耗资几百万美元去重新训练几十万亿参数的这种啊，几万亿参数的这种大模型了，我们只需要买一个什么呢？呃，基础能力扎实的那种冻结的大模型，然后像拼积木一样给它插上成百上千个已经在特定垂直领域训练成熟的微型的认知技能，也就是那个独特的垂直领域的 skills，点 m d 就行了。 ai 的进化正在从堆算力的重重训参数的暴力美学啊。现在啊，对于普通人，对于普通的开发者，这个方向就是 guess 点 md 的这种，在文字空间的这种，呃，怎么讲呢，提速下降啊，我觉得真的是一个非常好的 idea 啊，非常好的想法和实践嘛。最后我也想说，其实我最愿意做的就是这种，呃，这种短视频啊，但是，哎呀，我发现数据都很难看，其实大家不怎么喜欢技术，如果您能听到这一点，您一定是一个非常牛的技术爱好者，您一定在您的呃生活之中是一个很有趣又很，您能听到这里真的不容易啊。这是我想表达的。对，您一定是一个很有趣，对技术真的有追求有理解的人。

老杜深度学习

粉丝11.3万获赞86.5万

相关视频

03:13
3 个能够真正提升工作效率的 skill claudecode 安装了 100 多个skill，能提升工作效率的只有这 3 个#AI #claudecode #skills #AI提效 #创作人计划
查看AI文稿
AI文稿
最近半年使用 cologod 安装了近百个 skr，最后发现真正能提升工作效率的其实只有三个技能，今天免费分享给大家。第一个， superpowers，这个 skr 改变了我用 cologod 的方式。以前我是直接把需求交给 cologod 的，让他来写代码，写出来虽然能跑，但是经常跑偏，改来改去浪费大量时间。装了 superpowers 之后，我养成了一个新习惯，每次开弓前先跑一遍，不认英斯德尔敏。这个技能能让可洛的反过来问我问题，你打算怎么处理并发数据库选什么等等等等。问完一圈，他会把讨论结果写成设计文档存到本地。听起来多了一步，但这一步帮我拦住了无数次的反攻。有些问题你自己都想不到，但是可洛替你想到了。注意， superpowers 包含了二十多个紫技能，千万别全开，我只用 breamstorming，头脑风暴，其他的按需加载，要不然会浪费大量上下文。第二个技能， playing with fails，这个技能解决了我被坑过无数次的问题。 cloud 有个问题，它做到一半就失忆。不知道你们有没有遇到过一个复杂的任务，聊了半个小时，可乐突然说，好的，让我们开始吧，然后就把之前做过的事情又重来一遍。根本原因是对话太长了，上下文被压缩，之前的计划全丢了。普莱因维的 flow 的做法很聪明，就是别把计划写在脑子里，它是存在纸上克拉的扣的。每次动手前会先建一个计划文件，每完成一步就在这个文件里打勾，就算上下文清空了，重新读一下文件就能接着干。这个思路跟 minnes 很像， minnes 做常任务为什么玩？因为它所有的中间状态都存在本地了。第三个技能， roughlop，我给这个技能起了个外号，监工 sky，你一定体验过 cloud 的摸鱼模式。写到一半突然说基础框架已经搭好了，你可以在此基础上继续完善。翻译过来就是活我没干完，我先下班了。 raflopp 通过一个或可拦截 cloud 的退出动作，他退出的时候或可会检查。你说的完成标准达标了吗？没达到，回去继续写。我用它写过，完成过一个 c r u d 模块，设了条件，所有接口测试通过加 redmi 写完才算结束。 kloth 中间响停了三次，但都被塞回去了，最后确实把活干完了。但要注意的是，完成条件一定要写写具体做完用户模块这种话等于没说， kloth 分分钟说服自己已经完成了写成。完成登录接口可用单元测试，覆盖率百分之八十。加 redmi 包含 api 文档，它才没法浑水摸鱼。以上就是我常用的三个技能，今天希望能够对大家有所帮助，感谢观看，拜拜，下期见！
3.0万PM.姜同学
02:53
SkillOpt：自我进化的AI智能体 #skill #AI智能体 #自我进化 #AI训练 #agent
查看AI文稿
AI文稿
欢迎来到今天的原理兮兮，准备好颠覆认知了吗？微软的 skill up 将彻底改变你构建 ai 的方式，还在苦哈哈的手写提示词，或者让大模型去盲猜停，这种老办法只会让 ai 表现的极不稳定。所谓技能文档，其实就是 agent 的说明书，但在复杂多变的现实里，死板的规则注定会频繁翻车。这就是咱们今天要抓的核心要点， skill opt。记住，别再傻乎乎地写提示词了，要去训练它们！留意这个绝妙的思路， skill opt 简直绝了，它直接把深度学习的训练机制完美复刻到了文本空间。咱们现在不挑斧点数了，我们是在真刀真枪的像训练神经网络参数一样去训练自然语言文本。那这到底怎么玩的转呢？别急，接下来为你拆解这套超硬核的五步进化法，第一步和第二步，执行并反思， agent 先去跑任务，然后优化器立刻介入复盘，哪做对了哪搞砸了。第三步，受限编辑，你可以增删规则，但千万别放飞自我，必须严格控制在文本学习率的预算内。第四步是极其严格的验证门扣，新规则必须在测试级上彻底碾压老版本，打平都不行，直接淘汰，最后用慢更新来收尾。这就好比给 ai 加了定海神针，锁定长期的核心策略绝对不让它跑偏，出来的效果绝对是统治级的。五十二个基本测试， skill opt 竟然拿下了极其震撼的五十二胜！全胜太夸张了，尤其在工具型任务上，提升简直离谱。就拿表格处理来说，准确率直接原地暴涨了五十八分，那怕是只有四十一参数的小身板，莫星用上这套经验训练后，性能居然也能跟着狂飙五十分？凭什么这么神？这可不是什么黑魔法，完全归功于极其严谨死磕细节的工程化约束设计。举个例子，这个拒绝编辑缓冲池修改失败了，直接当成反面教材，叫 ai，绝对不要踩同样的坑。如果拿掉慢更新这种长期记忆会怎样？得分瞬间暴跌二十二点五分，这下知道策略稳定性有多致命了吧？最棒的是，你今天就能自己弄一个从小任务跑起，死磕编辑预算，再来个硬核验证就能搞定！给今天画个绝对的重点文本，再也不是一成不变的死规则了，它是活生生的，可训练的经验进化工具都摆在这儿了，你是继续手写提示词，还是让你的 ai 自我进化？感谢收看今天的原理解析！
11Cameron🧑‍💻
02:01
codex超好用skills，使用频率高，不吃灰#codex#skill#AnySearch #大模型#skill安装
22.3万萌萌本萌🌸🌸🌸
07:38
带你聊透Agent脱离不了的4个概念。 Function Calling、Tool、MCP、Skill 到底有什么区别?#AI #大模型 #gpt #gemini #AI新星计划
查看AI文稿
AI文稿
不知道大家有没有发现，那些整天把 ag 的挂在嘴边，左手一个 skill，右手一个 mcp 的人，你就让他讲讲 function calling to mcp skill 到底有什么区别？大部分人啊，可能都说不清，现在的 ai 让所有人都觉得什么都能包成一个 skill，仿佛万物皆可 skill 化。那今天我就把这四个词从底往上的帮你拆解一遍。先说我的结论，这四个东西啊，本质上都是软件工程里面的老物件了，换了个 ai 时代的名字而已。比如说 function calling 就是函数的调用，错，就是工具的执行， m c p 就是原本的客户端加上服务端的机制， skill 则是原本的按需加载。这些啊，只要做过几年软件的人都见过，所以没什么神秘的。但我今天不是来否定他们的，就瓶装新酒啊，不是坏事，关键是你得搞清楚这个瓶子是什么形状的，不然一堆名词满天飞，你分不清楚他们是一回事还是不同的概念出了问题也不知道该去哪里查。那我相信看完今天的视频，你将会对这些名词有更深刻的认知。先从最底层的说起，方克逊 calling 也叫 to use，是同一个东西，只不过不同的厂商叫法不同而已。要理解方克逊 calling 啊，我们先得承认大模型一个本质上的局限，有时大模型只能输出文字，不能执行任何的操作。比如说你让他帮你查询今天最新的国际新闻，大模型是没有办法自己发送查询请求的，那怎么让他调用工具呢？工程师想了个办法，让他输出一种特殊格式的文字结构化的调用意图。大模型不会直接回答你查询新闻，而是输出调用 get news 这个工具，然后由外面的程序去解析这段指令，真正发请求去拿新闻，拿到结果之后再喂给模型，模型最后生成你想要看到的那句回答，这就是 function calling。大模型能识别出我们提供给他的工具清单，并且它能够准确地根据我们的需求识别出需要调用的工具。说白了， function calling 就是大模型的一种能力。这里有一个细节很重要，就是执行循环，完整的流程是你发消息，模型输出调用的意图，程序执行结果返回给模型，模型继续推理，可能再调用下一个工具再执行，直到模型觉得够了，输出最终的回答，这个循环可能会转很多圈。复杂任务里面调用五六个工具啊，是很正常的。管理这个循环是应用层的责任，不是模型的。那现在很多大模型开发用的 longchain、 spring ai 这类框架，本质上就是帮你去管理这个循环的，它帮你把代码里的函数转成模型，需要的 json 帮你跑。执行循环帮你屏蔽各家的 api 格式差异，比如说 open ai 叫 tools， astropik 叫 tool use。但你要知道一件事，框架是换汤不换药的，核心的决策永远是大模型在做，要调用哪个工具，什么时候调，参数是什么，这些判断全是模型的，那模型下完指令后，谁来执行呢？执行的那个东西啊，就叫拓工具，本质上就是一个代码的函数和方法，你可以理解为大模型是只动嘴不动手的，那拓就是给它赋予了可支配操作的能力。拓可以根据 a 件的边界分为两类，第一类，内部工具，比如说读文件、写文件，执行终端命令， a 件的在内部可以直接搞定，你用格式扣的帮你改写代码，他调用的大量的都是这些类，全在本地的文件系统里面转。第二类，外部工具，比如本地 agent 不具备调用第三方服务的能力，得通过另一种方式集成进来。这种实现方式啊，就是 m c p。 m c p 接进来的能力本质上是属于外部工具，只不过走的是标准化路由。这里先记住一个结论， m c p 和 two 是平级的关系， m c p 是外部工具的一种接入方式，不是比 two 更高一层的东西。从本质上来说， m c p 的机制其实就是软件工程的客户端和服务端架构换了个名字而已。 m c p client 就是客户端， m c p server 就是服务端。 m c p 的协议就是定义两端是怎么通信的接口，规范他们怎么握手，怎么传数据，用什么格式。如你做过后端啊，一听就会明白，这个东西就是你一直在写的 rest api，或者 r p c。现在直播叫 m c p，那为什么要叫 m c p？我觉得一部分是 ai 时代的命名游戏概念重新包装，听起来更有分量，但这不是重点，重点是它解决了一个真实的工程问题。在 m c p 出现之前， ai 工具的集成是一坨烂账。假设你有三个 ai 的客户端， cloud code codex cursor，你想让他们都能接入查询新闻的服务，那三个团队需要各自去写新闻集成同样的活做三遍，这是任何工程师都不想碰的重复劳动。那 m c p 就是 ai 工具生态的管理标准。比如说新闻中心按 m c p 的规范做一个 server，所有的兼容 m c p 的客户端都能够接受，这就是 m c p 的核心价值，不是技术革命，是标准化带来的效率提升。但是 m c p 确实有一个地方比传统的 rest api 多了一层，叫能力字描述普通 api，你的客户端必须提前知道它有哪些接口，参数是什么，要么读文档，要么硬编码，不知道就没法用。 mcp server 就不一样，他一启动就会主动的告诉 plan，我这里有这些工具，这些数据源，这些功能，用标准的格式自动列出全部的能力。 plan 运行时动态发现，不需要提前印编码。这对 ai 的场景来说非常的关键，因为大模型需要在运行时知道我现在手里有哪些武器，才能够做出正确的工具选择。这个动态发现的能力是 mcp，比普通 api 调用真正多出来的地方。说到这，你肯定就会发现，本质上 to 也能够实现 m c p 的功能。比如说查询新闻的 m c p，我也可以在自己的 a 站内部直接对接查询新闻的 api，把它包装成一个 to，作为内部的 to 来调用。所以了解了这两个的本质啊，在合适的场景下使用不同的方式才是最关键的。那现在大模型具备了 function calling 的能力，也有了 two m c p 的工具清单，但有时候还是发挥不稳定怎么办？这时候就需要 skill 登场了。但是 skill 是我觉得最容易被过度包装的一个，说白了还是提示词，只不过用了按需加载的逻辑。先说为什么要按需加载，因为 agent 能力越来越多，但是上下文是有限的，你不可能把几十个工作流的完整提示词全部塞进上下文里面，这样的话不止脱口成本会爆炸，模型在一堆信息里面反而选不准，甚至超出了窗口的限制。解决方案很简单，上下文里面只需要放能力的目录，每项能力只有一个名字和一句话，说明模型选中某个能力之后，再把这个能力的完整内容加载进来，用完就清掉。就是这个逻辑，没有更复杂的东西。那在 skill 这个词出现之前，很多成熟的 ag 的系统其实早都已经在用了。 esoteric 不是发明了这个东西，而是把它规范化了，起了个名字，做成了可以分发的标准格式。你可能会说，那这不就是换汤不换药吗？对，原理层面确实是，但是规范化之后啊，有一个真实的价值能力是可以被分发和附用的。你自己做了一套好用的工作流，打包成 skill 发布出去，其他人可以直接安装。直接用个人做的东西啊，可以被放大，这个杠杆效应是散装提示词做不到的。你的能力不只是在自己的电脑上跑，也可以跑在成千上万人的工具里面。好，现在我们把四层放在一起，从底往上的总结一遍。第一层，大模型本底只做下面令，但是不会直接动手，突出的是结构化的调用意图。第二层， function calling 是大模型的一种能力，规定了指令的格式和传递方式，框架负责跑直线循环，把结果未回给模型。第三层， to 和 mcp 本质上都是执行单元，内部工具本地直接跑外部工具，通过 m c p 这套标准化路由出去，两者是平级的。第四层， skill 能力打包层，按需加载，解决标准化流程和上下文装不下的问题，同时创造了能力可以分发的生态。这四个概念各守一层，没有谁替代谁，出了问题也是各自负责那一层要解决的事情。 ok，那以上就是本期关于 function calling two mcp skill 的概念分享，如果对大家有帮助的话，希望能得到你们的点赞和关注。我是布鲁，一位专注于 ai 科普和高阶玩法的博主，我们下期视频再见。
3980布鲁歇一歇
04:13
Skill是2026年学AI最优解，7大宝藏级skill分享 7个热度上涨最高的神级skill项目，用上效率10x #claudeskill #skill#AI提示词 #提示词工程 #智能体搭建
查看AI文稿
AI文稿
二零二六年最值得学习的技能呢，就是 cloud skill，现在 osopik、谷歌 openai 已经全部支持 skill 了，分享七个。最近一个月呢，在开元社区热度上涨最高的 skill 项目。第一个是 obsidian ceo，他自己写的一个 skill，非常牛的用法是直接绘制格式化的 canvas 画布。比如说，我让他创建一个 canvas 来解读刻意练习这本书，它会自动识别出需要调用 jason canvas 这个 skill。大概呢，花了两分钟啊，运行完成，生成一张 canvas 图，它直接把刻意练习书里面的内容和相互之间的关联化出来，整本书的逻辑呢，一目了然。以前看书呢，容易迷失在细节和特定章节里面，现在用这种彩色的画布，让你瞬间纵览全书。再比如呢，让它创建一个读书的阅读管理系统，跟踪目前我读书的进度啊，它会自动识别并调用 obsidian faces 这个 skill，然后生成一套读书管理系统，显示了每本书的基本信息以及阅读的情况，并创建了子文件夹，对每本书进行总结。你还可以自行进行扩展，添加更多书籍笔记到书籍文件夹里面。地址呢，在这里。第二个是 ospec 官方 skill，里面有非常多的 skill，比如说对 word， pdf 进行处理的 skill，可以从 pdf word 里面提取文本。再比如呢，前端设计的 skill，最重要的是这个 skill creator，它可以指导你创建自己的 skill。地址呢，在这里啊。第三个是 gitup 上二点二万 star 的，它可以指导你创建自己的 skill。地址呢，在这里啊！第三个是 gitup 上二点二万 star 的 star，它可以指导你创建自己的这套 skill。什么用呢？第一个，他懂得三思而后行，普通的 ai 拿到需求呢，一般直接开干，但是装了 superpowers skill 之后，他会先按住暂停键，会启动头脑风暴这个模式。反过来问你这个功能的具体场景是什么，有没有边缘情况啊？他会先和你把需求聊透，把模糊的想法呢变成清晰的文档。第二呢，他是一个不折不扣的计划通，需求确定之后呢，他不会乱写，而是会生成一份详细的实施计划。他会把大任务呢拆解成一个个两到五分钟就能完成的小任务，就像一个靠谱的架构师，把蓝图呢都给你画好了，你点头呢，他才开工。第三，他强制执行测试驱动开发，这是很多高级的程序员才有的习惯啊。他会先写测试用力，如果测试失败再去写代码让测试通。最后呢，还要重构，这意味着它写出来的代码呢，其实会更加的健壮。这个 skill 库呢，还有很多功能，地址呢，在这里啊，大家可以去进一步的探索。第四个是模仿 manners 的 skills planning with fields。这个 skills 借鉴的 manners 的设计理念，将上下文窗口类比为内存，一时有限。将文件系统类比为磁盘，持久而且无限。而核心的原则是重要信息均写入磁盘，而不是待在内存里面。针对每一个复杂的任务呢，需要创建三个关键的 markdown 文件。第一个 task pen md，用于跟踪任务阶段和进度。第二个 finding md，储存研究内容与发现结果。第三个文件 progress md，记录绘画日记和测试的结果。这个 skill 非常适合多步骤的任务，三步及其以上研究类任务，以及需要多次调用工具的任务。地址呢，在这个地方，第五个是自动上传内容到 notebook l m 的 skill。这个 skill 呢，也可以让你通过 cloud code 快速获取带有来源引用的打答案。对于每一个从 cloud 发出的问题呢，会先通过 notebook lm 进行一次答案的综合，然后再用 cloud 进行回答。这个技能借助 notebook lm 的预处理能力，让 cloud 仅需要发送查询指令，接收精准答案，大幅地降低了 token 的消耗。地址呢，在这个地方，第六个啊，是 skill prompt 检测 rater。这个呢，是用来生成图片提示词的，内置了十二个专业领域的 skills，比如说人像提示词专家，艺术风格专家、平面设计专家等等。它会根据用户的输入呢，自动匹配对应的专家来帮助生成图片提示词，从而实现精细化生成的效果。比如说我让他生成生成电影级的亚洲女性张艺谋电影风格。使用豆包得到的图片呢，是这样的，而这个呢，是没有使用这个 skill 的生成结果。我们可以发现呢，如果没有使用这个 skill，生成的结果呢，更加的发散和随意。第七个是用来做内容营销的 skill，可以根据多个关键词来生成文章，适用于 s e o 的场景。地址呢，在这个地方， skill 呢，将 agent 和工作流的门槛呢，又降低了一个级别。二零二六年注定是各行各业 skill 的爆发年。现在看完这个视频呢，你就可以立刻去用起来，有什么不懂的可以评论区告诉我，想系统化学习呢，也可以加入我们的社区，下一期呢继续。
3132清华鑫哥讲AI智能体
00:52
一天怒写两万行代码！这究竟是个什么神仙skill？最近这个YC的CEO做的Skill——Gstack火了，短短621行代码，直接内置了15个专业的AI角色。只要给它一个验收标准，它就能严格按照Boil the Lake原则工作，不仅干活绝不偷工减料，还能全自动实现“思考-计划-构建-测试”的完整闭环，一天爆肝两万行代码！更牛的是能力还能迁移到其他领域。
#AI #Gstack #skill #openclaw #赛博自由老爹
查看AI文稿
AI文稿
顶级的 skill 长什么样？最近 yacomenter 的 ceo 开源一个神级的 skill，就是 gstar 这个开源项目。你会发现这个有六百二十一行的 skill 直接能让你当 ceo。内置的十五个 ai 角色，包括创始人，设计师，工程经理，质量保证工程师等等，让你拥有一个完整的虚拟工程团队。你看，给我的龙虾装上这个 skill 以后，他已经为我的项目整整跑了两个小时了，只要给他一个验收标准，他就能做到全自动闭环。如果说这个 skill 是给 ai 的打工规矩大权，那么里面最重要的一条是 boiler lake 的原则，让 ai 做事情绝不会偷工减料。其次是给他定了一个 think plane， build review， test， ship， reflect 的工作流程，结合十到十五个 spring 的定型能力，让你一天就能产出两万行代码。更牛的是，不仅仅是血橙须，你还可以用这套方法迁移到其他领域，比如商业教育，它真的能给你一套完善的解决方案。以前我们说一个人活成一只队伍是在开玩笑，但现在 g stock 让它成为了现实。
9077赛博自由老爹
04:52
用Skill生成AI产品PRD❗如何做&我踩过的坑 #AI产品 #Skills #AI编程 #vibecoding #AI产品经理
查看AI文稿
AI文稿
今天带大家零到一口喷做一个 ai 产品经理的 p r d 生成的 skill。首先给大家看一下我用这个 skill 针对于合同文件审查智能体生成的一个 p r d 文件，这个目录我是专门在这个 skill 里面去写进去的，你可以发现这里的目录的链接是可以点击的跳转到对应的文件。 ai 产品的 p r d 和传统的 p r d 其实是非常不一样的，除了业务背景目标进行分析产品方案以外，大家可以看到详细设计，这边会有 a 证的工作流设计， prom 设计规范，术语模型，然后非功能需求有一些性能的要求，以及我们讲 ai 产品经理非常重要的关于你产品的整个的评估体系，包括数据评测级和 bad case 分析和迭代闭环。所以这个 prd 相对于来说是非常非常完整的。比如说这个 ai a 阵的角色的工作流设计，这个里面会包括四个 a 阵的一个文档解析的 a 阵，这个 a 阵执行它的一个角色以及它需要的信息能力和工具清单其实都是有的。整个的这个合同智能体的 a 阵其实是一个多智能体协调架构，它包括四个 a 阵。在这个 prd 里面所有的这种流程图都是可以通过 moment 来进行渲染的，非常非常直观。包括这里的持续图，包括所有的 prompt 设计规范，整个的工具调用规范，以及呃， ai 帮我们生成的评估的指标，生成的评估的测试体。整个的 prd 作为初稿来说，基本上六十分肯定是有的，还是需要去进行一些优化，同时把你优化调整的部分去不断的再去完善这个 skill。给大家看一下我的 skill 文件，之前我也有很多视频跟大家讲了 skill 是什么，这个里面包括概述使用方法，它的执行的流程，具体的信息，它的设计规范等。呃，跟大家讲一下我的整个的这个 skill 开发的过程，我是把整个的 skill 开发完了以后，结合 excel 的插件，让 ai 帮我自动形成了一个这个开发的流程。整体来说我的一点零的这个 skill 分成四个阶段，第一个是我给到 ai 提供了一个优秀的 p r d 的文件的样例以及核心模块的一个书写的要求，同时要求他按照我给他提供的样例帮我去生成这个 p r d 的呃 skill 的 md 的文件，同时他创建了个进度管理文件，在第一阶段完成以后，出版本或说槽稿版本的 skill 就已经开发完成了。这个时候我用出版本的 skill 我给他提供了个新的场景，说你帮我去写一个合同的审查智能提的这么一个 p r d 的文件，在理解了我的需求以后，跟我写作了以后，基于这个 skill 帮我生成了 p r d 的文件，然后我对于 p r d 的文件去进行了一些检查以及校验，告诉他这个 p r d 文件里面哪里还有具体的问题，跟他写作的过程当中去解决了很多 bug 以及优化的流程。最后基于这个 p r d 的文件，我跟他写作过程，他在反向的去优化哦他的 skill 文件，直到我们把 p r d 完成了以后，形成了这个一点零版本的 skill，然后给大家看一下我和他那个开发过程。首先第一句话我会给他发一个 quarry，就是我是一个 ai 产品经理，我想做一个自动化写 p r d 的 skill，请你参照 color skill 的结构，帮我开发这个 skill，并保存在 skill m d 文件当中。然后我就给了他两个参考文件，第一个是我们过往写作的一个优秀的 p r d 的视例，第二个的话就是一个 ai 产品 p r d 的核心模块的书写规范，我告诉他，请你参考这两个文件，帮我抽象出这个 p r d 写作 skill。我后续的所有的场景都需要附用这个 skill，他就正在读取这两份 pdf 文件，在这个时候他就已经可以创建这个 skill md 的文件了，也就是刚给大家展示的这个草稿的这个 skill 文件。第二步我就告诉他，请调用这个 prd 的 skill 文件，帮我写一个合同文件审查智能体的 prd，我会基于他生成的 prd 的结果和他进行写作调整，逐步来完善这个 skill。所以在这个过程当中他就跟我交互，最后把这个合同文件审查智能体的 prd 写出来，也就是这份文件。针对于这份 prd 文件，我会发现有几个坑，第一个坑是一开始他给我的时序图还有流程图都是代码形式的，但是我想要去做格式化呈现，所以我就告诉他，我想调用 mmm 工具来做格式化的呈现，他就给我去做了一些脚本上，以及嗯，帮我去建议我去加哪些插件，我就可以最终实现这样一个格式化的一个效果。同时我要求他帮我把这条规则补充进 p r d skill 中，他就帮我去更新我的 skill 文件，包括说一开始他帮我做出的这个时序图和流程图，有一些色块和字体是看不清楚的，比如说像这种我就直接口喷告诉他需求他就可以给我改，对，改成这样其实是非常快的。当我的 skill 开发完成了以后，我又艾特他，我当时给到他的一个对应的核心模块及规范，让他帮我 review 一下他现在生成的这个 skill 是否已经完全的从这个核心模块规范文件当中抽象画出 p r d 写作的规范。在他 review 的过程当中，他继续的帮我补充了一些信息，最后我将这个 skill 文件保存为一点零的版本，同时告诉他帮我把这个 skill 研发的过程帮我总结一下。同时因为开发这个 skill 文件踩过了很多坑，所以我让他把这些经验教训保存在一个叫做 lessons md 的这个文件当中。开发过程当中踩过了坑，后续的话不希望呃在其他的项目当中去复现。他给我形成的这个 lessons md 就是开发经验教训与避坑指南，其实就在这里，包括 moment 的开发的问题，我看不清的问题等等各种各样的问题吧。所以也给大家一个启发，就是可以及时的和 ai 交流一些开发当中的坑，然后及时的去保存在这个经验教训的文档当中，你的 ai 会越用越聪明。我检查过程当中，我还发现他一看给我的目录只是文字的形式，我觉得上下拖拉拽是非常难的，而且我很难定位，所以我又让他帮我去在目录这里去增加一个定位的超链接，让我对应点击就可以到对应的这个章节的内容，方便我去阅览我的 pdf 文件当中去整个的 skill 的研发过程当中，自己是没有写一行代码的，这种 skill 的创建的过程，以及我们在研发过程当中和 ai 的交互，包括经任教训的总结，以及整个开发流程的回顾，以及给到 ai 相关的一些参考的信息，从具体的事例当中去抽象出一些规则，让 ai 自己去学习的这种方法是我们自己在 coding 的一个可以积累的经验，如果你有兴趣的话，可以自己动手去试一试。
6777亚慧AI产品经理
03:07
当你有个懂金融的老爸(86期)Skill到底是什么 #老爸白话 #ai #闲鱼
2.3万方师傅
02:02
别再手写 Skill 了！微软现在已经可以像训练神经网络一样训练 Skill 了，实现你的 Skill 自进化！#AI #Agent #skill
查看AI文稿
AI文稿
如果你还在熟悉 skill，那么今天这条视频你一定要看完。昨天微软官方提出了一个叫 skill opt 的方法，核心思路是把 skill 的文档当成神经网络的权重，用类似训练神经网络的方法去自动优化它。先说结论，经过优化后的 skill 非常的炸裂，该方法在五十二个组合测试中全部取得最优或者并列最优，平均提升二十三点五分，完全碾压人类用 ai 生成的 skill。那么它是怎么做到的呢？我用大白话来给你讲清楚，你可以把整个过程想象成一个工厂工人，就是你平时使用的那个 agent，比如说 cloud 或者是 jpt。工人手里有一个操作手册，这个就是你写的 skill 工人按照你给的这个手册干活，手册写什么，他就照做什么。然后呢，工人旁边站了一个管理顾问，他也不干活，他就只看你这个人做错哪了，然后去改他的手册。这张图就是 skill opt 的整个训练循环，他其实干了六件事情。第一件，最上面这个 skill 点 m d，就是你要拿去训练的是模型参数，在这个 skill opt 里面训练的就是这本 skill 的文档。第二步，让 agent 带着当前这份 skill 去跑一批任务，比如说处理表格，回答问题，操作文档或者是代码。任务跑完之后，每个任务都有结果，做对了还是做错了？错在哪里？第三步，复盘系统会看一下刚刚这一批任务的失败记录，判断一下为什么会错，是没有提醒，还是说某个步骤缺失，然后进行到第四步，这一步很关键，它并不是要把你的整个 skill 重新写，它只允许你改几个少量的规则，论文里说它最多原则上只能改四个，为什么呢？因为如果你一次改的太多的话，你根本不知道是哪一条规则起作用了。第五步就是生成一份后选的 skill。第六步，拿这一批不参与优化的这个 skill 来进行测试。如果新版的 skill 分数变高，就把这个新版的 skill 作为我们下一步的 skill。如果分数没有变好或者甚至变差了，那么我们把刚刚训练的这个 skill 给抛弃掉，训练一会，新的 skill 就这样通过这种反馈循环来自动的把你这个 skill 进行优化。那么我也会把相关的论文和 facebook 仓库地址放在评论区，有感兴趣的同学可以去看一下。好了，以上就是今天的所有内容，感谢你的观看，如果对你有帮助，欢迎点赞、评论、转发，我们下期见！
1457KmTech
01:44
Claude Code必装的3个元skill，让你少走弯路。#ai #人工智能 #claude #skill #AI工具
查看AI文稿
AI文稿
现在的 skill 越来越多，但只有三个，我管他们叫原 skill，这三个之外的所有 skill 其实都是他们的延伸。我把他们的原码都读了一遍，今天分享一下。先说第一个， g stock，这是 yc 总裁 gary 公开分享的工作流套件，里面其实是二十三个子 skill 的合集，它直接能把 cloud code 变成一个工程团队，包括 ceo、设计师、工程经理、 qa、安全官、发布工程师，每个角色都有专门的 skill。 mary 自称用了这套工作流之后，代码产出速度是二零一三年的八百一十倍，同时他还在全职运营 y c。举几个例子， office owners 用于帮你判断一个产品想法值不值得做。这个 skill 的数据来源是 y c 投过的所有公司案例从中提炼而出。 investigate 是修复项目 bug 用的 skill， ship 是发布项目用的 skill。装一个 g stack，等于一次性装了一套别人验证过的工程团队。有了工作流套件还不够，因为你的需求会越来越多。这就要用到第二个 find skills，找其他 skill 的 skill，你告诉他我想实现什么功能，他就会自动去 skills 排行榜查热门的 skill。源码里还有一条质量筛选规则，安装量一千以上的优先，低于一百的，他才会提示你谨慎选择，搜到合适的还会直接给你安装命令。如果你找不到现成的 skill，可以自己做。这就是第三个 skill。 creator，做 skill 的 skill。这个 skill 里面有很多关于怎么写 skill 的优化，最让我意外的是它的 description 优化器，很多人写完 skill 之后发现触发不准， ai 该用的时候不用，不该用的时候乱用，这个优化器把触发准确率直接拉满了。这个细节官方文档都不写，只有读野马才知道。为什么这三个我管它叫原 skill g stack 给了你一个起点，装一个就有一整套的工程团队。 founder skills 给了你扩展 skill， creator 则给你定制起点，扩展定制你后面所有的 skill 需求都可以从这三个原 skill 长出来。
5704鲤哥builder
04:11
Codex Skill 技能 Codex skill 技能是什么？有什么用处？怎么自己创建skill？怎么用别人生成好的skill？一个短视频带你了解skill全貌
#Skill #CodexSkill #skill #codex #vibecoding
查看AI文稿
AI文稿
大家好，我是郑一怀，今天我们来看一个超实用的技巧， codex skill 就是技能，你可以把 skill 理解成给 codex 写的一份专用操作手册，比如你经常让 codex 做同一类事情，比如检查文章有没有 ai 味，文案是否符合提词器格式等等，如果每次都重复说一遍的话，就会很麻烦，所以这个时候我们就可以用到 skill。 skill 的作用就是把这些重复要求保存下来，下次直接调用就行。普通提示词就像是临时交代一句话，而 skill 更像是长期保存的 sop 代码词，里面有自己的 skill，在这个插件里面点这个技能，在里面你按需进行下载就可以。当然我们也可以创建自己的 skill，接下来我们就用一个简单的事例来进行演示，创建一个新对话。当我们自己创建 skill 的时候，我们可以利用 codex 提供给我们的创建 skill 的 skill 就叫 skill creator，就是 dollar 符 skill creator。紧接着我们把我们的要求发给他就行，我们把我们的要求发给他，创建一个技能，名字叫 script checker。当我们说检查口播 review 文案的时候，对提供的口播文案进行审查，具体要求就是前三秒是否足够吸引人，有没有 ai， word 格式，是否适合提词器，是否像真人聊天等等。好，我们现在发给他，他现在正在创建 skill，我们看到现在这个 skill 他已经生成了，下面我们来用一下这个 skill 调这个 skill，同样是输入 dala 符，然后再输入我们的 skill 名称就行，叫 scrape。紧接着我们把一段我们事先准备好的文案发给他，文案就写的很官方，很正式，我们发给他，让他们帮我们优化一下，那现在已经按照我们约定好的流程来进行处理了，现在他已经改完了，我们大致来看一下，总体上来讲，他就是按照我们的要求，然后对这个文档进行一些优化。好，这是我们自己创建的 skill，那我们也可以用别人创建好的 skill，比如我们安装一个插图的 skill，这个 skill 是宝玉做的，它可以给文章来生成配图。我们要用别人的 skill，那我们第一步当然是要安装，安装方法其实也很简单，我们把人家的 github 链接发给他就行。例如我们现在在谷歌浏览器里面看一下，我们要装这个 skill，我们点进去看一下，我们只需要我们把这个链接发给他，请帮我安装这个仓库中的 skill 发给他。现在宝玉 skill 我们已经安装完成了，他需要我们重启，我们来重启一下，重启之后我们来用一下别人的这个 skill，正好这个项目下面有一篇文章，我们看一下这篇文章原先里面是没有配图的，它里边是纯文本，里面没有配图。现在我们来用一下人家的 skill 啊，我们要调用人家这个 skill，还是通过多尔福或者是斜杠，然后进行调用就行。我们现在用的是宝玉杠 article，然后再输入我们的文章名称，紧接着我们给他提一下我们的要求发给他，这样子他就会先扫描文章，然后给重点段落生成图片，并且把图片插入到文章的对应位置，他现在对于生图给我们提供了一些建议，我们确认生成，他现在已经生成了第一张图片，我们看到现在图片他已经生成完成了，而且也插到文章里面了，我们可以看到他给我们插入了一些图片。嗯，预览一下，这些就是他新插入的图片，我看效果还可以。这篇文章的内容就是今天我们讲的内容，他现在已经给我这篇文章生成了配读，效果还不错。大家有什么问题的话可以在评论区留言，你要是知道有哪些有意思的 skill，也欢迎在评论区给大家分享一下。
529郑一环
09:29
SkillOpt: Executive Strategy f #这份研究介绍了 SkillOpt，一种专门为提升大型语言模型智能体（Agent）能力而设计的文本空间优化器。不同于传统的人工编写或由模型一次性生成的技能，SkillOpt 借鉴了深度学习的优化理念，将智能体技能视为一种可训练的外部状态。它通过分析智能体执行任务的成功与失败案例，由一个独立的优化器模型提出受控的文本编辑（增删改），并仅在验证集得分提升时才接受修改。该系统引入了文本学习率、拒绝编辑缓冲以及周期性慢更新等机制，确保了技能演化的稳定性和可重复性。实验证明，SkillOpt 在多个基准测试和模型（如 GPT-5.5）上表现优异，显著提升了智能体在复杂任务中的准确率。最重要的是，生成的技能文件具有紧凑性和可解释性，且无需调整模型权重即可跨模型或跨环境迁移。
arXiv: 2605.23904 #AI #Research #Arxiv #MachineLearning
查看AI文稿
AI文稿
欢迎大家来到这期原理解析，今天我们要聊点硬核又非常激动人心的东西，一种能让不可修改的人工智能实现自我进化的突破性方法。想象一下，当 ai 不再眼巴巴地等着人类去喂它数据，而是能像个经验丰富的自主学习专家一样去迭代自己的技能时，这个世界会发生什么？准备好跟我们一起探索最前沿的技术了吗？咱们直接开始吧，咱们直接切入正题。大家做开发的时候肯定都遇到过这个非常头疼的问题，到底怎么才能教一个已经完全冻结锁死底层的 ai 去学新东西？要知道，去修改那些庞大的前沿大模型的底层权重不光是极其昂贵，过程繁琐，对于很多商业化的封闭模型来说，你根本就没有那个技术权限，这就让很多开发者感到非常无力，对吧？不过最近有个叫 skill op 的全新系统直接给出了破局的答案，而且最夸张的是，他在极其严格的测试里，硬生生的拿下了五十二项精准测试的五十二连胜，毫无破绽的全胜。那么他到底是怎么做到的呢？其实核心逻辑特别颠覆，他彻底抛弃了传统的人工干预，直接让 ai 自己去给自己编训训练手册。要理解这是为什么算是颠覆行业的大招。咱们得先认清当前大家普遍面临的脆弱智能体问题，因为现在咱们手里用的这些模型，根本没法轻易去更新他们的底层参数权重，所以他们执行任务时能靠什么？只能靠人类绞尽脑汁手搓出来的那些临时文本指令，这些指令极其脆弱，环境稍微变一点点，或者任务边界稍微挪一下，整个流程立刻就崩给你看。那 skill up 的解决思路呢？简直绝了！它直接把任务一分为二，一半是干活的冰冻目标模型，也就是咱们决不去碰它任何底层权重的那个模型。另一半呢，是一个像火一样充满活力、极其聪明的前沿优化器模型。这个优化器就在幕后疯狂运转，不知疲倦地分析目标模型每一次执行任务的反馈，然后像个铁匠一样不断锻造打磨出全新的技能文档，再递给目标模型去用。这篇研究里有个特别惊艳、让人拍案叫绝的比喻，大家不妨换个脑筋想想，如果我们把一个普普通通的纯文本文档，完完全全当成神经网络的参数去进行取练，会发生什么？这实际上就是把那些充满复杂数学计算的深度学习概念，极其巧妙的平移到了我们可以直观理解和干预的纯文本空间里，这就彻底打开了新世界的大门。你看，传统的深度学习全靠数学上的梯度下降，却一点点微调模型内部的参数权重。但 skill opt 完全胜为了它利用 ai 执行任务后产生的那种非常详细的轨迹反馈，来精准算出所谓的编辑方向。接下来，就像我们在微调非常精密的仪器一样，它会极其谨慎地去直接修改那个纯文本的技能文档本身，完全不去碰那些被死死锁住的权重残数。想象我们现在处在一个充满了无数种可能性的广阔技能空间里，以前那种人工瞎猜临时拼凑文本的更新方式，就像是在高维空间里闭着眼睛瞎跳，很容易就一脚踏空掉进谷底，导致系统崩溃。但 skill up 采取的是一种有边界限制的边际策略，就像是用非常科学严谨的方法，在崎岖的山路上开辟出了一条平滑稳定的下降通道，稳扎稳打的逼进更优的技能状态。那么问题来了，概念上这么漂亮的理论，到底怎么落地成一个真正能大规模运行的系统，就得扒一扒它内部精密设计的流水线了。各位，这个流程绝对不是在那毫无章法的瞎改文本，恰恰相反，它内部有着极其严密的测试和反馈闭环，每进化一步，都有严谨的数据在背后支持。整个流水线被拆解成了非常清晰的四步。首先直接拉去实战跑一圈，全面收集真实执行任务时的行为证据，然后停下来对这一批次记录的成功和失败案例做深度的自我反思。接着基于反思结果，提出带着清晰边界限制的文本修改建议。最后，也是最决定生死的一步，去过一道极其残酷的淘汰测试。这道残酷的测试就是严苛的验证门槛儿，他绝对是整个净化流水线里铁面无私的守门员儿。他确保了一件事，只有当这轮文本修改能在 ai 之前从未见过的新任务上实打实的、严格的提升了表现得分时，这次修改才会被正式采纳。稍微信不一点点，或者只是打个平手？抱歉，统统不行，必须是绝对的提升！那你可能会问了，如果优化器煞费苦心想出来的修改，最后在雁降门槛被刷下来了咋办？放心，系统精明热闹一点都不会浪费，哪怕被倔了，这个失备经验也会被丢进一个负面反馈缓冲器里，给优化器当反面教材，告诉他下次绝不能这么干。再加上系统里还有一种周期性的慢速原更新机制，相当于有个长期记忆库，这两手一配合，整个训练循环简直稳如泰山。好了，看完了这套精密的机械结构和理论基础，咱们来看看真刀真枪跑出来的成绩，毕竟在咱们技术圈，最后还是得靠硬核数据说话，对吧？来看看 skill opt 是怎么在最严苛的行业测试里，用绝对实力碾压所有对手的。在基于较为强大的 g p d 五点五模型的直接对话评估里，这可不是那种抠抠搜搜只提升一两个点的小打小闹。相比于完全没有加装任何特定技能的基础模型， skill optim 让准确率直接原地拔高了惊人的二十三点五分。各位，在这个级别的测试里，这种幅度的暴涨，这已经不能叫油化了，这根本就是跨越阶级的性能跃升。而且这种压倒性的优势是极其全方位的，不管你是拿毫无头绪的白板模型比，还是拿行业内人类专家反复打磨出来的神级提示词去比，哪怕是对比目前市面上号称最先进的自动提示优化器 skill opt，每场对决都赢了，特别是在处理电子表格这种极其需要逻辑和程序化思维的人物，还有复杂的办公问答里，它的领先优势大得让人吃惊。不过要是咱们只盯着高分看，那真就错过了这套系统最王炸的部分了。这套系统真正能在商业和工程上掀起波澜的杀手锏，是它极其恐怖的可迁移性。什么意思呢？就是你花力气训练一次这个技能文件以后，它就像个 u 盘一样即插即用，走到哪插到哪。我举个特别实在的例子，你完全可以在一个像 codex 这样的代码执行环境里，花算力去把一个复杂技能给训练出来。然后呢，你把最终生成的这个纯文本文件直接扔进一个完全不同架构的 cloud code 节省环境里，根本不需要重新费时费力去训练模型性能瞬间就能在新环境里实现大幅飙升。这种真正意义上的无缝附用，给开发者省下了多少海量的试错时间和昂贵的算力程文呢？而且为了证明 ai 自己进化出来的这些技能文档，真不是什么胡乱堆砌的废话或者乱码，大家听听这条真实记录下来的程序规则，这是他为了过任务精准自己总结的，保持对已访温节点的感知，在连续发生同类型失败后，主动使搜索策略多样化，并且在未锁定目标前避免重复访问。死胡同。这语气，这严密逻辑，简直就像是你身边最靠谱的那位资深人类架构师写出来的工作指南，不是吗？对工程界来说，最爽的其实还有一点，最终生成的这些技能文件简直小巧的不可思议，长度通常就只有短短的三百到两千个头跟，而且在训练阶段往往只需要个位数的一到四次精准修改就能完全成型。这意味着什么？这意味着当你最后要把 ai 智能体部署上线的时候，这个能带来巨大性能飞跃的技能包几乎实现了真正意义上的零额外推理算力成本。这就把我们推向了一个略带科幻感却又非常迷人的现实。如果现在的人工智能已经可以完全不需要人类手把手教，就能自己有条不稳的去编辑及其严格的去验证，甚至像科学家一样迭代他们自己的操作手册。那么在这庞大而复杂的人类软件工程大厦里，下一个被他们完美接管和取代的环节又会是哪一块呢？希望这期原理解析能给你带来一些新的启发，我们下期再见！
3寻
12:32
别再乱装Skill了！这4组Skill，才是顶级生产力。如果Skill没有配置好，那么Agent使用起来的效果就会事倍功半。
我尝试了十几个Agent和几十个Skill，这些Skill是我每天都在用的，而且不依赖特定的Agent。
#skills #Agent#大模型 #claudecode #ai新星计划
查看AI文稿
AI文稿
别再纠结是 codex 还是 cloud code 了，我在实测了数十个 agent 之后，发现真正决定生产力上限的不仅仅是 agent 工具，还有你手里的 skill 配置。如果你的 skill 没配对，换再强的 agent 也是在浪费时间。所以我根据实际开发场景和我的日常使用，筛选出了这四组最核心的顶级 skill，包含了原能力扩展、工程化开发、前端设计和内容创作。它们完全不挑平台，不管你以后切换到哪个 agent 装上都能用。先讲最根本的两把钥匙，我称为原 skill。你可以把它理解成让 ai 自我进化的能力，它不负责具体的活，而是专门用来扩展 agent 的能力边界的。不管你用 ai 做什么，这都是你第一天就应该打好的地基。第一个是 skill creator，来自 antropic 官方。如果你想把一套成熟的工作流变成一个新的 skill，便于后续调用，那么选它就对了。以前想自己做个 skill 特别麻烦，得先去研究半天复杂的格式，不然可能写出来的 skill 还会报错。就算写出来了，使用效果也不一定尽如人意。但现在有了它，你不需要去研究什么复杂的格式，也不用手动改文件，你只需要像给同事交代工作一样，用大白话把你的流程说一遍，或者直接把你的操作手册丢给他，他就会自动帮你起草、测试、反复迭代。在你自己完全不用看开发文档的情况下，一分钟就能写出一个既标准又好用的 skill。安装和使用方式也很简单，在安装完成后，只需要在 agent 里选中 skill creator，然后输入你的需求，和它一步步地进行沟通就好。建议直接局安装，这样无论你在哪个项目里，都可以随时进行调用。第二个是 find skills，大家千万别把它当成一个普通的搜索插件，觉得还得自己手动去查。真正的用法是你直接给 agent 派任务就行了。比如你让他帮你做个 ui 设计，要是他发现自己不会，他就会自动把你的需求拆解成 ui 抵赞你这种关键词，然后自己去全网搬救兵。他在后台连接的是 skill 点 s h 这个平台，他会自己查看哪个 skill 安装量大，哪个作者靠谱，然后挑出最好的那个供你进行选择。在你选择好之后，它还能直接一行命令帮你安装上 skill。 creator 是让它能自己造工具，而 find skills 是让它能去外面找现成的，这两个配合使用，一定能大大提升你的 agent 的工作效率。接下来是针对具体场景的 skill。先说软件开发，我选了这三个， superpowers， j stack 和一个前端大神的 skill，它们针对的场景略有区别，但核心都在解决同一个问题，就是终结那种看似逻辑闭环，实则无法落地的代码幻觉，帮你守住工程底线。第一个 superpowers，他的杀手锏在于他把测试驱动开发这套严苛的工程标准，直接变成了 agent 必须遵守的硬规则。其实很多人刚开始用 ai 编程，最容易上手的场景就是让他写测试，而 superpowers 顺着这个逻辑直接把开发流程给正规化了，他会强制 agent 进入一套标准的红绿重构循环，先写一个必然失败的测试，证明功能还没实现，然后写最少量的代码，让它变绿，最后再进行优化，而且它非常稳。 agent 写完之后，它会自动开启两轮内部审计，一轮看代码，实现跟你的需求对不对的上。另一轮则专门盯着代码的质量挑毛病。这种慢思考的模式能帮你抓出很多隐藏的边界问题。虽然看起来多花了一点点时间，但因为它第一遍就能把代码写到八十分以上，省掉了后面无数次反复抵 bug 的时间，长期来看反而更省头肯也更省钱。它的整个工作流程大致如下，首先他会拉着你做头脑风暴，把需求细节彻底磨清楚，先出一份整体的设计文档。然后他会把大任务拆成一个个几分钟就能搞定的小碎活儿，每个活儿都有明确的验证标准。接着就是让紫 a j 特自己去跑，他自己写，自己查，严禁跳步，你只要在旁边关键节点确认一下就行。最后等测试全部通过了，他会把选项丢给你，是直接合并代码，还是先留着分支，或者觉得不行直接丢掉？第二个是 j stack，作者是 y c 的总裁 gary 谭。如果你还不知道 y c 是什么，简单说，它就是全球最牛的创业孵化器，像 airbnb、 dropbox 这种巨头都是它孵化出来的。所以这位大佬出的工具，骨子里带的就是那种硅谷创业者的实战基因。这个工具有一点不同，它不是那种功能单一的 skill，而是在 agent 里内置了二十三个不同的专家角色，从 ceo、设计师到发布工程师，你都可以通过斜杠命令直接调用，这相当于给 agent 配齐了一整支团队，让他不再是单兵作战。为什么要搞这么多角色？因为真正做商业系统，代码行数不值钱，能跑通才值钱。有了这群专家帮你交叉审计， agent 就能在不同的专业视角下，把你揪出那些隐藏极深的问题。我来向你介绍一下它的实战流程。首先，在你动手写第一行代码之前，先跑一下 office hours 命令。这就是 yc 最出名的灵魂拷问。 ai 不会立刻写代码，而是像个严厉导师一样，反问你六个最尖锐的问题，把不靠谱的假设先掐死。接着可以用 plan ceo review 命令，让 agent 站在 ceo 的高度审视计划，看看有没有更优解。到了代码复合阶段， review 命令就是你的资深工程师，他不光找小 bug，更盯着那些 c i 能过，但一上线就可能爆炸的工程隐患。另一个具有实战特色的是 q a 命令，以前 a 阵呢，只能在代码里纸上谈兵，但这个命令是真的，会打开浏览器，像真人测试员一样去点击验证，直接把 bug 抓出来修掉。最后活干完了，直接执行 shift 命令，它会自动同步跑测试、推代码、开 pr。整套发布动作一气呵成。该瑞坦统计过，二零二六年，它的代码产出是二零一三年的二百四十倍。这不是说 ai 写的代码行数多就是厉害，而是同样的需求，他一个人现在能顶一支小团队在干活，这就是角色分工带来的本质变化。第三个是一套前端大神 mod，自己日常工作用的 skill，作者是 typescript 的布道者，如果你平时前端开发比较多，那么可以试试这个。这套工具重点解决的是人与 agent 之间沟通对不起的问题。 mark 总结过，如果没有好的引导规则， agent 写代码很容易陷入几种困境。首先是理解偏差， agent 可能根本没听懂你需要什么，或者写得太啰嗦，废话很多。然后是执行失败，好不容易写出来的代码，结果发现根本跑不通。最后是架构隐患，虽然代码能跑，但因为缺乏整体规划，后期维护起来会非常痛苦。所以他的这套 skill 核心逻辑很简单，宁可在前期多花几分钟对其需求，也不要在后期花几个小时去处理这套低质量的代码。具体到这套 skill 里面的指令，我建议你重点关注这几个。首先是 graeme 系列的命令，这就是刚才提到的拷问模式，当你提了一个模糊的需求，比如说想加个登录功能，他不会马上动手，而是会回过头来不停地拷问你细节。可能问完之后，他发现你真正想要的是 sso 环境下的多租户登录，这就把隐患消灭在开工之前了。接着是 tree 命令，也就是 aure 分诊，他会帮你把所有的任务都过一遍，分清楚轻重缓急，确保你不是在修一些细枝末节的小 bug，而忽视了真正堵塞进度的核心问题。最后还有一个 improve 命令，这是代码库的架构急救包，你可以每隔几天就跑一次，让 agent 站在大局的视角审视你的代码库，找出那些以后可能会越来越难改的地方，并给出重构的建议。接下来是前端页面设计，这是最开始编程 agent 出来时，他做的最差的一个领域之一。 agent 化 u i 出来的永远都是那些固定的套路，固定的字体，蓝紫色的渐变背景、圆角卡片、特定的按钮样式。你在网上看到的那些 ai 生成的界面，十个里面有十二个长的都一样。解决这个问题的 skill 有两个，第一个是 frontend design， afropic 官方出品。如果你受够了那种千篇一律的 ai 审美，那它就是你的救星。以前的 ai 画 ui，一眼看过去全是圆角卡片加紫色渐变，就像是在共用一套廉价的模板。而 front and design 的核心是帮你洗掉这些 ai 位。它不是机械的套用组建，而是根据你的产品调性去推敲更有质感的纹理，或者尝试那种更有呼吸感的非对称布局。比如你给他提一个具体的风格要求，想要一个杂志感带点硬核感的页面，他给出的方案里，字体的比例和模块间的留白都会处理的很到位。有了这种对视觉细节的把控，你的 ui 就从一眼 ai 变成了真正意义上的耐看。第二个是 u i u x pro max。如果说前面的工具是帮你找灵感，那这个就是直接帮你配了一个设计总监。它的特点在于，它不是在靠直觉画图，而是把专业设计的那些条条框框全部变成了底层的逻辑。比如你要做一个金融或者医疗类的界面，它会非常明确地告诉你什么样的配色能体现安全感，什么样的字体更显专业。他甚至还会给你列出一份避坑指南，直接点出哪些设计在商业场景里是绝对不能碰的。之所以能这么专业，是因为他后台内置了一百六十多个行业的深度规则，不管你遇到多冷门的业务，他都能拿出一套成体系的方案，从交互细节到动效走位，都给你安排的明明白白。而且它有一个很实在的功能，就是能帮你生成一套可以持久化附用的设计系统。有了这套规范，你下次再开发新项目，直接把文件丢给 agent 就能用，不用每次都从零开始打磨风格。而且它的上手门槛很低，无论是装插件还是用命令行，都能快速跑起来。这两款工具的分工也很明确， front and 底钻负责把画面画得出彩，而 u i u x pro max 负责把产品做的更专业。有了它们， ai 的输出就再也不会有那种廉价感了。最后一类，内容创作。如果你用 agent 做内容创作，那这组宝玉老师的 skill 我一定要强力推荐给你。它首先解决的就是内容本身的高质量产出，比如它能帮你生成一张极具审美，完全不输专业设计师的封面图，或者把一大段枯燥的文字直接变成一张高信息密度的格式化信息图。在内容做漂亮之后，他还会顺手帮你搞定后面那些讨厌的碎活，比如说转格式、做排版，最后还能直接一键发布到各个平台，他把从生产到发布的全流程都打通了，有了它，你就能真正实现生产和发布一体化，把所有的精力都集中在打磨好内容上。宝玉老师的这套工具箱里包含了十几个好用的 skill，我这里简单带大家看几个。首先是用于生成封面图的 cover image skill，它最强的地方在于有一套五维控制系统，从构图类型、色调方案、渲染风格到文字排版和情绪基调，全都能精准调优。这七十七种预设组合，能让封面彻底告别开盲盒的随机感，每一张出来的效果都像是为你的文章量身定制的专业设计。如果你平时觉得画逻辑图、架构图很头疼，那这个信息图相关的 skill 绝对是神器。它内置了二十一种专业的信息布局，像分析原因的鱼骨图、做转化的漏斗图、梳理层级的金字塔图应有尽有。更聪明的是，它能自动读懂你文案里的逻辑结构，直接推荐最合适的布局方案。以前要在设计软件里磨半天的信息大图，现在只需要几秒钟就能产出出版级的可量化成果。如果你经营小红书，那么可以使用小红书 image skill，它能将长文章自动拆解为一到十张卡通风格的轮播卡片。通过内置的十一种视觉风格和八种排版模式，如对比、清单、流程等，可以快速生成符合平台排版习惯的图文内容。针对排版环节，这个 markdown to html 的 skill 解决的是一个非常具体的痛点，那就是在微信公众号这种不支持 markdown 的平台上，如何保留精致的排版。它内置了多套公众号主题，能自动处理代码、高量和数学公式。最实用的一点是，它能把文中的普通外链自动转为文末的底部引用，彻底解决了公众号里链接打不开或者被截断的尴尬。如果你平时还有翻译文章或者精读外文资料的需求，那这个翻译 skill 就派上用场了。他最强的地方在于提供了一个正式出版级的模式，这个模式不是直接进行翻译，而是会走分析、翻译、校正再到润色这整整四步的流程。而且他有一个非常人性化的功能，就是能让你指定你的读者是谁。比如你告诉他你的读者是资深开发者，他就会自动省略掉那些庸愚的解释，翻译出来的语气读起来就像是真正的圈内人写的。最后，当你把内容全部准备妥当，可以通过发布微信或者发布微博这两个 skill 来实现一键跨平台分发。它区分了不同的分发逻辑，你可以发长文形式的文章，也可以选择只发几张图片配一段摘药的贴图模式。它把那些复杂的后台操作全都变成了 agent 里面的一行指令，从本地草稿到最终发布，整套流程都可以在 agent 里面直接闭环完成。今天分享的这些 skill 只是个开始，其实最关键的是大家要根据自己的工作流程和使用场景，去打磨出真正适合自己的 skill。如果觉得视频对你有帮助，别忘了点赞和订阅，我是俊旺，我们下期再见！
4.2万Juang_42号搭车客
05:09
5分钟解锁小龙虾Skill全攻略：什么是Skill？有哪些好用 skill？如何安装？小白必看进化指南！#openclaw #skill #ai #前沿科技趋势发布月 #ai新星计划
查看AI文稿
AI文稿
同样是小龙虾，别的龙虾勤奋在线，你的龙虾昙花一现，别的龙虾干活利落，你的龙虾总是报错，别的龙虾审美拔尖，你的龙虾审美跑偏，这中间大概率就差一个东西， skill。我拉大家上期呢，教大家怎么零门槛安装小龙虾，但想让它真正的替你干活，还得给它配上好用的 skill。那接这期呢，我用五分钟带你从头到尾搞懂什么是 skill，哪些是必装的 skill 及它的安装教程，记得点赞关注收藏，我们正式开始！ skill 就是小龙虾能调用的一项能力，简单来说，它俩的关系就像是哆啦 a 梦和口袋道具的关系，你想要缩小就打开缩小灯，你想要飞起来就带上竹蜻蜓。你想要瞬间移动就打开传送门。口袋里有什么道具，哆啦 a 梦就能做什么事儿。你装上什么 skill，小龙虾就拥有什么能力。从查天气、写表格、追热点到自动化操作，这些都需要 skill。有了专门的 skill，小龙虾才能从一个会聊天的 baby 虾变成一个会干活的效率虾。而 skill 能做的也远不止单个功能，还可以把多个功能聚合到一起。比如说我之前做的 ai 升视频的工作流，涉及到升脚本、升分镜、升图，也可以直接做成一个全链路的 skill。那这样的话，我就可以很从容的只发一个产品卖点和产品图过去，小龙虾就知道一二三，每一步该怎么做，直接跑完全程非常的省心，那你的经验就变成了他的能力，这样一个 skill 还可以高效的赋用到团队的其他人用。想要养出效率虾，这四个 skill 必须第一时间安排。第一个 skill waiter 技能审查就是你的电子保安，你要安装新 skill 的时候就会触发 skill waiter，他就会给出一份风险评估。如果说啊，他弹出说这个是高风险的，咱呢还是别撞了。第二个 tively search 搜索技能是给小龙虾联网冲浪用的 skill，那 opencloud 自己呢，是没有办法直接联网的，有了 tively search，他才能找到最新的资讯。第三个 agent browser 浏览器的操作技能，比如说呢，帮你打开浏览器啊，抓取网页信息，填写表单，全程都不用你动手，这样呢，一个自动抓取的表格就给你做好了。第四个是 self improving agent 自我改进技能，遇到了问题，它会复盘，会改进，会自动迭代，所以这是一个越用越强的养成系 skill，也是 graphhoop 上面最热门的 skill。以上就是养龙虾必备的四个 skill，那国产龙虾一般都会默认安装好这几个 skill，大家可以查漏补缺看看。完成了 skill 的基建，我再跟大家分享，非常好用好看，能快速提升工作质量的 skill。那第一个呢，叫做 front and design，是一个审美极好的 skill，我让它生成了一个拉拉面包店的网站，可以看到呢，它的配图非常的有质感，整体都是淡黄色的配色和色系，排版也非常的清晰和高级。我还用它生成了一个拉拉服装店的一个面向二十到三十岁欧美女性的独立站，网页整体是非常有活力的，多巴胺的渐变风格，最戳我的是这个鼠标的设计细节，你看它是一直会跟着这个鼠标，有五个彩色的圆点，你鼠标移动起来，这个圆点一起移动，看起来非常的有交互感。 front and design 呢，是 anthropomorphic 推出的 skill，大家可以相信 xfopy 的审美出来的效果都非常的有独特的质感。第二个 remote skill，一个用来升高级视频的 skill，那比如说啊，我想要做一个介绍 openclaw 和 skill 的科普视频，它呢就能很快地给我做出一条视频，二十秒的时间，里面的图文格式化动效都非常的丝滑高级，也非常适合做数据的格式化，像这种让周报图表动起来的效果是不是也蛮不错的？或者呢是做一个产品介绍的视频，可以看这条看整体是不是非常的有质感，感觉是那种直接能用的视频。那 remotion 呢，是以图形元素为主体的视觉风格，非常适合去做一些比较冷静的或是高级的一些视频内容。最后呢，我们就要讲一讲 skill，它的安装方式大致分为三类，第一种的话就是手动安装，因为 skill 本质是一个文件夹，所以呢，你可以直接从 github 或者是 clonehub 上面下载这个 skill 的安装包，解压之后直接就拖到小龙虾的文件夹下面重启一下就可以直接使用了。那第二种是半自动的安装，你只要找到了这个 skill 的在线链接啊，直接丢给小龙虾，让它自己去安装就更省事一些。第三种是全自动安装，你甚至都不需要知道这个 skill 叫什么或它的链接是什么，你只要提前的安装一个 find skill 的 skill，就是让它自己找 skill 的这个 skill。那比如说现在呢，我需要你做我的投资顾问，你呢？先去搜索一下需要具备哪些 skill 才能做好这件事儿。好的，就可以看到它自己会去技能库里巴拉巴拉巴拉的一通搜索，然后找到最匹配的几个 skill，最后我们确认一下想选哪一个，一般呢选个星比较高的那几个 skill 啊，直接就下载安装就可以直接用起来了。好的，以上呢就是 skill 的全部实操介绍， skill 的本质呢，其实就是让你的小龙虾叠各种 buff 啊，技能叠齐了，只要你敢想，它就能帮你搞定。今天这期视频呢就到这里啦，欢迎在评论区里分享你用过的神奇的 skill。下期我们再聊一聊怎么手搓一个你自己的 skill。那如果这期视频帮助到你的话呢，记得点赞收藏关注。
5087Lala罐头
02:14
skills 的本质是个好甲方｜拒绝诗和远方大部分人的 AI 用法：自己想选题、自己做调研、自己写大纲，最后丢给 AI 说"帮我润色"。结果拿到一坨 AI 味的废话。问题不在 AI，在你只让它干了最不值钱的那一步。这个视频告诉你怎么反过来用，让 AI 从第一步就介入。
#AI #ai #人工智能 #skills #ai教学
87卡尔AAAAAI
06:59
SkillOpt：把 skill 文档当成模型权重做训练 #大模型 #人工智能 #harness #skill #智能体
查看AI文稿
AI文稿
hello，欢迎收看本期大模型论文分享。今天聊一个让我特别兴奋的工作，你有没有用过 agent，给他一个复杂任务，他折腾半天，结果格式不对，步骤漏了，工具调错了，太常见了。而且最气的是，你给他写了详细的 system prompt，指导他该怎么做，他还是会犯重复的错误。感觉手写的指令总是覆盖不全，漏洞百出。对，这就是今天这篇论文要解决的问题。论文叫 skill opt，来自微软研究院和上海交大等多所高校的合作。核心思路，一句话，把 agent 的技能文档当做神经网络、权重来训练等等。技能文档？你是说那种自然语言写的操作指南，告诉模型该怎么用，工具该遵循什么规则的那种东西？没错，在 agent 系统里， skill 就是一段自然语言文档，打包了工具使用策略、领域规则、输出格式要求、失败处理方式，模行动解不动，换不同的 skill 来适配不同领域。问题在于，现有的 skill 要么手写，要么让 l l m 一次性生成，要么无约束里让模型自己修改。自己手写的话，覆盖不全，一次性生成没有反馈，无约束修改又可能把好的规则给覆盖掉，感觉缺一个系统化的优化方法。正是如此， skill opt 的洞察是，既然 skill is agent 的适配层，那它就应该像权重一样被可控地训练。有 learning rate 控制，不讲，有 validation 防止过离合，有 momentum 保持方向稳定。这个类比很有趣，但文本又不是向量空间，怎么做梯度下降？它不是字面意义的梯度下降，而是把深度学习训练的每个环节都找到文本空间的对应物，我给你拆解一下。前向传播对应的是用当前 skill 执行一批任务，收集轨迹和得分。反向传播对应的是一个 optimizer 模型，分析这些轨迹里的失败和成功，生成结构化的编辑提案。 optimizer 模型是另一个 l l m r 吗？嗯，对，是一个独立的前沿模型，只在离线训练时运行，部署时完全不参与它。分析轨迹后会产生 add， delete， replace 三种类型的编辑操作，就像提出梯度方向。那 learning rate 呢？文本怎么控制不长用？编辑预算，每部最多允许改几条规则，这就是文本空间的 learning rate。合并后的编辑池，按效用排序，截断到预算上线，这是和无约束重写的关键区别。无约束重写可能一次性擦除之前学到的好规则，或者过你和到某个局部失败。有借更新，让每一版 skill 和上一版足够接近，后续优化才能从历史中学习。有点像你一次不能改太多代码，否则 review 都没法做。那 validation 呢？每个候选 skill 都要在一个 held out 级上跑一遍，只有严格超过当前最高分才被接受。平局都算拒绝，这个门控非常保守，保证 skill 不会静默漂移，那被拒绝的编辑就浪费了。没有浪费，被拒绝的编辑会进入一个 rejected edit buffer，后续的 reflection 会看到之前试过什么，为什么失败了，避免重复走老路。这就相当于优化里的负反馈信号。所以整个循环是执行，收集证据，反思，生成编辑，裁剪到预算，验证，接受或拒绝。那有没有类似 momentum 的机制？有，叫 epochwise slow update，快速更新，学当前 batch 的教训。 slow update 学跨 epoch 的长期规律，每个 epoch 结束时对比前后表现，总结出稳定的编辑方向，写入一个受保护的字段。 step level 编辑不能覆盖，它相当于快慢分离，短期波动不会冲掉长期经验。实验效果怎么样？效果非常强，他们在六个 benchmark 上测试覆盖搜索问答、电子表格操作、文档理解、数学推理和具身决策。七个目标模型，从 gpt 五点五到小规模的千问三种执行模式，直接对话。 codex harness， cloud code harness，这个覆盖面很广，结果怎么说？五十二个模型乘 benchmark 乘 harness 的格子 skill opt 全部最优或并列最优。 g p t 五点五。在直接对话模式下，六个 benchmark 平均从五十八点八提升到八十二点三，涨了二十三点五分。二十三分的平均提升，而且不改模型权重，只换了一个文本文档。对，而且这不是跟弱 baseline 比的。他们找了七个 baseline，包括人类手写 skill， text grad g e p a evo skill，把每个格子最强的 baseline 挑出来做 oracle skill opt 平均还高五点四分。程序性任务是不是收益特别大？没错， spreadsheet bench 从四十一点八涨到八十点七，涨了三十九分。 office qa 从三十三点一涨到七十二点一，也是三十九分。这些任务有严格的格式要求和多部工具调用，正是 skill 能发挥最大价值的地方。小模型呢？小模型相对收益更大。 gpt 五点四， nano 在 doc vqa 上接近翻倍， alf word 上接近翻三倍。说明小模型不是缺能力，而是缺程序性纪律。一个简洁的 skill 就能补上。消融实验有什么有趣发现？最关键的发现是移除 slow 和 meta update 后， spreadsheet bench 从七十七点五暴跌到五十五，跌了二十二点五分，这是消融中最大的衰退，说明跨 epoch 的长期记忆对程序性任务直观重要。相比之下，具体用什么 batch size 或 schedule 影响不大，性能在合理范围内都很稳定。那学到的 skill 长什么样？会不会变成一个很长的文档？恰恰相反，最终 skill 只有三百七十九到一千九百九十五个 token，中位数大约九百二十 token。而且整个优化过程只接受了一到四次编辑。 live math 的二十九分提升来自单次编辑。 office q a 的三十九分提升也是单次编辑。一次编辑就能涨这么多，这说明 validation gate 筛选力度很大，大部分编辑都被拒绝了，完全正确。 optimizer 提出了大量编辑，但只有极少数通过了 held out 检验。学到的规则都是程序性的、可迁移的。比如 search q a 学到推断预期答案类型选择有独特证据支持的最短规范实体 spreadsheet bench 学到先检查工作布结构，然后写入计算好的静态值。这些规则能迁移吗？换个模型或者换个执行环境还管用？三种迁移实验都是正向的跨模型。 gpt 五点四训练的 gpt 五点四， nano 上 spreadsheet bench 还能涨三分。跨 harness 在 codex 上训练的 spreadsheet bench skill 放到 cloud code 上直接涨了五十九点七分，甚至超过了 cloud code 的自己的 in domain 优化结果超过了 in domain，就说明 skill 编码的是领域知识，不是执行环境的特定命令。正是这样。还有跨 benchmark 迁移 olympia 的 bench 上训练的 skill 放到 omnic 上也有正向收益。这三个方向加起来，证明优化出来的 skill 确实是一个可付用的领域适配产物。所以这个方法的实际落地场景是什么？你在某个领域花一次离线训练的成本得到一个几百到两千 token 的 skill 文档，这个文档可以跨模型版本使用，可以跨执行框架部署，而且人可以直接阅读和审计。相比微调权重，这个方案清亮透明，可移植，有什么局限性？目前 on the station gate 依赖可自动打分的 benchmark。对于开放式任务，比如写作或创意类，没有明确的正确答案来做门控，需要探索偏好驱动或无奖励的验证方式。总结一下， skill opt 证明了文本空间可以像权重空间一样做可控优化。关键不是让 l l m 随便改 prompt，而是加上 bounded update， validation gate rejected buffer slow update。这套训练纪律一到四次编辑就能带来巨大提升，说明大模型很多时候不是缺能力，而是缺一个好的程序性指南，而且这个指南是训练出来的，不是手写出来的，很有启发性。对这项工作已经开源了感兴趣可以去看看。好，这期就到这里，下期见。
18大模型最新论文
03:28
四步法创建skill让AI更靠谱模型出的结果不满意，用这四步法来创建SKILL来优化#skill
查看AI文稿
AI文稿
ai 不好用，别急着换模型最近 skill opt 相关研究给了一个很有意思的启发，不动模型参数，只优化一份 skill 工作手册，也能改善 ai 的任务表现。这条视频我们就讲一个让 ai 更靠谱的 skill 四步优化法，核心不是多会写规则，而是会不会测规则。 skill 不是复杂插件，也不是一次性的 prompt，你可以把它理解成一份 ai 工作手册， prompt 解决这一次怎么做 skill，规定以后每一次怎么做。所以 ai 做错一次，不要只让它重写，要把这次错误变成下次会执行的规则。比如你让 ai 写科普文章，只说写得通俗一点，别太生硬，它很可能开头就是随着人工智能技术的快速发展， ai 正在深刻改变我们的工作方式。这句话没语法问题，但它没场景、没对象，没具体困惑，就是典型 ai 套话。这时候别只说重写一版，要把问题沉淀进 skill。普通人优化 skill 就四步。第一步，写出版 skill 先别追求完美，只要有一个能执行的版本就行。比如写文章的 skill，可以先写三条，开头不要讲宏大背景，必须从真实使用场景切入抽象概念，必须配例子。第二步，准备验证案例。不要凭感觉判断 skill 好不好，要拿真实任务去测。比如同样让 ai 写科普开头周报总结、短视频脚本，这些案例就是你的判断标准。第三步，跑 ai，看真实表现，看它有没有避开老问题，有没有写出新问题，有没有只在一个案例里变好，换个任务又翻车。记住， skill 不是写出来就算数，跑过才知道有没有用。第四步，小步修改再跑验证。不要一口气全文重写 skill，哪里翻车就只改哪里。比如他还是写套话，就加一条禁用规则，禁止随着商发展深刻改变赋能闭环。这类空泛词，改完以后再拿案例跑一遍，真的变好了才保留，没变好或者引入新问题就撤回。还有一个很重要的避坑点，要加反向案例，因为规则太死，也会过度优化。比如你规定开头必须有场景， ai 可能每天都硬塞一个尴尬故事，这时候就要补一条，如果没有真实场景，不要编故事，可以直接用问题开头。好的 skill 不是规则越多越好，而是测的越多，边界越清楚。同一份 skill，不同模型执行效果不一样。强模型讲原则就能懂，中等模型要给正例和反例，弱模型要写清模板字数、禁用词。记住这句口诀，模型越弱，规则越具体，任务越重要，验证越严格。这套方法不只适合写文章，写周报也一样。如果 ai 总写，持续推进，积极协调，就拿真实周报去测，再把规则改成必须包含事项、结果风险，下周计划写短视频脚本也一样。如果开头平淡，就测前三秒留不留人，再规定前三秒必须有钩子。只要是高频 ai 任务都可以做成 skill。最后记住， ai 做错不是结束，是 skill 升级素材别只改 prompt，用四步法写出板，拿案例测记录失败小步修改，把每一次翻车变成下一次会执行的规则。我把这套方法整理成了 skill 搭建模板，包含出版、 skill 验证、案例失败记录、版本记录四个模块，需要的话去评论区或者视频简介拿。
33无疆AI
05:22
3个超火的PPT Skill，告诉你怎么选！这期整理了 3 种我真实用过的 PPT Skill / 模板方案：
✅Image 2 视觉型：最自由、最好看，但贵、慢、修改成本高。
✅HTML 轻量型：生成快、改起来快，还能做一点动效，但风格比较固定。
✅HTML 模板库型：样式选择很多，很时尚，但中文字体和排版要自己适配。
如果你是做自媒体、课程、汇报、方案展示，可以先看这条再决定用哪一种。
#ai新星计划 #ppt #skill #codex #ppt模版
查看AI文稿
AI文稿
那今天这期视频给大家推荐三个非常好用的 ppt skills，也是我们最近非常高频使用的。那首先第一个 skill 呢，它是一个纯视觉 skill，它是通过生图软件直接帮你生成一个图片，然后组装成的 skill，给大家看看它的成品效果。那这个就是我用那个 skill 做出来的 ppt。这个 skill 的最大的特点呢，就是开放性非常强，因为呢，它是用的是 image two 这个模型做的 ppt，所有的内容全部都是可以根据你自己的想象力，自己希望的排版布局来进行生成的，它不是套模板。对，而且因为是借助了现在强大的 image two 的能力，所以几乎对于文字的生成，对于图片的生成是非常非常强大的。这个 ppt 是完全用那个 image two 生成的，它其实里面每页都是图片，所以它就是用深图的逻辑在做 ppt。对，嗯，然后呢，包括了我们最近现在我们自己的内容也都是用这套 ppt 生成的，这个是我做的那个 notion 风格的，里面全都是图片啊，然后你几乎想怎么排版，然后里面想放什么都可以。刚才是它的优点。它的缺点呢，第一就是要钱，因为呢，它是用的是 maggie two。嗯，所以你要么去订阅 gpt，要么自己去采购那个 api。第二个呢，就是修改起来麻烦，因为它是要通过深图的方式，它生成的过程也很慢。对，生成完成以后，如果你发现有啥问题，那还得再重新跑，非常非常的麻烦，对，就质量非常好。但是每次我在那个 codex 里面跑的时候，我都觉得有点心累，因为它要很久，最好的模式是你先跟 ai 敲定下来 ppt 内容的文档，每一页到底是写什么，画什么，体现什么，都要先推敲好了。嗯，再让 ai 去跑图片。对，就是修改起来很麻烦了。嗯，然后跑完图片以后， ai 是会帮你自动把所有图片合成为一个 ppt 的，这是唯一一个现在还保留了使用 ppt 格式的一个 skill。坦白说，我非常喜欢这个，我现在基本上所有做内容的演示 ppt 都是用这个，而且关键是这个，它跟我的那套方法论就是关联起来是很好的啊，对，它开放性非常强嘛，反正你只要怎么编排它都能出来。然后第二个 skill。第二个 skill 呢，是规章的 skill 啊，它的呢，就是通过我们现在比较流行的 html 方式帮你渲染 skill 了。大家现在看到的我这篇内容的模板，它就是通过规章的 skill 生成的。高级。对，它的优点就是非常清亮。因为它是用写 html 的方式嘛，所以呢，生成也快，改起来也快。而且呢，它可以有加入一些时差动效，你可以看到这样子的话，可以让你的 ppt 感觉更加的灵活。同时呢，它也能支持插入一些 emoji 生成的图片啊，或者是如果清亮点的话，可以让 ai 写 svg 那种置疑图啊啊哎，它刚刚更新了一半。对，是的，它也在持续更新。嗯，缺点呢，就是跟 emoji 那个版本比起来，它是完全的套模板，所以它的所有的 ppt 生成出来几乎全都是这种排版布局的啊，它个人风格比较强了。是的，它是偏那种杂志风。就是，就我坦白讲啊，像这种风格，像国企事业单位，他们抢的就不行。呃，我之前给那个国企报方案，用那个 image two，它直接能给做出那种国企风来啊。对啊对，就就是这个会有一些啊，对，是的，好。第三个呢是来自于张 zara 的 skill，嗯，它其实不能说是个 skill，它是一个 html 的模板库。嗯，给大家看一下它的 github 的上面的项目，嗯，它下面猎取了很多很多非常非常多的 html 的模板。嗯，所以呢，它和归藏的那个比起来呢，它就是样式风格的可选择性就非常非常多了，它时尚度更强一些。但是呢，它的形式，它不是一个 skill，它是一个 get up 项目，它是提供了一个简单方式。嗯，把这段文案你提供给你的 ai， ai 会帮你执行。它原理是什么呢？就是把它这个项目克隆到了本地，然后呢，从这个模板库里面 ai 去挑一个符合你当天需求的模板。嗯，然后呢，把你的内容去挑，去套你当模板，我一开始以为是 ai 机，我的内容会自动帮我匹配，嗯，后来我用的时候，他发现它是一开始会有一个轮交互，嗯，啊，他就问你的需求，然后来去先匹配一个模板给你。所以，所以就是新闻交互，它是因为它把它写在项目下了这个 a j 的点 m d 内容下了，用 ai 去跟你这套交互。其实它就是个 skill 的方式，跟我之前想的那种形式不太一样啊。然后给大家看看它生成的效果。它的优点是就是风格非常非常的多样化，但是有个缺点，那为什么我这课 ppt 是用的是英文的呢？因为它对中文的适配几乎没有，这个就是我用它做了一个中文 p 这个中文呢，我还让他去 ai 去做了一个适配，就是去找和他那个英文相近风格的那个字体，才得到好一点点的。但是如果你不这么做，用的都是系统默认的字体，苹果的那种黑体，那就和他这个风格完全的不搭。所以它这套 ppt skill 目前来说还是比较适合做英文的。英文的非常非常好看，就像是一个画一样，就是大家看使用场景啊，比如说像广告公司什么的，你们可能觉得这种 ok，就像我们这种职场可能没不需要太花哨啊。对，是的，所以如果你们是做自媒体的话，用这套 ppt skill 还是非常非常合适的，但是你拿过来后可能得自己改造改造，得把里面的中文字体自己找一些合适的。嗯，其实三个 skill 用下来，我现在用的反而是第一个的中文字体，自己找一些合适的。嗯，其实三个 skill 用下来，我现在有大量的模板的东西，现在都是把模板发过去，他就按照我的模板直接帮我批量生了。对，就这种是让我非常喜欢的风格颜色，我更想要的就是我的自定义的模板，所以我套在这种风格上还是比较少的。当前。嗯，我个人的话可能用规章的还多一点，因为规章的非常轻，你生成起来很快啊。对，是第一个的话太重了，你每次生成的话需要一个很长漫长的过程，然后为了这个避免重复修改，你还得跟 ai 去重复推敲，敲定很久，所以我个人比较喜欢第二个，然后第三个的话，我其实觉得未来如果做网页，我们可以拿它这个模板来做参考，张达拉的内容非常有设计感，洋气。是的啊，时尚。后续我们会把他们所有的 github 项目都附在文档里面，然后大家可以直接去查看。 ok，那本期视频就这样，拜拜。拜拜。
6107珍妮丁丁说AI
04:35
AI能力包Skill，根本复制不了你，替代就更难了全网在说你的技能会可能要被公司提炼成AI能力包Skill，然后取代你，但写这些内容的人可能自己都不知道Skill的底层能力是什么。 Skill能复制的，只是你工作里面最不需要你的那部分。你真正要搞清楚的不是AI和Skill有多厉害，而是你自己到底有多值钱。#Skill #公司裁员 #ai替代人类 #裁员焦虑 #失业焦虑
127Marco笔录

热门推荐

热门分类