Anthropic发布 skill-creator 重磅优化 Anthropic skill-creator 重磅更新:让 Agent Skills 可测试、可衡量、可迭代 背景 Skills 创建后普遍面临三个痛点:新模型版本上是否仍有效?是否只在应触发时才触发?修改后效果是否真的改善了?本次更新将软件开发中的测试与迭代实践引入 Skills 创作,无需用户写代码。 Skills 的两种本质类型 · 能力提升型:弥补模型本身的不稳定输出,如 PDF 处理。测试重点在于持续评估基线模型是否已无需该 Skills 独立完成任务——一旦如此,Skills 即可"退休"。 · 偏好编码型:模型各步均可执行,但需严格遵循特定流程顺序,如按公司模板生成周报、审查 NDA。测试重点在于验证 Skills 是否忠实还原真实工作流。 四项核心新功能 1. Evals(Skills 的单元测试) 用户只需提供测试提示词与期望输出描述,skill-creator 自动运行并评估是否达标。可及早发现质量回归,也可判断能力提升型 Skills 是否已过时。 2. Benchmark 模式 批量运行同组 evals,输出通过率、执行时间、Token 消耗等指标。结果可本地存储或接入 CI/CD,实现 Skills 的持续集成。 3. 多智能体并行 + 比较智能体 每个 eval 在独立上下文中并行运行,避免上下文污染。比较智能体采用盲测模式,客观评分"Skills A vs B"或"有 Skills vs 无 Skills",消除主观偏差。 4. 触发描述智能调优 分析现有描述与历史样本提示,建议优化措辞,降低误触发(假阳性)与漏触发(假阴性)。在 Anthropic 自有的 6 个公开 Skills 上测试,5 个触发准确率显著提升。 意义 evals 框架本质上是在描述"should happen"——这正是从"告诉模型怎么做"迈向"只描述目标、模型自行推导实现"的关键一步。 #ai #人工智能
00:00 / 00:40
连播
清屏
智能
倍速
点赞21
00:00 / 02:31
连播
清屏
智能
倍速
点赞69
如何在 Antigravity 中使用和创建 Skill 技能(Skill)已经成为各大编程 IDE 的标配。开发工程师 Rod 介绍了如何在 Antigravity 中创建和使用 Skill。 在 Vibe Coding 时,一个常见问题就是上下文膨胀。项目越大,越不可能把全部代码一次性塞进模型上下文。Skill 的作用,就是把特定能力拆分成独立模块,在需要时再加载。 在 Antigravity 里创建 Skill 很简单。先在项目中建立目录,例如 agent/skills/html-3d-canvas,然后在其中新建一个 skill.md 文件。文件开头用三条横线标记 Front Matter,写上 Skill 的名称和描述。Agent 会根据这些信息判断当前任务是否需要加载这个 Skill。 Skill 不只是说明文字,还可以包含代码示例、脚本和相关资源。比如可以为 Three.js 和 WebGPU 写一个 Skill,封装窗口大小监听、动画循环等常用逻辑。也可以为新特性如 Tiny Shader Language 单独做一个 Skill,让 Agent 在生成代码时有更明确的参考。 当 Skill 准备好后,开启新的聊天,让 Agent 完成具体任务,例如构建一个3D 太阳系的网页。Agent 会先制定计划,然后自动读取相关 Skill 再生成代码。如果需要新增能力,比如做成游戏或添加 HTML GUI,只要继续添加新的 Skill 即可。 Skill 可以跟项目一起管理和分享。别人打开项目时,Antigravity 会自动发现这些 Skill。通过这种方式,项目经验可以被结构化保存下来,也能持续复用。 #氛围编程 #AI编程 #Antigravity #人工智能
00:00 / 04:05
连播
清屏
智能
倍速
点赞5
00:00 / 01:55
连播
清屏
智能
倍速
点赞5
00:00 / 02:54
连播
清屏
智能
倍速
点赞23
00:00 / 07:37
连播
清屏
智能
倍速
点赞4
00:00 / 00:55
连播
清屏
智能
倍速
点赞8
00:00 / 03:57
连播
清屏
智能
倍速
点赞7865