00:00 / 04:36
连播
清屏
智能
倍速
点赞441
00:00 / 00:27
连播
清屏
智能
倍速
点赞1605
00:00 / 02:34
连播
清屏
智能
倍速
点赞28
00:00 / 02:29
连播
清屏
智能
倍速
点赞30
00:00 / 01:39
连播
清屏
智能
倍速
点赞36
00:00 / 03:05
连播
清屏
智能
倍速
点赞39
Agent Skills测试框架Skillgrade开源 Skills Best Practices 作者最新发布 Skillgrade:Agent Skills 的单元测试框架 Skillgrade 这个单元测试框架,用来验证 Codex / Claude Code / OpenClaw 等 AI Agents 能否正确发现并使用 Agent Skills 生态中的 Skills(基于 agentskills.io 标准,以 SKILL.md 为入口的指令+资源包)。 项目主要作用 传统提示词/技能迭代依赖人工试错,Skillgrade 提供可量化、可复现、可 CI 集成的评估闭环: · 混合评分:70% 确定性(代码检查)+ 30% LLM 裁判(工作流质量),加权得出最终通过率 · 沙盒隔离(Docker 默认 / local CI),防止 Agent 误操作 · 一键生成测试(AI init),支持烟雾测试(5 次)、可靠评估(15 次)、回归检测(30 次) 典型使用流程(3 分钟上手) 1. 在含 SKILL.md 的 Skills 目录下:skillgrade init(需 API Key,自动生成带任务与 grader 的 eval.yaml) 2. 定制 eval.yaml 3. skillgrade --smoke(或 --reliable / --regression)运行 4. skillgrade preview(CLI)或 preview browser(http://localhost:3847 可视报告) 关键选项支持 --ci(阈值退出)、--parallel、指定 eval/grader/agent/provider,环境变量或 .env 注入 Key,报告自动存至临时目录。 项目提供的两个示例 · superlint(简易):Agent 须发现自定义 superlint 工具,按“检查→修复→验证” 3 步 workflow 修复 app.js;70% 文件+内容检查,30% LLM 评 workflow 效率。 · angular-modern(进阶):TS grader,setup 动态装依赖,剩余 30% LLM 评代码质量——展示复杂 Skills 的精细评分能力。 #ai #openclaw #skills
00:00 / 00:20
连播
清屏
智能
倍速
点赞27
00:00 / 02:53
连播
清屏
智能
倍速
点赞516
00:00 / 00:34
连播
清屏
智能
倍速
点赞4408
00:00 / 00:53
连播
清屏
智能
倍速
点赞21