codex 和 close cly 五个高阶技巧,看完效率翻倍。五个技巧, codex 快 捷键,全局规则加乱码修复 mcp 服务器 get work tree 并行 hook 强制护栏, 每改一个文件,每跑一条命令都要按外长,任务被打断成几十段。解法是封装一个别名,加上危险模式参数启动,让 agent 一 气呵成跑完,最后用 getif 统一审阅。 不会写也没关系,把这一句话直接丢给 ai 检测我当前的 shell, 给 code 和 cloud 各加一个危险模式别名,写完告诉我怎么生效。唯一的提醒只在 get 干净的工作区使用,建议配合后面的 word tree。 第二招是把你的偏好写进局规则文件 code 放在用户目录的 code 下的 cloud md, 所有项目自动继承。 对 windows 用户这一招还能顺手治好乱码。官方 issue 七千二百九十,已经确认 codex 启动字进程时会回退到 c p 九三六,编码中文写进文件就会变成那串经典的筏金口。 解决办法是在规则里写清楚,禁用 bash, 改用 power shell 文件统一 utf 八五泵,必要时执行 chcp 六万五千零一。 第三招是给 agent 装上 m c p 服务器,你可以把它理解成 agent 的 外界神经,插上 playwrite, 它就会自己开浏览器,插上 github, 它就能提 pr, 插上 postchris, 它就能直接查数据库。 codex 的 配置写在 config tommel 里, cloud e 型 m c p i 的 命令就能装好, 配一次,终身受益。第四招是用 github 里,在同一个仓库旁边长出几个独立的工作目录, 每个目录跑一个 agent, 一个修登录,一个改 bug, 一个重构 api, 三个任务同时推进,互不打架和多份 clone 共享同一个 git 省词盘提交立刻可见。但文件物理隔离谁也改不到谁配合第一招的危险模式,效率直接翻三倍。 第五招也是最重要的一招, hoops。 没有 hoops 的 时候, cldmd 里写的规则只是建议 agent 心情好就遵守。 有了 hooks, 违规直接被阻断。 pre to use 在 动手前拦截威胁命令 post to use 在 写完文件后自动跑, prettier stop, 在 收尾时强制跑。测试配置就一份 settings gsn。 从此规则不再是写给空气看的。 五个技巧对应五个真实痛点, codex 解决审批力度,大局规则解决偏好和乱码, m c p 解决能力,边界, worktree 解决并行冲突, hook 解决规则失效全部加起来,你的 cly agent 就 从助手升级成了真正的工作流。点赞收藏,下次见。
粉丝91获赞708

我用了很长一段时间的龙虾,我认为龙虾这个东西啊依然是被高估的。你真的需要一个通过自然语言去培训的一个数字员工,在你不确定他有哪些能力的情况下,完全交给它自动化去执行任务吗?其实你更需要的一个东西呢,应该是你 口袋的一个人工智能助理,它可以去操作你的电脑。我觉得那如果基于这个逻辑的话,那为什么我不可以把 c l i 这些指令去给它暴露出来?比如说我本地就使用的一个 cloud, 我 就使用 codex, 我觉得我已经调的这些 colog 啊,点 m d 文件或者 a 阵啊,点 m d 文件,他们调的已经很好了。那为什么我们不直接把它暴露出来,直接在远程在我口袋里面拿出手机,我就可以直接去使用我本地的 colog 这些 c l i 呢?所以基于这个逻辑的话,我觉得很多情况下,我们不需要去培养一个数字员工,我们只需要把我们本地使用的这些 c l i 呢 暴露出来,让我们去使用泰迪 graham 的 这种接口呢,去直接使用它就好了呀,我就开发了一套可以把 codex 和 cloud code 暴露出来,让我的泰迪 graham 直接拿手机的话就可以去操作,跟他们去一起去探索一些东西,或者开发一些东西。然后呢,我本地的这个目录呢,直接就暴露到我的手机口袋里,我出去的时候我就可以 指挥他去干活,去盯着他去干活就好了。那我真的没有必要再去培训一个龙虾了。如果你的 cloud codex 已经非常好用了,那直接使用我开发这个项目的话, 直接就使用你本地的这个桌面呢?不好吗?通过自然语言去调龙虾的这个事情呢?我对他表示一个怀疑啊,就如果你真的想把龙虾调的很好,我自己也在调啊,过一段时间我也会把调试的内容给大家分享出来,但是我调的逻辑呢,一定是你基于你懂它里边的原理,然后它的记忆系统是如何规划的, 如何去沉淀出一个 so 点文件啊, memory 怎么去整理的,他怎么能帮助我,他怎么就能改善?你把这些原理都搞明白之后呢?然后去从底层直接去搭建一个龙虾的一个数字人,我觉得这个是一个比较靠谱的一个方式, 如果这些东西都没有搞定的话,那我们就沿用现在的东西,把 codex 和 cloud code 先暴露出去啊,当我们出去的时候,我们能用上我们已经非常熟悉的这些 a 帧的 a 帧,那就已经很好了。所以如果你真的想问我 ai 自动化的第一步是什么? 就是把你现有的已经在本地在做的这些项目的 cloud code 和 code text 先暴露出去,先让你和你本地的电脑先分离, 让你在时时刻刻呢都可以操作你远程的电脑这些 a 阵呢?跟他们去聊天,去探索思路,让他们帮你远程的去开发。这个项目以一种 ai 远程的口拍类的方式先运行起来,而不是完全的搭建一套完全自动化的系统,你自己不理解的自动化系统,你再去指挥,再让他干活。

上期视频我为大家演示了在谷歌 antigraphy 中 agent skills 的 基础用法。 视频发布后,很多朋友在问 agent skills 是 否有更高级的玩法,从而能够提升开发效率,答案是肯定的,而且效果非常不错。本期视频我将为大家演示 agent skills 生态中被开发者称为灵魂技术的核心技巧,决策树。 本期视频我们要讲的决策树不是机器学习里的那个需要训练数据的算法,而是一种需要在 skill md 文件里嵌入结构化的 if else 决策逻辑,让 anti gravity、 cloud code code、 x c l i 等 ai 智能体在执行任务时具备真正的自主决策的高级能力。 因为我们在用 anti gravity 还有 cloud code 执行特定任务的时候, ai 编程助手经常问下一步该怎么做,让原本应该自动化完成的工作流变成了人机问答。而决策树就是解决这个问题的终极方案。 根据 osoup 官方文档, agent skills 是 通过 markdown 文件教会 ai agent 如何完成特定任务,而 而决策式优化就是在这个 markdown 文件中显示定义条件、分支、优先级排序还有异常处理,从而让 ai 编程助手能够自主判断,自主选择最佳方案,从而减少百分之五十到百分之八十的手动干预,能大幅提升 ai 编程助手的智能度。还有任务完成效率。 为 agent skills 实现决策术,这是目前社区公认的最强大的 agent skills 的 高级技巧。而且本期视频为大家演示的技巧不仅适用于 anti gravity, 还适用于 cloud code, 还有 codex 等任何支持 agent skills 的 ai 编程助手, 而且我会用一个我亲自开发的使用决策术方式实现代码审查的 agent skill 进行演示。 这个 agent skill 叫 code review root, 它能让 anti gravity 等 ai 编程助手智能判断我们的代码变更类型,然后自动路由到最适合的代码审查工具。在这个 skill 中,我添加了 gemini c l i 以及 codex c l i, 然后 ai 编程助手就会根据任务的复杂度来自主决策,是选择 gemini c l i 还是选择 codex c l i 用于代码审查。 因为平时我们在进行项目开发的时候,大家经常习惯使用 codex 或者 java c l i 对 我们使用 cloud code 或者 anti gravity 写的代码进行代码审查。 由于 codex 进行代码审查的时候速度非常慢,所以对于复杂的变更或者后端技术栈,大家才会选择 codex 进行代码审查。而写前端代码的时候,更适合使用 java 进行代码审查。让 ai 编程助手自主判断是使用 java c l i 进行代码审查还是使用 codex c l i 进行代码审查。 像这样的话,就不需要我们手动去干预或者手动去确认让 anti gravity 或者 cologne 的 自主决策选择哪个工具。像这样的话,不仅能让代码审查更加专业,还能解决一个非常令人头疼的问题,那就是所有任务都用 anti gravity 内置的这些模型去实现, 这样就会非常消耗 antigravity 的 token 额度。但我们如果将一些任务分配给 gemini c l i 或者 codex c l i, 像这样就能实现大幅度节省 antigravity 的 用量。 在视频开始前,先为大家简单讲解一下什么是决策术,以便让不懂编程或者不懂机器学习的用户能够理解我们为什么要在 agent skills 中使用决策术的方式。 简单来说,决策树就是通过层层的 if 占条件判断,从根节点到业节点逐步筛选,最终得出确定性决策结果的树状逻辑结构。 在这里我举了一个最简单的例子,以便大家能够理解。根据天气预报是否有雨进行决策。当天气预报预报有雨的时候,判断是否会下大雨,如果下大雨,那么就带雨伞,如果不下大雨,那 那么就带折叠伞。如果天气预报预报的没有雨的话,那么就可以根据外出时间进行判断。外出时间长的话可以带一件外套,外出时间不长的话,那么就不用带任何伞,也不用带外套。 好,这是一个最简单的决策树的案例。好,下面为大家演示一下我们在 antigravity 中使用我创建的这个用于代码审查的具备决策树能力的 agent skill 的 效果。 将这个 skill 放在了项目路径,因为无论是 anti gravity 还是 cloud code 还是 codex, 它们都优先加载项目路径下的 skill。 因为这个 skill 是 用于代码审查,所以我们让它在我们当前这个已有的项目上让它添加一个功能,以便测试这个代码审查的 skill 它的效果。 这个当前项目是我开发的一个库姆浏览器的插件,这个插件的功能就是一个定时任务的功能,然后我们可以点击这个插件的图标查看一下这个插件的功能,这是我设置的定时任务, 当时间到了我设置的这个时间之后,它就会自动打开我设置的对应的目标网站,然后在目标网站根据提示词来搜索与 ai 相关的这些新闻。比如说我设置的这个定时按钮,让它立即来执行, 然后我们可以测试一下我这里点击执行,点击之后它就打开了我设置的这个 grok, 然后在 grok 中自动输入了我给他预设的提示词,然后 grok 就 会根据任务来搜索这些相关的 ai 资讯。 在这个库姆插件中,我们可以看到这里有这个日制功能,然后我们可以让它新增一个点击这个日制就会在库姆浏览器中自动打开这个 ai 的 对话记录, 所以在 anti gravity 中我们就可以输入我们要实现了这个任务,我输的提示词是为这个 chrome 扩展。新增一个点击日期中的条目,就可以在浏览器中打开对应的任务记录。然后这里我还给它举了一个例子,在模型这里,我们这里就选择 cloud 三点五,然后我们点击发送。 当它完成这个功能新增之后,我们就可以测试这个代码审查 skill 的 效果。好,这里它开始修改这个代码,这里我们要稍等一下。好,这里提示这个功能已经完成,下面我们就可以调用这个 agent skill 进行测试。 为了方便调用,我将这个 skill 做成了斜杠命令,我们直接输入斜杠,这里就会出现这个 review, 然后我们直接选择这个 review, 直接点击发送就可以。好,这里它就提示它将使用代码审查工具进行审查好,可以看到这里它正在决策到底是使用 java 还是使用 codex 进行代码审查。 好,这里提示它现在分析复杂度,并且执行审查。然后这里是代码审查路由分析,这里检测到更改,包括九个文件, 他对代码更改的复杂度给出了一个评分,然后十分,给出了三分,也就是比较简单,更改的代码数小于三百行,因为这个代码变更的复杂度非常小,所以这里他就给出了决策,他要使用 java c r i 对 变更的代码进行审查。纯前端 js 更改,复杂度低, 无敏感代码,无数据库或 api 更改。然后这里正在执行审查。为了检测这个代码审查的 skill 它的智能程度,当它开始调用 java c l i 的 时候,我就将网立即断掉了, 然后这里它就开始提示 java c l i 遇到了错误,现在它需要使用 codex c l i 作为备选方案,然后我们这里就允许它执行。 像这样的话,它能根据代码的复杂程度智能地选择使用 java 或者 codex。 当它选择 java c l i 出现网络问题之后,它就开始选择 codex c l i 作为备选方案, 这样的话它就能通过决策树来智能地选择对应的代码审查工具。这里提示 codex 审查完成好,这里输出了这个审查报告,然后这里给出了一个性能问题, 这里还给出了一个安全问题,这里还给出了建议修复,下面我们就可以在输入框中让它根据审查报告对代码进行修复,然后我们直接点击发送, 像这样的话,我们就实现了在 antigrip 中,通过斜杠命令来智能地调用 java c l i 或者 codex c l i。 对这些变更的代码进行审查,就能让我们的项目代码变得更加完善,更加稳健。这里生成了修复总结。下面我们回到 chrome 浏览器中测试一下。在 chrome 浏览器中,我们让它再次执行一下这个任务, 这里它自动输入,并且自动点击了发送。好,这里谷 rock 正在执行,我们看一下它是否记录到了这个对话。我们点击日制, 在当前这个日制,这里就有这个查看对话。好,下面我们就可以详细看一下我创建了这个 skill, 它是如何实现决策数的。 我们可以先看一下这个代码审查 agent skill 它的执行的流程图。当对代码变更进行审查的时候,它会首先判断是否是 get 仓库,如果不是 get 仓库的话, 会运行 get in it 命令。当满足是 get 仓库的时候,就会判断 java c l i 和 code c l i 是 否可用。 如果都不可用,就会安装 java c l i 和 code c l i。 如果只有一个可用,就会直接使用当前这个可以使用的 c l i。 两者都可用的话,那么就会运行到这一步,分析 get diff, 然后判断是否有变更,如果没有变更就无需进行审查。然后如果有变更,就会到第三步,计算复杂度,进行评分,然后这里是评分规则,然后到这一步就开始进行决策。 这里就是硬性规则匹配,如果匹配到 codex 规则,比如说代码中包含敏感的文件或代码,文件数大于二十或者行数大于五百行,还有数据库迁移, a p i 服务层修改,还有跨三个顶级目录,还有复杂的 ts 范型,像这样的话就会通过 codex 进行审查,然后 gemini 的 审查规则是纯前端的代码,或者是 python 生态,或者是纯文档。如果是这些简单的内容,就会由 gemini 进行审查。当这个得分大于等于六的时候,就会由 codex 对 这些高复杂度的代码进行深度分析, 然后当得分小于六的时候,它属于中等或者简单的任务,就会由 gemini c l i 进行分析,然后这里是默认使用 gemini c l i 进行快速反馈循环。当判断好选择 codex c l i 还是 gemini c l i 的 时候,就 开始执行代码审查,到这一步就会判断是否执行成功,当失败的时候就会尝试调用备用的。比如说刚才我们调用 gemini c l i 的 时候,我故意将网关掉了,然后它就会调用备用的 codex c l i 再次执行代码审查,当执行完成之后,这里就会结束。 下面我们就回到 anti gravity, 详细看一下这个代码审查的 skill 里的这些内容,这里就是这个 skill 的 名称,这里就是这个 skill 的 描述, 在这里我们就列出了什么时候不使用这个技能。下面就开始进入流程,这是第一步环境检查,也就是检查是否有 get 仓库对应我们这个流程图上的这一步,然后到这一步就检查 java c l i 和 code c l i 是 否可用,就对应我们刚才看到的这一步。 然后到第三步的时候,就是来分析 get diff 对 应流程图上的这一步,当没有变更的时候,就直接报告没有变更,然后到这一步就开始对复杂度进行评分,这里面给出了多种评分方式,也就是对应流程图上的这一个流程, 然后这一步就是探测语言还有框架,就对应我们流程图上的检测语言框架,还有安全性等方面的这个流程。然后到这一步就开始进行路由决策, 因为这些内容比较多,所以这里我们就不再具体去看了,也就是对应图上刚才我们查看的这一部路由决策树,它会根据这些规则来判断是选 codex c l i 还是选 gemini c l i。 到这一步就是执行代码审查,在这里我们设置了 gemini c l i, 它能执行哪些命令,然后 codex c l i, 它能执行哪些命令。对应流程图就是这里执行代码审查,然后在这一步就是判断是否执行成功,也就是对应示意图上的这一步,当执行失败的时候,就会报告这个失败, 然后尝试切换另一个 c l i 进行执行,然后这一步就是格式化输出,也就是对应图上的这一个执行流程。像这样的话,这个用了决策树的 agent skill, 它就能让 anti gravity 或者让 cloud code 等 ai 编程助手具备自主决策的能力。 最后再为大家演示一下我们如何将这个 skill 在 这个对话框通过斜杠命令快速调出。像这个方式非常简单,首先我们要确保我们已经在当前的工作路径设置好了我们的 agent skills, 下面我们点击 anti gravity 右上方这三个点,然后点击自定义,再点击这个 workflow, 然后再点击这个 workspace, 然后我们新建一个工作流点, 点击之后,这里我们给工作留念个名称,比如说 review。 输入好之后,按下 enter 键,然后这里就会弹出这个输入框,这里有这个描述的输入框。在描述这里我输的就是代码审查,遵循团队标准,然后在下面的这个内容这里, 在这里我输入的就是代码审查工作流,然后这里我用了艾特符号来引用了我们这个用于代码审查的这个 skill, 这里要求他将这个代码审查里的指南用于所有的目标文件,这里输入的就是审查用户指定的文件,没有指定则不审查。 在最后这里就是让他创建包含严重程度分类的审查结果的工具。当描述和内容创建好之后, 然后在 anti gravity 的 这个输入框,我们直接输入斜杠命令加这个 review, 我 们就可以成功通过这个工作流的方式来调用我们设置好的这个 skill。 由于时间有限,本期视频只为大家演示了用于代码审查的 skill, 大家也可以将决策树的 agent skills 用于更多场景。本期视频所用到的代码和笔记,我都会放在视频下方的描述栏或者评论区。

库德叉是真的越来越牛逼了,我是真的不得不佩服他,你看他最近每天都在更新,基本上好像他每天都会给我们推送一个新的版本。 然后啊,我真的是希望库德叉这家母公司 over ai 尽快的把那个非常高傲的卡拉库德这家母公司安史洛克给干下去。 然后我们再来看一下库德叉,他最近在他的一个终端命令行开发工具,从零点幺二八点零这个版本开始, 它增加了一个非常牛逼的类似于 alpha loop 这个功能。在以前我们要实现类似于 alpha loop 这个功能的话,我们必须得通过小脚本来实现。但是这件库尔叉 它直接在它的那个终端命令行开发工具下面直接内置了一条非常有用的命令叫斜杠个, 那么我们以后只要通过斜杠个然后你告诉库德叉要实现一个什么样的任务,那么库德叉啊,他就会不停的在那里开花,迭代测试,开发迭代测试,直到达到你的目标为止。 所以啊,我们现在用库德叉的话,那么就会非常的方便。如果我们出去吃饭了,或者是晚上要睡觉了, 那么我们在吃饭之前,在睡觉之前,我们只要通过斜杠哥告诉库德莎他的一个目标,那么他在你睡觉的时候和在你吃饭的时候 就帮你把你的这个动物和你的这个目标给实现了。大家有时间的话,可以在睡觉之前和在吃饭之前 通过斜杠个这个命令来帮你去开发一个新的产品吧。

所有养龙虾的朋友们,你们有没有这样一个苦恼,让他去网站上查个东西,他告诉你他无法查看, 今天我来帮你解决这个问题,只需要一个技能,就能让你的龙虾轻松访问任何网站。当然 cloud code 和 codex 也同样适用。今天要介绍的技能就是 open c l i, 它的本质是把网站变成命令行接口,它附用你的 graham 的 登录状态,所以很多站点都能直接搜查,读部分还能直接发内容, 大致能干这些事,一看热点和榜单,比如说 b 站热门,知乎热榜,微博热搜等等,一键查看。第二搜索内容就是搜 b 站知乎,像 youtube 叉甚至 boss 直聘这些网站。 第三个读个人数据,比如说是 b 站历史,还有时间上关注列表这些等等,还有的可以做部分互动,发推文,回复点赞,这是支持的网站操作。 第四个拿结构化结果,就比如说支持 json tab 点 m d, 这种结构就是非常适合小题加工,还有摘药做成表格。 还有一个很大的特点就是可以附用登录泰,你不用单独配 api k, 他 也能够直接通过你的浏览器来登录相应的网站。 最后就是他支持的网站非常多,什么像 b 站呀,知乎,有淘宝,微博,甚至还有小红书等等等等,这些都是支持的。有了这个技能,就相当于是给你的龙虾装了一双眼睛, 使用也很简单,直接在终端输入这行命令即可,一键开起来,演示一个小功能,查看 b 站前五热点榜,嗖了一下就出来了,感谢观看,希望这个视频能够对你有所帮助,下期见。

假如我在二零二六年才初次接触 qq, 那 么以下这十大技能插件和命令型工具就是我立马会装起来用的。不过,就算你不是 qq 的 纯小白,我觉得你多半还是会发现一些之前没见过的干货。要是真能这样,那我这期视频就算没白做 好。榜单第一名是 qq 的 code 插件,没错,就是 openai 家的那个 code。 我 们现在可以把 code 和 code 搭配起来用了。 你可能会问,这有啥用?哎,还真有一个特别实用的场景,把这两个工具组合使用能带来巨大的价值,那就是 code 代码审查和对抗性审查。因为当我们在跨扣里估到出点东西时,尤其要是我们没有技术背景的话,我们可能很难真正判断它生成的代码是不是最优解。 没错,我是可以看看跨扣给我的生成结果,但要是我去细看它写的实际代码,你能看懂它到底在干嘛吗? 我清楚情况吗?那可不一定,毕竟这不是我们的专场领域。尽管我可以让 call out code 去检查并评审你的代码,但实际情况是,大多数大语言模型,包括 opus 四点六和 sana 四点六在内,在审视自家代码时都难免会护短, 他们不可能回过头来说自己的代码写得稀烂。不过,如果我们借助像 codex 这样的外部工具来帮我们做代码审,尤其是那种挑刺儿似的对抗性审审,让它真正深入到代码的五脏六腑,看看我们到底是怎么把它搭建起来的,然后指出这里不对,那里有问题。 这样一来,我们就有了一个秘方,能产出更优的结果,并为 codex 打下更坚实的基础。好了,安装起来非常简单,你只要搜索 codex plugin code, 就 会跳转到这个 github 页面, 然后把它添加并安装到应用市场里。简单到只需复制粘贴这几条命令就行。打开 qq, 把代码粘贴进去,安装完成后,运行一次,重新加载插件即可,然后运行 codex 设置。 使用此功能前,你需要先拥有一个 open n a 账户。因此,如果你已有 chat g p t 账户,即便是每月七美元的购计划基础版也完全够用。接下来,只需打开 call code, 在 你正在开发的任意项目中,然后运行命令 code x adversary review 对 抗性审查,它便会自动完成全部流程。 此外, code x 还提供其他几个命令,例如常规审查强度没那么高。你也可以具体指定让 code x 审查哪些内容。 他还提供比如 codex 救援这类功能。换句话说,如果你想让 codex 摆烂不干了,希望由 codex 来干活,但同时仍留在 codex 平台里,比如针对某些特定需求,就可以使用 codex 救援命令。总而言之,对于任何基于 codex 的 项目,这都是个值得加装的神器级插件, 因为它能为你提供一双非人类的法眼来审视代码,帮你判断代码逻辑是否合理。在进入下一个话题前,先简单安利一下我的 quac 大 师课。这是小白变身 ai 开发者的最佳捷径。无论你是技术大牛还是纯新手, 课程聚焦于真实应用场景,并且每周都会同步更新。所以,如果你想真正玩转这个工具,赶紧去了解一下吧。课程就在 kci 平台内,我会把链接放在评论区。另外,如果你是刚入门的 kci 社区, 相关链接也放在视频简介里了。接下来要介绍的第二个插件想必大家最近都耳熟能详了,那就是 obsidian 笔记软件以及配套的 obsidian 技能。 简单来说, obsidian 就是 一个用来整理 markdown 文件和文本文件的工具,它完全免费,而且和跨扣的集成设置起来也超级简单。你只需访问 obsidian md 官网就能免费下载并安装。你只需要在电脑上指定一个文件夹作为知识库,我称之为保险库。我管我的叫保险库,你爱叫它什么都行。 然后就像我这样,在这个知识库里打开 quacode, 基本上就可以开始用了。从此以后, quacode 在 这个知识库里创建的所有内容,只要是 markdown 文件就会自动整合到 obsidian 里。它能生成像这样酷炫的知识图谱。但真正厉害的地方在于,它让你整理资料变得超级轻松。 obscene 在 某种程度上变成了一个迷你的 rap 系统,却无需承担所有额外开销。这是我们在最近一期视频中详细探讨的内容。我会把链接放在上方。我之前向你展示了如何使用 obscene 和 rap 创建知识库。系统模仿了卡帕西亚最近在一条疯传推文中所谈论的内容。 这种非常易于设置的文件夹系统是我们能够拥有清晰的路径。在这里,我们让夸为我们研究事务,然后将这些研究成果转化为不同的维基百科文章,这些仅通过此文件夹进行简单组织。这意味着我们可以构建一个系统,其中包含成百上千甚至更多的文档,既便于克劳德操作,也方便我们使用。 确保克劳德充分利用 obsidian 潜力的最简单方法是安装 obsidian 技能,这是来自创造者,来自 obsidian 首席执行官本人的信息。这只是一个简单的 github 仓库,其中包含一系列技能,教导克劳德如何最好地使用它。 这种设置非常适合使用 qr 的 情况,在任何类型的个人助理项目中,或任何拥有大量且不断增长的 markdown 文件库的项目。 说到 carpafe, 你 想在 quattro 工具箱中添加的第三个工具是自动研究功能。所以汽车研究本质上就是一个装在盒子里的机器学习算法。我们可以把它和 quattro 搭配使用,想优化什么就优化什么。我们只需要用这里展示的几行代码就能把 auto research 装到电脑上。 接着我们打开 quattro, 告诉他,嗨,我有个程序想优化一下,或者我有项技能想让它更厉害。 这时候就可以让 auto research 出马了,它基本上会对那个程序运行一大堆机器学习实验,就是你想要全自动优化的那个程序。任何没让程序变好的改动,它都会扔掉,而真正有效的改进,它就会保留下来。这样日积月累,就像你眼前看到的,最终产品就会变得越来越好。 再强调一遍,整个过程全是自动的,你基本上可以当甩手掌柜。所以只要你在用 qq, 并且想优化点什么, auto research 就是 你的不二之选。 接下来要聊的第四样好东西是一个全新的代码仓库和一套技能。它叫 wesamethan m 的, 专门搞前端设计的。因为 quaco 在 前端设计这块儿实在是不太行,就算它自带了一些前端设计技能,效果也就那样。而 wesamethan m 的 出现堪称一次巨大的飞跃。 这个 design m 的 设计灵感很大程度上来源于 google stitch, 就是 你屏幕上看到的这个。 google stitch 是 一款专注于前端设计的 ai 工具, google switch 的 功能之一就是为它生成的每个网站创建设计 markdown 文件。你在这里右侧看到的那个设计 markdown 文件,其内容大致如下,我把它放在记事本里展示,这样应该能看得更清楚些。 这其实是一个非常详尽、构思缜密的提示式结构,专门用于生成前端设计和网页。这可不是简单一句别搞的向量生成的垃圾,改改那些网格区块的样式就能搞定的,它的详细程度要高得多。 而 wyzer medicine m 这个项目正是基于此构建的。这个代码仓库做的事情是,它收集了大量热门网站,比如 quad、 十一 labs、 coheri 等等,并将这些网站转化成了类似这样的设计 markdown 文件。这对你有什么用呢? 这意味着,当你在设计网站时,如果你从 figma, notion 或 pinterest 这类网站上获得了灵感,并想以此作为你接下来要搭建的网站的基础,那你只需来到这里,点开其中一个 markdown 文件。它基本上就提供了一个该风格的模板,供你直接用于自己的网页, 从按钮、颜色到字体一应俱全,这是一个绝佳的起点。这总好过全靠向 quan 祈祷,指望它随机生成一个你满意的设计, 而且使用方法也非常简单,我只需复制这条命令,然后粘贴到跨的代码界面中即可。而且他已经把这些功能都准备好了,随时可用。这个代码仓库上周才刚出炉,他已经收获了三万八千颗星。所以,如果你在做任何需要网页的项目,又不想页面看起来太丑,那一定要试试这个。 接下来是第五个,我们来聊聊一些命令型工具。具体来说就是 fire quail 命令型工具和 fire quail 技能。基本上,每次我们提到命令型工具,也就是 chris, 你 通常也会需要一个配套的技能,因为这个技能能教会 quail 代码如何使用这个命令行工具, 所以这俩基本上是打包出售的。如果你在做任何网络爬虫的工作, firecrow 绝对是你的不二之选。尤其是当你爬取的网站内置了很强的反爬虫机制时。因为如果你只靠 qq 代码自带的普通网页搜索,在一些防护严密的网站上,你肯定会碰壁, firecrack 却能轻松搞定。不过, firecrack 的 厉害之处可不只是能绕过反爬机制,更重要的是,当它从网上抓取数据时,它能以结构化的格式返回数据。这种格式对大语言模型来说更友好,更容易读取。和所有这类命令型工具一样,安装它真的只需要一行代码。 虽然 firecracker 的 主要产品需要你付费购买 apm 药,但 firecracker 本身也是开源的,你将无法使用 firecracker 的 专属引擎,这个引擎正是它们用来突破高级反爬虫机制的关键。不过,如果你只是想进行一些基础的网页数据抓取,而且不需要对付那些变态级别的反爬虫检测, 那么直接用它的开源版本可能就足够了。所以你在这里有几个选项可以考虑。接下来我们聊聊另一个同样专注于浏览器自动化的命令型工具,那就是 playeraid 命令型工具。它的优点在于完全免费, 当然,你还是得为使用量令牌付费,但这和 firecloud 的 网页版应用不一样,那个版本需要我们为 api 调用,单独付费。 所以说, play ray 命令行工具是 play ray 框架最新最强大的版本,它比 play ray 的 m c p 版本要更胜一筹。所以要是有人推荐你用 m c p, 别听它的命令行工具不仅效果更好,而且成本更低。那么 play ray 命令行工具具体能干什么呢?它能让我们授权跨扣来替我们执行浏览器自动化任务。 这话具体是什么意思呢?我的意思是, coacoo 通过调用 playrite, 实际上会创建独立的控浏览器实力。就好像你亲手打开了控浏览器,然后可以在上面进行各种操作,比如登录网站、测试功能等等。现在 playrite 实际上有很多值得关注的发展,它拥有上百万种不同的命令, 但由于你是在云代码内部使用它,你无需了解这里看到的所有内容。所以一旦你安装了 playrite 命令行工具,你就可以直接输入类似这样的命令。 嘿, quora code, 我 想让你创建新的 quora 实力,我想让你测试我刚创建的新网站,比如测试表单提交功能,它会根据你的需求创建任意数量的谷歌浏览器标签页,这比内置的云代码要好得多。 quora 浏览器中有一个名为 quora 的 谷歌扩展程序,它会打开一个标签页,由 quora 来为您执行各种操作。这并不理想,因为 quora 的 云代码是基于屏幕截图构建的,这些过程非常缓慢且成本极高。 这不是 play 查看网页和执行操作的方式。 play 实际上是在底层查看代码,它正在查看所谓的无障碍数,这使其效率大大提高。因此,如果你正在从事任何需要 quaco 来实际操控互联网上网页的工作,这就是你想用的 现在工具七号是我最喜爱的一款,那就是 notebookaland pen。 如果你看过我的频道,那你一定听我聊过这个。 该科技工具及其配套技能使我们能够将 quaco 与 notebook alim 网页应用无缝对接。由于标准版 notebook alim 没有提供 api 接口, 我们没法直接让 quaco 跟它沟通,但借助科技工具,我们就能轻松实现。也就是说,平时在 notebook alim 上能做的所有操作现在都能在 quaco 里完成。甚至功能更强大,比如批量下载、换灯片、修改文访问,以及通过编程方式共享。这些功能 在 notebook lab 的 官方网页应用里根本用不了,但通过我们这套可以工具系统就能轻松搞定,连所有的产出物也都包含在内,比如视频、 ppt、 报告这些全都能搞定,现在用 coco 就 能全部搞定!最棒的是,这基本上算是免费的。 当你上传资料进行分析时, quaco 要处理的所有工作,不管是 youtube、 视频、 pdf 还是其他任何格式,其实这些活都甩给 google 服务器去干了。所以,如果你正为怎么用好 quaco 而发愁,把它跟 notebook lim 这类工具搭配使用,简直就是雪中送炭。因为你消耗的令牌数大大减少, 分析的重活累活都让 google 包了。他分析完直接把结果丢给 coco, 和你跟所有这类工具一样,安装起来超简单,就几行代码的事。说实话,这些工具的安装过程,你只要告诉 coco 你 想做什么,他就能帮你搞定。你直接把 github 仓库的链接丢给他就行, 你可以复制粘贴整个页面内容,这些方式统统都行得通。 coco 非常聪明,能自己领会该执行哪些命令。接下来是第八项技能,这可以说是你能学到的最重要的技能,那就是技能创造者这项技能。 那么这项技能凭什么能碾压其他技能呢?难道只是因为它能创造新技能吗?不,关键在于它能评估技能的表现。 所以当你想打造一个自定义技能时,你必须搞清楚一件事,这个新技能到底有没有提升你想生成的结果的质量?跟完全不用这个技能相比,效果到底差多少?在技能创造者出现之前,我们根本没法量化这个差距, 或者说至少没法轻松做到。但现在有了技能创造者技能,他就能实际运行性能精准测试,还能进行 a b 测试,为你提供实实在在的数据,你就能基于这些数据来做决策了。 而且它的作用不只是对比用技能和不用技能那么简单。借助这个技能,我们还能测试各种不同的改进方案。 比方说我修改了一个技能,觉得它改得更好了,它同样可以给这个新版本跑个分。方法是一样的,这一点非常关键,因为技能可以说是 quaco 里最强大的原声功能,没有之一。 所以,如果你打算自己开发一个新技能,或者修改一个现成的技能,你就得用上这个工具。它安装起来非常简单,因为它是一个官方的跨扣插件,你只需要输入 plugin 命令, 就会跳转到插件市场,然后直接搜索 skill creator skill 这个插件,点击安装就行。第九个工具可能有点小众,但它绝对是我的心头号, 那就是 light rag。 这是一个开源的图解锁增强生成系统。如果你想构建一个比 obsidian 更强大的知识管理系统,用它就再合适不过了。 obsidian 固然非常强大,但当数据量达到一定规模时,它就开始力不从心了。实际上,使用一个专业的 rag 系统反而更划算,效率更高。 light rag 在 这方面堪称完美,主要是因为它轻量级,而且还是免费的,我们不用到处去找,然后花大价钱购买那些天价的图 rag 系统,比如说微软官方出的那个 graph rag 系统。 所以,如果你正在寻找一个更强大的解决方案,也许你正在做一个客户项目,或者需要处理一些棘手的任务,比如要处理成千上万份文档, 那么 light red 就是 你的不二之选。压轴出场的是 juice, 这是一个命令行工具,能让你把 qq 和你整个 google 办公套件联通起来。这个功能超级强大,尤其是当你打算深度使用 qq 的 时候,它就像一个全能型的私人助手。 如果你想让 coco 帮你打理邮件、文档和日历,那这个工具你就少不了。因为过去有很多野路子方案也想实现这个功能,但这个工具可是谷歌开发者亲手打造的, 它虽非谷歌官方出品,但确实是谷歌团队开发的,所以从各方面来看,它的地位就比盖了官方印章的产品低那么一档。不过珠子也有个缺点,就是配置起来可能有点费劲。技术门槛不低,因为你得在谷歌云平台上操作,开启一大堆功能。但另外一点你得心里有数,就是用了柱子你能调用的技能数量。 瞧,这里列出了所有跟使用 tools 相关的各种技能。这倒未必是件坏事。这里面很多技能说白了就是为你量身打造的工作流,比如改个会议时间,整理一下网盘文件夹,或者设置个周期性日程。 所以与其指望 coco 自己把那些基础技能东拼西凑,再琢磨出一套好用的工作流,谷歌或者说他们的团队非常贴心,直接把这些现成的配方免费送给我们了。我们根本不用费脑子想, 但技能太多了,你不可能一股脑儿全给加载上。所以我的建议是让 coa coa 对 接这个代码库,然后直接问他,喂,看看这些技能,哪些是跟我们日常工作真正相关的。所以如果你想将 coa coa 当做个人助手来用,说白了就像 open coa 展示的那样,那么就是你该用的工具。 所以如果你是新手,希望这个视频能让你收获满满。如果你是老手,希望至少有两三个工具能让你眼前一亮。

你在用 code c like 或者 clockcode 写代码吗?是不是觉得终端界面看着头疼,每次还得配置 apikey 掏钱订阅?今天这个项目可能就是你要找的 t 三 code 只需要异形命令 npx, t 三零, apikey 零费用零安装。它不是又一个 ai 编程工具,而是给 codex 和 clockcode 加了一个极简的图形界面。 关键来了, t 三扣同时支持 codex 和 cloud code, 两个 ai agent 在 一个界面里随时切换。 cursor 和 winserve 都只能用自家引擎, t 三扣让你不被单一供应商锁定,而且 cursor 支持也在开发中了。 来看价格, cursor 每月二十美元, winserve 十五美元,而 t 三扣完全免费,因为它用的是 codex 和 cloud 的 官方 c l i 登录,不需要额外付费买 api。 这个零成本策略是它爆火的核心原因。 底层设计也很有意思, t 三 code 用了 provider adapter 架构,每个 ai agent 通过统一接口接入 cloud, 支持绘画,中途换模型, codex 需要重启绘画才能切换。这些差异都被 adapter 层屏蔽了,用户完全感知不到。 代码层面 session logic、 ps 有 一千一百行纯派生函数,所有 ui 状态都从 activity 流中计算得出,不依赖副作用。这种设计让界面逻辑和业务逻辑完全分离,非常干净。 桌面端覆盖 windows、 macos、 linux 全平台,而且它还有 web 模式,这是 cursor 和 winsole 都没有的。在任何电脑上, n p x t 三就能开箱即用。 看这张功能矩阵,开源多 agent, winsole 端免费, t 三 code 四项全站, cursor 和 winsole 全是叉号,当然它们是完整的 ide。 t 三 code 是 纯 agent 控制面板,定位不同。但如果你只是想管理 ai 编程助手, t 三 code 已经够了, 社区反应也很真实, ready, 用户说不需要 a p i t, 不 像其他工具要你自掏腰包。 hacknews 上有人评论这个方向是对的, ai coding 确实需要一个统一入口。当然也有人质疑说它完全是 white coding, 代码质量不高。 为什么 t 三 code 现在火?三个原因,第一, ai coding agent 正在爆发, code c i 和 code code 都是今年才发布的, c l i 体验差是公认的痛点。第二,零成本零门槛。第三,不造轮子,只是给已有工具加了个漂亮界面。这种定位让用户觉得终于有人做了这件事。 对国内开发者来说, t 三 code 提供了 cursor 和 win serve 的 免费替代方案,但有两个注意点,一是依赖 codex 和 cloud 的 官方 c l i 国内需要代理。二是社区,有人说它是 fightcode, 用 ai 生成的代码写的 ai 工具,有点套娃, 感兴趣的话,一行命令 npx, t 三就能体验 github 仓库 pingoc。 t 三 code 已经有将近一万 star, ai coding 时代, agent 的 控制面板可能比 agent 本身更重要。

看到库克拉克的分享的 skill 的 设计模式,感觉使用克拉克的 qd x 的 兄弟们,你们可以直接抄了啊。兄弟们啊,以前总是乱写 skill, 乱写一些 prompt, 哎呀,很容易乱猜或跳步幻觉啊,现在用这种五种简单的方式啊,就稳定多了。兄弟们,我把原文和解读版全部都贴在这里了,你们需要的你们自己去拿。好吧,我尽量的把原文全部翻译过来。

今天是我们 codex 的 第一讲 codex, 它到底解决什么问题呢?其实 codex 最值得讲的地方就是它把 ai 写代码拆成了四种工作方式, c l i、 ide、 桌面 app 和 cloud。 你 可以在终端里面慢慢改,也可以把它 交给 cloud, 在 云端上慢慢跑。那接下来我就带大家一起来看一下这四种形态。好,我们先来看 c l i, c l i 适合及时的迭代,然后来读代码、改文件、跑测试、解释、报错,你坐在旁边验收它,一步一步来推进 c l i, 你 可以在终端里面直接去输入 codex, ok, 当你看到 openai codex 以及它的 model 显示的时候,就代表你已经进入到 c l i 里面了。接下去你就可以直接跟它去进行一个交流,比如说我现在可以切换对目前最高的,它就指到 g p d 五点四, codex 的 桌面板目前已经支持 windows 和 mac, 这里你看到的就是 codex 的 一个桌面版的一个页面,它就比较适合多任务并行。你看我在一个界面里面,这里就打开了深图的,然后打开了很多做课件的,对吧?以前还有一些做项目的,它是完全都可以并行的,包括这里会展示一个自动化的一个入口,就我配置了一个日报和 ai 日报的一个素材沉淀, 还有一些插件。啊,这个我们在后面再去细聊。那接下去我们来看它的第三种形态,是 ide, ide 的 话,你可以在 vs code 或者是 codex 里面都能够看到它的一个 codex 的 面板。我现在点击 codex, 在 codex 里面,我们在左侧面板的上方点击这个下滑箭头,看到这个 codex 就 可以进入了, 那这里恰巧是我用的比较少的地方,像 ide 呢,它比较适合你,左侧就是派发任务,右侧来看代码,比较适合已经习惯在编辑器里面工作的朋友。 好,那最后我们来看一个云端的入口,可以打开你的浏览器啊,上面就会有啊, g p t 点 com code 在 这里呢。云端的入口呢,比较适合后台的任务,你可以把你的仓库和任务交给他,他会在一个隔离环境里面跑,最终给到你一个可 review 的 一个结果,这里你就会可以选择你的一个 github 的 一个远程仓库了。今天这一节呢,我们主要来认识一下 codex 的 四种工作方式。 ok 啊,今天我们就先分享到这里,拜拜。

好,大家好,我是小刘。呃,今天我们来看一下那个 codex 这一次最新的更新哦,那我讲一下我自己使用 codex 的 一些技巧,希望能够对你有所启发。那首先呢,我觉得 codex 当中所有功能当中最好用的一个功能就是这个自动化,没有之一。真的,这个基本上它能帮你完成所有的事情。比如说像我们家每天呃,基本上每周吧就要换一桶蒸馏水,这个时候我就可以跟那个呃帮我创建一个自动化任务。 然后呢,这个时候呢就直接艾特 composer 柚子,他会自动在微信列表找到送水的小王,跟他说家里没水,让他送水过来,晚上我看了消息之后给他转钱,这时候呢,他会自动去运行。注意这里呢,你要选择最低的模型,因为这个任务他很简单,并不需要使用很复杂的模型, 所以就是说,呃,你可以测试一下。那没问题呢,他会自动在你的微信列表里面找到小王,跟他发这个消息,甚至你还可以每天早上让他给你老婆发消息,或者给你老公发消息,非常简单。 这里记得开启这个防止休眠的开关。那尤其他最近更新了一个挺有意思的功能,叫做,嗯,就是这个浏览器使用,也就说你可以完成京东的打卡,淘宝的打卡,还有一些其他的操作。那这里呢,你可以给他始终而允许,然后这样的话,他在电脑上去审批一些文件的时候,你甚至可以给他 呃做任何你能够想不到的事情,比如说登录学校官网去帮我刷课,刷网课他都可以做到,真的很神奇一个点,这是我觉得最好用的 一个功能,自动化,那绝经、打卡送水都是一些小例子,大家可以以此发挥,对吧?比如说每天给谁谁谁发消息,那都可以让他去做到。那我们来看一下这一次更新的一些我觉得不错的功能嘛,就是首先比如说我让他帮我搜索这个最火的博主,你看他手里到这个列表,然后 排了排序了一下,就这一个,就这一个命令,哦,我用五点五模型,然后他跑完之后,你猜用了多少? 他用了接近百分之二十,因为我刚又多问了一个问题,我用完的时候还是百分之八十三,你看就问了这一个问题,他是百分之八十三啊,对吧?非常的恐怖,这个五点五模型消耗了一个速度,而且我还是 plus, 这个 plus, 这个这个 啊角色,你看他消耗这么多,也就说你一个 plus 用户每五小时你只能大概问啊五六个这样的问题,所以就是我觉得还是用 token 比较节省的话,是五点四比较好一点,对吧? 这里呢再给大家分享两个插件,我用的比较多的就是这个 codex history, 然后同步的这么一个工具。这个开始工具呢,主要就是可以帮助你把你的这个账号之间隔离的这种数据呢,给它全部都放在一个账号上来, 非常的 nice。 因为大家发现没有,就我们在使用 codex 的 时候,你的这个记录啊,老是消失,哎,突然突然就不见了,尤其是你换了多个账号之后,之前的记录更是找不到了,但是这些记录呢, 一直没有消失,全部都存在你本地的这种数据库里面,就是个 circle net, 就是 codex 存存入数据的地方,就这玩意它需要你自己手动去把它给它同步到一个地方,就可以使用这个工具,它可以帮你把这个账号 全部放到一个上面去。那 windows 的 话是可以使用这一个开美项目,还有个 mac, mac 的 话使用这个开美项目就隔离一下吧,大家可以自行看一下,那两个项目都是一样的,你看还是基于它听,嗯, 公开的,它补充了 mac 的 这个版本,相当于这两个工具,可以帮助你解决这种数据不统一的问题。那非常简单,使用起来,你直接把它下到本地,然后你你你安装个图形界面,创建快捷方式,你执行一下就好了,非常非常简单。你其实不知道怎么操作,你就复制它一下,然后你新建一个选项,好吧?新建一个选项,你直接问他,对吧?你直接问他啊,请你帮我就是,哎,把这个插件安装到本地并帮我启动,就这么简单一件事,好吧。 然后就是这个插件,这里这一次又加了几个小的功能,就是这个,我给大家按一下艾特符号,看到没有?支持 word 文档读取,还有表格读取,还有 ppt 读取,之前还是不支持的,他可能依赖一些外部第三方的 skills, 但是那样读取并不是很好,但是他出了这个官方的 skills 就 不一样了,你读取出来的结果一定是非常的 nice 的, 非常的匹配的。就你有任何的 word 文档, ppt, 你 都可以教给他,或者论文之类的, 非常适合做学术研究啊,就是我觉得,呃,这几个比较好的,但这次它去掉了就只有两 两个核心,一个自定义。那系统第一个讲起这个默认,很多人没搞懂什么叫默认啊?就是说 codex 在 沙河中自动运行这个命令的时候,他会默认的去向你进行询问,哎,他觉得这个权限风险哎,蛮高的。那就向你去询问,他可以什么 问题都问你一下,就是跟你进行交互,这个自动审查,他会在沙箱中自动运行这个命令。啥意思啊?就是我运行这个命令的时候,我会在一个虚拟的环境中运行一遍,哎,我觉得他有风险,我再给你询问,哎,可能是问的不怎么明白。自定义 就说你把你所有这个权限,你全部打开这个设置,这个设置,你点设置,这边有一个叫做啊这个权限的这个配置,你看这个这个用户配置,这玩意你得打开,你看他会对每一个每一个项目你使用什么模型,对吧?啊?使用了这个什么什么啊? 比如说,哎,我对某一个插件是否允许它开启 compile use, 你 看开启现在开启状态对不对?我可以把它关掉,飞个马插件,你看就你把这个配置可以把它找成一个文件,你可以发给你的朋友,让你的朋友用到这个文件,但是注意一定要把这个路径给他改成一样的啊, 对吧?这是一个好点,就用户配置嘛,对吧?我们说了啊,这个不同权限,其他的我之前都讲过,那就没什么好说的,个性化这里我觉得这个有点啰嗦,所以我用了这样一个自定义指定,我觉得挺好用的。 然后,呃,还有一个点就是我建议大家不要什么都开这个记忆,这个记忆很容易造成某种,如果说你是做某一类的需求,那你可以把它开起来,不然就会造成噪音啊,这个噪音就是会干扰你那个那个啥,你可以自己去把你的记忆进行处理一下,我觉得挺好用的。对, 还有就是那就刚我们说的这个浏览器这里,浏览器这里呢?这个我们刚说,对吧?你可以选择屏蔽一些网址,就你屏蔽的这个网址呢?就他在 open source 运行的时候不会给你打开啊,当然非常的 nice。 好, 那我们再来看一下,就是,呃,这个五点五模型真的非常的消耗,消耗头坑 plus 用户一天只能够五到六次,对吧?所以呢真的适合这个,这个 真的不太适合,就是用来做打卡之类的相关的东西。好吧,好了,呃,那以上就是本期视频的全部流呢,我是小刘,我们下期再见。

codex 加小梦 c l i 王炸组合,一句话克隆任意一个视频,比如这个。归藏老师分享了这个 ai 生成的游戏 demo 视频,我觉得很有思想,要做一模一样的, 先录屏下来,然后把整个视频文件丢给 codex, 只需要一句指令,用内置的 g p t max 二生成四张关键帧,再用极梦 c l i 的 cs 二点零复刻一个一模一样的视频。 等一下下,四张关键帧图片和最终的游戏 demo 视频就生成出来了。赶紧抄一下我的作业吧。沧州城哪里可有推荐去处。

大家好,在 ai 编程的时候,原型设计是一个非常麻烦的事情,特别是对于非专业的人来说,一些设计的专业型的概念啊,怎么去调整页面啊,这的确是一个老大难的事情。那么 cloud 和 google 分 别出了专业的这种 ai 设计工具,比如说 cloud design 或者 google switch 啊,都是通过提示词能够生成漂亮的网页。但是呢,这两款工具要么是收费,要么是指定的模型。那最近呢,社区就出了一款非常火的开源的免费的 ai 源型设计啊,叫 open design, 那 么它就是可以自己去换模型,然后也降低了很多门槛,非常有意思。那本期视频就跟大家一起来探讨一下, open design 如何使用, 和它有什么样的特点。我们先来看一下在 ai 时代的设计应该是什么样子的,那比如说你要用 ai 去设计一套网页或者一套原型的 app, 那 么你需要一段提示词,有可能是你的产品 p r d 文档。然后呢,你要选择一些专用的 skills, 因为你如果不使用专用的这种技能呢,突出的这个原型界面啊,这种美观度啊,可能是比较差的,可能需要一些参考的样式或一些图片比比如说你让他模仿已经现有的什么样的风格。 那么这三个呢,作为一组输入来发给大模型,那大模型收到这样的输入之后,你要生成外部这原件设计或者 app 的 原件设计都可以,那么你也可以去生成这样的落地页,或者说啊专题页。 那么好一点的这个工具呢,会提供这种页面的局部调整,那选择某个页面之后,哪页面的哪一块问有问题,你是可以去通过提示词去调整的,那么也可以把你现在已有的模型产生出来的这些原型局设计规范导出来, 那放到你的 ai 编程工具里面去,那么你后面可以在自己的这个编程工具里面根据你的大局的设计规范去生成新的页面,或者新的这种组建啊,弹窗啊,那这样的话就 非常的完美的解决这个圆形设计的问题,然后把大这个设计的门槛给进一步降低了,所以呢一个好的 ai 时代的设计工具,我认为是大概是符合这个样子。那 google stitch 和这个 cloud design 其实都是有这些功能的,那么 open design 有 没有这些功能呢?我们来看一下。那么我们可以来到 open design 的 这个 github 的 这个介介绍页面啊,这边有中文的,我们可以看一下中文的介绍, 那么它的特点是什么呢?细节就是这个就是会使用你本地已经装的这个终端命令行工具,比如说像 cloud code 或者 codex 或者 costo 都可以,只要你有终端命令行工具,那么它就可以去调用这样的能力,那么它自己是不会去部署这样的 ai 的 一个 ai 的 平台的,它需要的是你本地的这种 ai 的 编程工具能力。比如说我们使用了 cloud code 进行编程,那么它就可以调用 cloud code 去执行这样的一个设计的一个产出, 那么你 cloud code 就 可以觉得很方便的,很自由的去对接各种各样的模型了。所以这是它的一个一大个特点,就是不绑定 ai 的 ai 的 的平台, 也不绑定使用任何模型。第二个呢就是它内置了很多设计的系统,那什么意思?就比如说你很喜欢苹果的风格,那么它这边就集成了苹果的统一的风格,那么你就可以 直接引用这个风格,拿去去设计类似的这种网页,所以这边是有七十二套,它内置了很多这样的专门的设计的 skills, 比如说像这种啊萨斯这个落地页啊,或者这种呃 app 的 页面啊,非常的非常多, 那这边肯定后面有可能会开放出来,让大家自己去上传上去,然后共享到社区去使用,那这是一个非常强大的一个能力。除了去生成原型呢,这边也去可以生成图像视频、音频,它这边是内置的这个 jpt image 二的这种集成啊,也还有这个 c n s 这个二点零都是可以的。 ok, 那 我们就来体验一下。 那首先呢这边的话你要去下载这个源码,然后进行一个翻译,然后再启动,那这边的话它的启动是非常的简单的,我们把这个命令复制一下,我们来到这个目录,然后我们执行这个启动命令,如果你第一次的话,你还要起安装这个,还要去输入这个安装的命令,然后再去启动 好,把这个地址啊复制过来,打开之后就能看到。那么你如果默认是一个英文的,你在这边点击设置,然后呢这边可以选择语言,然后的话把它改成中文, 这边选择中文啊就 ok。 那 么在这边你也可以去设置你要用的这个本机的这个编程工具啊,那这个比如说这个我默认的使用 kimi c i, 那 么我也可以使用 cloud code, 那 这边有好多,它也会检测到有没有安装 这些安装的话去官网上安装也是非常方便的。那安装完之后你去保存,那我们就可以去进行一个这样的圆形设计了, 那这边的话是他可以做的这个目前可以做设计的各种量,比如说圆形设计换个面,或者说从现有的模板啊选择这样的模板,比如说这个, 那这边就是统一这种设计规范,比如说 cloud 的 这种,官网的这种这种风格,或者说啊 apple 或者说特斯拉都有,你都可以选择一种设计的这种规范,然后套到自己的网页里面去。我们来做一种设计的这种规范,然后套到自己的网页里面去。我们可以输入 test, 然后我们选择一个设计的体系吧,如果你有自己的这个的话,你就不要选择就行了, 我们可以选择一个好,我们就选择 cloud, 然后这边的话是线宽图和高保帧,如果你是做圆形的话,非常建议用高保帧了,线宽图是比较粗,就比较比高保帧还粗糙一点的。这个项目已经创建好了,那接下来我们就要去输入这个提示词啊,创建好好, ok, 那我们就可以去啊,让他去来帮我们去生成这样的一个网页。那我们大概做一个还是这样做一个电商网站吧。 ok, 我 们就来个简单的,就是让他设计一个类似淘宝这样电商网站, 然后只需要首页秒杀活动页、商品列表页和商品详情页,因为电商是一个比较常见的这个场景啊,模型是大概能理解首页是什么样子的, 当然你也可以说的更详细一点,你的首页是什么样,要有哪些元素,对吧?然后你的活动要有哪些元素是可以去更加详细去描述的?你可以提供一个 p r d 文档,或者说你提供一个专门的页面设计,文档包含了哪些页面啊?页面里面有什么样的功能,是怎么排版的? 然后的话它的风格是什么样子,都可以在这边去提示,去输入这个提示啊,能得到更好的效果,那我这边就来跑一个平均的一个效果吧,然后点击发送, 然后大家可以看到它这边调用的就是我的这个 cloud code 的 本地的终端啊,那相当于是它跟我们的这个 cloud code 进行通讯,比如说我这个 cloud code 用的是智普的五点一的模型,那么它是直接调用这个模型的。好, 我们选择的是 cloud 官方的这种设计的规范,所以都是以橙色为主。 ok, 他 这边的话会给我们提供一个这样的问题啊,让我们来回答,那我们就选择桌面端吧,那视视觉风格啊,他这边的话让我们选风格,他其实是跟我们刚刚第一步选的这个设计规范是进行一个融合的,比如说我们就接近淘宝吧, 进淘宝主营品类,我们选一个电脑数,品牌方向就是你如果你有的话,你可以提供一个这样的品牌规范,他等会在提问中会给到你,如果没有的话,你就让他自己随机生成就行,你也可以截图让他去给你生成,那我们就选择来让他自己帮你选 首页包括哪些模块啊?我们可以这些是多选的,我们都可以加上。 ok, 好, ok, 他 这边也是制定一个这样的计划,来一个一个页面来生成好,他这边开始去搭建这样的首页了。 ok, 他 这边任务已经完成了,那做完了这四个页面,首页、产品页面页、活动页和这个商品的详情页面,我们来看下效果 哦。嗯,我觉得还行,我们用浏览器来打开看一下,那这个就是他的页面首页,然后有个这样的图,有个这样的分类, 点进来是一个商品的列表页面,然后可以点击商品的详情页,然后这是促销,这是规格,这个是切换的图片,那是一个中规中矩的这个商品的页面啊。然后我们看一下秒杀页面 啊,秒杀,然后的话有个这样的倒计时,我觉得已经非常不错了,因为这个前提是我们是没有任何的这个要求的,只是让他一个平均值。比如说你如果 更懂一些设计的一些规范的话,你可以描述一下你这个页面到底大概是什么样子,你可以输入更多的这个参考,然后你可以让这个页面变得更好。他除了可以做这种网页的这个原型的话,你也可以去设计这样的 app 的 原型啊。比如说我今天拿它做了一个这样的小的这个测试, 比如说我现在生成一个修复老照片的这个一个这样的 app, 一个大概有六个页面啊,这边的话也是可以去自己去调整的, 有很多这样的页面啊,很多这样的效果也是做出来了啊,非常的不错啊,我是属于没有任何的这种设计的经验的,那除了去设计外部网页,还有这个 app 之外,你也可以去设计啊,比如说像啊、落地页啊,或者说换灯片啊 啊,比如说这也是可以去做晃动篇,也是非常不错的。那如果你想看一下别人是怎么做的,那这边有一个视例,这里面有很多这样的例子,有网页、有图片,也有这样的移动端、桌面端、晃动篇都有。那么你也可以去看一下别人的这个提示词是怎么写的啊?我们可以打开一个预览, 那么他这个就是一个页面啊,就设计设计这一个页面很多都是单页的设计比较少,这里面还有很多故事是在叠代中的,比如说我们刚刚设计的这个 官网,那这边的话其实还可以去导入这样的设计文件啊,或者说一些代码的目录啊,或者技能体系啊,那这些功能都是马上要上线了。 还有呢,比如说我现在要去调整这个页面的一些局部的一些设计的规范,那这边的话也有会制这个功能,也是要买还没有上的。那么还有一个我觉得可能会上的一个功能,就是 要导出这样的大局的设计规范,因为不可能我所有的页面都在这个设计工具里面去设计嘛,可能是要在我自己的这个编程体系里面,用这个统一的设计规范来生成。比如说在 google stitch 里面,你可以打开这个按钮,然后的话能看到你用过的这个设计规范, 然后这个设计规范是可以导出来放到你的这个项目里面,比如这个 design, md, 那 就是你用到的这个设计规范了,那这个就很方便我们在编程工具里面去使用这个规范来设计新的网页。那么你把这个原先设计出来之后, 那你需要去把它变成实际的产品,那这个时候你就可以去把它导出来,这边的话是可以导出为 html, 或者说导出其他的。但是对于我们来去变产品的话,目前是只能导出这个 html, 不 能导出图片。它这个元代码有个特色,就是它的样式都是 内联的,也就说它样式都写在页面上的,这对于我们进行一个转换,比如说我们要把 html 语言转换成 react, 或者是转换成 app, 那 么这个还原度是比较高的,因为它没有使用第三方的这种样式的框架,那这种转换是比较高效,比较 保真的,所以这是一个不错的点。 ok, 那 以上就是 open design 的 一个简单的一个感觉啊,我觉得它在原型设计阶段已经是一个非常有潜力的 ai 圆形设计工具,虽然说他现在缺少了很多功能,但是我觉得他很快就会更新上这些功能,而且能够集思广益,然后能产出更多更有意思的效果。 ok, 那 本期视频就到这,希望这个视频对你有所帮助。

这是我做的一个视频,它是调用 excel 二输出 mini max c r i 的 配音、配乐视频能力来做成的。 mini max c r i 自动化程度非常高,中间没有停顿,没有报错,没有问我问题,等它教不成功,我基本是不用介入的。 mini max 的 模型能力一直都很强,酷派克罗和爱马仕都推荐使用, 但体验了他们的 c l i, 我 发现他们的 agent 的 基建理解也非常好。同样是国产的第一梯队,我就来详细的拆解一遍。首先我们要了解一点 agent 它是怎么去使用 c l i 的。 以前人用 c l i 的 时候,其实替工具做了四个事情,发现内容、 组装、命令,然后解读它的一个结果,根据它的结果我们再做出应对。在以前的时候,这不是问题,用的工具是人,人有自然的理解能力,知道怎么去做,所以这个天然就会。但现在用工具的变成了 agent, 没有人教他怎么做,所以同做成就从人变成了工具本身。 c r i 本身他只管一些执行的命令,比如说文本、图片、视频、语音、看图、搜索。 c r i 的 意义在于,他把每一个需要写代码的步骤变成了填参数。比如说网页是 g u i, 我 们是通过人去点的, 如果要用 api, 它就要写一段连接的代码,但 c i 它就直接填参数,这就是 c i 非常方便的地方,光有 c i 不 够。 c i 是 给人设计的,人知道该怎么去调用,但是给到了 agent, 它是不知道怎么去调用的。后来我去看 mini mag c i 的 文档,我发现了它们是怎么设计的, 它们在 agent 和 c i 中间加了一层 skills, 通过这个 skill 点 md, 把人做的隐性工作翻译成 agent 能够理解的规则,这样 agent 它就能够去使用 c i 了。 agent 它是怎么去读到 skills 的 呢?熟悉 skills 的 人都知道,在 skills 文件的开头,它会有一个工具简介,会描述它的使用场景,所以 agent 它就能够知道我这里有这样的一个工具,它能有怎么样的功能, 那么它决定是要使用这个功能了,以后呢,它就会去看详细的一个内容,它是使用文字沟通还是使用语音沟通?然后我们打开 skills, 点 mp 的 这个文档,它里面有一个章节叫 commands, 里面呢他会有一个对话图片生成,音频生成视频生成视频任务获取视频下载,把这样的一个能力公开,而且呢,一看就知道哪个命令是做什么事情的,不需要猜。那么接下来他的参数要怎么填呢? skills 里面它的命令同样也是固定格式的能力说明命令格式,然后参数例子返回结果。比如生成配音,它就会给到这样的一个演示命令,这是能力,这个是我要描述的文本,这个是后面我要求的一些参数,这样 agent 就 习得了它要怎么样去调用这个 skills。 最后最后这些命令就能串成串,每一步的输出都是下一步的输入。 image two, 把图片做出来,然后给到地址 meix 的 c i, 它能够给到配乐和配音,再让 agent 生成一个视频。前面我们说的 agent 是 怎么读到 skills, 以及它是怎么去操作的,但是它还会碰到几个问题, 第一个就是如果 agent 输入的命令缺了参数怎么办?第二个是它的命令里面如果有很多的噪音怎么办?也就是返回的上下文过长。第三个是我怎么知道 c i 返回给我的命令它是准确的,能够让 agent 保证理解一致呢? 第四个是长任务阻设。接下来我们一个个讲什么是缺参数会被问住呢?举个例子, aten 发出了一个生成视频的命令,但是我们缺了个参数,就是它的画面比例, c i 遇到一半的时候,它就会返回一个用户窗口高,问我们我们要选择什么样比例,那么这时候 aten 它就会卡住了, 需要我们人去干预。那么 mini max c i 的 做法是缺了参数我直接就失败,我不会再卡住,让别人去确认,再返回给 agent, 让 agent 重新去理解这个需求。这就等于我没有中间状态,无论碰到什么样的信息,我都可以得到一个结果,它是成功或者失败,不会因为某一个询问的窗口卡在那里。 第二个是终端噪音太多,像我们去使用 c i 的 话,其实会有很多无用的信息,比如说通过终端去下载一个信息,我们会看到有进度条,提示与耗时这些,但是这些对于 item 来说它是没有意义的, 反而会消耗很多的 token。 mini max 它的做法是结果走一个端口,净土和提示呢,就走另一路,就像会计分拣一样,包裹走传送带,其他的东西就直接走到了垃圾桶, 包括他还有一些参数都是去优化 c r i 表达的。第三个是失败了,没有分类,像视频生成,他可能会遇到个报错,比如说认证失败,但 agent 不 应该根据这个英文来判断下一步。正确的做法应该是 我们会对认证失败有个详细的说明,如果他返回的是零,他就成功。如果是其他的数字,他应该会对应有什么样的错误,而不是让 agent 自己去理解,去猜我这个英文可能是什么样的意思, 这样就能够加强人和机器之间的共识,加强准确率。第四个是长任务阻设,因为我们做成一个视频通常需要好几分钟,但如果 c i 一 直等到完成,我们整个窗口就会卡在那里。 mini max c i 的 一个做法是,他把发起视频生成做成了三步。第一步是我去生成这个视频,他能拿到个任务号,我能够根据这任务号去查进度。如果说他任务生成成功了,然后再去下载视频,而不是让我们的机器一直卡在那里。 所以我这里总结出来了一个体会,就是面向 agent 的 c r i 不是 把终端变得多好看,有多炫酷的动效,而是能把终端变成它的一个接口, 什么样的数据它都能够在里面畅通无阻。这时候你可能会问了,这个 skills 是 谁来写的?它是 mini max 官方维护的,随着 c r i 一 起发布, 我们不需要自己写,我们只需要去装好它的,只要 i 就 好了, agent 就 能够去读到它命令 max。 它是一个案例,但人事融错成这件事情是通用的。以后看一个工具适不适合 agent, 就 看人做了哪些隐性的工作,有没有真正的被工具替代。 在应用前,它的 skills 层是否清晰,能够知道怎么去使用?到了执行层以后呢?它的结果是否干净?能够被 agent 很 清晰的读得,并且能够长时间的执行任务? 总结来说, agent, 它负责拆任务 skills, 它负责教我们怎么去使用 c i, 它负责做到整个电路的顺畅透空,消耗低,并且能够标准化交付结果。 mini max c i 我 觉得你可以好好去看一下它的设计逻辑,它并不是取代 agent, 它是 agent 的 多模态执行层。下次看到 agent 的 用于工具,应该先看一眼它是否有一个 skills。

这套流程可以让 ai 自动操作浏览器,代替你完成一切机械重复性的工作,而且特别的省 toc 很多工作流甚至全程不需要 ai 参与,零 toc 就 能把自动化任务跑起来。比如可以零 toc 抓取电商网站评论,导出成 csv 文件,自动把 markdown 文章发布到 x。 还有对自己开发的 web a p p 进行 ai 自动化测试。我们并不需要懂浏览器的相关知识,只用自然语言就能完成这些任务。本期视频我们使用的 agent 的 框架是 cloud code 或者 codex。 浏览器自动化方案是 playwrite c l i 搭配配套的 skill。 playrite c l i 是 二六年初微软开源的全新浏览器自动化工具。根据官方的精准测试, playrite c l i 比起传统的 playrite m c p 方案,差不多能够减少四倍的 token 消耗。工具搭建好以后,我们可以把很多固定的工作流程沉淀成 skills, 让 ai 能够又快又省的完成任务。甚至熟练后你会发现很多固定流程甚至不需要 ai 参与,只需要让 ai 编辑好一个固定的脚本,就可以零偷看全自动完成工作。好,废话不多说,我们直接开始。 在开始之前,我们需要先确保电脑上安装了 node js, 如果没有安装过,可以来到 node js 的 官网,根据自己的操作系统下载对应的安装包。然后我们打开一个命令行终端,输入这个命令,安装 playwrite c l i。 安装完成。下一步我们要确保电脑上安装了 chrome 浏览器, 如果是 edge 浏览器也可以,不过最好还是推荐使用 chrome 好, 这样准备工作就完成了,我们来测试一下,我们可以使用这个命令,使用 playwrite c l i 操作 chrome 浏览器, 打开谷歌的官网。最后一个参数 hide 的 表示使用的是有头浏览器,如果不加这个参数, playrite 默认使用的是无头浏览器,无头浏览器会在后台静默运行,虽然比较省内存,但是我们看不到浏览器的页面,所以为了方便调试,我们一般加上这个参数。杠杠 hide 的 回车, playwrite c l i 自动操作 chrome 打开了我们要的网页。我们在控制台这边可以看到, playwrite c l i 只是输出了一个简洁的网页摘要,而没有返回整个网页的全部 dom 结构,下面附带了一个网页结构的文件地址, ai agent 如果需要更详细的网页结构信息,就可以选择读取这个快照文件,获取更详细的信息,如果不需要,就可以选择不读取。这也就是为什么 playwrite c l i 比起 m c p 更节省上下文的秘密所在。因为 m c p 是 把网页内容全部塞进上下文, 而 playwrite c l i 可以 由 ai 按需加载的思路。 screenshot 是 给浏览器截图,我们看到截屏的时候,它还是以一个 p n g 的 文件的形式 存放在了电脑的本地硬盘上,由 ai 决定是否来读取,而不是像 m c p 那 样直接把图片塞入 ai 的 上下文。我们再介绍一个重要的参数,就是杠杠 persistent, persistent 表示把 cookie、 登录状态、本地存储之类的数据写到硬盘里面,下次使用的时候继续拿出来用, 这样就不需要每次都重新登录了,比如我之前登录过,我们打开的谷歌首页就变成了已经登录过的状态了。 到这里我们就介绍完了 playwrite c l i 的 基础使用,下一步我们就把它接入 ai agent。 本期视频主要使用的 agent 的 框架是 cloud code 和 codex。 爬爬虾之前有很多期视频介绍 codex 或者 cloud code 了,这里我就不赘述了。 playwrite c l i 是 一个新诞生的命令行工具, ai 并不知道该如何使用这些命令,所以我们需要给 ai 搭配 skills 来一起使用 playwrite c l i 作为技术底座,而 而 skills 作为说明文档, c l i 加 skills 搭配起来使用,就可以取代传统的 m c p 方式,这也是最近的一个技术发展趋势。我们先新建一个项目文件夹,打开这个文件夹,打开命令行终端,我们直接输入这个命令,给文件夹里面安装 skills, 这样 skills 就 安装完成了, 它放到了我们新建的项目文件夹的这个目录下面。然后我们就可以启动 cloud code, 我 来询问它你有哪些 skills 可以成功地读取到 playwrite c l i 技能,这样我们就成功地把它接入了 cloud code。 接下来我们来看另外一个 agent 的 框架,就是 codex, 我 们只需要在项目目录里面把存放 skills 文件夹的名字从点 cloud 改成点 codex 来适配 codex 就 完成了。 然后我们还是在这个目录里面打开 codex, 在 codex 里面可以输入命令斜线 skills。 我 们看到这里列出了 playwrite c l i, 在 codex 里面也配置完成了,我们在 codex 里面测试一下基础用法, 我让他使用 playwrite c l i 加上这两个参数,打开 guirk, 问问今天青岛的天气怎么样。 ai 成功的打开了浏览器,来到了 guirk 的 首页,帮我们自动输入了问题,自动点击了回车,拿到了结果,最终成功打印到了控制台上,任务就完成了。 我们来看一个复杂一些的例子,使用 playwrite c l i 查看这个商品前一百条评论,然后保存到一个 c s v 文件里面。 我们看到 ai 还是先学习 playrite c l i 技能,然后打开了商品页。第一次运行总是磕磕绊绊的,不过没关系,我们让他自己探索, 自己寻找解决思路。 ai 尝试了很多方案,也浪费了不少头肯,我们看到这里显示用掉了百分之四十一的上下文窗口,最后成功完成了任务,帮我们获取到了这个 c s v 文件,成功抓取到了这么一百条数据。我 我们有两种方式可以把这个流程总结并且保存下来,让它下一次执行变得更加丝滑,更加省 token。 我 们先来看第一个方式,就是把这个过程保存成一个 skill 里,输入提示词,创建一个新的 skill, 把刚才打开网站查看评论,并且保存评论的全过程,还有遇到的坑都提炼出来,保存到这个 skills 里面,后面我只要让你保存评论,你就能调用这个 skill 完成任务。 ai 帮我们创建了 skill, 把这个任务里面可以附用的内容都固化进了知识 这里,我让他修改一下,把 skill 放到项目目录里面, skill 成功放到了项目目录下面,现在我们有两个 skill 了,一个是 playwrite c l i, 还有一个就是刚才保存评论那个流程的 skill。 这里我先清理一下上下文,我们再用相同的任务来测试一下。 有了 skills 的 指导以后,效果就不一样了。 ai 充分吸取了之前的经验,没有再出现多余的动作,也没有报错,用最低的 token 消耗完美的完成了任务。 我们第一次让 ai 自己摸索,自己试错,用了百分之四十一的上下文才完成了任务。第二次,有了 skills 的 指导,只用了百分之五的上下文就完成了任务。通过把过程提炼总结成 skills, 获得了将近十倍的效率提升。抓取评论是一个固定流程,其实并不需要 ai 进行智能化的控制, 我们可以直接把它编写成一个固定的脚本,这里输入提示词,你把刚才所有的 playwrite c l i 命令汇总成一个脚本,执行脚本就能获取商品的前一百条评论,并且保存到一个 c s v 文件里面。注意,每一步都要有合理的延时与等待,确保任务成功。 脚本写完,你先测试一轮,很快 codex 为我们编辑完成了脚本,他已经自己测试通过了。我们来看一下这个脚本长什么样。在我这个 windows 电脑上就是这么一个 power shell 的 脚本。 a a 以编程的方式把刚才的步骤都固定下来了。 比如第一步,打开商品页面。第二步,确认浏览器里打开的是正确的 u r l。 第四步,点击查看全部评价按钮。最后一步,把刚才的 json 数据保存成一个 csv 文件, 我们也来测试一下,我们打开一个命令行终端,输入这个 power shell 脚本的路径回车执行。这是一个固定的流程,中间没有 ai 的 参与。我们看到这次不再依赖 codex 了,直接执行这个 power shell 脚本,零偷坑,零成本就完成了任务, 还取得了相同的效果。好,我们来总结一下这套浏览器自动化的流程。在准备阶段,我们先安装 note js, playwrite c l i 还有 chrome 浏览器。第二步,选择你喜爱的 a i a 阵的工具,把 playwrite c l i 的 skill 安装进去。第三步,给 a a 一个复杂的任务, 让他自己摸索并且执行完。第四步,让 ai 把刚才的执行结果提炼,总结成 skill, 之前遇到的坑就不要再踩了。第五步,重试相同的任务, ai 在 skills 的 指导下,可以把 token 的 消耗降低十倍, 如果是完全固定化的流程,还可以继续进行。第六步,让 ai 把这个过程直接编写成一个脚本,有了脚本以后,我们甚至可以直接执行这个脚本完成任务,完全不需要 ai 参与,把 token 消耗直接降低到了零。 我们再来看一个实战案例,最近扒扒虾,把自己的视频用 ai 转成图文教程,然后发到各个平台上面。大部分平台发文章都比较简单,唯独有一个平台 x 发文章的步骤非常的繁琐,这是我的一个文章,是不能直接以 markdown 格式粘贴过来的。首先这个格式会错乱,第二个问题是图片都展示不出来。然后我又测试了一下,如果使用 html 格式 是可以粘贴的,但是又出现了一个新的问题,图片是粘贴不过来的,图片都变成了这么一个照相机的小符号,我们只能手动先把小照相机删除,然后把图片复制一下,一张张的手动粘贴过来, 非常的麻烦。接下来我们就使用前面介绍的自动化流程,把这个发文章的全过程进行 ai 自动化。这里我还是使用 codex 帮我编辑一个 python 脚本, 把文章里的图片下载到本地,从零零一开始编号,放到这个文件夹里面,先转换成一个只使用本地图片的 markdown 文章,然后运行 python 把本地图片的 markdown 文章转换成 html 格式,注意 html 格式里面每张图都应该是独立段落。 开始 ai 帮我们编辑好了脚本,并且为我们转换好了文章。我们来看一下,图片都放到了这个 image 文件夹下面,而且已经把文章转换成了 html 格式的。好,下一步我们就可以让 ai 来帮我们自动发文了,我们输入提示词,使用 playwrite c l i 先打开这个网站,创建一个新的文章, 然后把这个 html 的 内容粘贴进去,找到所有的这种照相机的这种小图标的位置,先按退格键删除掉小图标,然后在图片文件夹里面找到图片,先复制出来,按 ctrl v 再粘贴进去。这个小 icon 的 数量跟图片的数量是相等的,我需要他按顺序替换好。我们开始 ai 为我们打开了浏览器,创建了一个新的草稿,把 html 格式的文章粘贴进去了,然后他开始为我们一张张的上传图片, 把原来的站位符删除掉,然后一张张的替换成真正的图片,我们看到他正在一张张的帮我们自动化的替换。整个过程非常的顺利,我让 ai 把从头开始的全流程整理成一个 skill, 然后放到项目目录, 以后我只要给你一个文章就能自动发布。 ai 帮我们固化了一个 skill, ai 为我们编辑好了技能,生成了这些配套的脚本,然后这个 skills 就 可以覆盖自动发稿的全流程。以后我只要给他一个文章路径,告诉他使用这个 skill 自动发布, 就能自动地帮我把这个文章发布上去,非常的棒。这个 skills 的 源代码我已经上传到了 github 的 这个仓库下面,感兴趣的观众朋友们可以来参考试一下,不过我这个是 windows 电脑的,如果是其他操作系统,可以让 ai 参考这个 skill 来改一下。相信按照我这套流程,大家都可以编写出属于自己的 skill。 我 们这套浏览器自动化流程一个重要的应用就是对自己写的 web app 进行自动化测试。 比如这里我开发了一个简历润色美化的网页 app。 接下来我输入指令阅读代码,把从注册开始的主体流程写一个中文的测试文档,然后再用 playwrite c l i 打开网页,根据你的测试用力完成测试。 开始 ai 通过阅读代码学习到了这个项目的功能,然后确认了主体流程,接下来他开始编辑测试文档。测试文档编辑好了,这里包含第一步做什么,第二步做什么,第三步做什么。 然后 ai 使用 playwrite c l i 打开了浏览器,它自动点击了注册按钮,创建了测试账号,完成了登录。它创建了一份测试简历,并且上传上来了,完成了主体流程的测试。测试结论是通过。我们也可以要求 ai 编辑更多的测试,用力使 用 playwrite c l i 进行全自动的测试。还可以使用 openclaw 这种带定任务的 agent 框架,让它定时对我们的系统进行测试。一旦我们修改出来了 bug, ai 就 能全自动的发现,并且告诉我们省去了很多的人工测试成本,对我们开发网页 app 会很有帮助。好,这就是本期视频全部内容了,感谢大家点赞支持,我们下期再见!

你可能还不知道,你的电脑可以开启一个超级上帝模式。开启这个模式后,会出现一个黑色的对话窗口,它几乎是无所不能。比如输入,把这个视频无水印下载到本地,并转成 mp 四格式。很快,这个原本不支持下载的视频就被抓取下来了。把这张 dog 点 png 图片里的小狗单独抠出来, 打开看一下效果,小狗毛发细节都完整保留了,很不错。把这个工程规范点 pdf 文件转换成可直接编辑的 word 文档 好了搞定。当然,这个模式并不是 windows 自带的,你需要用到 github 上的一个终端智能体工具。 iphone c l i 安装教程很简单,大家可以看评论区置顶 或者我的往期视频。我们重点是要学会它的使用方法。安装完成后,在某个文件夹运行 c m d, 输入 iphone, 按回车,它就准备就绪了。举个例子,比如这个 github 项目,你想把它部署到本地, 虽然项目文档给出了详细的部署步骤,但很多小白用户可能根本看不懂。如今有了 iphone c l i, 你 就可以直接把链接丢给他,输入,帮我把这个项目部署到本地,他会全自动查看操作文档,一步步帮你部署。稍等片刻,项目就部署成功了。浏览器打开即可使用, 我们不用输一行代码,只要用一句话,就可以完成任何复杂项目的部署。当然,他能做到的功能实在是太多了,大家可以自行浏览他的 m c p 市场,那里简直就是哆啦 a 梦的百宝袋。比如浏览器自动化、 o c r 文字提取、全网热点抓取等,全部都能搞定,用起来也很简单。以这个美图影像 m c p 工具为例, 在对话框输入反斜杠 mcp online, 进入其内置的 mcp 商店,左右键翻页,上下键选中美图影像 mcp 工具,回车按数字二进行安装。接下来你只要用一句话,就可以实现快速抠图、模糊图片变清晰, 还有一大串图像处理功能。值得一提的是, i f o c l i 这次更新的零点五版本上线了全新智能体模型 rom v 零点一在真实执行场景表现要更强,同时新版本还完整适配了目前最火的 skills 能力,这就意味着它将拥有更多可能性和用法,大家可以去更新体验一波。

大家好,今天我们来讲一下 codex c l i 里面一个新的功能, go 目标,它是你可以理解为给 codex 设置一个长期任务目标,然后让它围绕这个目标持续工作。 它有一点像之前 cloud code 里面的那个 rough loop 这么一个概念,它在你给定的目标情况下,它会去自己计划,然后编码,然后测试评估,直到完成你的目标,或者是它的 api token 耗尽。 需要怎么样起用它?有一个有,有两个条件,第一个就是你需要升级你的 codex 的 c l i 的 版本,要到 v 一 幺二八之后的一个版本。第二个,因为它目前还是个实验性的功能,所以需要你手动去激活这个功能。你可以选择直接在 codex 里面告诉它,就啊 enable ghost, 或者你自己去手动配置一下你的配置文件。在那个 codex 的 config 里面, 我们可以简单看一下,在这个里面是有,你可以直接在这儿加这么一行,在 features 下面加个 ghost 等于 true, 当然你不要,你可能需要重启一下它才能会真正的生效。它支持哪些功能呢?譬如说我们 go, 它会直接 go 告诉你当前的一个状态, 比如说我说重构当前代码,确保测试所有通过,然后它会有一个显示当前时间,用了多长时间以及 token 使用量。同时你也可以 pause, 你 可以 resume, 让它继续做,就又重新变成激活的状态了。 对,同样你也可以直接地把它清除掉,对,它就会变成 clear 的, 相当于它有这么一些命令的选择。对 go 它最佳使用的一些实践,我觉得也可以简单地讲一下,因为在我们之前的 ai 编程当中,经常会说,你帮我改一下某函数, ai 改完之后,你会说继续,然后它又再继续,最后你说跑测试,它才会。跑测试相当于 啊,一步一步,需要你的一个指导才能去做这个工作。但 go 的 思路不太一样,它不是告诉你下一步做什么,而是告诉它最终要达成什么。 譬如说刚才我们提到的重新写所有的测试,确保向后兼容。这样子说,你说整个把认证系统从 j w t 迁移到 off, 这也是一个比较大的工程,它要对上下位有很好的理解,那它可以进行,会需要运行时间比较长一点点。 那和普通的 prompt 最大的区别是什么?普通 prompt 像是一般都是一次性的输入,而 go 是 一个持久化的目标状态。 比如说,如果你只是在 prompt 里面输入帮我重构认证模块,那 codex 会在当前这一轮里面尽量去完成任任务,但是这一轮结束之后,这个任务就不一定还会作为持续目标被系统记住。但是如果你输入 go snapgo 重重构认证模块,保证保持现有 a p i 兼容并补齐测试,那么这个目标就会变成当前现成的一个状态。系统会知道现在有一个激活的一个一激活的目标, 然后它会记录这个目标是什么,以及是否是它的状态,是否完成,以及是否有预算的限制,消耗了多少资源等等。 它有一个状态的一个持续化的一个东西,所以它就不只是当前这一轮对话,而是有一个长期的目标持续行动。 对,怎么它是为什么能够实现这种感觉?它的背后的原理就是它会把系统,会把当前的目标绑定到当前的县城上,就这样就能够记录的目标内容状态是否完成。没有这一层的,那那么它就是一个普通命令。对, 另外一点需要说明的就是在使用的时候应该注意点什么。第一个就是目标要写得具体一点,不要只写优化项目,这个太宽放,更好的写法可能就是优化某某模块的什么测测试覆盖率啊,覆盖关键的一个路径,确保所有错误都通过, 就相当于这是比较具体。第二个要点就是要写清楚成功的标准。譬如说你要举个例子说,确保所有单元测试都通过,确保不改变现有的 a p i, 确保向后兼容,确保新增的测试覆盖核心场景。 所以 codex 就是 它的 codex 这个 go 的 这个更新,它就是让你从原先的你问一句,他答一句的这种编程助手,变成一个围绕一个目标持续工作的自我编程代理,所以它就有一个状态可以持续的循环, 所以还是挺不错的一个功能。现在在 twitter 或者是在海外的开发工程师当中,这个已经引起了很大的一个关注,有人甚至让它编程了五十多个小时一个功能,所以说。

c c 为了解决长上下文导致的指令遵循能力和模型能力下降,之前推出了子 agent 模式,即使用斜杠命令 sub agent, 用户自发或者通过模型自动来调用。 最近 cloud code 又推出了实验功能 agent team, 既可以给保证作为主 agent 打指令遵循能力,又方便了用户对多个子 agent 的 控制,并且提高了 agent 之间的协助效率。我靠,这个 ai 配音真是神了,真自然! 回归正题,首先我们需要保证版本在二点一点三二以上,并且需要在 cloud 的 配置文件中将 cloud code experimental teams 这条参数改为一起用该功能。以前的杠 sub agent 更像是竹 cloud, 派一个专门助手出去做事,做完回来汇报。而 agent teams 更像一个小团队,主绘画是 team leader, 负责发任务等结果验收。 team mate 可以 各自持有上下文,处理不同任务,甚至你可以直接切到某个 team mate 去补充指令。 这里为了录屏减少确认弹窗,使用 skip permissions 模式,实际使用时只建议在自己信任的项目里开提示词中明确要求它作为 team lead 创建 team mate, 并且让不同 team mate 负责不同文件,避免互相冲突。这次我会创建六个 team mate。 search navigation agent 负责搜索和首页入口。 movement history agent 负责修改当前位置以归位和位置历史。 location agent 负责位置管理。 settings data agent 负责导入、导出和清空数据。 media cleanup agent 负责图片路径和重复 services 清理。 q a reviewer 只负责验收,不写大功能, 这才是 agent teams 的 优势功能。数据清理验收可以拆开做,而不是一个 cloud 一 路写到底。 当多个 team mate 运行时,可以通过方向键选择对应的 agent 查看其具体输出。在这个过程中,你也可以随时对不同的 team mate 发布命令。在 team leader 进程中,我们可以注意到各个 team mate 进行到了哪一步。 同时,当一个 team mate 完成了他自己的工作,颜色会从彩色自动变灰,此时可以一目了然地监控哪些任务已完成,哪些还在继续。同时,区别于 sub agent, 在 任务进行的同时,不同的 team mate 会根据任务的情况相互协调,并不是全部将所有结果输出到 team leader, 换句话说,它们之间是平级的。 到时候任务全部完成时, cloud code 会自动清理掉所有的 team mate。 此时我们注意到,作为 leader 的 进程向下文并没有增加。