粉丝14.4万获赞85.3万

哈喽,大家好,今天教大家怎么在 cloud code 中使用 hux。 用好 hux 能够减少大量的不必要反攻,让你的开发效率提升至少一倍。首先我们解释一下 hux 是 什么, 它其实是你设置的一个自动检查员,它会帮你监控 cloud code, 确保 cloud code 能够自动的严格执行你设置的所有命令。这样解释可能还是有点抽象,接下来用几个案例告诉你 hux 能做一些什么。 第一个,拦截一些危险操作。这也是我经常用的一个 hux, 比如我项目中的一些核心文件,我不希望 curl code 直接去改动或删除,那我就会设置一个 hux, 当它识别到 curl code 要做这样的危险操作的时候,它会及时跳出来喊停。 第二个,自动存档。我们经常需要把本次的迭代改动提交到 github, 但提交的时候 cloud code 大 多数时候不会自动留档,或者不会自动记录本次迭代的改动点。其实我们上一个视频也聊到了,我们可以在 cloud 点 md 这样的一个项目说明书里 向他提这个要求,让他每一次提交之前都自动留档记录一下本次迭代的改动点。但是 curl code 并不会每次都严格按照 curl 的 点 md 这样的项目说明书去执行,他有时候会漏掉项目说明书里面的要求。 我们如果使用 hux 的 话,就能够更稳定地确保每一次提交代码的时候都可以去留档,去记录本次迭代的改动点。 第三个,代码审查。这也是我们经常会用到的一个场景,比如我们某个模块或者是模功能,它去做了一个大的改版 coco, 其实它说它自己改完了,但是很多时候它可能会战术性的偷懒, 所以我们 hux 可以 去执行这样的一个 review, 呃,好好地去检查它本次改动的代码,去确保它确实是改完了所有的模块,而不是偷懒。 最后一个就是自动测试,我们很多的模块是可以单独进行测试的,某些模块它可能高频改动了很多次 ui, 或者是后端逻辑,一些小的改动其实可以直接跑 hux, 让它完成一个自动化测试的。接下来我们看一下 hux 长什么样。 在我们的学习文档中给出了一个视力,我们可以从视力中看到 hux 包含两个部分的内容, match 和 hux match 其实代表了触发事件,比如 cloud code 执行的一个 edit write 就是 编辑或写入了操作。第二个就是这个 hook 对 应的行为是什么行为里面其实包含两个字段,第一个是类型,第二个是执行的事件。 我们看一下总共有三种类型。第一种类型叫 come on, 就是 命令,它适用的情况是一些比较简单的规则,它不需要额外判断,通常来说就是一句命令的一个行为,比如说碰到点 e n b 后缀的文件,你就拦住, 这就不需要判断,不需要进行任何的语义判断,也不需要进行任何的复杂操作。第二个是 prom 类型的,它适用的情况就是我们需要去做一些简单判断,比如这里给出了一个例子,就是 扫描 call call 的 工作过程中的对话历史,去看一下它是不是把我要求的所有功能都完成了,这个时候它只需要 review 对 话,它不需要去执行其他的额外操作,所以它是可以用 prom 直接去完成。 第三个是 agent, 它相对来说比 prom 就 会更复杂一点,它不只涉及简单的判断,还会涉及到多步的判断或者是行为。比如让他去执行一个自动化测试的事件, 让他继续要去测试这个 ui 是 否像实现的代码或用户描述的需求一样,以及让他去测试所有的点击事件是否正常,所以这种情况下就需要一个 agent 类型的 hook 去完成本次的行为事件。最后跟大家说一下我们怎么创建和管理 hooks。 首先创建 hux 非常简单,就是让 curl code 帮你创建就可以了。我们打开一个正在开发中的项目,然后给 curl code 提个要求,让他帮我创建一个 hook。 每次 u i 重构都进行一次自动化测试,并且仅在当前项目生效。其实我们可以选择全区生效,全区生效的话他就会放到本地的代码下面,然后我们点击发送,他就开始帮我们去写这个 hux。 ok, 我 们可以看到 houx 已经创建完成了,整个过程大概花了一分钟左右的时间,下一次启动这个绘画, houx 就 会自动生效。 为了测试一下这个 houx 是 否正常工作,我在这个项目里面提了个要求,我跟他说目前的 ui 太没有想象力了,重构一下, 所以他就列了整个重构计划,并且完成了重构。但是在整个过程中我没有看到 houx 的 检测和报错的痕迹, 所以为了确保能正常工作,我在他提交完代码之后,还问了另外一个问题,本次是否确认使用 hux 去检查 ui? 然后从他的 thinking 里面我看到他确实是使用了我们刚写的这个 ui review 的 hux 去检查 ui, 但是确实所有的代码都通过了,没有任何的错误,这样我们就可以确保这个 hux 是 能正常工作的。实际上大家在测试的时候也可以去 故意让 curl code 去写一些容易发现的错误,或者是一些其他的 bug 埋进去,然后去确保这个 hooks 它是能够正常工作的,并且检测出错误。最后我们看一下怎么在 curl code 里管理已经存在的 hooks。 我 们只需要在输入框里面输入杠 hooks, 然后点击弹出来的选项,再点击 continue terminal, 就是 在终端里面进行管理,然后我们打开一个终端界面, ok, 我 们就可以看到已经存在的所有 hooks 就 在这里,我们可以在这里对 hooks 进行删除,编辑或者是禁用全部 hooks 的 操作。 好,我们今天的课程就到这里了,从下一期视频开始,我们会跟大家逐步介绍 cloud code 的 一些进阶玩法,包括 sub agent, m c p, cloud skills agent, team 等等。 如果你有其他想要了解的关于 cloud code 的 问题或技巧,欢迎在评论区留言。如果你想获得本次课程的全部资料,可以在评论区留下。求资料,我们下期视频继续。

cloud code 浏览器自动化方案应该怎么选?先说结论,再介绍这几个方案。如果你是普通用户,只是想抓取简单页面的内容,订酒店机票,填写一些网站的表单,就用 agent browser。 如果你是开发者,想在开发中排查页面 bug, 查看接口信息,分析性能瓶颈,就用 chrome dvodes mcp。 如果你是测试,想生成测试脚本,执行测试流程,或者是抓取复杂页面的内容,更推荐使用 playwrite mcp。 如果是一些复杂图标 converse 实现的页面,不想依赖其他方式,例如 mcp 的 话,单纯依靠浏览器来操作,那么 cloud in chrome 几乎是你唯一的方案。 那么接下来具体的介绍一下每个方案。首先是 agent browser, 它会解析页面结构,过滤掉样式图片后,将内容交给大模型识别,在对页面变化的适应性和内容识别的准确度方面得到比较好的平衡, 适合进行日常的浏览操作。例如抓取内容平台数据,预定酒店机票,监控商品信息,填写在线表单深层咨询日报 chromos mcd 底层是通过远程调试端口直接控制浏览器,所以天然的比其他查看页面结构的工具可以做更底层的事情,更适合开发者来使用。 例如排查前端页面的 bug, 查看 api 接口信息,分析性能瓶颈,甚至能绕过页面的反爬虫机制人机验证等拦截。 playwrite mcp 会把整个页面的完整结构都交给大模型,所以它能面对很复杂的页面。如果通过 agent browser 抓取一些页面上的内容时,发现不能抓取或者抓取不完整, 可以考虑用 playrite mcp 来抓取,更多的时候会适合 qa 使用。例如辅助生成自动化测试代码,执行自动化测试脚本。微软还推出了 playrite and coi, 可以 搭配 playrite mcp 来干活。 最后是 cloud in chrome 最大的特点是采用纯视觉方案,好处是显而易见的拟人程度最高,任何人类能够操作和看到的内容它都能执行。例如执行 figma 这样的 canvas 画布类应用操作,可直观图标,填写图形验证码。 最后我们看一下它们大致的任务投币消耗量,从低到高依次是, agent browser、 chrome、 dvodes、 mcp、 per write mcp、 cloud in chrome。

还在单用 cloud code 的 写代码?那你真的错过现在最强的 ai 编程增强包! oh my cloud code 大家都简称它 o m c, 很多新手听到这个名字就蒙了,不知道它到底是什么?今天就用两分钟把 o m c 的 核心知识点讲透,从是什么,怎么用到核心优势, 新手看完直接上手,再也不踩坑。首先第一个核心知识点, o m c 到底是什么?它不是一个新工具,也不是替代 cloud code 的, 而是 cloud code 的 超级增强插件, 相当于给你的 cloud code 开了挂。简单说,原生的 cloud code 就 像一个单兵程序员,只能单打独斗,而 o m c 直接给你配齐了一整只 ai 开发军团,架构师,开发测试、安全、审计、 文档工程师全都是 ai 自动分工,自动协助,不用你多费一句话。第二个核心也是 o m c 最强大的地方,内置三十二个智能 agent, 这三十二个 agent 每 每个都有自己的专属职责,分工明确,不越界,不混乱。比如 architech 架构师,专门帮你做技术选型设计、项目架构。 executive 开发 agent, 负责写代码改功能,做重构。 tester 测试 agent 自动写测试,用力跑测试 找 bug。 还有 security 安全 agent, 审计代码漏洞检查依赖风险。 writer 文档 agent, 自动写 readme 和接口文档,你只需要说一句,帮我做个登录功能,它就会自动拆分任务, 分配给对应 agent, 并行干活,效率直接拉满。第三个知识点, o m c 的 三大核心模式,这也是新手必懂必用的,记好这三个模式,你用 o m c 会更顺手。第一个是 team 模式,也是最推荐新手用的,开启后 自动走规划、设计、开发、测试、验证全流程,从零到一,帮你搞定整个项目,不用你手动干预。第二个是 auto pilot 模式,最多可以让五个 agent 同时干活,比普通模式速度提升三到五倍,做复杂项目特别省心。第三个是 raf 模, 主打一个精益求精,任务没做好,不停止,反复验证,反复修改,直到达标。第四个知识点,零学习曲线的魔法关键词,新手不用记复杂命令,正常聊天就行。只要提到这些关键词, o m c 就 会自动激活对应功能。 比如你说 autopilot, 它就会开启自动全流程开发,说 refactor, 就 自动全区重构代码,说 document, 一 键生成完整文档,说 security check 就 自动做安全审计, 特别方便。第五个知识点,智能模型路由,这也是很多人忽略的省钱关键。 o m c 会自动根据你的任务难度选择合适的模型,不用你手动切换简单任务。比如改文字格式化代码,就用嗨酷模型,又快又便宜。复杂任务,比如架构设计、算法开发,就用 opus 模型,精准又强大,这样下来 能帮你省百分之三十到百分之五十的托管费用,长期用特别划算。最后总结一句, o m c 不是 替代 cloud code, 而是让它从好用变成无敌。让你一个人就能拥有一支专业的 ai 开发团队,不管是做小功能还是完整项目,都能又快又好。关注我,带你解锁 ai 编程的终极效率!

嗯,大家好,在上一个视频后面有很多同学想让我嗯出一个怎么配置,嗯, c c 加 deepsafe 加 maclab mcp 的 教程,今天我就嗯录了个视频,简单介绍一下。首先呢,有同学问就是为什么要嗯把这个 maclab 接入到这个 cloud 的 里面,然后关于这个我让都包做了个 ppt, 这是我第一次让都包做 ppt, 我 只能说嗯,真可以。 然后,呃,我就简单说一下吧,就是呃传统的网页端 ai 工具呢,就是我们只能去嗯,我问他答案,然后我自己去复制粘贴,然后运行,这样有的时候代码出现 bug, 或者说结果不对的时候,我再去问他怎么解决。然后嗯,就是 所谓的难以实现真正的自动化啊。有了这个可乐扣加 macbook mcp 之后呢,呃,我们就可以让 ai 自己去写脚本,然后自己去跑 macbook 仿真,自己绘图,自己发现 bug, 自己修改,然后同时呢判断结果是否正确。 比如说对于一个呃 pid 控制来说呢,呃,它会根据呃控制性能自主调整 pid 的 参数。然后这样呢,对于我们来说,我觉得很多时候我们就可以告诉他,呃,我们想做一个什么样的控制器,然后呃我们的 id 是 什么,然后让他自己去写代码,跑仿真验证就可以。呃,然后接下来就是我们就开始讲怎么去配置这个环境。 首先是准备工作,第一个是要确保已经正确的安装了可乐扣的,并配配置好的 deepsea v 四 pro。 嗯,如果说大家有条件用其他的大魔镜也可以,就不一定非要用 deepsea v 四 pro。 然后这里我放了一个我参考的 教程,大家可以网上有很多,大家可以去参考这个教程,也可以去参考其他的,反正就把这个东西装好就行。然后第二个是要确保电脑上有 mate lab, 最好是二零二四 b 或更高版本。我问 deepsea, 他 说低版本可能不兼容。好,那接下来我们就开始操作。第一个是要,呃,就是把这个 mate lab mc 或者低版本可能不兼容。好,那我们首先打开浏览器,然后搜索它, 这里我已经搜过了,我再搜一遍。好,这个就是 massworks 的 官网,大家感兴趣可以进去仔细地研究一下。里面就是,呵呵,它是怎么讲解的啊?不好意思,我最近有点感冒。然后,嗯,这里我就不打开它看了。然后我们就直接到 github 里面去下载这个,呃, m c p 的 co server, 呃,有时候这个 github 打不开,我们可能要上一些手段,我先暂停录制一下。好,经过不懈的努力,我把它打开了。打开之后我们找到这个 release, 我 还在加载,看一下能不能打开。还可以, 我换了个浏览器,打开了就是,呃,进入到这个 release 里面,然后找到,因为我是 windows 系统,所以我就选这个。呃, win 六四点 e x e, 然后点击它就可以下载了。 然后,呃,选择你要下载的地方让我看一下,我应该是下载了,下载到了这儿, 在这里我已经下好了。呃,就大家要记住自己把它下载到了哪个文件夹后面要用的。然后接下来就是可以去,嗯,返回到上页。呃,我们可以看到,嗯,往下翻 cloud code 这里,然后这里有安装的命令, 我复制的是第二个。然后大家,呃,咳,其实复制这个就可以,然后我看就我给大家看一下,我把它复制到了这里。 我们需要改的是,呃第一个这个路径,这个路径就是我们刚才下载的那个,呃, esd 的 位置,就是大家可以对应着看,就是我刚才把它下到了,就是这个文件夹里面,然后就把这里改成它,然后接着就是第二个,这个是,呃,就是你的这个目标的工作区,然后我是呃自己专门建了一个, 呃,自己专门建了一个文件夹,应该是这样的,就是我专门去建了一个专门做这个事情的 cloud code maclab 这个文件夹,然后我把它改了,对我的个人工作区在这里, 然后这是一些其他的设置,大家可以根据。呃,这是这个浏览器,大家可以根据呃下面的这个参数设置选择你需要的,然后这里我就不一一讲解了。呃,大家感兴趣的自己看一下,然后根据自己的需要去设置对应的参数就行。嗯,然后那我就在这里,呃直接用我的这个 号,然后现在,呃进入我的这个目标工作区,然后出 cmd 打开终端,然后在终端里面我们复制这个命令, 然后把我们其他的这些参数设置也都放进去。好,呃,然后我们稍回车,呃,看到这个 id 的 这个 mcp server, mytable with command 什么什么就应该已经搞好了,嗯,搞好之后呢?呃,我们打开它。 好,然后现在我们就测试一下我们这个,呃它能不能跑 mytable 的 代码,然后这是我给他准备的一个提前准备的一个任务,就是做一个这个,呃倒立摆的一点 c 控制器 复制,复制进来给他,然后看他能不能做这个事情。嗯,这个任务就呃,首先包括,呃构建这个,呃倒立白的一个模型,然后设置控制器,然后我给他一些呃需求,然后让他自行选择合适的参数,然后给给定了缓存时间,然后让他去呃复制什么样的图像,最后呃保存滤 镜,他可能思考的比较慢。 好,这里大家可以看一下,就是在这个文件夹里,目前啊只有呃两个 ppt 和一个这个 tst, 然后我呢全程就是,呃没有没有打开 mate app, 我们等会儿可以看看他能不能自己写完这个脚本,然后自己去运行它。 好,他就想完了,他要开始呃做了,就是他把呃目标分成了,就是他把这个任务分成了两步,第一步是设计 a a r c c 参数,然后写 my tab 脚本,第二个是运行 my tab 脚本并验证结果,我们等会儿看一下他做的怎么样。嗯, 他就写好了,我们看一下,大家可以看到这里出现了,就是呃我让他生成的这个脚本,现在他要做的是运行这个脚本 遇见了 bug, 然后他现在在自己修复, 从刚才弹出来的那个图上看还凑合,虽然不是特别好。呃,我们可以看到它已经按照要求生成了我们几个想要的图片。呃,这个是角度控制的, 然后这个是 e s o 估计的。哎,对不起,怎么打成 figure? 就是 看到,嗯,还行吧,还行任务才算是完成了,至于效果怎么样那,呃可以后面再慢慢调,我们自己也可以去调 好。然后最后他运行完之后,嗯,他会说,嗯,他就是做一个完整的结果汇总,包括生成的文件,然后控制器的参数是什么。这个时候我还打那个飞文件,把 wifi 打开了, 然后还会分析,对,大概就是这个情况,我们可以,嗯,再做一个人物,第一个是让 e s o 的 数值不要和系统数值一样 测试,不同待关。嗯, 其实在这里已经分析过了,可以看到嗯,他这个,他会自己计算出这些嗯指标,来判断他是否达到我们最初嗯提的这些要求。 这个我觉得是一个很方便的地方, 他现在说他正重新写脚本, 好,他现在是改脚 本,这就是他画的图, 对吧?然后我让他找到一个最优的, 那这样有什么用呢?就是我们在设计其他控制器的时候,呃,我们可以让它,就是可以主动的让它去呃,针对这个控制性能,然后去选择最合理的那个控制参数,呃,我觉得这个就可以,嗯,极大的就是降低我们这个手动去调餐的一个复杂度吧。嗯, 读出了点问题,等会还可以让它改一下,不过问题不大,这个都是小问题,反正最后目标我们是达到了哈。 我怀疑他是不是已经发现这个问题了,等会看一下。 我记错,怎么又把 wifi 给打开了啊?这个图 你问问他是怎么回事啊?是这个 啊,他说了,他说第一,呃,前两个 subplot, 呃是不稳定的,所以没有曲线的数据,然后他说,呃,他使用了,呃,就是他选择了稳定的参数。六, 现在就好了,对吧? 这个图现在就正常了,可以的。好,那这个任务,呃,包括那个 bug 的 修复就就算是完成了,其实应该也不算是 bug, 反正就是它。呃,跑出了我想要的东西。嗯,开始说了,分析了问题的原因,然后进行了修复。 好,那今天的视频就录到这里了。呃,因为是我第一次呃录这种教学类的视频,如果有什么地方呃,没有没有讲清楚,或者说没有做好的,欢迎大家批评指正。呃,如果有什么地方就是大家还不太懂,可以在评论区问我或者说私信我都可以。

又更新了,昨天 cloud 在 code 界面添加了 routines 功能。总结一下就是增强版的定时任务分为本地和远程模式,本地模式就是可以操作本地数据,远程模式主要是对 tab 和你的一些 connections, 比如定时扫进去 自动携带或者下载内容存在你的云盘或者构建日历。反正新东西不多,我这里放了一条视例,大家可以看一下。新建的时候填上名称描述和任务的形式,配置上权限和执行时间就完了, 拜拜。

做移动开发的兄弟,这种工具真的有点狠,你现在可以直接让 colo 去测你的整个 apple app, 不是 帮你写测试代码,而是让他真的自己点,自己看,自己填表单,自己把流程跑完。这东西牛在哪?以前测一个 app, 最烦的不是发现 bug, 而是你得手动点一遍又一遍,换机型换语言换页面,还得补截图。现在它相当于给 ai 装上了眼睛和手,你只要说一句把整个 app 测一遍, 他就会自己打开页面,点按钮,查崩溃,找布局问题,最后给你一份报告。更狠的是,他不只是测 ios, 同一套脚本还能跑安卓,还能顺手生成 app store 截图, 甚至拿去操作竞品 app 做调研,关键数据还都在本地,不上云以后,最先被 ai 吃掉的可能不是写代码,而是这些最重复、最磨人的测试脏活。我是硅谷赵博,关注我第一时间看懂硅谷最新动态。

ok, 接下来呢我给大家演示一下,就是 workbody, 它是怎么在 cloud code 的 这个 skill 的 基础之上,把整个流程实现自动化的啊?我们先打开电脑端的 workbody, 那 么在这个页面大家可以看到有很多栏目啊,然后呢有很多选项,还有很多的啊,按钮 功能,这个呢是什么意思?怎么用?大家看我之前讲的课程啊,非常详细,我在这里就不再重复讲了。那么我接下来讲的两个功能啊,是和我这个小 case 相关的。首先第一个呢,就是在左侧有个技能栏啊,大家可以看到啊,这是他的技能广场,对吧?有非常多的技能, 我们日常办公的技能,这里面基本上都有,大家只需要选中一个,然后放上啊,点个加号就加上去了,比如啊,我点这个 看到了吧,已经加上来了,对吧?那我刚才用 cloud code 创建的这个 skill 怎么用呢? 大家可以看到啊,在右上角有一个添加技能,我们点签添加技能,然后这里有个上传技能,对吧?那上传技能之后,它需要拖着文件或者点击上传,我们点击上传的时候,你会发现它需要让我们去找东西,对吧?找到那个 skill 的 位置,那这个 skill 的 位置在哪儿? 我来告诉大家啊,这个 skill 的 位置在哪儿?大家可以看到,在 cloud code 里面写的非常清楚了,这就是 skill 的 位置,我们只需要找到这个位置,然后找它的最底层的那个文件夹选择就可以了,因为我这里已经上传了啊,我给大家看一下啊,已经上传了,应该是 啊,这个啊是开启状态的,就可以直接调用好,这个时候我们已经把我们 cloud code 创建的 skill 给上传上来了,是吧?这说明一个什么问题,就是 workbody, 它不仅有自己的 skill 广场, 它还可以调用任何其他外部的 agent 开发的 skill, 这个就是非常爽的一个功能。好,第二个功能呢,就是 cloud 模式,这 cloud 其实就是小龙虾模式啊,我们进来之后啊,首先你要点配置,配置里面啊, 你可以去配置你的微信,微信客服号,企业的 airboat, 还有 qq、 元宝,机器人,飞书等等, 这些都可以。那如果你只想用你的手机微信来控制你电脑端的这个 word body, 那 你就选择啊,微信的这个 cloud boot 接成就可以非常非常简单,大家看啊,点一下配置,直接出来一个二维码,我们用手机微信来扫这个二维码, 你的手机就能控制的了你的电脑的 work party 了。那手机微信是怎么控制电脑端的 work party 呢?我给大家截了一张图啊,大家来看一下。我首先在手机微信上给他发了一条指令,这个指令呢就是告诉他你先去调用这个技能,那 我发了这条指令,其实电脑端的 work party 就 收到了,它是同步过来的,那电脑端去读取这个技能,当我们看到它读取完之后,就需要把我们这一次要做的这个知识点清单也好,教材也好发给他 啊,然后我把这个材料发给他了,可以看到电脑端的 workbody 他 也是收到了,并且这个时候我们不需要干任何动作了,因为所有的工作 workbody 来做,就是我现在拿着手机在外地是一样的,只要我电脑开着的, 最后他处理完之后呢,他会把这个试卷的 excel 表发到我的手机上, 然后我就可以从手机上把这个表格发给我的程序同事了。所以说我没必要坐在电脑旁边就可以完成这件事情,这就实现了用手机的微信去控制我电脑的 work body, 这就能够实现我刚才跟大家讲的整套流程的全自动化。而且呢,实现的门槛是极低的,基本上你只需要掌握两个点,第一个呢,就是用 cloud code 去创建一个 skill。 第二个呢,就是在 work body 里面去配置一下你的微信。 呃,其实就是扫个码,然后直接对话就行了。那这件事情对我的冲击还是蛮大的。就是 workbody, 它是腾讯的产品,它跟微信之间的连接的丝滑程度是非常非常高的,不管是响应速度也好,还是能够支持发送的。呃,消息文件类型也好啊,在很大程度上应该能解决我们的问题。 好,我想简单总结一下啊,就是我其实把整套流程分成了两个阶段。那么第一个阶段呢,其实是做 skill 啊,首先我明确这个工作是重复的,然后呢,理清了出题的要求和资料,发给了 cloud code, 让他先去测试一下,那么发现效果还不错。所以说呢,我就做成了一套自动出题的 skill。 那么当做出来这个完整的 skill 之后,我们还需要去验证一下,如果有问题,需要继续和卡拉多克进行交流啊,改进啊,这个 skill 是 最核心的东西,因为它是指挥 agent 去完成这项任务的。 紧接着我在 wolfbody 里面上传了这个 skill, 然后呢,通过龙虾模式去配置了微信,由个人微信给电脑的 wolfbody 发送了消息, 电脑的 workbody 呢,产出了最终的题库的 excel, 再发回给我的个人微信。这个是第二阶段,是我用微信直接去指挥电脑工作。这两个步骤其实是缺一不可的, 如果你没有在第一步做好这套 skill, 而是直接通过微信去调用 workbody 去完成刚才的任务的话,它完成的效果是很差的哈,这正好对应了我在这期视频最后要跟大家讲的就 workbody 现在有哪些缺点。那么整套流程 啊,体验完之后,其实你也能够发现, walkabout 它有很多优点,比如说配置方便啊,自动连接很丝滑呀,然后直接操控电脑。这其实跟 opencloud 是 很像的,它们都是一套壳子,但是大家注意啊,壳子不是最核心的,最核心的就是大模型,也就是这个壳子当中的脑子。 那为什么我会用 cloudcode 去做这个 skill? 因为我用 walkabout 尝试过出来的 skill 会有各种问题, 因为受限于国内版,你只能用上国内的一些模型,那在有一些场景下,细节方面,它的智商可能还没有那么高,容易出错。所以我自己用了一段时间之后,我还发了个朋友圈告诉大家啊,用 cloud code 把 skill 做好,然后再用 workbody 去调用它,这是目前最好的组合 啊,因为我认为啊,它的壳子做的是相当相当不错了,跟各种 i m 软件的集成非常好,同时使用门槛又非常低,非常适合大家。 ok, 这期视频呢,就到这里,我们下期见。

你知道吗? cloud code 其实有四种用法,第一种是 cloud chat, 就是 我们平时用来聊天的那个,比如说打字啊,问他问题啊,有点像 deepsea 或者豆包,你就直接跟他沟通就可以了,然后他回答你就是很简单的。 第二种模式是 cooke, 它可以直接的帮你操控电脑,相当于是个人机协助的一个方式,比如说呃你的文件或者是你的浏览器,很多事情它是可以自动化的去完成的。 第三种就是 color code, 就是 相当于是一个桌面版本,有图形界面,你可以直接写程序,它其实是适合稍微有点基础之后你再去用它,适合想进阶的人去用的。 那第四种就是 color code 命令行,也就是我们说的叫做终端,它是一种纯黑屏的这种敲指令啊的方式,它是比较适合老司机,那新手的话,你其实要去找他还是有点门槛的,他主要是通过指令来操控电脑。这四种难度呢,我是建议是先从聊天开始, 你先把聊天先学好了之后,然后我们就按照这个顺序去呃,一种一种的慢慢的去学。所以第一步的话就是你要先学会怎么去跟 ai 去说话,说话说的好了之后,我们再来学怎么跟 ai 一 起去做事情。 过程中会遇到一些就是比如说需要写程序的这种情况,那么再用 color code 来解决你,你本来就是程序员,那么就可以直接跳到命令行,就是这个版本,我觉得这个更适合你。我们先从 color code 的 聊天模式讲起,我们所有的对话都是在云端进行的,其实不碰我们的电脑的一个本机,我们用它之前要先想清楚三件事情,它能做什么? 做不了什么,可以输出什么,哪些格式,基本上它分两个,能两块能力。第二块叫是连接器,也就是我说的 m c p, 那连接器它其实有点像那种外部拓展,比如说我们像处理这个居妙的邮件或者是日历这些,它是可以跟你连接,就是就是快速的一个操作的,比如说你在日历上定计划这些你都可以用下。光它的一个基本的一些聊天的功能很就已经很强大了, 大部分的问题其实都能够去去处理。那接下来呢?第二种、第三种、第四种呢?基本上我们是要下载一个桌面端才能够去用的,桌面版装好了之后,它界面上有三个功能可以去进行一些切换。 不过我这里要说明一下, callwork 的 话,目前有一些是付费的才能够去解锁,而且大家都知道他在中国地区其实不是特别友好,那我自己用的话是一个免费版,但是没关系, 我们先把能用的先玩透,然后一步步来嘛,而且我们可以通过后期的一个终端也能够实现这个功能,先让你了解是什么 比较重要。 callwork 的 话,他可以直接管理你的电脑里的一些文件夹,不用你手动一个个操作。我们把三十多个 word 文件丢进去,需要整理啊,分类啊,会自己读取,你可以一边跟他聊,然后他一边帮你分析啊,整理报告,然后全程其实都是通过 就是对话去解决。还有像功能,它有排程的功能,就是说你可以设定好每天他做什么,就有点像那个定时任务,比如说他每天早上自动的帮你去整理邮件,整理当天的就是一些行程。我们之前看这个王静林的就是早上凌晨五点钟起来应该做哪些事情,一二三四五六这个他也可以帮你做。还有个是任务 派发的一个功能,就是说你跟他说一件事情,他自己就是去操纵浏览器,然后操控电脑把事情办完,有点像那个我派助理出去了,你自己去办吧,不用一步步你自己盯着。那接下来就是第三种,就 cloud code 桌面版, 你用之前他会提示你保存在固定的位置,之后所有的操作都是在这个目录里去进行,就相当于说, 呃,你有个安全的一个沙盒,那你在这个空间里面他可以随意的操作,这样的话就是有一定的安全,而不是说他直接在你的电脑本地里,对于很多就是有一些有隐私啊,或者是怕是电脑误伤的这种情况的话,这个是比较适合的。对于我们新手来说,我建议是用计划模式,他会先告诉你打算做什么,然后再执行, 就是这样熟练了之后,然后我们就可以可以开自动的一个执行,就直接帮你做那更高级的全开模式就不用被询问,你就直接操作。桌面版的话,我觉得最大的好处就是有图形界面,操作起来比较直观的,出问题也比较容易找到,就是你你在什么地方可以去解决。

我现在把这个 cloud coworker 现在接入到了 blender 的 m c p 里面,他现在在帮我去做这个建模的识别,我已经把我的目标告诉给他了,就是我们让他生成这个是一个 ai 生成的鞋子模型,然 一个脚的一个模型需要让 blunder, 让 co worker 控制 blunder, 然后把这个鞋子模型适配在这个鞋圈上面,然后让它可以作为三 d 打印的一个准备工作 进行优化,让它既兼具鞋子的外观,然后穿起来也舒适啊。现在他在全自动的去做这个,给他一些权限。他现在分析我们的模型结构,大概就是给他简单的描述了一下我们的目标,然后我们 能够想到一些操作,给他一些提示,他现在在通过这个 blender mcp 连接使用它,然后最终控制出来。 我们待会看一下结果,可以看到他现在在进行识别,但是他应该是根据这个模型内部的数据在识别,因为他这个如果要调用视觉的话,他这个整个窗口是有一个 红色的框框,那么现在他是应该是纯粹用的这个数据的尺寸来参考,然后想象说他那个东西是什么。 ok, 他 现在在做准备工作,他在把他的思路发下来了,我们现在要讨论一下。 刚才我给那个 cloud 说了,就是说以这个鞋子作为现实物理世界的思考,它的鞋圈是刚性的,鞋子是柔性的,那么当柔性材质套入刚性材质的时候, 他就会进行一个计算,然后他理解了我的意思,然后最后做到了,就说在鞋圈内部的鞋子就会被弹出来,从而达到了百分之八十六点九的这个原原始造型的保持, 现在做出来效果也是很好的。那么接下来我们进行下一步给大家增加一些舒适性,比如说透气、防水的这些性能。他现在在执行这个参数化,我能看到他是他这个模型本身已经进行了一定的这种 logo 的 设计,但是对于原始的这个鞋子的数据,嗯,破坏比较大。然后我在他思考和制作的过程中实时的跟他进行交互, 从而可以提高他的一些效率,因为现在的 ai 还是反应相对来说有点迟钝,如果人在旁边可以实时给他提醒的话会好一点。呃,现在看到他我提醒了以后,他回到了之前的那一步,然后他开始 呃区分鞋面和鞋底,这个动作其实很重要,因为我们的鞋子在生产,呃,在穿戴过程中的话,鞋底的话是要求的,嗯,是不透水的,比如踩到水他不会透,下雨天,然后鞋面的话是要有透气性。 那么他现在区分的这个事情,我们可以看到他已经能够有一定的效果,但是还是没有那么的好。然后他现在自己会去看, 我也可以提醒他。第一人称收菜刚刚花了一天的时间打印出来的这个鞋子整体的效果是还可以, 沉纹稍微有点多,因为后面开了一点加速,但是好像没有明显的区别,这个是开加速之前的这这个是开加速之后的,还好是柔性 tpu 材质,然后把它拆下来, 拆的也是比较长,应该比较简单好拆,感觉像一个火箭一样。这个嘿嘿,质感还是可以之前的那个好,之前那个因为用的那个雕刻工具有点变形了,然后这个迭代以后就没有去太大动,他的这个具体的外形 就在内部做了布尔印刷。 ok, 现在把它拆下来一拉应该就下来了。 这个地方接口的地方可能到时候还得熨烫一下,不过整体来说效果还是可以的。感觉 这个支撑直接用手都可以扣下来。因为这个 t p u 材质,现在这个打的是三绿的九零 a, 这个耗材比较 软,他八五 a 会更软一些。我想后面买了这个树脂材料 tpu 的, 哎呀,坏了,妈的,拆的时候还得小心一点,这个钳子拆下来这个后边还是容易不太好搞。 没事,到时候可以我还有三 d 打印笔,可以拿这个来填补这个材料,然后两边进行打磨处理,就像做一个雕塑作品一样,拆掉就拆了,就拆了吧。哎呦, 这个支撑反正支撑在哪里,哪个地方就比较粗糙。这个是目前 d m 打印机的投币,没办法解决。这里面的像有点像血管一样啊,塞到这个里面去。哎呀,取的下来就取,取不下来就算了。 这个里面这个可能到时候要优化一下他的打印结构,比如说这样他的这个底部粗糙,或者这样就更好了。其实这样应该是比较合适,但这个位置可能就会比较粗糙, 因为他越是跟这个地接触面垂直的部分,他就会越粗糙。这个知道穿起来感觉怎么样,大约应该没问题,可以穿,比例比之前的好太多了。这个优化起来, 而且尺寸也小了很多,同样的角的大小, ok, 就 到这里把这个表面给他抛光一下,粗糙的地方再大致抛一下,差不多了。

这节课直接带你过一遍六个生产项目推炼出来的十五条 cloud code 实战经验,内容包含项目初识、话题式策略、工作流习惯以及高阶进阶技巧。我们先看第一部分项目初识化层。 首先是项目初识化,要在目录放一个 cloud 点 a m d 文件,它的作用是把项目描述、技术栈架构、决策编码规范,还有常用命令一次性喂给 cloud, 这样他每次进入绘画都能立刻获得完整的上下文,不用你再一遍遍重复解释项目是怎么构成的。如果是老项目,你直接让 cloud 读一遍代码,他自己就能把这个文件写好。 如果规则太多,也全塞进 cloud。 md 建议在 cloud rules 目录下分模块存放。比如你可以准备 a p r rules、 db rules 或者 test rules, cloud 只会在处理相关任务时才去加载这些规则,这样能保证它的上下文窗口始终是专注的,不会被无关的信息干扰,输出也会更精准。 关于效率工具,有两个关键点,第一是自定义斜杠命令,如果你发现某个操作,比如创建新功能,你重复输入超过三次,就把它写成一个命令,像斜杠 new feature 这样,让 cloud 一 次性把路由数据库和测试全干了。第二是配置 cloud ignore, 把 node modules, disk 这些无关目录排除掉,不仅能让 cloud 响应更快,也能防止它乱动不该动的文件。 在跟 cloud 沟通时,最忌讳直接告诉它怎么做,比如你不要直接说创建一个 j w t 认证系统,这样它只会机械的完成任务, 你应该告诉它,我们需要处理用户认证,也就是描述清楚做什么和为什么,把实现细节的代码模式推荐出更合理的方案。 面对大型任务,千万别指望 cloud 一 次性就把整个代码库重构完,任务一旦太大,上下文窗口一满,它的输出质量就会断崖式下跌。你要把任务拆成计划、审、执行这几个阶段,先让它出计划,你人工看一遍,确认没问题了,再让它动手。 这种 sprint 级别的拆解,能保证每一步都在可控范围内。还有一个工程化的习惯,首先是模式引用,也就是 show don't tell。 与其费劲用语言描述你想怎么写,不如直接告诉他参照 api 目录下的 tims 实现方式,这样他能直接附用你现有的设计风格,比你解释半天都管用。另外,涉及到超过三个文件的复杂变更,一定要坚持计划先行,让他先出方案,你审核通过后再让他执行, 这能帮你避开大部分因为结构性错误导致的反工。在工作流里,安全和维护是底线,做重大改动前,一定要先执行 get commit, 创建一个检查点,这样万一改砸了,也可以秒级回滚,不用浪费时间去手动修复。 另外,如果发现 cloud 的 响应变慢,或者开始胡言乱语,说明上下文太长了。这时候记得用 contact 命令压缩一下历史记录,做一下预防性的维护。想要效率翻倍,得让 cloud 实现自动化测试闭环。你只需要把项目的测试命令直接写进 cloud 等 md 文件里, cloud 就 知道怎么跑测试了。 他的工作模式会变成写完代码自己跑测试,看到报错了,自己读错误信息,然后直接修复,再重新跑测试,这个过程完全不需要你手动去复制粘贴报错信息,效率比人工干要快五倍以上。 进阶玩家会更关注专注度和附用性。首先是坚持一绘画一任务,一个任务做完,要么用 comp 命令压缩一下,要么直接开新绘画, 别把杂乱的任务混在一起,否则上下文会乱。其次是构建项目套件,把你的自定义命令、规则文件和 code 点打包好,下次开新项目时直接复制过去,就能瞬间拥有完整的开发环境,实现开箱即用。最后也是最重要的一点,必须执行人工 review。 记住 cloud 能完成百分之九十的工作,但剩下的百分之十质量关必须由你来守住,你不能盲目信任 ai 的 输出,一定要执行 gitif, 看清楚它到底改了哪里。跑一遍全量测试,还要执行构建来检查有没有类型错误。 cloud 负责帮你跑出速度,但最终的质量必须由你来拍板。

现在 ai 做的 ppt 能直接拿去跟你的老板进行汇报吗?我今天用了三个头部的 ai 大 模型进行了试车,结果还真的有点出乎意料。先抛个结论啊,不光能用,而且做得相当漂亮。但前提你得选对模型,这处分别用 jamming 三点一、 pro gpd 五点五和 cloud office 四点一起进行测试。 这些呢,目前都是三家最新的模型。这次的任务呢,是做一个工作汇报的一个 ppt, 这应该是很多公司目前非常常见的汇报形式。我只给了 ai 一 份文字版的大纲,而且也没有给它们多么复杂的提示词,就是简单的一句话,看这些大模型能不能主动地添加一些丰富的呈现形式给到 ppt 里面。 首先第一个是 jimmy, jimmy 的 完成效率是真的快,不到一分钟它就完成了,但是它有一个槽点,它给我的是 pdf 而不是 ppt, 还得导进到谷歌的文档里面进行编辑。 它做的质量呢,只能说还行,能满足一个基本的及格线,我可以打一个六分。接下来的是 g p t, 我 用的是 g p t 里面的 codex, 它是 g p t 的 一个编程助手。 codex 呢,做任务稍微慢了一点,但是出来的东西真的很让我惊艳。内容形式比 jamming 丰富很多, 光是干巴巴的数字,还配了一些可量化的一些图标,比如说客户转化这块,他直接上图,一眼就能够看明白。那 g p d 最新的这个五点五的模型表达方式也更加的多样化了。我之前用过老款的 g p d 五点四那版做 p p d 还真的是不太行的,现在这版进步真的非常大。 g p d 这次呢,我直接可以打九分。最后是 cloud, 它就一个字,稳,做出来的非常商务风,比 codex 少了一些图标,但是它配了一个 ppt 目录,整体的完成度也是相当的高,我可以给他打八点五到九分吧。那这三个模型测下来呢?我觉得 codex 和 cloud 做出来的 ppt 基本上可以跟你的老板直接汇报了, jammin 还稍微差了一点意思。虽然我最近也讲了很多 jammin 的 视频,但是这都过去好几个月了, gpt 呢?人家也更新到了五点五的版本, cloud 也更新到了四点七的版本, 但是 gemini 还是它的三点一模型,说实话,它现在的体验跟另外两家已经有点差距了,希望谷歌呢,能够早点上新的版本的 gemini。 最后说一句啊, ai 只是辅助用,之前呢,你的 ppt 一定要自己再审一遍,评论区告诉我,你觉得哪个模型做的 ppt 最好。

d stack 能把 cloud code 直接升级成一只完整的 ai 工程团队。 yc 总裁 gary ten 的 团队就是用这套工具,两个月就交付了六十万行生产代码。 这节课我会带你从安装配置开始,跑通从产品定义到发布的全流程工作,并深入讲解它的浏览器自动化和进阶写作技巧。建议先收藏 环境准备很简单,你需要确保有最新版的 cloud code、 git 以及 bug 环境。如果是 windows 用户,记得额外装一下 node js 安装方式有两种,个人用的话,直接在 cloud code 的 对话框里粘贴这条命令,它会自动帮你完成剩下的步骤。 git clone 路径加 set up 脚本 如果是想让团队成员也能直接用,就把代码拷贝到项目的 cloud skills 目录下再执行安装。最重要的一步是,安装完后一定要在项目跟目录的 cloud 点 md 文件里把 g stack 的 技能列表写进去,否则 cloud 根本识别不了这些。新命令 进入第一个阶段,我们要用 office hours 来定义产品。这不只是简单的头脑风暴,核心是重新框架化。 gps 会通过六个强制性问题来挑战你的假设,比如你只想做一个简报生成器,它会通过对话帮你发现你真正的痛点其实是多日历信息同步的问题。它会帮你把模糊的功能描述转化成一份逻辑严密的设计文档,这份文档会自动作为后续所有审查步骤的输入。 第二步是做 ceo 级别的策略审查,使用 plan co review 命令,它会读取你刚才生成的设计文档,从市场和优先级角度进行四象限审查,是该扩大范围还是应该缩减到最窄的切入点? 它最实用的地方在于会给出三种不同的实现路径,并直接对比人工开发和使用 ai 辅助开发的时间成本,帮你判断现在的产品规模是否合理。代码写好后,运行 review 进行审查。你要记住,它的核心逻辑是语义分析,而不是简单的语法检查。 它能发现那些 ci 测试能通过但上线后会爆炸的逻辑漏洞。报告会分为三个等级, auto fix 是 它已经自动修复的边界问题。 one 是 风险提示,而最关键的是 ask 类别。当他遇到复杂的病发竞争或者逻辑冲突时,他不会乱改,而是会把具体的方案摆在你面前,让你做最终决策。 第四步是启动自动化 q a。 使用 q a 命令加上你的测试地址,他会启动一个持久化的浏览器环境,并自动附用你的登录台。 它和传统自动化测试最大的区别在于,传统测试只能刨你喜好的断言,而 g stack 会主动去寻找你没想到的场景,比如空状态、错误状态或者并发边界。最强的地方在于它的闭环能力,它发现 bug 后会直接尝试进行原子级的代码修复, 修复完后还会自动重新验证,确保问题真的解决了。最后一步是执行 ship 发布流水线,他会把之前所有的工作串联起来,自动合并分支运行测试、执行构建。最后自动创建一个包含变更、摘药的 p r。 整个过程内置了严格的检查清单,每一步都会进行校验。 如果流程中遇到需要人工决策的关键环节,它会停下来等你确认,确保发布过程既高效又安全。进入设计阶段,我们要理解 g stack 的 核心逻辑是文档驱动,设计阶段生成的不是死文档,而是整个工程流水线的数据底座。 通过 planning review, ai 会帮你锁定技术架构,生成 esk、 数据流图和状态机设计。通过 design consultation, 可以 从零构建设计系统。 这些深层的 markdown 文件会直接作为下游 review 和 qa 技能的输入依据,确保整个工程逻辑的一致性。 进入开发阶段, stack 有 两种深度分析手段。首先是调试专用命令 investigate, 它严格遵循不调查、不修复的原则。 ai 会先提出假设,然后逐个验证,只有在锁定根音后才会停止, 这样能有效避免盲目改代码带来的副作用。其次是 codex, 它能利用 open ai codex 提供第二意见,通过交叉模型分析,帮你规避单一模型可能存在的逻辑盲点。 发布阶段的核心是实现监控与回本的闭环, land and deploy 也会自动完成从合并、 p 二到部署的完整流水线,而部署后的安全由 canary 负责, 他会在上线后的三十分钟内持续监控三个关键指标,可搜的错误率、性能指标的回归以及页面的失败率。只要任何一个指标出现异常,系统就会自动触发回滚,确保生产环境的安全。在浏览器自动化方面, gedit 的 操作非常直观, 你可以通过 b o l 命令完成跳转、查看元素、点击和填表。这里我把常用的命令整理在了屏幕上, 其中最实用的功能是 ui 变更验证,使用 snapshot 配合 d 参数,它会以类似代码 d f 的 格式直接告诉你操作后哪些元素出现了、消失了,或者内容变了,非常适合做回归测试。 进阶功能主要解决登录态和多端适配的问题。首先是登录态使用,通过 cookie import 命令,你可以直接从 chrome 或 edge 等浏览器导入 cookie, 实现无需手动登录的自动化操作。 其次是响应式测试,使用 responsive 命令,可以一键生成手机、平板和桌面端三张布局截图,快速验证 ui 在 不同设备上的表现。想要实现一人机团队,就需要用到 conductor 模式,它的核心逻辑是并行, 你可以同时启动多个 code code 的 势力让实力 a 负责设计,实力 b 负责开发,实力 c 负责 qa。 这些任务之间不会产生冲突,因为它们是基于 get 分 支模型进行物理隔离的。通过 conductor, 你 可以像管理一个工程团队一样,同时推进多个 sprint 阶段。 在处理生产环境代码时,必须开启大的模式。它实际上是两种安全机制的合体,一个是 careful, 它会拦截所有危险命令, 比如删除文件或执行数据库。删除操作必须经过你确认。另一个是 freeze, 它会把 ai 的 编辑范围锁定在特定目录,防止它在调试时误改了不该动的代码。如果需要扩大权限,再运行 freeze 解除即可。最后是几个高频问题的排查建议, 如果技能不显示,重新运行 desktop 脚本即可。 windows 用户请务必使用 wsl 或 git bash, 不要用 powershell cookie 导入,目前仅支持 memos。 总的来说, sdk 的 核心并不是提供一些花哨的指令,而是通过一套完整的工具链,让 ai 能够遵循严谨的工程化标准流程,这才是实现高效 ai 编程的关键。

就在你观看的同时,每一个剪辑转场和弹出效果都是由 call 完成的。 call 打开了 premiere pro 视频编辑器,查看了我的原始素材,然后剪辑了这段视频。至于它做的有多好,就交由你来评判了。但这仅仅是个开始。 我正在构建一个能自动化 youtube 视频制作每一部的系统。我将利用这个系统在我构建它的过程中制作这些视频。这就是完整的时间线,这就是今天所有自动化的部分。然后其他一切都在路上。顺便一提那个酷炫的动态路线图图形。 是啊,这是 cloud 做的,所以我知道你们想看看它实际运行起来的样子。在这呢,我在一个悬浮窗口中打开了 cloud, 它正悬停在 premiere pro 视频编辑器上方,我要让它帮我剪辑主画面素材, 所以剧透一下。我在拍摄这些视频时是看着提词器读的。我提前写好剧本,把它放上去,然后逐字朗读。而且如果某次录制我不满意,我会重读,直到入队为止。所以现在我们看到的这段素材只是我对着镜头说话的一段。原始片段有很多糟糕的尝试 口误,以及各种有趣的失误。有趣的是,在整个过程中, called 只能读取字母稿,根本无法真正观看视频本身。 但仅仅基于这些信息,他能做到的事情却让人惊叹不已。你会看到他已经帮我完成了所有这些剪辑。现在他正在从 premiere pro 中移除静音片段。这里放大一点,这样我们就能看得更清楚些,把它拉上去。 所以接下来他要做的事是填补这些空隙。有时候,当你进行这种 a 卷剪辑时,各个片段之间会留下一些零碎的空隙。这套设置还能做一件有趣的趣事,你可以让多个智能体同时处理同一个 premiere pro 时间线。 所以你可以想象其中一个智能体负责构建动画,另一个处理转场。也许还有别的在整理字幕稿,诸如此类。他正在删除个别片段,因为他注意到在之前的变词中漏掉了这部分,全都搞定了。 对于不看视频剪辑的观众来说,明确一下,这原本需要一个小时的工作量,他却在一分钟内独自完成了。 我知道大家会问,所以是的,你现在就可以自己试试。这是早期访问版,设置为手动模式,可能会出问题,但你若仍想尝试,我再剪辑里方链接, 那么这到底是怎么工作的?考奥,不知道如何在 perma 中点击按钮来编辑视频,但他知道如何使用工具。所以假设 clout 想要移除视频中所有的静音部分,他不会真的去便利视频,选中那些有静音的部分,然后删除他们。 相反,他执行一个名为 remove silences 的 工具,调用该工具,随后运行计算机脚本已清除所有静音片段供 cloud 使用。 cloud 不 必了解该脚本如何运作, 他只需知道这是一项允许使用的工具。顺便一提,如果你好奇的话,这就是当 cloud 请求使用静音移除工具时的样子。 cloud 桌面应用看到这一点后,会在 premiere 内部运行静音,移出脚本,回到路线图。这些图标中的每一个都是 cloud 将获得访问权限的独立工具。 比如,当 cloud 认为视频的某部分加入动态图形会更好看时,它会调用一个名为 create animated graphic 的 工具调用在其中描述它想要生成的图形类型。 随后,盒子里发生一系列神奇操作,已创建出该动态图形。但视频编辑智能体并不需要知道那个盒子里发生了什么, 他只知道请求了动态图形说明了应有的样子。然后那个魔法盒子就吐出了一个 video editor。 cloud 能放入视频的动态图形。 在这些魔法盒子里正在发生很多酷事。每周我都会再构建一个魔法盒子,并为此制作一期视频。这些魔法盒子中的一些我已经造好了,比如选择库存素材的工作已经完成了。 我开发了一个名为 buzz rose 的 premiere pro 插件,编辑只需指定必剪 ro 的 位置点击启动,其余工作全权交由他处理。搜索素材网站,挑选最佳匹配像下载并插入画面。 作为人类,你现在就可以下载并使用 barrows, 但它原本是为人类设计的,配有可点击的按钮。 我还没把它设置好供 cloud 的 使用。但你可以想象 barrows 如何变成一个 cloud 能用的魔法盒。它调用查找 b 减 row 的 工具,告诉工具需要在何处覆盖 b 减 r o r l。 然后这个魔法盒,也就是这里的 barrows 会处理其余部分。 为了测试 cloud, 我 把所有的时间线片段都打乱成了完全随机的顺序。我把它们打乱了。这个新势力的 cloud 完全不知道正确的顺序应该是什么。 我还得明确告诉他,别去读我们原本的剧本,因为他足够聪明,会想,我干嘛不直接找一下那个脚本文件,然后把所有内容都重新排好序呢?但我希望他凭借自身的理解和推理能力,自行判断出正确的序数顺序。 所以如果现在你查看这个视频的逐字稿,它完全没有任何意义,它完全彻底的被打乱了。我们看看它会怎么做。所以它正在逐一处理各个部分你知道的,边思考边自己琢磨那些计算,看来它已经在想办法给出答案了。 所以我们让它运行一会,看看它会怎么做。 好吧。经过几分钟的深度思考以确保无误后,他终于开始重新排序所有内容了。 他真的想确保自己做的对。他一遍又一遍的自我思考,心想,啊等等,不对,我漏掉了那个小细节, 咱们回去把这事和那事都办了。然后他终于锁定了目标,现在正在执行。所以我看了一下,发现了几点问题。他们大多是我软件里的 bug, 并非 cloud 搞砸了。 但如果你看完整个视频,他其实是有逻辑的,他确实奏效了,他做对了,这和我原本的剧本并不完全吻合。但如果这是你第一次看这个视频,你就不会质疑了。 我想澄清一下,剪辑中哪些部分是 clod 完成的,哪些是我做的?所以正如之前演示中所示, a 卷的主讲人镜头有百分之九十九是由 clod 剪辑的,有一处重复的句子是我手动删掉的。除此之外,最大的其他部分就是这些动画了。 这些都是由 cloud 完成的。它的工作原理是我只选定入点和出点,然后转向 cloud 实际上创建了一个名为在这里为 premiere 制作动画的命令,从而启动整个工作流。下周的视频里,我可能会聊这个, 但我详细描述了那些动画中我想要的内容,然后我经常会获取那些促成动画的资源。所以举个例子,这些片段是 cloud 使用的不同窗口的屏幕录制画面,但构图本身所有的动画和投影阴影之类的内容都是 cloud 完成的, 否则这些片段的结尾处的交叉溶解都是 cloud 完成的。我告诉他在每次动画的末尾,也就是开始处的交叉溶解位置,他就照做了。然后这里就像有个弹出效果,这种情况下,我告诉他选中这段,然后说在这里加一个弹出效果。 其他一些事情,比如做音乐和音频平衡是由我完成的。目前那部分还没有自动化,但计划是随着时间的推移逐步实现更多流程的自动化。今天就到这里,下周我们将教会 cloud 及时创作自己的动画,想看就订阅吧,否则我们下次见。

本期视频来分享如何将 deepseek 的 vs 模型接入 cloud code, 并解锁 em 的 上下文以及 max 思考等级。我目前已经将 deepseek 的 最新模型 vs flash 和 vs pro 通过 ipad 的 方式来接入了 cloud code。 vs pro 模型在降价之后性价比也越来越高了,并且对 a 键的也有做专门的适配, em 的 上下文对于大多数人来说也更加友好。 视频内容主要分为四个部分,第一需要先安装一下 cloud code。 第二,安装开源工具 c c switch。 第三,需要购买一下 deepsafe 的 api 并完成配置。最后再来测试一下 deepsafe。 v 四 pro 加 cloud code 这套组合表现怎么样。废话不多说,我们现在开始 首先来说如何安装 cloud code。 大家常说 cloud code 经常被封号,那其实封的是拥有模型能力的个人账号,但 cloud code 作为一个单独的软件是可以正常下载和安装的。 没有订阅官方的模型,我们依旧可以使用它的框架当成是 opencloud 或者 hermes nint 这种。在他们的项目官方网站这里也有明确的说明。终端 cli 和 vs code 也支持第三方提供商。 本期视频演示的是安装 cio 版本,也就是最通用的版本。这里有一行中的命令,它支持 macos、 linux 和 windows 这几种不同的系统版本。 windows 这里分为 power shell 命令和 cmd 命令,并且 windows 用户需要先下载安装下 get, 如果没有安装的话,可以到 get 的 官方网站下载安装包进行安装。 这里复制这一行命令,然后打开终端 app 或者 power shell, 输入他们提供的命令回车执行就可以了。我这里已经安装过,所以不再演示具体的步骤。安装好之后可能会出现一个提示,大致意思是安装已经完成,但是 control 的 安装位置并没有加入到电脑的环境变量中。 这里直接复制这行他提供的命令,在终端执行一下,搞定之后输入可拷的 code 杠杠微刃来确定当前的版本号。后续使用的话,直接在终端输入可拷的命令就可以打开了, 但是你那里可能会提示不能连接官方服务。接下来我们来安装第二个工具 cc switch。 cc switch 是 一个开源工具,它能够让 cloud code codeys、 opencloud 这类的 a i a 检测,方便地切换模型。累计下载量有三百多万,在 github 上面也有五万多个 star。 它有很多实用的功能,比如一份配置同步到多个应用,支持热切换,不需要退出应用切换模型。还有用量仪表盘,能够查看你的请求数和头克用量等等。 我们在项目的首页这里有一个已发布的安装包链接,点击进去,然后在这个界面直接划到最下面。这里有很多的安装包版本,如果是 mac os 系统就下载这个 mac os 点 dmg 的 版本,如果是 windows 就 下载这个版本。下载好之后直接点击安装包进行安装就可以了。 它这个项目的说明文档也有比较详细的安装教程。第三步,到 deepstack 的 开放平台购买 api。 我们来到 deepsafe 官网,点击 api 开放平台,我这里之前已经充值了一些,在网页和 deepsafe 对 话是完全不收费的,但是想要调用 api 就 需要进行充值。他们目前没有推出类似 tokpline 这样的按月订阅的套餐,好处就是用多少花多少。 目前他们对 v 四 pro 模型打二点五折,每百万 tokens 缓存命中情况下输入是零二五元,未命中是三元,输出是六元, 这个折扣目前是到五月三十一号截止。 v 四 flash 模型和 pro 模型的价格对比可以在官方的 api 文档里查看,这里点击充值按钮,然后选择金额和支付方式。建议先小额买一笔,用完之后根据自己的实际使用情况再进行补充购买。 付款完毕之后,点击左侧的 api case, 点击创建,然后复制这个 key 的 密钥, 注意这个 k 的 密钥只能够在创建的时候查看,关闭这个页面就看不到了,如果丢失的话,就需要重新创建一个 k, 然后打开 cc switch 这个应用。我这里已经添加好一个 deepsea 的 模型了,选中这里的 cloud 的 图标,然后点击添加, 在预设供应商这里找到 deepsea, 在 api k 这里填写 k 的 密钥,然后这里需要修改一下这几个模型,可以直接参考我这个填写 默认模型就是 deepsafe。 v 四 pro 后面加上 em 是 因为之前的公告有说明,这样才能够开启 em 的 上下文,然后点击添加就可以了, 这里就会多一个 deepsafe 的 模型,点击这个按钮来测试当前 api 是 否可用。点击这里可以配置用量查询,查看当前还剩多少余额, 勾选这里,然后点击保存配置,这样的话就能够看到还剩下多少钱了,然后点击起用,就能够正常的使用可绕的扣子了。左上角有一个设置按钮,通用,这里建议打开开机自启使用统计,这里也能够查看 ai 模型的使用情况和成本。 我们打开终端应用,输入可绕的指令,那这个呢?就是 deepsea v 四 pro 的 模型,并且是一百万的上下文, 我们输入指令斜杠 context 能够查看,这里确实是一百万的上下文 tokens。 这里的默认思考等级是 medium, 可以 使用命令斜杠 effort, 然后空格后面的话就会显示哪些等级可选,这里输入 max 回车确认,这样的话思考等级就会调到最高。还有一个命令可以快速的切换模型, 输入斜杠 model, 然后回车。默认模型其实就是 v 四 pro, 我 们之前配置的 apps 和 sonata 都是 v 四 pro, 嗨酷模型是 v 四 flash, 通过键盘的上下按键来选择,选中这个模型,然后回车确认, 这样的话模型就切换到了 v 四 flash, 这里输入命令 context 能够看到它的上下文,显示是两百 k 的 tokens。 最后一部分来测试一下 cloud code 搭配 deepsea v 四 pro 到底贵不贵,干活效果怎么样。 首先说一下,它是基于文件夹的工作模式,所以你需要先通过 cd 命令跳转到你想要它打开的文件夹,比如我的项目文件夹的路径是这个,就需要输入屏幕上完整的指令回车,到了这个文件夹后,输入 cloud 的 命令来启动它, 如果路径很长的话就比较麻烦。有一种方法可以简化一下, windows 用户应该可以直接在文件夹右键从当前文件夹位置打开终端, mac 用户右键的话是没有的,但是可以直接将文件夹拖拽到终端 app, 那 当前终端打开的文件夹就是这个项目文件夹, 输入 cmd 命令,可以查看当前文件夹的路径,然后输入 cmd, 启动 cmd 的 code。 第一次打开的时候需要确认一下这个文件夹,点击 yes, 后续退出的话需要连按两次 ctrl 加 c。 这里安装一个归藏老师最近开研的一个 ppt skill, 设计是比较美观的。 来到他的项目仓库,这是一个电子杂志风的网页 ppt skill, 纯网页形式,适合线下分享,但是不适合培训课件。这个 skill 的 名称叫做归藏 ppt skill, 这里提供了多种的安装方式, 最方便的就是直接复制这一段话,然后发给 ai, 选中这一段话, command 加 c 复制,然后来到 kol 的 对话界面, kol 加微复制,然后直接发送。 kol 在 执行任务过程中会需要一些权限的许可,遇到的时候直接选中 yes 就 可以了,它的框架对于安全保护还是比较好的。 整个的执行过程我就直接跳过了这里提示安装好了触发词,就是帮我做一份杂志封的 ppt。 ok, 我 在这里输入这句话,然后告诉他要做的内容就在当前文件夹中。在当前的项目文件夹中,我放入了一个 mail 文件, 内容是关于 code 的 使用方法论,然后回车执行。他会先查看项目文件夹的内容和 skill 的 使用说明,执行过程中可能会问一些问题,根据个人的需求选择就行。 我这里也跳过过程,大概直行了六分钟左右,一共生成了九页 ppt, 并告诉了我每页的布局和内容,以及怎么操作。 ok, 我 们直接打开浏览器来查看一下这个网页的 ppt。 这是第一页 codex 的 方法论,整体的设计风格确实是比较美观的,如果是个人制作的话,可能要花费比较长的时间,并且效果还不一定有他这个好。 第二页这里的话可能会有一点点问题,下方的文字有一部分被遮挡了,后面的页数大家可以具体去看一下内容觉得怎么样。 最后再来看一下安装这个 skill 以及制作这九页的 ppt 一 共花费了多少钱。 我在做之前是九点八九的余额,刷新一下网页,那现在还有九点三九的余额,一共是花了五毛钱。这里有一个每月用量的图标,展示每个模型花了多少钱。下面也有 token 的 使用详情,包括输入和输出的具体数量。大家觉得 deepsea v 四 pro 的 性价比怎么样?


大家好,今天我们来玩 jam 四加 cloud code, 内容包括下载运行 jam 四,接入 cloud code 编程能力测试。接下来简单讲一下安装和接入。通过欧拉玛瑙 jam 四就能够下载模型, 需要注意的是需要加上模型的具体大小,比如说下载三十一币就是欧拉玛瑙 jamma 四冒号三十一币,等待几分钟模型就能运行。欧拉玛连接 cloud code 也很简单, 用 cc switch 点击右上角,选择自定义配置请求地址,当中填 local host 和端口号,幺幺四三四保存就可以了。 终端输入欧拉玛 launch cloud model jam 四三十一币。 这样来看一下,现在的内存压力是很小的。执行指令登录说一句话,我们内存一下子就上来了,这样子呢,就说明我们的 cloud code 已经在调用 jam 模型了。 要测试的场景是让接入了 jam 四的 cloud code 复刻我们的官网,想让它变成苹果官网的风格, 先到 get design, 点 md 里面找到它的设计风格,进入到前端重构目录下 执行指令。这条指令是安装一个 md 文档,让 cloud code 知道如何模仿苹果的官网设计 design, 点 md 好, 现在已经可以了,命令也很简单,请你使用 next nex 的 gs 复刻我们的官网,参考 design, 点 md 中苹果的设计风格,我们就持续等待吧, 它已经运行了半个小时,还在 plan model, 还在思考该怎么办,我们继续等待吧,现在已经持续运行了快一个小时,代码也编已完成, 打开看一下,启动的时候报错了,让它修复一下,现在来对比一下。 左边是重构之前的效果,右边是重构之后的效果,可以看到右边还是很贴近苹果网站的风格,今天做这个测试主要是想看本地模型在 agent 的 场景下是否能够使用, 相比之前的本地模型只能够聊天,现在已经可以支持一些 agent 的 操作工具调用,基本可以长时间的运行任务,相信再过半年本地模型也能够达到生产的效果。大家有什么想测的可以告诉我, 今天先到这里,谢谢大家。

哈喽,大家好。呃,今天呢来介绍一下我们星辰字眼的中转站啊,来看一下我们的这个独家专线,是非常的快的,并且呢我们插件支持自动化配置这三个功能,就说你需要什么模型可以用插件直接自动化配置好就不用手动在那调。 然后我可以看到我们这些模型都是可以直接用的,例如我需要用一个高索尼四点六的话,我就点它啊,然后点确认选择啊,然后就配置好了,就非常的简单操作。然后我们来测试看一下各式卡拉扣的插件啊,在那个别克啊,或者科粉啊,或者肌肉,还就是只要能支持安装插件的 id 里面都可以用啊,可以看一下我们这个项目的话是挺大的 啊,这个项目的话它挺大的,它的文件特别的多,可能有一百多个文件吧。 然后这个项目的话,呃,也是一个比较复杂的项目,我们就拿它来测试一下这个模型,就是我们这个中转站它的响应速度以及它能否解决我们的问题。 首先来测试一下它的响应速度怎么样啊?处理一个这么大的文件啊,看一下先啊,可以看到今晚是秒响应的,我刚问完他就立马回复我了, 这个速度啊,可以说基本上可以啊,碾压绝大部分的中转站啊,他们有些中转站可能思考一下,可能要几十秒,或者说上百秒,我们这基本上就是秒响应啊。然后呢他看一下现在他是正在堵这个项目啊,我们先等待一下 我们这个项目的话,因为特意拿了一个比较大的项目,有一百多个文件,是来看一下,演示一下,给大家展示他的个响应速度,以及他能否解决我们的问题 啊,可以看到啊,现在这里还在继续读取啊,因为整个文件项目的文件非常多,他在一定的读取也看到它上面列出了这里有一百零一个文件啊, 你要他现在在读取我们这个项目的内容 啊,然后他现在读取完了告诉我们啊,这个项目是一个什么东西,有什么功能啊?我们这里可以看到他这里的分析 基础,实线,项目定位,然后还有什么安全机制啊,功能啊,然后呢,我们这里值得来测试一下,问问,他是帮我们分析这个项目的缺点 啊,众所周知啊,就是让他说优点的话,他能说一大堆,但是让他说缺点才能真正检测他是否去读了这个项目啊。可以看到啊,这里的话他的响应速度还是秒响应的 啊,不像只是有些不太好的中转站,他可能是你问个问题,他可能等个上百秒才回你啊,那体验就是非常的差了啊, 我们这的话就可以看到整体的响应速度特别的快,然后现在呢,他就已经分析完了,他说这个项目的缺点啊,是风险,然后还有代码质量 以及性能啊,数据库处理之类的这些缺点,他都给我们一一列出出来了,然后告诉我们要如何规避这个风险 啊,可以看到这里全部的实线都已经出来了,然后他给我们做了个总结,以及各个问题,他都给我们一一列出出来了, 可以看到非常的详细哦,这里的话就不一一去看了,就给大家展示一下这些效果,让我们来再新开一个对话。 呃,我们在新对话来再测试一下,看他是不是每个对话都能这么流畅。我让他帮我撇写写一个东西吧,写一个看这首脚本,测试一下他的那个写代码的速度 啊。然后我们这里发了我们的问题,可以看到依旧是秒级响应,非常的流畅。 然后他现在就已经在查看这个项目的目录,查看完之后呢,现在就说开始帮我们写,然后我们这里就等待一下。 嗯,可以看到他这已经写好了,这就是他写完的一个文件啊。然后呢他还教我们怎么去用它,先安装一个库,然后呢再去运行这个游戏。