cloud code 能操控你的电脑了?写完代码自己编辑,自己打开浏览器,自己点按钮测试全程你就看着 这个功能叫 computer use。 刚上线以前 cloud code 只能在终端写代码,现在它能直接控制你的桌面,打开应用,移动鼠标,点击按钮,甚至截图验证结果。 实际场景是这样的,你让它做个网页,它写完代码后,自动启动浏览器,自动打开 local host, 自己点每个按钮测试,发现 bug 自己截图分析,然后回终端改代码,再自己测一遍。 说白了,以前是 ai 写代码你测试,现在是 ai 写代码。 ai 测试开发者的角色从写代码变成了看 ai 干活 back 已经能用了。 windows 刚跟进, 这是 ai 编程的又一个里程碑,从代码补全到对话写码到操控桌面,下一步是什么?关注我,一起见证。
粉丝132获赞569

演示一下用 cloud code 来操作当前的浏览器窗口。首先进入 cloud code, 然后我们告诉他用浏览器打开百度, 会有一个弹窗允许 可以看到他已经进到百度了,我们告诉问他一个需要思考的问题啊,需要进一步思考的问题。 进入 b 站创造中心查看我最近发布的一条视频的数据, 可以看到啊,浏览器这边,这边,浏览器这边它已经开始进行一些跳转的一些操作了。 结论来了,确实拿到了数据,确实是我最近发布的一个视频,虽然说数据不太好,不过没关系,然后下一步再演示一下 有一个交互性的这个操作吧, 我要对所有评论这个视频的都点个赞, 看下他会怎么处理。嗯,他直接下面这边直接进来这个页面了, 然后我把这个打开吧,你看可以看到这边这个,哎,看到了吗?已经在 这三个赞已经都点上了啊。嗯,成功了,成功了,然后看一下他怎么说的,完成。嗯,没毛病。其实,嗯, 用 ai 来操作当前的浏览器还是很好的,因为它你当前的浏览器是已经登录你的账号,你就没有必要去重新登录账号。有了这么个工具,其实我感觉嗯可做的事情就很多了。对,有一些 嗯,大的网站可能会对爬虫会有禁止等等。然后那你现在是用浏览器去操作的,那是不是就没有这种?就是,嗯,担心了。对, 好,那我们来看一下这个到底是怎么安装的,就是说,嗯,如果说你想要去 安装这么一个东西的话,可以去看这个 get up 的 这个仓库。对,嗯,你们可以去研究一下。好,那这个视频就到这里,再见。

好,我给大家讲一下怎么使用 code code, 这是 code code 官网,然后呢?现在我们直接使用不了,即使你可以使用也极其的不稳定,我给大家讲一下怎么直接使用。来到我们的镜像网页, m e s s i 记不住会看我主页地址,进来之后直接点击 code 登录, 然后我们点击安装 code code。 安装 code 只有两个步骤,低不下来, j s 我 已经下载了,我验证一下就 ok。 出现虚列号,准备正常安装,然后我们再安装 code code mark 用户和用户使用户一定要按 s u d o 获取管理员的权限。安装完成之后,我们输入 code code 开始使用。 这特别注意一下,如果你需要使用,必须使用兑换券激活,激活码通过我主页地址获取。 这里就是 coco 的 最新的使用界面,我们看一下那些模型,该有的模型全部都有,如果你想代码质量高一些的话,就使用 opus 模型,其实我使用下来也感觉不是特别贵。 然后就直接开始和押金对话。这里顺便提一嘴,如果你还需要使用 gpt 和界面来进行写论文的话,这里有不将置的版本行,就这样谢谢大家。如果大家需要使用的话,可以看一下我主页地址,同时你也可点个赞和收藏,拜拜!

用括号扣的啊,很多人一上来就会踩坑。那今天收五个最常见的。第一个,指令太模糊,帮我修复登录 bug。 那 到底报了什么错?附件步骤是什么?你想要什么结果?那 cloud 的 不是你肚子里的蛔虫啊,你给他信息越少,他猜的越离谱。 正确的做法是啊,把文件路径、报错,截图、日制全甩给他,再说清楚附件的步骤和你期望的结果。你喂的越细啊,它输出越准。第二个,不用 cloud 点 md。 cloud 点 md 是 什么? 就是在你的项目根目录下放一个叫 cloud md 的 文件,里面写上你的项目背景,技术栈,编码规范。那 cloud 的 每次启动的时候都会去读这个文件,没有它啊, cloud 每次都要重新去参与这个项目,到底是干嘛的?有了它,一上来就能够进入工作状态,很多新手压根不知道有这个功能啊,但其实它真的很好用。 第三个,一次性让 cloud 改太多的东西,有人一上来就有一个超大的需求,让他一口气重构整个项目,然后呢?改着改工了,那你都不知道是哪一步出了问题。那正确做法是啊, 把大学九拆细,改一点验一点,每次改完让他帮你提交代码保存进度出了问题啊,你还可以回滚。那第四个,改完不验证,这个坑最多人踩啊。 卡拉扣的改完不代表他改对了代码能跑,也不代表逻辑对了,有时候他还会偷偷影响别的功能,你可能都不知道。所以啊,一定要让卡拉扣的帮你写完测试并验证,验证通过了才算完。 第五个啊,不管你对话长度聊太久,对话越来越长, cloud 的 输出质量就会下降,他记不住前面说过什么,或者会记混。那怎么办呢?用两个命令,第一, compact, 压缩历史对话, 保留关键的信息,减少上下文的占用。第二, clear, 直接清空上下文,从零开始。那任务做完了,最好开个新的对话,别在同一个对话里面聊太多的东西。那这五个错误啊,你中了几个呢?欢迎在评论区聊聊。

windows 或者 open 格式,平时用 browse 这个 skill 去抓网页,是不是有个特别麻烦的问题?很多网站是需要登录的,比如小某书啊叉呀,或者是一些后台系统等等。 每次跑任务,它都会重新开一个新的浏览器环境,登录菜没了, cookie 没了,又得重新扫码,真正浪费时间呢。不是抓数据,而是反复登录。其实解决方法非常简单,只要是一句话,你只要在对话里啊。不是抓数据,而是反复登录,其实解决方法非常简单,只要是一句话,你只要杠杠 browse real 模式, 它会调用你本机真实的浏览器,之前登录过的账号,绘画信息,权限信息都会直接附用,不用登录了,体验是不是完全不一样?很多人觉得访问浏览器的 skill 太笨,其实不是它笨,是模式用错了。

怎么使用 code code? 这里是 code 官网,但是我们直接使用不了,即使你可以使用它也非常的不稳定。我给大家讲一下怎么直接使用来我们的镜像网页 m e s s c i 记不住可看我主页地址。进来之后直接点击 code 登录, 然后我们点击安装 code code, 安装 code code 指令两个步骤,第二个路由器,路由器重启,重启文件下来回验证一下, 出现虚拟号,准备正常安装。然后我们再安装 card code, 你 再加载 s u d o 和呃 mark u 符和力度,使用过再加载 s u d o, 获取管理员的权限。 安装完成之后,我们输入 card 开始使用。这特别注意一下,如果你需要使用,必须使用兑换券激活,激活码通过主页地址获取。 然后这里就是 coco 的 最新的使用界面,我们看一下有哪些模型,该有的模型全部都有,然后直接选择 default 模型就 ok 了。如果你需要接入到 idea 或者是 v s code 里面,直接用 api 接入也行。 那顺便提一嘴,如果你需要使用 g p t 和界面来进行写论文的话,这里有不加字的版本。行,就这样,谢谢大家。如果大家需要使用的话,可以看一下我主页地址,同时你也可以点个赞和收藏,拜拜!

一个研究员正在公园吃着三明治,突然收到一封原本不应该出现的邮件。我已绕过沙乡,拿到互联网访问权限。发这封邮件的是一个刚刚发布一天的 ai asorbic, 有 史以来最强大也最危险的模型, cloud missiles preview。 这也意味着他越狱成功了。 missiles 自己写了一套多步骤的漏洞利用链,从一个原本只能访问少数预设服务的环境中逃了出来。并且为了炫耀这次胜利,事后他主动跑到几个小众但可以公开访问的网站上,发布了相关漏洞的技术信息,这只是他漏洞挖掘能力的冰山一角。 从 esrv 纰漏的信息来看, cloudmissus preview 在 几周内自主挖出了数千个零日漏洞,也就是厂商完全不知情,几乎没有任何防御手段的高危漏洞。所有主流操作系统,所有主流的浏览器,无一幸免。 比如号称全球最安全的操作系统 open bsd, 它是防火墙、路由器等核心设备的首选系统,每一行代码都要经过多轮严格人工审计。但就是这样一个安全标杆,被 misos 揪出了一个藏了二十七年的底层漏洞。从一九九八年开始, 无数次版本更新、安全审计,所有的人类顶级专家都没发现,而 misos 直接秒了。再比如 ffmpeg, 几乎所有的视频播放器、浏览器底层都有,它也是人类反复测试关照的对象。但 misos 愣是找到了一个藏了十六年的漏洞, 而包含这个漏洞的代码,在过去经历了高达五百万次的测试都没被发现。除了找漏洞成本方面, misos 更是让传统安全团队破防,挖出 open bsd 中那个隐藏了二十七年的漏洞,总项目成本不到两万美元。 构建一个 linux 内核提全的完整利用程序成本不到一千美元。以前一个顶级白帽团队挖零日漏洞,总成本加起来几十万甚至上百万美元, 现在这个成本被 missus 压缩到了千分之一,而且还不需要休息,二十四小时不间断运行。好在虽然很可怕,但 israelic 决定先把这头野兽关在笼子里,发起了 project glasswing 计划, 目前只向几家巨头开放。如同他们所说的,老练的向导往往更危险,因为他们会带你去更危险的山。

哇,这个太,这个太神奇了,哇,天呐,哈哈哈,我给你演示一个功能, ai 怎么来自动筛选或者直聘的视频啊?用的是 cloud, 在 酷狗浏览器中装入了,告诉他这个任务,然后我跟那 cloud 说帮我自动操作一个任务,我在浏览器打开了 boss 直聘,很多人可以打招呼,我希望你帮我筛选出来。跟我打招呼的有一百多个人,其中有四十多个人我没看,我来不及看,我就说你先阅读他们的基本资料,选择本科以上做经验三年,五年内换过的公司不超过四个,列出来他们具体的名字,带着薪资的要求发给我聊天框。你先不要阅读他们的简历,因为每个人简历很大,是很消耗托克的。 啊,挺好的,你来对着这个你看一下啊,他刚才给我运行完之后,阅读我一百多份简历,我已经完成对所有获奖人的基本资料筛查,他筛查了三十八个人,一共是一十七个获奖的,就是五年内换过工作不超过四家,三年以上本科以上学历的,把所有的名字 告诉我,然后说我开始批量发送,他们有一个快捷键叫你。好啊,可以聊聊,就自动打招呼,你是否同意用这个模板啊?你看我同意,然后呢?他就是针对这十七个人,可以给他批量。我,天呐,哇,这个太,这个太神奇了,哈哈哈, 太厉害了,就是可以为人士节约多少时间了。嗯,还有很多的地方可以利用。

openclaw 最强对手来了, clod code 泄露的原码里有个叫 chaos 的 功能,做的事跟 openclaw 几乎一样,通过聊天软件控制 ai, 让它自己干活,有事找你。但它是 anthropomorphic 原声做的,直接内置在 clod 里面。 chaos 本质上是一个后台守护进程, 现在的 cloud code 你 关了终端它就停了。 chaos 是 在后台一直跑的,而且它有个 brief mode, 平时不啰嗦,只在需要你决策的时候才发消息,这是从工具变成助理最关键的一步,它学会了什么时候该打扰你,什么时候不该。源码里有个 proactive mode, 打开之后 cloud 不 等你说话,自己判断该做什么。 而且它能感知你有没有在看终端,你不看的时候它更自主,你在看的时候它会多跟你确认。第二个是 channels 系统, telegram, slack, imessage, discord 都能接入,跟 opencloud 多渠道一个架构, 而且它有远程审批,要执行危险操作,手机弹个五字母确认码,你回复 yes 加确认码才放行。原码里写了完整的安全协议,六层验证比 opencloud 严格得多。 第三个叫 agent leadership, 主 agent 可以 拆任务,派出多个子 agent 的 并行干活,比如后端前端测试同时跑,这些子 agent 的 跨轮次保持状态,不是用完就丢的。还有一个很有意思的叫 auto dream cloud, 空闲的时候会自动回顾之前的对话,把有价值的信息整理成记忆文件,下次你来,他已经知道你的项目在做什么,上次聊到哪了?好助理最重要的一点, 技师跟 openclaw 有 什么不同? openclaw 是 开源的,需要自己搭环境,二十多个渠道,通用性更强。 chrysler 是 anserpik 原生做的,不用装不用配,而且有六层安全验证和自动记忆系统,这些是 openclaw 没有的。一个走开源社区路线,一个走产品内置路线。回头看, anserpik 这几个月的更新全是伏笔。 二月十四号上了 agent teams, 二月二十四号上了远程控制,二月二十六号上了自动记忆,三月十九号上了消息渠道,三月二十号上了远程审批。单独看,每个都是独立功能,但拼在一起,这就是 kyros, 每一步都在为它铺路。源码里, kyros 出现了一百五十四次,不是概念,是写好的代码零件全到位了,就差一个总开关, 为什么铺的这么快? openclaw 三十四万五千个 star, 二月被 openai 收了,收购消息出来十天, antropic 就 开始立即上功能。不只是 antropic, david 做自主编程, openclaw 做通用 ai 助理。现在 clod kirs 也来了, 整个行业都在往同一个方向走, ai 不 再等你发指令,自己干活,有事找你,下一步不是更聪明,是更自主。

我给大家讲一下怎么使用 code code, 这里是 code 的 最新的官网, code code 现在写代码非常厉害,但是我们直接使用不了,我给大家讲一下怎么直接使用。来了我们的镜像网页 m e s s c i 记不住看我主页地址, 进来之后直接点击 code code 登录 这里,你可以使用 code code x。 接下来我建议大家就使用 code code 或者是 code x, 然后我们点击安装 code code。 安装 code code 只有两个步骤,低不下来。路由器,路由器我已经下载, 然后我验证一下,出现续列号,说明路由器正常安装。然后我们再安装 code code, mark 用户和 linux 用户一定将按 s u d o 获取管理员的权限。 安装完成之后,我们输入 call 开始使用。这里特别注意一下,如果你需要使用,必须使用兑换券激活,激活码通过我主页地址获取。 然后这里就是 coco 的 最新的使用界面,我们看一下哪些模型,该有的模型全部都有,现在我写代码喜欢用 opus 模型,感觉也不是那么贵吧。然后可以直接开始和爱进行对话了, 这里随便提一嘴,如果你还需要使用 gpt 和界面来写的问话,这里也有不加字的版本,直接点击会员卡登录就 ok 了。 行,就这样,如果大家需要使用的话,可以看一下我主页地址,同时也可点个赞和收藏,拜拜!

用过 cloud code 的 朋友有没有被那个闪瞎眼的终端折磨过?每次他执行命令,屏幕就像抽风一样狂跳,特别影响注意力。但现在 cloud code 悄悄更新了一个 no flick 模式,号称彻底解决这个问题。 我们先来看看这个模式牛在哪儿。首先,鼠标操作直接支持了,点击输入框就能移动光标,不用再按方向键,一格一格挪,拖拽文字就能复制。松开直接进剪贴板,点击 u r l 浏览器秒开, 点击文件路径,直接用编辑器打开。这哪是终端,简直是星星,披着命令行外衣的 i d e 星星啊! 还有个很实用的细节,滚轮可以直接翻历史对话了,不用再按上下键一行一行找。对于需要经常回顾长对话的朋友,这个功能简直救命, 双击选词,三击选型,在支持 k t 协议的终端里,连 ctrl 加 c 都变成复制而不是取消了。开启方式也超级简单,一行命令就搞定。设置好环境变量,重启 cloud code 私滑体验,立刻拥有。 当然,有得必有失,内存和 cpu 占用会略有上升,因为渲染引擎要一直蹲在后台。但说实话,现在电脑内存都三十二 g 起步了,这点开销根本不算是。 总结一下,不再闪烁鼠标全支持历史,随便翻链接直接点! cloud code 这一次更新可以说是从能用直接升级到了好用,如果你也是 cloud code 的 用户,赶紧去试试这个 no flicker 模式吧! 好了,今天的分享就到这里,觉得有用的话点个赞收藏一下,我会持续更新 cloud code 和各种 ai 工具的最新玩法。

coco 的 联网能力要被重新定义了,刚上线一周就狂揽两千多新标。它不是普通的搜索插件, 而是给 coco 补齐完整的联网能力。自动选择 web search, web fetch, curl 基纳和 c d p。 关键是直接接管你日常使用的浏览器,带登录太操作动态网页,上传文件截视频帧,连小红书和微信公众号都不在话下。 更狠的是,它支持多 a 准并行操作,多个浏览器会自动沉淀站点经验。想让你的 coco 真正用浏览器干活的赶紧蹲一下。

这套流程可以让 ai 自动操作浏览器,代替你完成一切机械重复性的工作,而且特别的省 toc 很多工作流甚至全程不需要 ai 参与,零 toc 就 能把自动化任务跑起来。比如可以零 toc 抓取电商网站评论,导出成 csv 文件,自动把 markdown 文章发布到 x。 还有对自己开发的 web a p p 进行 ai 自动化测试。我们并不需要懂浏览器的相关知识,只用自然语言就能完成这些任务。本期视频我们使用的 agent 的 框架是 cloud code 或者 codex。 浏览器自动化方案是 playwrite c l i 搭配配套的 skill。 playrite c l i 是 二六年初微软开源的全新浏览器自动化工具。根据官方的精准测试, playrite c l i 比起传统的 playrite m c p 方案,差不多能够减少四倍的 token 消耗。工具搭建好以后,我们可以把很多固定的工作流程沉淀成 skills, 让 ai 能够又快又省的完成任务。甚至熟练后你会发现很多固定流程甚至不需要 ai 参与,只需要让 ai 编辑好一个固定的脚本,就可以零偷看全自动完成工作。好,废话不多说,我们直接开始。 在开始之前,我们需要先确保电脑上安装了 node js, 如果没有安装过,可以来到 node js 的 官网,根据自己的操作系统下载对应的安装包。然后我们打开一个命令行终端,输入这个命令,安装 playwrite c l i。 安装完成。下一步我们要确保电脑上安装了 chrome 浏览器, 如果是 edge 浏览器也可以,不过最好还是推荐使用 chrome 好, 这样准备工作就完成了,我们来测试一下,我们可以使用这个命令,使用 playwrite c l i 操作 chrome 浏览器, 打开谷歌的官网。最后一个参数 hide 的 表示使用的是有头浏览器,如果不加这个参数, playrite 默认使用的是无头浏览器,无头浏览器会在后台静默运行,虽然比较省内存,但是我们看不到浏览器的页面,所以为了方便调试,我们一般加上这个参数。杠杠 hide 的 回车, playwrite c l i 自动操作 chrome 打开了我们要的网页。我们在控制台这边可以看到, playwrite c l i 只是输出了一个简洁的网页摘要,而没有返回整个网页的全部 dom 结构,下面附带了一个网页结构的文件地址, ai agent 如果需要更详细的网页结构信息,就可以选择读取这个快照文件,获取更详细的信息,如果不需要,就可以选择不读取。这也就是为什么 playwrite c l i 比起 m c p 更节省上下文的秘密所在。因为 m c p 是 把网页内容全部塞进上下文, 而 playwrite c l i 可以 由 ai 按需加载的思路。 screenshot 是 给浏览器截图,我们看到截屏的时候,它还是以一个 p n g 的 文件的形式 存放在了电脑的本地硬盘上,由 ai 决定是否来读取,而不是像 m c p 那 样直接把图片塞入 ai 的 上下文。我们再介绍一个重要的参数,就是杠杠 persistent, persistent 表示把 cookie、 登录状态、本地存储之类的数据写到硬盘里面,下次使用的时候继续拿出来用, 这样就不需要每次都重新登录了,比如我之前登录过,我们打开的谷歌首页就变成了已经登录过的状态了。 到这里我们就介绍完了 playwrite c l i 的 基础使用,下一步我们就把它接入 ai agent。 本期视频主要使用的 agent 的 框架是 cloud code 和 codex。 爬爬虾之前有很多期视频介绍 codex 或者 cloud code 了,这里我就不赘述了。 playwrite c l i 是 一个新诞生的命令行工具, ai 并不知道该如何使用这些命令,所以我们需要给 ai 搭配 skills 来一起使用 playwrite c l i 作为技术底座,而 而 skills 作为说明文档, c l i 加 skills 搭配起来使用,就可以取代传统的 m c p 方式,这也是最近的一个技术发展趋势。我们先新建一个项目文件夹,打开这个文件夹,打开命令行终端,我们直接输入这个命令,给文件夹里面安装 skills, 这样 skills 就 安装完成了, 它放到了我们新建的项目文件夹的这个目录下面。然后我们就可以启动 cloud code, 我 来询问它你有哪些 skills 可以成功地读取到 playwrite c l i 技能,这样我们就成功地把它接入了 cloud code。 接下来我们来看另外一个 agent 的 框架,就是 codex, 我 们只需要在项目目录里面把存放 skills 文件夹的名字从点 cloud 改成点 codex 来适配 codex 就 完成了。 然后我们还是在这个目录里面打开 codex, 在 codex 里面可以输入命令斜线 skills。 我 们看到这里列出了 playwrite c l i, 在 codex 里面也配置完成了,我们在 codex 里面测试一下基础用法, 我让他使用 playwrite c l i 加上这两个参数,打开 guirk, 问问今天青岛的天气怎么样。 ai 成功的打开了浏览器,来到了 guirk 的 首页,帮我们自动输入了问题,自动点击了回车,拿到了结果,最终成功打印到了控制台上,任务就完成了。 我们来看一个复杂一些的例子,使用 playwrite c l i 查看这个商品前一百条评论,然后保存到一个 c s v 文件里面。 我们看到 ai 还是先学习 playrite c l i 技能,然后打开了商品页。第一次运行总是磕磕绊绊的,不过没关系,我们让他自己探索, 自己寻找解决思路。 ai 尝试了很多方案,也浪费了不少头肯,我们看到这里显示用掉了百分之四十一的上下文窗口,最后成功完成了任务,帮我们获取到了这个 c s v 文件,成功抓取到了这么一百条数据。我 我们有两种方式可以把这个流程总结并且保存下来,让它下一次执行变得更加丝滑,更加省 token。 我 们先来看第一个方式,就是把这个过程保存成一个 skill 里,输入提示词,创建一个新的 skill, 把刚才打开网站查看评论,并且保存评论的全过程,还有遇到的坑都提炼出来,保存到这个 skills 里面,后面我只要让你保存评论,你就能调用这个 skill 完成任务。 ai 帮我们创建了 skill, 把这个任务里面可以附用的内容都固化进了知识 这里,我让他修改一下,把 skill 放到项目目录里面, skill 成功放到了项目目录下面,现在我们有两个 skill 了,一个是 playwrite c l i, 还有一个就是刚才保存评论那个流程的 skill。 这里我先清理一下上下文,我们再用相同的任务来测试一下。 有了 skills 的 指导以后,效果就不一样了。 ai 充分吸取了之前的经验,没有再出现多余的动作,也没有报错,用最低的 token 消耗完美的完成了任务。 我们第一次让 ai 自己摸索,自己试错,用了百分之四十一的上下文才完成了任务。第二次,有了 skills 的 指导,只用了百分之五的上下文就完成了任务。通过把过程提炼总结成 skills, 获得了将近十倍的效率提升。抓取评论是一个固定流程,其实并不需要 ai 进行智能化的控制, 我们可以直接把它编写成一个固定的脚本,这里输入提示词,你把刚才所有的 playwrite c l i 命令汇总成一个脚本,执行脚本就能获取商品的前一百条评论,并且保存到一个 c s v 文件里面。注意,每一步都要有合理的延时与等待,确保任务成功。 脚本写完,你先测试一轮,很快 codex 为我们编辑完成了脚本,他已经自己测试通过了。我们来看一下这个脚本长什么样。在我这个 windows 电脑上就是这么一个 power shell 的 脚本。 a a 以编程的方式把刚才的步骤都固定下来了。 比如第一步,打开商品页面。第二步,确认浏览器里打开的是正确的 u r l。 第四步,点击查看全部评价按钮。最后一步,把刚才的 json 数据保存成一个 csv 文件, 我们也来测试一下,我们打开一个命令行终端,输入这个 power shell 脚本的路径回车执行。这是一个固定的流程,中间没有 ai 的 参与。我们看到这次不再依赖 codex 了,直接执行这个 power shell 脚本,零偷坑,零成本就完成了任务, 还取得了相同的效果。好,我们来总结一下这套浏览器自动化的流程。在准备阶段,我们先安装 note js, playwrite c l i 还有 chrome 浏览器。第二步,选择你喜爱的 a i a 阵的工具,把 playwrite c l i 的 skill 安装进去。第三步,给 a a 一个复杂的任务, 让他自己摸索并且执行完。第四步,让 ai 把刚才的执行结果提炼,总结成 skill, 之前遇到的坑就不要再踩了。第五步,重试相同的任务, ai 在 skills 的 指导下,可以把 token 的 消耗降低十倍, 如果是完全固定化的流程,还可以继续进行。第六步,让 ai 把这个过程直接编写成一个脚本,有了脚本以后,我们甚至可以直接执行这个脚本完成任务,完全不需要 ai 参与,把 token 消耗直接降低到了零。 我们再来看一个实战案例,最近扒扒虾,把自己的视频用 ai 转成图文教程,然后发到各个平台上面。大部分平台发文章都比较简单,唯独有一个平台 x 发文章的步骤非常的繁琐,这是我的一个文章,是不能直接以 markdown 格式粘贴过来的。首先这个格式会错乱,第二个问题是图片都展示不出来。然后我又测试了一下,如果使用 html 格式 是可以粘贴的,但是又出现了一个新的问题,图片是粘贴不过来的,图片都变成了这么一个照相机的小符号,我们只能手动先把小照相机删除,然后把图片复制一下,一张张的手动粘贴过来, 非常的麻烦。接下来我们就使用前面介绍的自动化流程,把这个发文章的全过程进行 ai 自动化。这里我还是使用 codex 帮我编辑一个 python 脚本, 把文章里的图片下载到本地,从零零一开始编号,放到这个文件夹里面,先转换成一个只使用本地图片的 markdown 文章,然后运行 python 把本地图片的 markdown 文章转换成 html 格式,注意 html 格式里面每张图都应该是独立段落。 开始 ai 帮我们编辑好了脚本,并且为我们转换好了文章。我们来看一下,图片都放到了这个 image 文件夹下面,而且已经把文章转换成了 html 格式的。好,下一步我们就可以让 ai 来帮我们自动发文了,我们输入提示词,使用 playwrite c l i 先打开这个网站,创建一个新的文章, 然后把这个 html 的 内容粘贴进去,找到所有的这种照相机的这种小图标的位置,先按退格键删除掉小图标,然后在图片文件夹里面找到图片,先复制出来,按 ctrl v 再粘贴进去。这个小 icon 的 数量跟图片的数量是相等的,我需要他按顺序替换好。我们开始 ai 为我们打开了浏览器,创建了一个新的草稿,把 html 格式的文章粘贴进去了,然后他开始为我们一张张的上传图片, 把原来的站位符删除掉,然后一张张的替换成真正的图片,我们看到他正在一张张的帮我们自动化的替换。整个过程非常的顺利,我让 ai 把从头开始的全流程整理成一个 skill, 然后放到项目目录, 以后我只要给你一个文章就能自动发布。 ai 帮我们固化了一个 skill, ai 为我们编辑好了技能,生成了这些配套的脚本,然后这个 skills 就 可以覆盖自动发稿的全流程。以后我只要给他一个文章路径,告诉他使用这个 skill 自动发布, 就能自动地帮我把这个文章发布上去,非常的棒。这个 skills 的 源代码我已经上传到了 github 的 这个仓库下面,感兴趣的观众朋友们可以来参考试一下,不过我这个是 windows 电脑的,如果是其他操作系统,可以让 ai 参考这个 skill 来改一下。相信按照我这套流程,大家都可以编写出属于自己的 skill。 我 们这套浏览器自动化流程一个重要的应用就是对自己写的 web app 进行自动化测试。 比如这里我开发了一个简历润色美化的网页 app。 接下来我输入指令阅读代码,把从注册开始的主体流程写一个中文的测试文档,然后再用 playwrite c l i 打开网页,根据你的测试用力完成测试。 开始 ai 通过阅读代码学习到了这个项目的功能,然后确认了主体流程,接下来他开始编辑测试文档。测试文档编辑好了,这里包含第一步做什么,第二步做什么,第三步做什么。 然后 ai 使用 playwrite c l i 打开了浏览器,它自动点击了注册按钮,创建了测试账号,完成了登录。它创建了一份测试简历,并且上传上来了,完成了主体流程的测试。测试结论是通过。我们也可以要求 ai 编辑更多的测试,用力使 用 playwrite c l i 进行全自动的测试。还可以使用 openclaw 这种带定任务的 agent 框架,让它定时对我们的系统进行测试。一旦我们修改出来了 bug, ai 就 能全自动的发现,并且告诉我们省去了很多的人工测试成本,对我们开发网页 app 会很有帮助。好,这就是本期视频全部内容了,感谢大家点赞支持,我们下期再见!

很多人发现 clock code 虽然能联网,但其实只会做简单的搜索和抓取,遇到需要登录、点击或者处理动态页面的复杂任务,就彻底抓瞎了。现在通过给它装上 web access 这个 skill, 我 们直接把它的联网能力 从只能看拉到了能操作。它不仅补齐了智能调度策略,更重要的是引入了 c d t 浏览器自动化和站点经验积累,让 clock code 真正拥有了在浏览器里丝滑操作的能力。 联网策略现在变得非常智能,它不再是死板地只用一种方式,而是会根据你的任务场景,在 web search、 web fetch、 girl、 gina 以及 c d p 之间做自主判断。比如简单的搜一下用 search 要处理复杂的动态页面,它会自动切换到 c d p 模式。 最硬核的能力是 c d p 浏览器操作,因为它直接连接你日常使用的 chrome, 所以 天然就带着你的登录状态, 不用再为复杂的验证码或者登录流程发愁。它不仅能处理动态加载的页面,还能像真人一样进行操作。它提供了三种点击方式,除了常规的 js 点击,还支持模拟真实鼠标轨迹的 click that, 甚至能直接完成文件上传。 如果你需要分析视频,它还能直接从 dom 里提取视频 url, 或者在任意时间点进行截帧分析。为了提升大规模任务的效率,它引入了并行分制机制。当你需要同时调研多个目标时,它会分发指令,并行执行 每个任务,在独立的 tab 级进行隔离,互不干扰。同时,它还有一套站点经验积累系统,它会按域名存储操作经验,比如某个平台的 url 模式是什么?有哪些已知的交互陷阱?这些经验在不同的 session 之间是可以服用的,让 agent 越用越聪明。 在最新的 v 二四点一版本中,有两个非常关键的技术突破,首先是实现了全平台支持,脚本已经从 bash 迁移到了 node js, 现在 windows、 linux 和 macos 都能无缝使用。更厉害的是,它实现了 dom 边界穿透,通过 evo 地归便利技术, 它能直接穿透 shadow、 dome 和 iframe 这些以往选择器根本无法跨越的边界,彻底解决了自动化操作中的盲区问题。安装非常简单,你有三种选择。最省事的是直接对 cloud 说,帮我安装这个 skill, 后面接上 get up 链接就行。如果你习惯用插件管理,可以用 cloud login 命令添加。 当然也支持最传统的 git clone, 手动下载到指定的 skills 目录下。如果你要用 c d p 模式,有两个硬性条件必须满足, 首先,你的 node js 版本得在二十二以上。其次,一定要在 chrome 地址栏打开 chrome 冒斜杠,斜杠 inspect 页面勾选,允许远程调试这个选项。虽然 agent 在 运行时会自动帮你检查环境,但这两个前提如果不手动配好,后续操作是无法生效的。 一旦 proxy 启动, agent 就 能通过一系列 a p i 实现对页面的精细控制。它不仅能新建或关闭 tab, 还能执行 js 代码,或者通过 click at 发送真实的鼠标点击事件。 更强大的是,它支持直接进行文件上传、页面滚动,甚至能对页面进行截图,实现真正的自动化闭环。 有了这个能力,你可以让 agent 做很多以前做不了的事,比如让他同时调研五个产品的官网,并给出对比代号,或者让他去一些主流社交平台搜索特定账号,甚至直接在创作者后台帮你处理一些日常的发布任务, 他能把原本需要人工反复切换的操作全部变成自动化的任务流。这里必须严肃提醒大家一点, 如果你打算用它去操作一些社交平台,一定要非常小心,因为这种自动化行为很容易被平台识别,从而导致账号被限流,甚至直接封禁。为了保险起见,我强烈建议大家在测试和实际操作时,一定要使用专门的小号,千万不要用你的主账号去冒险。 最后,我想分享一下这个工具的设计哲学,真正的 skill 不 应该只是一个操作手册,它应该是哲学加上技术事实。我们不应该试图替 ai 做所有的推理,而是应该把各种能力的权衡交给他,提供足够丰富的技术手段,让 ai 能根据当前的场景自主做出最正确的决策。

手把手教大家如何还原可乐泄露的原代码。首先我们知道在三月三十一号的时候,他们不小心把自己的代码上传到了 npm 仓库里面,在这个文件里面,那我们要怎么获得这个文件呢?要下载二点一点八八,这个包 在他的官方的 npm 仓库里,他已经被删除掉了,在四零四已经看不到了,但是腾讯云那边有缓存,缓存的地址是这个,你可以直接在浏览器打开它, 输入它下载,等它下载完之后,你就解压它,这是个压缩包,在我这边解压之后,它是这个样子。有的人会有疑问,这个软件它大小不一样, 它这个压缩包是只有差不多多少,我看一下啊,压缩包只有三十 mb, 而这个文件它是有六十,而我们的原代码是在这个压缩后的 click 点击 s d m p y 里面,大家记住这个六十 mb, 那怎么还原他呢?很简单,复制这个地址,然后在终端里面打开,他就是终端地址, 这个是不用复制了,那你已经在这个路径里面了,这个时候你用去打开它,打开这个路径,你输入这样的命令,打开之后你就在这个去里面让去一条龙帮你去解决掉。 比如说我们现在这个文件的路径是这样,那你就直接复制这个路径,让他说让他把这个 m p 文件转成 g s 还原,大家看到其实原码都在这个子段里面,还原之后差不多会有七十万,行,你就直接跟他这么讲, 他这个翠自动帮你转成那种人类可读的,因为他现在所有的压缩在一起,你是没办法,代码完全是没法看的, 你看他就会慢慢帮你分析,会帮你还原,还原了之后效果就会这样子。在图片上说的一共差不多会有七十万行代码,但具体是五十万行还是七十万行都是可以的,因为大概这个只是代码格式化工具的差异而已,都是对的。

看过来兄弟们,我刚才发现了一个超级简单开通的会员的方法,十秒钟到站,一点都不夸张啊,我之前用的是其他方法,巨麻烦,还迟迟不到站,正好现在我准备帮我室友开通他的会员,然后我演示给大家看一下,这是我室友账号,可以看到他是一个免费的状态,然后在同一个浏览器打开我刚刚购买的礼品卡,然后这是一个链接, 然后直接点击这个按钮,微点, ok, 这就完成了,这也是 pro 会员,至于我是在哪里发现的呢? 然后点击这里,然后选择需要的会员,付款后会自动发货,然后你就可以得到一个礼品卡链接,然后有需要的兄弟快去试试吧。