我是一个正在自学 ai 的 大二学生,搭了一台本地 ai 实验室,里面很多配件都是我从小黄鱼上慢慢淘的,主板、 cpu、 内存、显卡、散热都是能省就省,能用就先用。 我没有名校背景,也没有很高的起点,所以现在想走一条更实战的路线,先把环境搭起来,再把项目真正跑起来。目前这台机器上有两张显卡,两张二零八零 t 二十二 g, 主要用来跑本地大模型 agent、 自动化 ai 浏览器蒸馏,还有量化回测系统。 我现在折腾的方向包括 opencloud、 cloud code 类 agent, 还有本地大模型部署。我不太想做那种只讲概念的内容,更想把自己真实搭建、真实报错、真实排查、真实刨通的过程记录下来。 如果你也在研究本地大模型 agent 蒸流、量化回测,或者有一些真实问题想用 ai 解决,欢迎一起交流研究。 我现在还是学生,主要是想多接触真实需求,多做真实案例,多积累项目经验。同时我也还有很多不懂的地方,如果有做过这些方向的前辈或者大佬,也欢迎多给我提建议,多指教。这期视频就到这里,感谢观看!
粉丝39获赞154

这节我们讲下 ai 时代的需求分析和目标定义,也就是所谓的规范驱动开发。讲完咱们直接实操一下,这是今天大概的内容。 首先我们要意识到一个问题,需求分析阶段和之前完全不一样,之前我们需要把用户需求收集过来,然后再整理翻译细划,现在只需要关注目标和边界约束就行。做一个东西出来也比较简单,但是引入了新的问题,虽然你可以简单的描述,然后交给模型自由发挥,睡一觉就干完了,但干出来东西实际上是不可控的, 也就是我们目前高不高兴面临的困境, i 键的猜不透,或者说猜错了你的意图。还有的话就是 i 的 编码速度实在太快了,如果不控制代码的一个商征,之前我们古法编程的时候,你想弄出一座石山,怎么也得半年,但是 i i 的 话一周就可以。规范驱动开发的核心洞察是把你的意图文档化,让规范成为这个执行的一个依据, 发现问题,解决问题。我们软件行业的方案实在太多了,什么 d d, d d d d d d d d, 今天咱们采用的是 s d d, 写好规范文档,再让 iint 开始开发 s、 d、 d 四个阶段,首先定义我们的目标和边界,然后制定我们的方案,然后把方案拆成小块的任务,最后让 i 干活,我们验收就行了。咱们今天实战的话,先把第一步干了,其他放在后面, 这是可选择工具,现在可选择工具太多了,大多数的话都是整体解决方案。然后咱们今天实战选择的是 superpowers, 如果你是个人开发项目,建议就是 superpowers 或者 gsd, 开放性的问题我就不给大家念了,直接开始今天的这个实战环节, 我们先创建一个文件夹, 我们这次选择的这个实弹工具是 open code 的, 至于为什么是 open code 的, 呃后面选型那节再讲,今天就不过多隐身了。今天我们主要是规范驱动开发的一个实弹,说白了就是生成一个呃规范文件,让 iint 根据规范来干活。我们采用 superpowers 的 涂抹风暴技能帮我们去生成一个规范文件, 这个模型的话要选这个智力高一点直接输入,我想创建。 其实前面已经说了, ai 时代的这个需求分析比较简单,就是把你的这个目标和边界想清楚,说明白。我这里已经已经想好了,就是要采集这个热门的网站,然后放到某个文件夹中,然后我必须支持这个 mini 行,因为我后面需要给 edit 去做一个使用, 这边的话,它会自动帮我们加载 superpowers 的 一个头脑风暴的技能就是这个,可以看一下我们的 skills 的 话,需要一个呃 mini 行,然后同时需要一个 gui, 我 们就不做 gui 应用了, 打就行了,因为呃设置桌面壁纸的话和这个烧录系统是相关的,并且我们有很多别的插件可以去控制,直接就是采集就可以, 可以看到它给我们推荐了一些方案,然后选型这一块的话,我们这个工具使用 brush 这一块的话是这样,这一块这个选型,呃如果说你是个前端开发,或者说呃你有一个外部页面的话,建议使用 node js, 然后如果说你的这个工具涉及到 ai 相关的库的话,建议使用 fast, 如果说你是个存银行工具的话,使用 rest 会比较好一点,当然你也可以按它推荐的来。 这边的话, rest 这个学习曲线已经不是我们自己去写的,无所谓。 下这个归零文件计划的话,我们先不做,放到下一节, 那就看一下它的这个规范文件项目名称、用途、技术段,然后我们的一个核心功能,下载管理、配置管理 很不错,这节就到这里,下节我们做计划和选型。

hello, 大家好,今天给大家讲解一下我是如何使用 codex 来驱动 objects 来完成一系列由 ai 驱动的 ce 仿真的。首先我们去 openai 的 官网去下载 codex 这个 agent 桌面单软件。 codex 是 由 openai 推出的一个以编程为主的桌面单应用程序,我们下载完成之后,安装了之后,你可以登录你的账号,这边 codex 它是免费账号,也是有一定的使用额度的, 但是这个额度不多,建议大家还是充一个 plus 会员。下载完成之后,你可以在这边新开一个对话,然后把我这个 呃 qs mcp 的 链接粘到这个对话里面,让它安装一下这个 mcp 插件。这边安装完成之后,我们可以在设置这边看到这边有个 mcp 服务器, 然后这边的话有一个 opcode server, 这个服务器安装完成之后,你的 codex 就 能够和 opcodex 完成一个联通了。至于这个仿真的界面,它是我们完成的另一个项目, 你可以在 task two cae 这个网站下面把链接复制一下,然后交给 codex 让它安装一下。 安装完成之后,我们就可以使用 codex 联合 opcode 来完成一系列仿真了,但在这个过程中,你肯定要把你的 opcode 啊,我们打开 opcode 之后,我们可以在这边的中端窗口下输入 mcp, 然后下划线,然后 looper, 然后过号点击回车,然后这边的话 appux 就 已经开启了一个 m c p。 我 们在 codex 里面,然后我这边新开一个窗口,我们这边的话问他你是否可以和 appux 联通, 他这边是思考了二十四秒之后返回的信息是可以当天可以和 appx 连通了,如果你测试到这一步的话,那说明你已经成功的打通了 codex 和和 opuse, 然后你就可以使用一系列的提示词来对它进行一个仿真。比方说我这边做的一个仿真,仿真专家做一个仿真学分析,要尽可能的贴近真实工况, 不要简化去做。如果是比方说这种动理学仿真的,你就让他要尽可能的贴近真实功放设定播放的帧率也要高,让仿真动画看起来更流畅。我需要在这个 codex 浏览器里面看到最后的仿真的结果。 在这边有一个界面,这边是模型树,我目前是只做了这个项目的,打开预览的一个模型树,后边的话,这个我可能会再完善一下,把这边的零件材料装配,然后分析部都能够去操作和二次编辑, 目前能够你编辑的在这个可编辑窗口,比方说可以编辑一下模型的一些尺寸,比方说我们把这个模型的尺寸圆孔半径改为二十四,在这边点击重新计算,然后这边的话它就在驱动 appui 完成一个重新的计算。 你也可以改,比方说板长板宽,然后其他的一些弹性模量或者是材料属性可以看到它这边就完成了一个模型的重新计算,然后重新进行了一个就是模态分析。我们先在这里讲一下这个 codex 驱动 ios 进行一个由 ai 驱动的 ce 仿真的流程是怎么样的。首先我们在这里的对话框里发一下你的想要仿真的一个提示词,你可以完全照抄这个,当然你想改一下也是可以的, 然后把提示发给这个 codex 之后, codex 就 会去写一系列的脚本,比方说这个模型建立的脚本也是由 codex 的 python 码完成的,当然一些比方说这个像简单的一些模型,它是可以去建立的,当像这个 洗刀模型它就建立的效果不是很好了。这个洗刀模型是由我在 soodeworks 里面去建立的一个模型,把它转化为 str 格式之后,告诉了 codex 在 哪里, 他就可以把他建立的模型和我提供给他的模型进行一个装配。呃,包括后面的像材料定义装配这个分析布载合了的定义,边界条件的定义,以到我们的网格化划分,都是由 codex 来完成的。 到后面的一些结果的后处理也是由 codex 来完成。 codex 完成之后,它会把一系列的脚本发给发送给我们的 opqs, 来完成最后的一些结果的分析,然后到仿真的一些模型的一些计算,它会发送给我们来完成一系列的仿真计算到结果的后处理, 然后完成之后它会创建一个网址,就是这样一个网址,然后我们点击一下就可以在浏览器里面去 看到 oq 所有的仿真结果。目前的一些仿真的话,其实它只能够进行一些简单的动力学或者是心理学仿真心理学效果目前是最好的,动力学的话,其实效果没有那么好, 大家可以当做一个参考。然后我这边再补充一点,就是如何把这个 mcp 给停掉,因为这个 mcp 运行的话,你的 oq 界面是不能进行任何一个点击操作的,就是它是一个主色运行的状态, 然后大家如果想停掉这个 mcp, 呃,然后在 app 里面查看结果的话,可以点击这边的 stop 按钮,然后就可以停掉这个 mcp 服务了,然后就去进行其他的一些操作。 你如果你有问题的话,可以在这个 github 上去提问,或者说你有好的想法可以在这边跟我说一下,我看一下能不能来实现一下。这就是本期的视频内容,大家如果有什么疑问可以向我提问,谢谢大家。

兄弟们,今天呢带给大家一款超级 ai 拷定组合,就是 open code 加 deep 跟微四。为什么去聊这个?因为现在呢,很多同学都在用 ai 编程,但是呢一个月你使用的频率并不高,那么此时呢,如果说你用 console 呀, keylog 叉这些工具,那么一个月就得二十枚刀, 那这种肯定不合适啊,比如说你可能一个月用那么一天,那你花一百六十多块钱,你肯定很感觉很不爽,所以呢,此时这个 open code 加这个,这个 v 四一定是你最优的选择。那接下来呢,我们就去看一下,哎,这个 open code 这个软件在这块呢,我已经通过桌面端下载下来了,下载完之后呢,你可以把它的左下角在这块,哎,就可以去配置我们那个模型的供应商。 那比如说,哎,你是一个 deepsea, 那 么你就可以把你对应的 deepsea 这个 k 直接配到这来就结束了,配置很简单,很简单,那么你配置完之后,那么紧接着你看在这块就会出来我们 deepsea v 四的一些模型,比如说 pro flash, 你 看 那这个它真正在去体验的过程,你会发现啊,它真的第一个就是省钱,第二个它跟我们那种前沿的 gpt 五那种模型其实差不了多少, ok, 哎,那我们在这块你看,哎,大家可以去看一下这个网站,大家可以登录上去,登录上去之后直接下载一下就 ok 了, ok, 你 看在这块的话,其实大家还去体体验过,比如说大家听过这个 cloud code, 哎,这个呢也是一个我们类似于这个 a p p 的 模型供应商,就是出自于我们国外的,其实它后面呢,其实它会有一些模型,但是模型的话它一般不让我们选择,它会有个闭源的,就它每个版本迭代啊什么的。 ok, 这个我们当前一个当下最火的一个 cloud cloud code, 那 这个也比较火。 ok, 所以 说针对于这个 cloud code 和 open code, 我 们也可以做几个比对。那你这个 open code 呢?它绝对是当前的一个主流,你看,比如说你看全模型兼容, 比如说我们的 cloud g p t, 你 可以用国产大模型,你可以任意大模型,甚至可以本地部署,你看是不是我们的 open code 的 它的兼容性贼强,但是 cloud code 呢?你看仅 cloud 系列官方深度优化, 所以说你看 open code, 它一定是支持我们的支持的模型最多的。你看还有就是我们,你看就是 cloud code 的 业界顶尖一下这个比较,这个比较下来之后呢,我最关键的一点哈,就是我们的 open open code 它比较省钱。 ok, 在达到一定功能的时候,我们其实最可怕的还是把我们的成本降低下来。那这句话你看成本计算,就是你在平时使用的时候,其实我们的 open code 的 一定是远低于你的 cloud 的, 甚至会高到零成本。 为什么这样讲呢?你看 cloud code 的 呢?你看它这种,比如说用我们的 sony, 它这种框架它,你看它的花钱还是比较多的。那如果说你用 open code, 那 你 open code 的 本身免费,你所有的钱都是花在模型上,那如果说你模型还是免费,比如说你用奥拉玛这种情况, 或者是你用这个模型机器便宜的,哎,是不是感觉它一定会很便宜很便宜,所以说基本上零块到几块,是不是通过这样就相当于让你可以花很少的钱去体验下 ai 考点, ai 考点直接给你提效,所以说大家一定要去看好这个组合,就是 open code 和 dspv 四,一定会给你带来意想不到的结果,建议大家都去试一试。 ok, 那 这个视频到这,我们下个视频继续开干。

美好啊,朋友们,这是一期 codex 奶妈级的零基础系统教程,这期视频我会从安装开始,手把手地把 codex 的 基础能力到高级功能的组合,以及最新的手机端操作,用十个实战场景来带大家彻底拉通 以后这一类的 ai 产品,出一个算一个,你都会触类旁通,游刃有余。我也把这期的文字课间整理成了文档,那这期的含金量可谓是 biu biu biu biu biu, 一个点赞收藏关注是最起码的。好了,不多说,学费都交了吧,我们上课, 那在开始之前,我先说一下 codex 和 cloud code 的 区别。从本质上来说,它俩都是由编程 agent 逐步转向了通用 agent, 分 别是 ansapi 和 open ai。 这两家出的 cloud code 呢,默认使用 cloud 模型,但是我们可以自行替换成任意其他的模型,那在易用程度上, codex 桌面端的产品设计是会更友好的, 更适合零基础的白领工作者,而 cloud code 有 更高的自由度。在功能上, cloud code 原本是最齐全的,什么 skill、 mcp、 斜杠命令、 hock、 远程操控,这都是人家先发明的。但是呢,最近的 c c 更新稍微不如 codex 那 么快了,会更加偏向专业开发者一点。 而 codex 发了非常强的浏览器操控和 computer use, 还内置了最近的 image 二深图模型, 而且昨天还刚刚发布了手机端和 hock, 可以 直接用你的手机 check gpt 来控制电脑上的 codex 干 活。那价格和额度方面呢? codex 的 会员额度非常大方,二十到的会员就很够用,而且还不封号。 而 cloudpod 呢,大多数人可能都没法用它的官方账号基本上都得自行调用 api 的 费用属于是花多少用多少,风险由人。那在使用场景上,我个人喜欢用 cloudpod 搭配 cloud 模型来写作,因为 ops 四点六的写作和规划能力真的很强, 那 codex 的 执行和解决问题的能力也很强。日常的办公场景,我会选择用 codex, 那 在编程的时候嘛,我就两个都用上,所以结论是,入门的朋友用 codex 就 很强了,有条件的朋友呢,两个都来是最完美的, 不过两者的逻辑其实都是一样的,我们学一个,另一个也就会用了。那 cloud code 我 也做了一期系统教程,想拥有左膀右臂的朋友可以去看看。 ok, 正式开始 使用 codex, 我 们唯一需要准备的就是一个叉 gpt 账号,免费的也行,只是会额度稍微少一点。那有了账号之后,我们就直接去它的官网双击安装, 然后安装好之后登录我们的叉 gpt 账号,然后这些设置我们可以先随便选一点啊,选个日常工作,反正后续呢,我们都是可以改的。那搞定了, 那进来之后呢,大家会看到这个对话窗口,好像跟 chat gpt 是 很类似的。那我们打开两边的侧边栏也蛮眼熟的,左边呢,可以管理对话和任务的列表, 那中间就是聊天,右边大概是结果之类的吧,大家应该都能猜个七七八八,所以我们先不深究它的页面,我们直接开用,这其实也是我探索所有的 ai 工具的独门秘方。 我打开一个陌生界面呢,我先不管别的,我先找到我能对话的框,我先聊,先找到我能看得懂的按钮,先按,按着按着你就会了。你看看,独门秘籍都教给大家了,以后你们就是为师的弟子了。 ok, 众弟子不必拘礼,我们还是以学业为重啊。那我们第一个要了解的 codex 能力呢,就是本地文件操作, 也是这一类桌面端的 agent 跟对话 ai 最显著的区别和能力。因为过去我们用叉 gpt, 如果说我们要让它看到我们本地的内容,我们只有两种方式,一个呢就是复制粘贴到这个对话里,另一种就是以它允许的格式和数量把文件给上传上去。 但是 codex 不 一样,它可以自主地读取和操作我们的本地文件,而且不限数量。比如说我作为一个剪辑,我的本地里面存了八十多条视频素材,这都是我剪辑要用的, 但是呢,这个命名全都是乱的,完全看不懂,所以我想以这些视频的内容来命名,到时候我们看见文件名的时候,我们就知道这个素材是什么。那这事 check gpt 肯定是做不了的,但是 codex 可以 我们来看这两个地方,它都显示了一个概念,叫做项目, 我们选择一下,哎,一选择项目,他就让我们选择本地的文件夹了,那我们只要选中这个文件夹,那这个文件就是我们的项目了,里面所有的文件 codex 都可以自由的读取和操作, 当然这需要我们给他权限。大家看这里的权限选择啊,目前呢,我们是一个默认的权限,我们再点开,他有三种权限模式, 那默认权限的意思呢?就是在我们当前的文件夹内,他可以自由的去读写这些文件,但是如果他想要联网呀,或者是帮我们下载一点东西啊, 或者是碰这个文件夹之外的其他文件,那他是不行的,如果他必须要做,就会要向我们提出提高权限的请求,我们点同意才能继续。 那自动审查呢?顾名思义就是有个 ai 自动帮我们审查,由 ai 来判断这个操作危不危险,如果危险呢,就来问我们不危险的,比如说他去下一个知名的这种官方软件什么的,他就直接开干了。 自动审查比默认模式要更宽松和智能,建议大家选这个就完了。那最后呢,是完全访问权限,这意味着 codex 可以 在你的电脑上几乎什么都能干,它可以修改删除任何文件,它可以在任何位置执行命令,例如说它可能会去把你的 cloud code 给删了。 开玩笑啊,它一般情况下是不会这样抽风的。 ai 呢?也没有嫉妒情绪吗? 大家尤其是新手朋友就选择自动审查模式,相信 ai 就 完了,毕竟咱又能审的比 ai 好 多少呢啊,对吧? ok, 那 我们选中了刚刚的这个视频的文件夹,继续来提出我们无理的要求,让他帮我们把这个文件夹里的所有视频素材都按他们的实际画面来重新命名。哎,他就开始做了, 而且大家看他非常的聪明,他先看了看我们到底有多少个视频,然后他选择用抽帧的方式抽取关键画面来判断内容是什么,而且他还知道他不要一张一张图去看,他给拼成了缩略图的形式,一组一组的去看。 ok, 很 快啊,这个文件夹里面的文件名就全改变了。过程中呢, codex 也是没有向我们提全的,因为他都是在这个文件夹内去操作的。那我们也可以检查一下他都对应好了没有。 ok, 钢琴家音乐演奏厅,没错, 雪山近身格斗,没错,旗袍女人夜巷卖热饮哇!而且他的这个命名还遵循着一个序号,任务、场景、行动的一个清晰的命名格式。 ai 做事的这个细心程度啊,人类你不服不行。那另外呢,我们其实也可以在同一个项目里面去开多个不同的对话,它们的上下文都是不一样的,但是同样都可以随时的访问我们这个文件这个项目。 比如说,我们在另外一条对话,我们又给他一个不同的任务,让他想办法把所有关于风景的视频都剪成一整条。 哎,没想到吧,他真的能剪,他自己想办法,用了一些工具问我们要了一些权限,用这个 ffmpeg 给它拼在了一起,效果的确是关于风景的都剪成了一条。 ok, 那 如果我们要创建一个新的任务,我们其实也可以手动的在这边创建,他也会自动的在我们本地创建一个文件夹。 然后呢,我们跟 codex 对 话的整个过程, agent 产生出来的任何文件啊, pdf 啊,什么 markdown, ppt, 它都会直接存在我们本地的电脑上。 ok, 到这里,大家应该 get 了 codex 呢,可以随时地访问我们的本地文件,去读取内容,写文件,删文件,移动文件,文件夹里的内容也就成了我们的 codex 随时可以获取的上下文,那这里的项目也就对应着我们在本地的一个文件夹, 哎,那刚刚这么个任务会花我们多少上下文呢?我们只要看这里就能看到了。 那这个小圈代表的是我们现在的这个对话和里面的操作,一共使用了 gpt 五点五的多少上下文窗口。 如果我们把鼠标悬上去呢,它还会有更详细的一个信息,当上下文快满的时候, codex 会自动地帮我们压缩上下文。不过其实当我们一个任务告一段落之后,不用等它快满了,让它自动压缩,我们也可以自己通过斜杠压缩这个命令 来手动的去压缩上下文,这样呢,可以让模型更聚焦在我们的新任务上,也省一点上下文的额度。那当然大家除了这个对话的上下文余量,其实我们还想知道我作为一个免费用户,或者是我作为一个 pro 用户, plus 会员,我还有多少总共的额度可以用,对吧? 这个呢,有两个方式查看,一个呢是左边的设置,这里我们点开剩余额度,就能看到你五小时内还剩下多少,那本周内又还剩下多少, 甚至呢,也有什么时候到期会刷新的一个提示,这个产品的设计还是比 cloud 的 友好很多的。那另一种方式呢,就是我们可以直接在对话框里输入斜杠,然后找到这个状态, 那打开这个状态之后,它的绘画这里就会持续的显示我们的上下文余量,这个五小时和一周的限额。但再次说实话,这个 codex 的 额度还是非常大方的,二十到的额度我认为是可以满足大多数白领工作的高频使用的。 ok, 那 顺便呢,我们也介绍一下这里的模型选择, 那点开之后,我们可以选择速度,快速呢,就相当于加急通道,会消耗我们更多的额度。那这里呢可以选择其他模型,但是大家都选五点五,因为它确实更好用。然后呢,这里可以选择智能程度,其实呢一般中度智能就够了, 所以我们选高。 ok, 那 这个小麦克风呢,肯定就是语音输入功能了,比手打字还是要快很多的,但是呢,它的转录速度远不如大家去下载一个语音输入法,还是非常推荐大家用语音输入的 好。那现在我们通过一个本地文件处理的案例,也了解了 codex 上常用的一些功能。那 codex 的 第二大能力就是命令行工具使用。 其实刚才我们说到权限的时候就有提到,在默认权限下,它可以读写文件,但是却不能执行一些命令,一些联网的操作。那这些命令是什么意思呢? 刚刚的案例其实也已经用到过了,比如说它把视频抽帧出来,还把几个视频拼接到一起,它用到的 ffmpeg 就是 命令行工具。 还有一些我们熟悉的命令,比如说我们在终端里面来克隆一个 gitup 仓库,或者是大家近期比较熟悉的,我们在命令行里面输入一些命令来下载龙虾和各种依赖。那 codex 的 第二大能力就是在我们授权的情况下,可以使用我们的终端来替我们做这些事。 那我们就来让 codex 帮我们来安装一些平时对于小白来说非常复杂的东西吧。第一类,常用依赖,比如说什么 node gs 啊, git 什么的, 也是大家以后使用各种 agent 或者是做其他项目必备的一些工具啊,那之前大家要装这依赖都得去看一个手把手教程,然后照着命令抄,挨个装。那现在我们就直接跟 codex 说帮我安装个 node js 给他发过去, 也是因为这些东西呢,其实都是比较常见的东西了,所以在我们的自动审核的权限模式下,你看他基本上都不问我们要提权,就熟门熟路的帮我们装好了。 那第二类,就是那些爆火的但是有上手门槛的一些新的 agent, 比如说龙虾,爱马仕,甚至还有这个 codex 的 竞品 cloud code, 我 们都可以让 codex 帮我们装完了呢,它还能教我们该怎么用。那我们装一个 hermes 吧, 我其实都不需要给它官网和仓库链接,我就说最近有一个叫 hermes 的 agent 很 火,你帮我安装一个吧。 哎,他就会自己去搜索,然后帮我们判断到底是哪一个。然后呢,他根据官方的文档帮我们陆续的装好了,还帮我们验证过已经装好了,你瞧瞧,那我们照着他说的来启动一下试试。 哎,真的帮我们装好了,那往后的配置我们就不在这里继续了,但是大家应该 get, 有 了 codex 以后,那些复杂的要收你五九九的部署,你都可以直接让 codex 帮你做了,怒省五九九。而且我们在使用的过程中遇到任何问题,还可以截图去问 codex, 什么瞎死了马挂了,升级出现了问题都可以让 codex 直接帮你修,是不是很方便? 那第三类有点没那么必要,但它其实也可以,就是像 cursor integrity 这种软件应用, 平时都是我们去手动在网页上下载的,它也可以帮你下载和卸载。那大家用 codex, 我 其实也建议大家去下载一个 agent 的 ide 啊,因为现在 codex 有 个缺点是它没有办法打开我们的文件内容,直接去手动编辑。 虽然这个侧边栏呢,是可以看到一些文件结构和内容的,但是我们都没法编辑,所以大家可以让 codex 下载一个自己喜欢的,比如说我们就这样下载。那下好之后呢,我们再执行一个 git i n i t 一个初步化, 那右上角就会出现这个东西,随时可以把我们的项目在编辑器中打开,我们来手动编辑。 那第四类就比较重要了,就是 agent 本身会常用到的那些 skills 啊, mcp 啊和 selli。 那 skill 和 mcp 本身 codex 也是支持的,我们后面会详细讲到, 我先挑两个大家安装一下,方便我们后面综合起来来做案例。那这些 skill 和 c i 呢?通常来讲不像那些 get 那 种大项目那么著名,所以我们最好是找到它的具体仓库,或者是明确的官网地址。比如说我们下载一个专门找 skill 的 这个 find skill 哦,方式就是直接把链接拷贝给 codex, 然后跟他说帮我装一下这个 skill。 那 在他装的期间,我们也说一下 codex 的 另一大好处,并行任务处理, 我们完全可以在他做这个事情的时候再开一个对话,让他去下载一个别的。那我们下载一个飞书 c l i 吧。飞书 c l i 其实非常的典型, 因为现在呢,有一些积极 ai 化的软件,把几乎所有他在软件里能做的操作都做成了命令,让 agent 能够方便的去操作,我们把这个链接发过去,让他开始下载, 那这边呢,其实会显示每一个正在处理当中任务的情况,这个在转呢,就说明它正在执行中,那这个蓝色的点呢,就说明已经完成了,有时候还可能会出现一个需要你申请权限的一个标识。 ok, 那 这里 fan skill 呢?它是已经装好了,我们再看飞书 c l i 这边,它会引导我们去做一些授权, 我们就跟着它的引导去完成就好了。 ok, 那 装好飞书 c l i, 那 codex 就 能帮我们去做飞书里的各种操作了,比如说写文档,发消息,见日历,做表格什么的了,我几乎每天都在用, 好大功告成。我们就这么一个小章节,我们就用自然语言的方式让 codex 帮我们装上了 hermes node, 飞书 c l i 一 大堆东西,这就是 codex 作为 agent 的 第二大常用能力,命令行使用。 那这个能力和这个章节的演示也是希望大家能够 get 到一点,就是我们现在在电脑上想去做的很多很多事情,都可以让 codex 这样的桌面 agent 去做了。那 codex 的 第三大能力是持久记忆。 看过我那篇 cloud code 的 朋友应该都知道, c c 呢,有一个手动的持久记忆, cloud 点 md, 还有一个自动的记忆系统, 都是把我们希望 agent 能够长期记住的,比如规则、篇号和我们的信息之类的东西,以本地文件的方式存在我们的电脑上,然后事实的时候把这些记忆以上下文的方式注入到 agent 里去。那 codex 也是类似的,它也有这两套持久的记忆系统 在 codex 里面呢,手动的持久记忆文件叫做 agents 点 m d, 而且它也有一个自动的记忆机制,来我们打开设置,找到个性化, 那在这里的这个自定义指令实际上就是一个全局生效的 agent state md, 它会在我们任意的项目跟 codex 对 话的时候,它都第一时间作为上下文发给大模型,那我们可以手动地自己在这里写,不过我更喜欢呢,直接在对话中去跟 codex 说, 比如说我说一个,我希望你以后对非书文档里的任何修改都使用一个专属的你的文字颜色和用删除线的方式来修改,不要直接的修改。然后这个帮我寄到局的 a 正 c m d 里。 ok, 那 它这里呢,告诉我们已经写好了,我们再打开个性化这一块,就的确是多出来了这么一套规则,那实际在使用当中,它就会去遵循我们这个规则了。 比如说我这里已经有一篇非输文档了,我在侧面呢也评论了几个我想修改的地方,我直接可以把这个链接发给 codex, 我 让他根据我侧面的评论帮我修改一下。 那因为我们刚才确实已经装好了这个非输的 c r i 也都给他配置好了权限,所以 codex 是 直接可以操作我们的文档的。 ok, 看看它完成之后的效果。 果然他用了紫色的字和删除线的方式来帮我们做的文档修改,那这个呢,是局的 agent md, 适合记一些适用于所有任务的一些大原则,比如说我们的工作习惯,我们要说中文,我们的工作偏好修改文档,要留下这种修改痕迹等等等等。 那另一种呢,就是项目级的 agent md, 这个长期记忆呢,只在这个项目当中生效,我们可以选择一个项目的对话,然后打开编辑器, 自己在这里手动的创建一个 agent 的 md 的 文件,然后我们去写一些针对我们这个项目的一些规则, 当然也可以让 codex 来帮我们写。我个人的建议呢,是在这个项目文件里面有了一些内容之后,让 codex 根据他对我们项目的了解来自己帮我们写。那自动记忆怎么回事呢? 其实我们刚才在这个个性化这个下面我们也看到了,我们需要手动打开这个自动记忆功能, 它的机制是我们打开这个功能之后, codex 会在我们结束对话或者是结束任务,这个对话闲置一段时间之后,它帮我们把那段对话总结成记忆,然后记在一个地方。但是它有几个原则,第一太短的对话它就不记了, 那第二这个对话的总结它一样会消耗我们的额度,所以当我们的额度太低的时候,它也就不记了。 并且这个自动记忆文件呢, open ai 官方是不建议我们去手动修改的,顶多我们可能删一删有些没必要的信息,那这个文件大概是长这样 的,是一个任务,一个任务在记录的,主要呢会写上这个记忆的来源是哪段对话呀?以及它的工作目录是什么,那以及以后触发了什么关键词的时候,它会去召回这段记忆, 再往下呢,是用户在这件事情上的偏好大概是什么样的?那第五段呢,是一些可附用的一些知识,一些踩坑的记录,那这些内容都是 codex 自己记录的,并且以后也是会它自动的招回去使用的,我们就先不修改它, 它这个格式确实也不太方便修改,更多的时候我们对于明确的规则和要求,我们还是通过组织 agent md 来实现。那大家学完这些视频之后呢,我也想给大家再做一期, 通过组织不同层级的这种 agency md 给自己做一个非常懂你的,可以做不同类型事情的超级助手的视频,感兴趣的朋友可以扣个一。 ok, 那 第四大能力就是 codex 可以 直接用到 image, 二来生成图片。不过呢,深图功能其实是一个小功能, 所以这一章节呢,我们不只会用它的图片生成,我们会带大家做一个完整的个人主页的开发项目,并且在了解一些 codex 在 小白开发中的一些用法和功能。那我们再来开一个项目,叫做个人主页, 然后我们点开这个加号,我们把计划模式打开,因为我们要做一个网站嘛,任务会复杂一点,所以打开这个计划模式呢,他会先帮我们列出一个详细的计划,我们确认之后他再开始行动。 计划模式呢,比较适合我们的任务有一定复杂性,或者我们自己还没想清楚,可以跟 ai 讨论出一个计划。那假设我们现在就是第二种情况,我们其实没想清楚,我们直接跟他说我想做一个个人主页, 那你看他看到我们的项目中是没有内容的,所以他以这种选择框的方式来询问我们的细节,这些选项呢,大家可以按照自己的要求去选择,那我就选这个个人品牌吧。 然后如果说这些选项中没有我们满意的呢?我们也可以选到最后一个来填写我们详细的要求,比如说我要他修饰感,也要高级感,然后我选针对合作伙伴,不要个人照 中英双语,巴拉巴拉巴拉。这里真的是问了我们相当多的问题啊,那最后呢,他给到我们出了一个详尽的计划,问我们是否实施此计划,那其实基本的计划我们看着没有什么问题,但我们也可以补充一些调整方案。 比如说我们刚才就要说到了要用它的 image 二的生成能力,我们这里没有体现,我们加一句网页上要多用一些图片,使用 image 二来生成一些高级感的图片,然后我们一起提交。 哎,那他又问我们要走哪种高级感呢?我们如果点开这个小叹号的话,还能看到他说的这个风格到底意味着什么意思,这个产品的小细节真的是我很喜欢,那我们就选他推荐的吧。然后他出了一版新的计划,我瞧着没什么问题, 去吧。 ok, 他 就开始初识化这个项目来逐步帮我们生成了。那这个过程呢,肯定会需要一定的时间,在这个期间我再给大家补充一点点知识点。呦,他的第一张图出来了,不错,挺有艺术感的,果然是最强的 emoji 二,那我要补充的这个知识点呢,叫做引导。 如果说大家在 codex 执行一个很长的任务的过程当中,你觉得他有点跑偏了,我们是可以随时给他补充纠偏的,比如说我们补充一下图片的人味要更强一点,而且不要这么冷的色调。我是一个 ai 博主,然后我们发送出去, 哎,大家会看到他没有立刻打断我们的任务,没有发出去,实际上他在这里排队呢。那我们看到右边的这个引导按钮,他写着我们不打断模型运行,会在下次调用工具后发送过去。这个是非常好的一个功能啊,我们点一下, 哎,他就可以发出去了。这个功能呢,可以让 codex 不 用在错误的道路上一路狂飙,把我们额度都花光,也不会让它重新再跑一轮任务。那另外一个小功能点,我们找到一个已经结束的任务, 我们看一下这个 ai 的 回复,每个 ai 回复的下面都有一个这个按钮,叫做分叉 fork, 这个的意思是我们可以随时从这里开始去开一个新对话,非常适合那种前面聊的还好好的,上下文也非常有价值,但是我们再往下聊,就聊的有点叉劈了的时候。哦,还有个小功能,宠物, 我们点开设置外观,然后这下面就有一小对小宠物可以选,甚至呢,我们还可以点击创建,让 codex 根据对我们的了解来生成一个定制化宠物。那我们先点击唤醒宠物, 哎,就会在桌面上有常驻这么一个小桌宠,脑袋上会冒出来 codex 正在做什么的一个提示,别的呢?好像也没什么用。 ok, 终于在他跑了七七四十九分钟之后,网页完成了, 我们来看看效果,因为 codex 呢,有一个内置的预览浏览器,我们可以直接打开右边的侧边栏啊,我们还给它放大一点。 嗯,这个网页的效果确实是不错啊,不过呢,现在的 a 证呢,其实都有这么一手了,那它这个预览浏览器呢,还有一个好处,我们点击右上方这里的一个批注按钮, 我们就可以在这个页面上选中这里的具体元素去写修改意见,包括重新生成图片,比如说我们要这个 logo 放大一点, 然后 p 住这里这张图加上一个人物,好把这个删掉, 那然后对话框里呢,就会加上我们这几条批注,然后我们点击发送,它就会针对我们的意见进行修改了,是不是挺方便的?那我们现在项目有了雏形之后,我们再 call back 一下刚才说的 agent md, 其实现在呢,就是一个让 codex 帮我们生成项目级 agent md 的 好时候了,因为我们也有了一定的内容,我们就让它自己生成一下,我们打开编辑器看看, 不错,项目的背景,各种信息,各种规则,各种文件路径都已经写好了。那以后呢,无论我们在新开对话,还是我们的聊天记录都已经被清空了, codex 都可以通过这个项目级的 a 证书 md, 立马的了解我们的项目基本情况。 ok, 那 我们先保持这样,先不做精修了,我们直接准备部署上线,当然大家自己做的时候完全可以去打磨的更好,那网页上的这些信息也换成更真实的信息就好。 那我们现在要部署呢,就得要说到 codex 的 第五大能力插件。在现在的 codex 当中,插件大多数是让我们的 agent 跟外部平台、外部工具、外部服务连接的一个作用,它实际上就是我们所说的 skill, mcp, c l i 这一类东西的一个完整集合包,比如说操作邮箱、操作日历、操作 excel 啥的。那我们来点开左边的这个插件栏,我们看这里呢,已经默认帮我们打开了好几个内置插件了,比如说浏览器操作,还有 mac 专有的屏幕操作,还有 excel 表格, ppt 等等。 那他的插件页面没有中文翻译,所以我给大家把这些插件的具体中文意思,分别能干什么也都列出来了,大家课后可以按需装上,点这个加号就好了。那我们先翻到这个 coding 板块,因为我们想要部署上线嘛,通过插件会非常方便。 其实呢,这个 vassel 和 netify 都可以,我们点一个加号给它装上,那如果大家给它没有选上的,也记得要选上。然后我们再回到对话当中,告诉他们,我们想用这个 netify 把这个网站给我们部署上去, 我们大家也不用管他咋部署的,反正他需要干什么呢,他都会告诉我们的。 ok, 他 发现我们没有登录授权,然后主动弹出了这个登录的链接,那这里呢,建议大家用 tapp 账号登录是最方便的, 那登录完之后,他自己就知道我们已经登录好了,然后继续的帮我们部署,这就搞定了。这个链接呢,就是我们最后的网站了, 只要把这个发出去,别人就能访问你的个人主页了。 ai 是 不是个好东西,你说就这么两下子就干了,原来普通人花钱都不一定能干成 o k。 先压抑住我的这个老灯感叹。我们回到刚才我们已经装好的插件, 那其实这里呢,还有两个非常重要的内置插件,就是 browser use 和 computer use, 还有这个 chrome 浏览器, 那这些有什么用呢? browser use 顾名思义呢,就是 codex 可以 直接帮你操控浏览器,比如说它自己点击翻页截图,填写表单等等。通常呢适用于自动化测试前端, 当然也有比较无聊的用途,比如我们可以让 codex 打开这个 m b t i 做个测试试试, 嘿嘿,这样大家能够比较直观的看到它的一个效果吧。那这个鼠标呢,是它自己在移动,然后它是自己看了上面的答案在自己填写,然后填完这一页,它也会自动的翻页, 那随着它的一通操作,结果出来了,原来 gpt 五是 i n t j 啊,我说怎么跟我这么聊得来呢? ok, 那 这个 chrome 的 插件呢,也是控制浏览器,但是它控制的是我们自己已登录的自己的浏览器,它不会再新开浏览器, 那我们如果把它给勾选上之后,它会引导我们去 chrome 里面装一个插件,那装好之后呢,它就可以操作我们自己的浏览器了, 而且它有个好处,它是可以直接在后台执行多个页面的浏览器操作的,就是并不会占用我们的整个浏览器,我们不用真等着看它这些操作,我们该用浏览器干,别的我们可以接着干。 ok, 那 computer use 就 更厉害了, 它不只能够操控浏览器,连你电脑上的这些 app 它都可以操作,只不过呢,暂时只有 mac 有 这个功能。比如说我们新开一个对话,我们在加号,这里来看最下面的这个插件选项,我们手动地把电脑插件选上, 我们再来几个没什么用的奇迹引巧吧,帮我放一首九九年最火的歌,然后用我的微信给 qq 发条微信,说,请收下我一个点赞、收藏、关注,懂了吧? ok, 他 陷入了思考,然后他看到我们的应用都正在运行中,并且向我们使用了这个音乐软件。我们点同意看,这个就是 codex 自己干的啊。他帮我们搜索歌曲, ok, 音乐响起了, 但是他还有活,他还在问我们要微信的权限,我们也给他允许一下。 ok, 看他这个小鼠标,他正在犹豫着准备搜索点击,好朋友们失败了, 因为我上次都成功了,但是我估计现在微信已经开始严防这种 a 证的操作了,直接给我退出去了。 但是呢,他的确成功操作了这个音乐软件。其实我还让他操作了剪映,并且给我们的最新的项目加上了音乐。 那总之呢,意思大家都懂了吧,就是它可以操作浏览器,并且可以操作我们的电脑。当然,实际上我觉得它的操作效率目前来说还是稍微有点低的,我不太喜欢用这两个强大的功能。不过后面我要说的这个 skill 就是 我每天都会用的东西了。 那 skills 我 的确也已经跟大家说过很多次了,好学的朋友一定要去补补课。那 skill 本质上呢,是我们人为沉淀的一些可附用的方法、流程和工具的组合, 相当于给 agent 做某些具体任务的一些行动指南。那因为之前我们已经让这个 codex 帮我们装过一个叫做 find skill 的 一个原 skill 了, 所以后续如果大家想要去装,或者是找一些社区上的 skill, 都可以直接用 codex 拿语言直接让它下载。比如说我们下载一个必备的 ansapic, 那 个前端设计的 skill, 还有一个去 ai 位的,那我们这两个都发给他,等会儿都会刚好有用 欸,很快他就帮我们装好了。那以后大家想要下载 skill 呢?如果说遇到这个 find skill, 他 找不到的东西,也可以直接把链接发给 codex, 让他帮你下载就好了。不过我在 c c 那 期也说过,最好用的 skill 还是自己创建的,符合自己工作的专属 skill。 那 创建 skill 呢,也有两种方式,第一呢,就是直接告诉 codex 你 想要创建一个什么样的 skill, 通过跟他讨论打磨得出来一个 skill。 那另一种呢,就是我们接下来要演示的,先跑通流程,然后让它形成 skill, 这也是一种更推荐的做法。那比如说我们想做一个自动化写这类文章,并且帮它配图的 skill, 这种大家应该都看过吧, 那我们就得先通过一步步的引导 codex, 让它真正实现一个我们满意的文章。来我们新开一个对话。那正好呢,我们刚才不是装过这个 github 插件吗?我们可以直接先问它最新的 github 流行项目,热门项目都有哪些? ok, 它的确帮我们找到了一些,那我们再让它清晰地解释一下这些项目都分别是干嘛的。嗯, 那我们再让他挑其中新星数量最多的,来帮我们写一篇本周 get up 热门项目推荐这样的一篇文章。 好,那他写好了这一篇之后,我觉得稍微有点太人机了,我希望可以更口语化一点,并且我只想要五个精选的,那我们就告诉他,然后还要覆盖到这几个层面,那我们这里就可以用到刚刚我们下载的那个去 ai word 的 那个 skill 了,我们斜杠给它调出来。 好,那看到他的结果稍微优化了一点,但是我们还希望加一个我们固定的开头,我们的结尾,并且还要让他用上 image 二来帮我们生成一些配图。最后呢,我还希望他不要是这个格式,他要是一篇非输文档的格式,然后图文并茂的。 ok, 结果来了,他确实是有了,但是呢,我觉得这个配图不够丰富,于是我又经过几轮调整才觉得差不多满意。并且我还给他最后加了一步,要让他把这个飞书文档发送到指定的群里,让大家都来看看。 那最终呢,他的效果是这样的,果然发出去了。其实啊,如果想更加一步到位的朋友,也可以结合刚才我们说的这个浏览器操控,让他直接打开那个发布页面,直接就帮你发布出去。 那总之,我们对他这一套结果满意了之后,我们就可以直接让他把这一整套的标准和动作做成一个 skill 搞定了。那我们再输入斜杠,再往下找,我们就发现就有了这个 skill, 我 们可以直接这样手动地调用这个 skill, 也可以直接说生成一篇热门项目推荐图文这一类的触发词,也会让 codex 自动调用。 不过因为现在 github 上面实时的热门项目肯定是没有更新的,所以我们再调用一次呢,它大概率会写出差不多的文章,所以我们就不试了。但是大家都理解了吧, skills 呢,可以把我们经过验证调好一次的一整套流程和方法给它固定下来。 下次做这件事情呢, codex 就 可以按照这个方式稳定的输出。 ok, 那 下一个能力则是 mcp。 其实 mcp 现在已经用的不太多了,所以我只简单的示范一下那 codex 的 mcp 藏在设置里面的 mcp 服务器。 只不过小白看这个肯定是有点不太知道怎么填的,所以跟我们之前说的一样,我们最好的方式还是把你想装的那个 skill 的 链接拷贝给 codex, 让他自己装就完了。比如说我们来装一个 notebook lm 的 一个 mcp 发给他, 他就会引导我们来做授权登录,登录完就搞定了。那我们再试一个我存了非常多访谈视频的一个笔记本,我们来问一下他。 欸,那这样呢, codex 也就可以直接获取我们 notebook lm 上面的这些外挂知识点了。 ok, 最后一个 codex 能力是自动化定时任务。 其实定时任务本身并不稀奇啊,比如什么每天早上提醒我吃药,提醒我喝水这一类的事情,普通的软件也能做,但是我们把它放到最后一个说呢,就是因为它可以结合我们之前学到的各种能力,把一整套组合起来的任务,让 agent 定点执行 自动化,加上智能化和定制化方显美妙。比如说刚才我们做的这个热门项目图文的这个 skill, 我 们就可以把它设成每三天或者是每周,让它定时定点的产出一篇 dapp 热门项目推荐发出来。 那我们要创建自动化任务呢,其实也分两种方式,第一种就是选到这边的自动化面板,那它这里呢,有一些官方的参考视例了,不过大多数是跟开发相关,那我们选择新建一个自动化, 其实你看要填写的东西也非常简单,其实就是用提示词写好这些自动化是要做什么,然后我们可以在这里选好什么时候出发,我们也是可以自定义一个出发时间的, 然后这边就可以选择执行的模型和思考强度,最后点击创建即可。不过呢,我也还是倾向于让大家用第二种更简单的方式,就是直接在对话里跟 codex 说,那我们直接跟他说 帮我创建一个自动化任务,每周一早上九点自动化执行热门项目推荐的这个 skill, 产出一篇图文发到群里, ok, 那 我们在看自动化这里,它就已经帮我们设好了这个任务,我们随时也可以去改变它的时间。 再比如当你的这个邮箱插件 github 飞书都已经连上了 codex, 那 么你也可以让他每天下午六点帮我汇总日历上完成的会议, github 上面的提交记录和我的邮箱回复记录,生成一份全面的工作日报。 最后手机操控 codex 设置方法非常简单,手机上的 check gpt 和电脑上的 codex 都把它更新到最新版。之后打开手机上的 check gpt, 然后点击侧边栏的那个 codex, 它就会提示你允许这台手机控制你的电脑,直接就搞定了。如果你有多台电脑的话,也可以给它分别连上。这就等于你不管在大街上、地铁上还是朋友聚会,都可以随时随地地用手机下发一个任务,让 codex 在 你的电脑上干完一个活, 它就更像一个可以跟你远程协助的同事了。这个功能呢,目前免费版也可以用,但是主要能连的是 mac 系统的 codex。 好, 那到这里 codex 的 所有核心能力我们就全部过完了。来我们回顾一下。 codex 呢,可以操作我们的本地文件,可以使用我们电脑上的终端命令行工具。它还有两种构建持久记忆的方式,它还可以生成图片,而且它可以通过计划模式来做一个完整的项目开发。 那它有丰富的插件,可以操控浏览器和电脑,还可以把知识和流程沉淀成可附用的 skill 技能, 它可以使用 m c p 连接,外部它还可以设置自动化的定时任务。不过其实比起这些功能本身,我也希望大家记住两件事,第一就是我们真的有很多事情是已经可以交给 agent 做了。 那第二呢,就是我们已经从问 ai 的 阶段走向了管理 ai 的 阶段,因为过去我们使用 chat gpt 就是 有问题了,我们问一下,然后得到答案我们就走了。 那现在使用 codex 这类的 agent 呢?每个人都得像领导一样,帮他准备他所需要的上下文和工作环境,给他指明一些任务目标,然后来检查他的计划,监督他的过程,验收他的结果。 那同时领导还要负责把好的方法和流程沉淀成可付用的技能,把反复要做的事情设成自动化执行的规矩。好了,恭喜大家今天都升职了,记得点赞收藏关注我们下次见了。

你的 ai 还在靠截图点鼠标这个项目? c l i f anything 让任何软件变成 agent 填充工具,让任意软件接入 open call、 nano bot、 cursor、 cloud code 等 agent 框架。一定要看到。最后,我拿自己的全站项目实测, 一条命令添加插件市场,再一条安装完成,指向你的项目一键生成完整 c l i 所有后端 api, 前端逻辑自动变成命令行工具,包括启动服务器,管理生命周期, 一条命令取回 json 数据, ai 直接理解让任何软件变成 agent 的 原声工具。下面看一下实操展示。 这是本地的一个开源项目,包含对项目的增删改查功能。我们首先在 cloud code 中安装好 c l i anything 插件,然后跟 cloud code 说,帮我把这个项目使用 c l i anything 做成 c l i 命令,等待 cloud 运行 成功后,可以看到结果。他把我们项目的操作全都做成了 c l i 命令,还贴心地写好了 skill。 我 们直接安转这个 skill 就 可以让 ai 操作软件了,是不是特别棒?

各位小伙伴们大家好,那么今天我们在讲新的这一期视频之前,先对上一期视频中我们的 over setting, 结合我们的 clouding 的 一些配置国产模型中所遇到的一些问题做一个简单的答疑。 那么大多数同学遇到最常见的问题是在配置完国产模型之后无法使用, 那么最大一个原因基本上就是因为你的 code 是 用 n p m 安装的,那么它这个路径在这个插件这里它是检测不出来的,所以暂时不推荐大家用这个 n p m 去安装, 建议大家去用这个另外的一种方式去进行安装。然后另外就是注意在我们这个设置里面,一定要把这个加载用户的 cloud 设置这地方开关给它打开,那么打开之后它才能够检测出来你本地安装的这个 cloud 的 一个模型啊。然后另外就是在配置完国产模型之后, 在这个地方你一定要去可以去尝试开一个新的窗口去测试你这个 dipic 维斯模型,如果还是不行的话,你把整个 oppo c 领先关闭,然后再进行重启,然后再去进行一个尝试啊。那么这是针对上一期视频中呃同学们遇到最多的一个问题, 那么今天我们要讲的是另外一种方式去打造我们的 ai 知识工作台,不过这种方式是免费的哈,是零成本的。那么大家可以看到 在我们上期这个 clouding 里面,它其实已经更新的有一个插件,这地方有 cloud, 还有 codex, 还有我们的 open code, 那 么今天我们要讲的就是 open code 这个 免费的这个工具啊,免费的这个编程工具,比如说他也有定的这个桌面的工具,你可以去 感兴趣的话可以去尝试使用一下,还是非常好用的。他在这个里面去可以去配置我们的国产模型,包括我们今天要用的就是他这个工具所提供的 这四个免费的模型。那么这四个免费的模型在我们这个 open city 的 日常使用中是完全足够我们去使用的,如果不够使用的话,你也可以在它这个里面去进行去配置我们的国产模型。 好,那么废话不多说,那么进行我们今天的实操。那么首先你要想使用这个 open code, 我 们在这之前,你首先第一步一共是三步。 首先第一步我们要去安装这个 node js, 那 么这个 node js 的 话,之前前一期视频中 也已经讲过怎么去安装,不懂的话可以去看我上前几期的一个视频啊。然后第二步就是我们执行一行命令去安装我们的 open code c l i 这个终端工具啊,所以说这么那么这地方 这个命令就是一行命令,然后进行安装。安装完之后,那么上一期在介绍这个 cloding over setting 这个 cloding 的 插件的时候,我们是用这个 brad 去进行一个安装的,但是有很多同学遇到一个问题是我们在这个地方去添加它这个测试版本的这个 open code 的 时候,它容易会显示出一个速度的限制, 那么如果这种方式不行的话,那么我推荐大家用这种开发者模式去进行一个安装,那么这个开发者模式其实跟我们刻定之前的一个安装模式方式是一样的哈,找,首先你要找到你的这个奥克斯定他的一个根目录,然后 在这个里面找到这个插件,插件这个地方你新建一个啊,新建一个这个 open cd open code, open code 的 这个文件,然后把它 该 app 上这个原链接所有的这个项目给它克隆到这个本地里面,然后在这个地方我们执行 cmd 啊, 然后我们再去在这个文档里面,我们去执行 这一个啊,首先是按 install 去安装我们的依赖,然后再构建我们的插件,然后这两个命令 在这个地方执行完之后,他就会成功的构建这个插件,并且会自动帮你安装到这个这个 office 店里面。然后你要做的就是在这个地方找到这个第三方的这个插件啊,然后把它给打开 啊,在这个地方我们把它打开,打开之后,然后你打开之后它这个地方可能会显示不出来。为什么?它在检测你这个本地安装的这个 open code 的 一个 c l c l, 如果你成功安装的话,你在这个地方输入这个 open code, 它是能够去 跳转的话,在这个地方它的使用方式其实跟我们的 code 它是一样的。在这个地方你输入斜杠,你可以去切换这个模型,它在这个里面的模型它是有免费版的, 比如说这上面这几个啊, deepsea vs flash, 还有 mini max、 二点五,还有这两个它们自研的这个模型都是可以去免费使用的,并且它的使用速度还是很可以的啊。那么这是关于这个 open code 的 这个使用方式,那么你这个 open code 的 这个终端安装完之后, 你这个地方插件它就会进行一个自动检测,然后在这个地方我们就可以对它进行操作,跟我们这个 clouding 里面的使用方式是是一样的啊,你在这地方比如说想添加这个 文件,那么这个地方你可以去选择哈,选择你本机智库里面的文件,然后在这个地方你可以去切换模型,然后用它的免费模型,比如说 defc, 维斯,还有这几个模型都是可以免费使用的,在我们这个日常的这个使用方式使用过程中,它是完全足够使用的 啊,那么你也可以去尝试一下这个整个的 open code 的 一个桌面的工具还是非常好用的啊, 感兴趣的话可以去试一下。好,那么这个就是我今天简短的分享这个如何用这个 open cd 结合我们的 open code 去免费的去搭建我们的 ai 知识工作台啊?这个只需要如果你之前安装过这个 node js 或者是呃 这个 node js 的 话,你就可以去,很快的去,最多五分钟可能就会把这个就能把这个 open code 的 话,你就去 呃配置国产模型对不对?这个位置如果你想尝试一下免费版的话,你也可以去尝试一下这个 open call 的。 好,那么今天的视频就先分享到这里,因为最近也比较忙,所以这个更新频率有点低,那么这地方我也攒了很多期的这个想分享给大家的一些, 嗯,很详细的一个教程,只不过没有时间,那么最近可能就有时间给大家录制了啊。好,感谢大家关注,那么如果感兴趣的话,嗯,并且想要去配置这个东西的话,可以一键三连。好,那么我们今天的分享就到这里,谢谢大家。

今天我们给大家介绍一个在 windows 下配置 open code obsidian 插件的一个问题,在 windows 安装下,它经常会报这样一个错,叫 不能找到 open code, 它让你重新去检查你的安装这样的一个问题。那这个问题后来我查了一下,它到底是什么原因造成的呢?我们可以看一下那个 open code obsidian 的 开源项目,这个项目里面它其实是支持 windows 的, 那么它支持 windows, 它必须要让我们装的是 open code 的 c l i 的 这样一个工具,那 c l i 的 工具它不是桌面端, 它不是桌面端,它是这样的一个工具,要不你装的是这个叫 n p m, 或者你装的是这个叫。我们一般 windows 建议安装的是这个叫 burn burn 的 这样的一个命令,那我们一起来看看它是怎么来装的。首先要装一个 burn, 再要装一个 obsidian c l i 的 这样一个命令,你要装这两个,那基本上就可以了。 好,那我们给大家来介绍一下。首先在 windows 上你要安装的是 node js 的 这样一个,那你可以到 node js 的 官网去下载 node js, 你 可以去下载一下,我们给大家看一下 node js, 你 可以下载 node js download 的 这个位置,你去下载 windows 版本的,你把它下载,下载下来之后你安装一下就好了。 安装完了之后,你要到 windows 的 这个命令行里面去,你可以安到提示符,通过这个 windows 加 r, 然后打 c m d, 然后到这样的一个命令行的环境里面,你去把这两个命令确认一下你是否安装成功了,比如说像我这个就已经安装成功了。好, 那么安装成功之后,再要安装这个通过 n p m 来安装泵打这样一个命令,打完之后你可以再去验证一下你是不是安装成功,这个也安装成功了。 安装成功之后,最后你再打这个爱的杠 g, 这个是全局安装欧邦扣的的这个 ai, 这个就是相当于装了这个欧邦扣的这样一个命令。行,如果它安装成功,你是可以看得到的,那如果这几条命令打出来都是对,说明你的安装就已经成功了,它等于是这样。好在 windows 里面它还有一个比较 不太好的一个地方,你要去找到这个 open code 的 点 c m d 的 这样的一个目录,你可以输这个 where where open code 的 点 c m d, 它会告诉你,你在这样的一个目录环境下,你把这个样的整个一个目录复制下来,黏贴到哪里就黏贴到这个环境里面来, 黏贴到这个 open code 的 这个要执行的这样一个 pass 里面来,你要把整个一个东西全放在这个里面来就可以了,你就 open code 的 杠这个 obsidian 的 这样一个插件就安装成功了。

今天实操在 windows 上安装 hermes, 并接入飞出机器人。先说我为什么会从 open color 换到 hermes, open color 对 小白更友好,但我用下来发现主要有三个问题,第一是经常要重复提醒,很多任务它不会持续执行。 第二是网关不够稳定。我发的最多的一句话就是,你在吗?第三个就是 token 消耗比较快,长任务多人对话下来成本会明显上升。那 hermes 的 优势就在于它更像一个真正的 a 准系统,它可以自动地写入记忆,把任务过程沉淀成 n d 文档,稳定性更强,也不用频繁地重启网关, 那也更像一个长期运行的工作流系统。我印象最深的一次是某一天我的模型 token 用完了,但是 hermes 依旧可以稳定地给我推送定时提醒。 原因是 hermes 的 内部分了很多模块,像 schedule、 定时任务、 memo 与记忆 work flow。 工作流大模型只是其中的一层,所以你没有 token 的 时候,它一些固定的工作流啊,定时任务啊,飞速推送依旧可以运行。 当然, hermes 也会有门槛,它的本质更像开发者工具,默认运行在 linux 或是 mac os 环境。如果你是 windows, 就 需要先配置 wsl 和 open two。 接下来我会带大家实操怎么在 windows 系统使用 hermes, 主要是以下四个步骤,第一个是安装 wsl, 第二个是安装 open two, 第三个是安装 hermes, 第四个是配置飞速机器人。首先我们打开终端,输入 wsl install, 安装成功之后第二步是输入安装 open two 的 命令。下载成功之后,它会让你设置账户和密码, 账户名称记住要小写密码,输入之后他会不显示,我们要记住输入后的密码。第三步就是我们去复制 hermes 的 官网名下载 hermes, 下载完成之后,他会问你是不是要安装文件搜索器和语音功能。我输入 y, yes, 再输入刚刚设置的 open to 密码,这里可能要等久一点,等它安装完毕。 那安装完毕之后,他会问你是否安装拍成的编辑工具,就是这样,某一些拍成插件能够正常的编辑和运行。输入 y, 然后再次输入密码, 到这一步的安装时间会比较长,同时在这里我还卡住了,我就用了 ctrl 加 c 终端任务,这里终端的其实是浏览器自动化组建的下载,那我的后面主程序本身其实是下载好了,因为我有开心的一个窗口问他说我的后面下载的进度和我的 cpu 的 一些进度。 那我们重新打开新窗口,重新进入 home, 输入第一串命令,我们先进入虚拟环境,然后再输入第二串命令,进入 home 四的安装目录。第三串命令是启动 home 四专用的拍摄虚拟环境。 最后我们输入这串命令去设置相关配置,那这里输入 y, 下一步的话我们选择快速设置,选择大模型,我是 kimi, 那 这里就输入我的 api key。 要注意的是这里输入是不显示的,不要误以为说没有输入成功。接下来输入 url, 可以 直接复制他这里显示的网站。 这里对应的模型,我应该选择的是 kimi, 二点六,应该输入的是数字五,但是我输错了,大家按照自己的模型输入对应的数字就行,然后按照我的选择操作,来到消息配置,选择非输,记得这里要用空格选中,然后进入扫码配置,他会给你一个网站, 你打开这个网站,就会自动配置到飞书机器人的页面。我们新建一个飞书机器人应用, 找到刚刚创建的机器人,发一条消息,你就会发现 home 是 没有反应,那我们就再回到终端,在这里选择群主中被艾特成为响应,这里会有一个 homechat id, 我 们回到飞书开发者后台,复制这个 id, 下一步输入 y, 这里选择的是第一个。配置完之后,我们可以尝试输入 hermes, 会弹出我们的 logo, 然后发送消息,就可以正常回复了。最后回到飞出,开启机器人的相关权限,就可以正常使用 hermes, 到这一步就成功了。 那以下这些命令是重启电脑之后开启和美相关设置的命令以及部署的过程中,其实因为系统的不同,也会出现很多问题,那如果有出现问题,我们就直接问 ai 就 好了,一步一步操作,总会成功的。好啦,有任何问题可以在评论区讨论,点赞、收藏加关注,我们下期见!

呃,大家好,我是小伟, 今天给大家带来一期 opencode 的 教学视频,我们之前用 ai 辅助编程工具会用过 ctrl 呀 ctrl, 还有 cdesk, 然后 opencode 它也是其中的一款,它是个开源的项目, 今天我们就干两件事,第一是我带大家一步一步安装使用,然后第二步呢就是用 opencode 开发一个呃,静态网站站点,首先我们打开它的官网, 打开以后呢,呃,再再提一句,就是它里边也有这些付费的模型,然后还有一些内置免费的模型,那我们把它下载一下 opencode, 它可以在这个终端里边使用,也可以用桌面版,就是有这个界面,我个人比较习惯用这个桌面版,有有这个界面, 所以我们今天就直接呃使用这个 windows 版本,因为我是 windows 系统,点击下载 好,等它下载完, 点击进行安装一下, 它已经安装过了,我现在重新安装一遍, 安装完以后它自己会默认把它打开 以前的项目,我们把它关闭,我们重新创建一个项目,可以点这个打开项目啊,先创建一个文件夹,空的 返回 set 就是 一个站点,选择它, 然后这里边点这个,这里边是有一些免费的模型,然后下边这些是付费的模型,我们嗯,就用这个千万三点六 plus 试一下这个, 然后因为我们这是一个空的文件夹,打开一下,然后 set 刚才创建的,这是空的。 好,呃,在这里就可以跟他那个聊天沟通,让他来创建一个网址。呃,不创建就是做做我们需要做的事情。呃,我们跟他说一下, 你是一个专业的前端工程师,使用 ml js 等,哎,和一个 似的站点儿 点击这个是发送哦,它在开发过程中了, 把这个任务已经给列列出来了。 atml css, 这是创建的这几个页面, 前期我们刚入行,可以就是先简单做,先学会怎么把它给做出来,然后后期再学使用这些 v u e 啊,呃,这些框架啊,来来开发这些站点 哦,它创建出来了, let's go, 现在我们就是一步一步等他来做,发的有一些慢,如果大家等不及的话,给阿杰看后边的视频, 这儿看,这儿有一个文件夹的选项,选的这个所有文件,就是我们这个工程里边所有它创建的文件都在这儿列出来了,就是这个文件夹, 那它把这个都分层了。 a s s 有 的样式是一个文件夹,然后 a s 是 一个文件夹, 创建完以后就进第二步了,剪完以后他就打一个对勾,现在他在做关于我们的页面, 它这个相当于这些 css 和这些 js 完全是从零开始做的。后期我们有一些那个开源的样式,比如用这个 boss script, 这是一个单元的前端样式, 我们等它做完吧, 它有一个审查创建机子仓库,这个我们可以先忽略,有时间我专门做一期机子仓库的视频,现在可以先不用管它, 如果用下面这些付费模型的话,它会快一些,毕竟是免费的嘛。呃,也忍受一下它的慢吧。 很多我们国内这些模型,新模型发版的时候,一般都可以在 open code 里边就体验一下,包括这个 deepsea with flash, 现在也也是可以免费用。 之前那个智浦,呃,还有 kimi 这些公司的模型都是可以在这免费用 好,它开发完了只剩下最后测试吧。 呃,真实的程序员开发的时候就是这样开发的, 测试完我们打开看一下, 这个测试写满 好完成了, 但是要启动这个服务,我们直接用 v s code 打开吧, 或者打开这个项目,在这儿点右键这有一个 open with live server, 直接点这个 反应 好,这个就是刚才他做的这个站点 服务,联系我们 首页,还可以还可以,这千万的模型那也是可以 都都可以用成型。 如果我们这样再要添加一些功能的话,就可以,比如说把这个截图给他, 把这个要发给他再修改东西,比如说我想修改联系方式 变成红色字体, 一会他修改完以后看看联系方式是不是变成红色字体了,我们要修改的话就可以把这个截图发给他,可以看懂这种截图啊,后边要修改的东西描述,所以 他修改了,但是他修改的不对,我只要联系方式是红色尺位底下, 哦,没有做完 哦,他自己意识到这个问题修改了, 我们等他修改完 真实项目上线的时候, 这些数据啊肯定是来自于后台,我们现在只是先做一个简单的演示,这些数据相当于它是写死的,就是在这些文件里边 都写死了。真实的项目它是要有一个后台这些东西,这些配置都是可以在后台进行配置, 那我们下一期就做一个。呃,后台管理系统,然后跟这个前端站点连起来,它就是一个真实的一个公司站点的项目了。改完了看一下,哎,联系方式是红色了 哦,不错的,都改对了。 呃,今天我们这个教程就先就先做到这里,如果大家有什么不明白的可以联系我,可以跟我私信留言, 有什么不懂的都可以联系我。好,谢谢大家的观看啊,先到这。

哈喽,大家好,我是面包先生 alan, 今天我们这个视频详细的跟大家去分享为什么 openclaw 需要多 agent 协助?我们现在很多的小伙伴,可能我们要把 呃 openclaw 用到我们的业务里面,落到这种真实的业务场景里面,大家都会有一些误区,就是呃多 agent 是 不是就是在我的 openclaw 里面多建几个 agent, 让每个 agent 来去做不同的任务?大概理解是这样,但实际上呢?呃多 agent 的 协助它不是 多建几个 agent 就 可以,而是我们要让这些 agent 它像我们人类团队一样去基于目标去做配合,它们之间可以有能力的互补和协调,同时它又有这个啊角色的明确的分工,还有就是呃它有这种呃 对于这个呃每一个任务之间的流程的衔接,还有这种任务的并行的处理等等等等,其实这些才是啊多 agent 协助的一个核心。那 我们来说一个典型的复复杂任务,像我们现在很多人在做这个,嗯, open call 这种应用场景的时候,大部分的都是属于 单场景,就单业务场景,比如说我只是让他去做呃发文章,或者是我只是让他去写文章,对吧?让他自动化的去发文章或者写文章,这种是属于场景比较单一,就当业务内容或者业务任务比较单一的。那如果 去到一些比较复杂的这种业务逻辑里面,比如说像我们之前分享的,如果我用它来做客户开发的这个动作,那他可能最少有三个步骤,对吧?第一个是找客户,第二是呃解析,我们叫分析公司嘛。然后第三就是写开发信,那 比如说我们找客户,那你这里面会有很多的呃维度,比如说找不同的国家,你有个客户的画像,你要通过什么渠道,因为在不同的渠道找他的方式方法也不一样。不像比如说你在 google 里面搜索,或者是你在这个社交名平台,或者是在这个海关数据库里面搜,不同的渠道 啊,他是不一样的,那你单 agent 去做这个事情,其实是呃,他就会有很复杂的这个内容在里面,让他执行起来会出问题,这是一个。第二就是呃做这种数据的分析,就公式的解析,比如说你可以去挖掘这种目标公司的一些 数据,对吧?供应链数据,过往的采购记录,还有一些他们的设备里面的一些啊信息,以及他其他的这种相关的信息,这个也是需要去做很重要的分析的。然后第三就是写开发信,比如说我要去联系这个客户,那我要去 根据我前面的分析来写个性化的邮件。所以说我们说这种这种业务,它实际上它的复杂程度是比较高的。那我们现在很多用 open cloud 的 时候呢啊,大部分都是属于单一的这种业务,那如果一旦啊就是涉及到这种复杂的业务,就会产生很多的问题,非常非常多的问题。那 我们在之前我有给大家去分享过,就是我们自己,我在最开始的时候我用 open cloud, 我 针对我们自己有一个 showify 的 嗯, app, 就是 我推我的这个 app 啊,我最开始我的想法很简单,就是我希望呃让我的这个 open cloud 他 每天自动去运运行, 他怎么去做的?就是他每天去发现这个线索,就是他每天去发现线索,发现线索以后呢?他还会去做这个分析,对吧?他会针对这些线索去做分析,分析完过后呢?然后比如说由这个信息的,呃,这个负责人,他 也也不叫负责人,就是负责的 agent, 他 来负责内容的创作,对吧?内容写作,写作完过后,这个他是负责这个触达,就他去给这个客户发邮件啊等等等等,就是我给他去做了一个流程,然后这个这个流程里面呢,又有一个这个专门负责 整个 agent 的, 呃,同领的这个角色,他来去,呃,比如说他来去协同每个 agent, 他 之间去是应该怎么去做?比如他每次每天的会,对吧?是干嘛?第二他每天要做哪些事情?就这个任务流程我把它写的很细了。 呃,是它写的很细,但实际上在执行过程中呢?其实他又又有非常多的问题。这个问题是什么?就是,嗯, 跑起来不太稳定。不太稳定是什么?就是经常出现。我我已经遇到了好几次了,就是说经常发的邮件啊,是乱七八糟的,就他有分。可能你今天给他说重新定目标,对吧?你跟他说重新定目标啊?他跟你说目标 ok 了,那过两天, 嗯,他的写那个,他那个发晨报的时候他也跟你说啊,这个目标又是什么事?他可能又是用的老的数据,你要明确他强调,呃,我们的目标有有改变。那同时呢?这里面比如说他要去审核。举个例子哈,他要去审核这个类邮件的内容,我们比如说我要去发邮件, 他要去审核这个邮件的内容,同时他要去审核这个呃写的文章,我们这有个内容,那个运营的,运营的 idea, 他 要去审核这个文章,对吧?他每天都得干这些事。但实际上你看我这个地方遇到一个很重要的问题,就是他知道每天他要去做的 啊,在他的那个 kpi 的 这个记忆里面,他知道要干这些事情,但是他每天跑起来的时候就会出现千奇百怪的问题,为什么呢?就是他在去挖掘,像这个 客户线索挖掘的时候,最开始他就是关键词挖掘,那我跟他说我要去多多几个渠道去挖, ok, 他 一旦你跟他提要求,他挖掘的情况就会有问题,而且出现幻觉。他每天给我的呃发的邮件, 呃就是反复的,我最开始遇到一个问题,他反复把之前的邮件重复发,这是一个第二个他写的那个邮件内容,我还那个 呃叫什么呢?他的邮件内容里面还包含了他们内部就 agent 内部去讨论的这个中文的这种,这种内容在里面还有些 杂七杂八的内容在里面。所以呢,我这个 agent 他 跑起来过后就遇到这个问题,就是我的,因为我的任务他分为好几个步骤,就是从找客户、找商家、找完过分析,分析完过后再去写内容,写完内容再发布。还有就他有一个专门写博客, 就是内容 edit, 它是写播课,就它的任任务的符合比较多,就场景比较多,同时呢每一个场景里面用的 edit 的 对于能能力又不一样。还有就是一旦呃,比如说举例子哈,我,我经常遇到一个痛点,就是像我在我的这个呃 里面去对话的时候,我可能聊一会,他就会出现什么,我的这个聊天的叫啥呢?呃,上下文满了。好,那我没办法,我又得重新去新建一个窗口,一旦新建窗口呢,我之前的对话的记录就没了, 然后呢?我我后面没办法,就是让他去新建记,把他写成文档,写成文档以后呢,新建对话的时候,我又又让他去读了个文档,但是他一旦读这个文档呢,又会出现千奇百怪的这种问题出来。那在这个时候我就发现一个问题,就是什么呢?就是这个这个项目,呃,单一点,就是你让他去挖掘客户 啊,或者是挖,呃,或者是单点去做这个分析,或者是单点写邮件, ok, 没问题。但你一旦我要让他串联起来吧,从客户的挖掘到写邮件全部给他做完,其实他就会出现很多很多的这个问题,就是我刚才我们这个地方写的就是他的输出非常不稳定,就是你可以看到我的这个后台还有什么呢? 就他他知道他要去审核这个文档,但是一直是处于待审核状态。然后呢他知道他去看审核这个邮件 例子,结果呢?他有一件例子,呃,有效无效,他可能审核一遍,第二天又又又是那个出问题了。那,那说你跟他说让他去看记忆,我给他记忆里面他知道,但是实际上他执行过程中还是有很多很多的问题,这就是我们说这个呃 ide 里面常见的这种呃问题,那这个地方是属于关于 ide 常见的误区。我们也我们现在有很多的小伙伴说,哎,是不是我可以直接在那个写几个 prompt, 呃,就是 呃 angel 的 那种标准,然后呢?呃,去到 open open 里面去创建几个 angel 就 可以了。实际上这种方法有很多问题,就他跑起业务来很难。那 我最近不是在我们做我们那个外贸的获客系统吗?我又陆陆续续有不少的这个卖家小伙伴在加我,他们有的团,有的那个小伙伴他们自己有团队在做,他们也反馈回来一个问题,就是 用 open class 做单单一的点的时候没问题,但一旦你要让它串联两三个任务的时候,就是千奇百怪的问题,你就跑不通,就跑不通。所以说这里面其实它不是我们传统理解,就是 呃叠加这个 i 键的,其实我们其实缺乏的是这种全剧的调动,还有就是边界任务边界,像我之前讲的就是你怎么去界定 定你的边界,让 agent 哪些事情可以干,哪些事不事情不能干?所以说在这个时候,嗯,如果我们要用 open cloud 去做这个事呢?就是做你的业务啊,我们需要有一个统一的 啊协调,对吧?这是一个,第二个你要有明确的任务的拆分,还有第三就是数据的交接,可能这个我们讲起来比较呃空哈,就是如果你们真实没有去做这种业务场景,你其实是很难很难去理解的,那我先把这个多 agent 把它 啊协调起来,我要让他解决什么问题?第一个就是我要让他去识别任务,第二就是拆解,第三个是角色分工,第四是协调,然后数据的交接,最后才是结果的汇集,然后呢?还有得有一个协调者,我们叫 boss 的 这个助手,对吧?他统一对外,统一任务调度,统一的这个结果的输出。呃, 这个可能你理解起来比较比较吃力,让我们来,呃,基于我们现在真实的一个应用场景来给大家分析哈。就是我们自己,我之前有视频发过,就是我们自己做了一个, 呃,做了一个系统,就是我们我们可以把理解为叫,呃,国内他他们可以理解为叫什么 ai 的 创业导师,对吧?创业的辅导辅导专家。那我们主要是面向海外,面向海外呢?我这个系统呢就是帮那种创业者去做这个信息的 想法的验证,比如说你有什么想法的时候,你就可以在这个快速输入,他来,他来帮你去做呃,验证,验证完过后他知道你怎么去进行下一步。那我这个系统我们现在做完了,做完过后呢? 嗯,按照我们现在人力来说,如果让我自己去推这个事儿,推这个产品呢?我们其实是比较吃力的。那我当时就在想有没有可能我们用 opencloud 来做一个?嗯,配合啊,我的一个系统来做一个自动的运营工作,自动运营工作我们主要针对那个 twitter is x 和 reddit。 那 针对这两个平台呢?我们现在重点是做的是这个 x, 就是 那个叫 twitter。 好, twitter 呢?我要做的事情是什么?就是我在我的系统里面,我加了这个模块,我们没办法把这些东西全部交给那个 opencloud 里面去做,如果 opencloud 里做,做完这些事情,我估计这个系统就崩掉了。还有就是,呃,你的那个 talking 也受不了,所以说我们直接把这个, 把它做成了一个独立的模块,放在我的系统里面了。放在系统里面我们是怎么做呢?我想要做的事情就是,呃,我的这些系统功能已经有了,我想要让什么呢?我要让 open color 来接手我的这个运营,就接手接手我这个 啊, x 和 reddit 的 运营啊,怎么运营?就它每天去生成内容,比如它生成这种,呃,内容, 就是这个时候我们为了我这个系统的自动运营,我要让它自动运营,我做的是什么?就是就是多 i 键协调。那首先我要完成我这个项目的推广呢?它是分为了我总共要建几个,我要建六个 i 键, 一个总控 i 键,第二是有四个专业的 i 键,然后有一个复盘的 i 键,那你可以看到这里面第一个总控我们叫 group 什么什么增长,对吧?然后内容生成的,还有锐利的草稿生成的,然后内容风控的,还有数据复盘的, 那它总共加起来,我们需要在我的这个 opencloud 里面创建六个 index 出来,然后我这个地方写了。就是为什么, 嗯,不建议只用一个 index 呢?如果只有一个 index, 它同时要负责,比如说你读上你这个上下文,还要选定一下写 x 的 内容,对吧?还有风控,还有发布数据库排,这样的话就会导致它什么呢? 它的 prompt 会越来越复杂,同时它的执执着不清晰,封控很容易失败。然后呢?呃,后续不太好扩展,所以说我们要做的就是我要让他用多个 id 来做这个事情,然后呢?在这个过程中也不建议说呃把它拆的太多,比如说干个十多块的,十多个这个 id 出来,这样的话你你的 呃样,你的那个过程就会很复杂,就很那个任务拆的太细,其实任务越细对你的 i 键的协调要求就会越高,同时你的调试成本也很高。所以说我们初期就定下来要把我这个系统推出去的话呢,他只需要六个 i 键就好了。六个 i 键的分别是干嘛呢?就是内我们要写的内容,对吧? 它是负责,呃内容,呃总一个总的负责。第二是选择题生成,然后风控还有这个呃数据的复盘,然后呢?再看一下。啊, 好,那这个是我们那个架构,呃我的这个主 agent 的 价格,这是第一个主 agent 的 价格,它是干嘛呢?它每天负责启动每日的运营流程,它每天负责这个事情。第二个调用 oppo 的 这个 tool, 什么网关,这个是什么?就是这个是我系统里面,我们系统也会给它提供一个接口,呃, 因为它我,我是不会,为了安全起见哈,我不会让 open call 直接到我的系统里面来操作这个事,操作这个系统,因为这样的话不安全,会把我的这些有些数据暴露掉。那我们是通过 api 的 方式,通过这种呃端口的方式,然后传递传递内容,那这个时候它干嘛呢?就是它这个主 ip 呢,它是负责启动呃流程,同时它调用 关端口,然后获取这个内容,获取这个种子。这个种子是哪里?就是也是我这个后台生成的啊,这个后台可以生成。然,然后呢他去调用这个呃内容文件来生成草稿,我们上面有嘛?哈?呃内容文件来生成草稿,然后同时调用这个,呃风控,然后呢? 完成过后呢?它请求我们系统做这个任务的创建,然后再发布,最后再调用这个复盘的 agent 来分析,就是它的作用是什么?就它的作用就是它负责调度每一个 agent 干什么事情,对吧?它说这个同时它不负责什么,它不写内容,同时它也不发布,它 也不访问数据库,它也不持有这个 token, 对 吧? x 的 token 它也不去读取原始数据,所以说这就是它主 agent 的 一个啊,我给他一个 定义,我给他的边界,然后呢?这个内容策略的 i 键,他其实也比较简单,就是负责内容生成这个代码款,也不用管哈。他其实他他的 他的干嘛呢?他主要是今天讲什么?在哪个平台讲,用什么角度讲,内容优先级是什么?好,这就是他的,他的准则就是这个 i 键我给他定好,他是干这个事,然后第三个呢?那个内容 i 键他就是负责写的,对吧?他是负责写内容的, 负责写内容他干嘛?就是他写 s 和 x 的 短贴纸,还有这个什么长贴纸,对吧?还有还有等等等等。然后呢?他这里面他又不负责风控。下面就是,哎,那个 reddit 的 这个草稿 啊,比如说他不带链,我跟他要求就是不带链接,不自动发布,不硬堆,这个不硬推,就是不要广告,性质太太明显,对吧?好,那这个是风控的,呃,他要去检测的是什么?就是你广告是否过度啊,有没有虚假呀,造假呀等等等等的这些信息,就是 这个,就是我每还有这个是增长,哈,增长他就是干嘛呢?他主要是看我们的数据,比如说每天发布的数据,增长的这些数据,这些 就是我们现在我这个系统,我要让他去做自动化的运营的时候,我要去创建这些,那在创建的时候我给他指定的标准的,或者我给他指定的他的他本身的职责,还有我给他一个边界,哪些事情可以干,哪些事不能干,同时呢我要去考虑第四点,就是他们之间怎么去协调。 那我这里面采用的是主 agent 调度主 agent 的 方式,就是不要让 agent 之间任意调动。就是,呃,比如说我们说这里面有六个 agent, 那 六个 agent 他 们之间,比如说二三四五六他们之间我们是不愿,我是不会让他随意去调动的。统一的是由第一个就是主 主 editor 他 他来负责,调用他来负责,比如说就是中心化的编排,我们上面讲了吗?你这个事情我们什么时候发,发什么的,对吧?这些全部是用来编排。然后呢?呃,每个 editor 他 是基于主 editor 的 啊要求来做事情,他们自己不要去发挥,就他不要去自己发挥。但同时你可以看到下面就是啊每日的写作流程,就是这个是写作流程,是主 editor 他 每天要干嘛,对吧?第一个是调用,然后第二步、第三步,直到第十步,他 做很多事情,他每天就是,呃,我给他列好了第一步干什么,第二步干什么,第三步干什么,对吧?等等等,全部给它确定好,那在这里面呢?呃 呃,像我的 open call, 它是不直接发布这个 x 的, 它只是请求,因为在我的系统里面,在我的系统里面我是做了那个 x 的 接口的,我是做 app 接口的、 api 接口的发布,其实在我的这个系统里面,它是可以直接去完成发布的。 这个 agent 它的作用是什么?就它不会让 open call 自己去发,同时它只是请求我的系统来发布,真正的发布是由我的系统来发布的。 agent 它不能直接发,它只是做协调和调度的作用。好,完了过后呢,你可以看到这是我的 agent 的 协助图,比如说,呃,第一步它要干嘛?第二步,第三步它是 你可以看到这这个地方每一个它的步骤是什么样的,这个是一个协助图,完了过后呢?我这个地方还给他一个明确的,就是哪些 agent 是 可以调用我的 那个 oppo 的, 呃,助手就是我的工具的,那这里面我只是建议只有主 agent 是 可以调用的,其他的 agent 都不能调用,为什么?就你一旦调用太多,呃可可能会出现一些问题,这些问题就 就会导致你的这个任务执行过程中出现一些莫名其妙的这个错误出来。所以说我这个是给他严格的要求,就是你不能去调我的这些工具, 那这个就是他的一个标准。然后还有一个更安全的方式,就是我们所有的工具, oppo 的 这个工具都都是用主硬件来吊起,只硬件只是处理这个主硬件给他的这个,呃任务, 这就是他的一个标准。然后下面就是我的这个,呃,我的系统里面,我我给他的一个权限,就是我给主硬件这个权限,呃,这个地方可能代码大家看,嗯,不太清晰,无所谓啊,这个不用管,其实本质就是,呃,让 你的这个大家看一下这一个什么内容的,呃,获取内容草稿,然后内容草稿发布,发布的状态,获取这个数据,然后每周的报告哈,简要的哈,这就是他的一个权限,他可以从我的系统里获取这些,然后其他的这些 agent, 大家看到我的其他的这些 agent, 他 都是没有权限去读取我的这个我的这个呃呃那个系统的权那个 接口的,然后我在后台,呃,我在 opencloud 的 后台是怎么创建的呢?第一步就是我要去让他去给我的这个呃工具去获得这一个代码款哈,这是我自己写的哈,就是他要去获得认证,呃,获得我的这个系统认证,他给我这边有,我是做了接口的,他需要呃 opencloud 把那个链接放进来,然后自动来调好,调完过后呢?呃,下一步他就需要去注册这些工具,注册完过后他要我要让他干。第三步就是创建主 agent, 创建主 agent 呢?我下面给了他有这个呃这个 agent 的 prompt, 大家看看哈,呃,我这个地方有一个这样的,就是呃 agent 之间不要怎么做哈,大家看一下 agent 它只干自己的事情,然后呢?这下面是指 agent 的 这些 prompt 就是 他的,大家看一下我给他写这个规则的时候就想的很清楚他是干嘛的,对吧?他可他是只能做哪些事情,然后哪些事情是不能做的这些事。我,我可以直接把我的这个 permit 直接丢给那个,呃,丢给这个,呃 open cloud, 然后呢?让他来去创建,那如果我最开始我要想把它应用起来,系统给我的建议就是最开始 用四个 id 就 可以了,第一个主 id, 第二内容内容,第三个是 delete, 第四个是分控好,那这些东西全部放到这个 open color 里面,它最终给我生成这个 id。 其实我想要实现的就是 不会像我原来最开始推我的 app 这种方式了,这个是全部是自己他们自己的配合,这种配合就跑简单的,你跑几个任务没问题,但我一旦跑量,我最近又遇到这个问题,就是让他跑量,每天跑,最开始每天跑二十个油箱,油箱没问题,他爬数据是 ok 的, 跑起来也没问题,但我有一天突然给他提了三百, 每天三百的时候他就会报错,拿一堆的问题出来,搞得我每天都去修复他。所以说我现在就是我在调用 agent, 我 要让他去多 agent 协调的时候,我就是不,不是单纯的是给他一个那个 prompt, 让他去生成 agent 就 去做,那样的话你每天都在去解决 agent 的 之间的问题,所以说 这就是大家看一下,我这个是在我后台创建的顺序,我要把这个事情做成我的创建顺序是这样的,然后下面你可以看到就是,呃, 最终我在 open call 后台我创建多 agent, 然后呢?就是一个总的,然后多个无止无权限的止 agent, 然后所有的集中,所有的那个工具的调度都在总啊主 agent 里面,是最终的执行动作。像这个地方啊,最终的这个,呃,这个叫啥? 呃系统的,呃内容的发布啊,内容的创作,这些全部是在我的这个系统里面来完成啊, open 它本身不完成,它只是负责调度的这个动作就 ok 了。所以说这块就是呃,我现在在做的这个事情就是,呃, 包括我们最近自己在做这个外贸获客那个数字员工系统的时候,其实也是按照这个逻辑在做,为什么这样讲?就是我们自己陆陆续续在跑一些任务的时候就发现如果单纯的靠 agent 去, 你不给他太好的,就是不给他做好定义,不给他做边界或者是权限的控制的话,他会出很多问题,可能你一天你可能就是不断的去修复,突然哪一天他哪个环节出了问题,我还得挨个挨个去找,这样的话做起来你的这个效率会低很多很多,所以说这就是 我说的。然后还有就是大家看到我这个屏幕上面就是 agent 之间的数据交换啊,比如说 a 到 b, b 到 c 等等的这些交换,其实,呃我最终我们落实下来就是它的数据交换等等,全部还是通过主 agent 来把控,那 就现在是一个团队的一个小组长,对吧?小组长来统一负责所有的小组成员之间的这种协调,那这样的话呢?效率会高很多,而不是让他们每一个之间每一个去各自为战,对吧?不让他让他去各自为战,这就是呃我们关于这个 呃 do agent 协助的一个内容分享哈。呃,如果大家有关于 do agent 的 一些想法呀,或者是一些思路都可以在评论区留言。

二六年以来, openclaw、 hermes 各种 agent 层出不穷,怎么能利用这些 agent 做些有趣的事情呢?今天给大家分享一个我用 openclaw 实现的 ai 模拟交易员 agent。 想让 agent 成为交易员,需要赋予它三个能力, 获取实时行情数据,给 agent 搭建交易环境,建立交易记忆。关于实时行情,我使用 ai 帮我搭建了一个实时行情提供服务,感兴趣的同学可以参考这一期视频。 需要注意的是,实时行情服务需要让 ai 帮我们实现一些可供 agent 调用的 api, 可以 基于 http 或 socket 的 协议。 第二步,我们需要给 a 政搭建一个模拟交易平台,同样,我们也可以让 ai 来帮我们完成这个任务。再次提醒各位,这是模拟实验,不是实盘工具,请勿接入任何实盘账户。 至此,我们可以在本地完成委托撤单、查询持仓交易记录的闭环测试。 我们可以把实时行情获取与模拟交易平台的接口 api, 让 ai 自己整理成一个 markdown 文件发送给 agent, 让它整理成一个 skill, 或者在 heartbeat 到 md 文件中明确好每一步可以使用哪个接口。 第三步,我们利用 agent 的 心跳机制建立交易节奏,比如每三十分钟一次非交易日会让它主动休眠,只返回 heartbeat ok。 在交易日, agent 会定期做账户复盘,制定模拟计划并进行模拟下单,并且每次思考都会让他记录一个 csv 文件,作为他的交易记忆,每次心跳时进行回顾。 至此,这个模拟交易 agent 就 能在完全本地化的环境里跑起来了,你可以把它看做一个研究交易纪律与自动化逻辑的实验沙盒,后面我会持续更新这个模拟实验的观察记录,感兴趣的朋友记得点赞、评论加收藏。

国内用户如何使用 codex? 这个视频我将教大家不需要解决网络问题的情况下完美使用 codex 软件, 避免使用 codex 时提示输入手机验证。我们需要准备两个软件和一个网站,那两个软件呢?分别是 codex 和 cc switch, 一个网站就是我们要选择接入哪个模型,或者是我们使用的 api 中转站。首先我们可以到 codex 官网来下载,我们可以直接打开这个网址,国内用户是不需要上网环境就可以打开的, 打开后我们可以直接下载,如果你是 windows 电脑,这里会出现 windows 的 版本, 我们直接点击下载就可以。第二步,我们打开这个 cc switch 的 github 仓库,我们可以直接输入这个网址来打开,在这里我们选择下载它的对应版本,点击后我们向下滑动, 在这里我们可以找到不同的客户端,我的电脑是 mac, 所以 我选择 mac 版本,点击后直接会下载 这里你如果没有配置好上网环境的话,下载这个客户端会比较慢,那我在这里已经帮大家下载好了,并且已经上传到了云盘,如果需要的话,你可以在评论区留言,下载好后我们正常安装就可以。 现在我们打开 codex, 现在我们可以看到它,让我们选择登录,这时如果你没有上网环境的话是无法使用的, 那现在我们就用到了第二个软件 cc switch, 我 们正常安装 cc switch 后,我们选择打开它。 打开这个 cc switch 后,我们看最上方的这一栏,我们选择 codex, 在 首次配置时默认是只有最上方的这一个官方 api 的, 下面这三个都是我自己配置的,那如何配置自己的模型或者 api 呢?我们点击这个加号, 在这里我们可以选择不同的供应商,也可以自己填写供应商的名称。那我这里以这个 ai go code 的 这个 api 网站为例,点击后我们看到这里的参数,它已经帮我们设置好了, 我们现在只需要填写一个 api k, 那 我们可以打开它的官网,在这里我们点击登录或者注册,如果首次使用的话, 它是需要充值额度的,充值好后我们可以点这个 api k, 然后在这里我们可以看到这个 codex 有 不同的两个分组,我们可以选择这个速度更快一些的,或者性价比更高一些的。 我们点击这个创建,可以给这个密钥起一个名称,然后点击创建,这时它会生成一个密钥,我们选择复制,然后把这个密钥粘贴到 cc switch 中, 我们选择添加,添加好后我们在这里点击起用,这时我们再将 codex 重启一下, 这时我们就可以看到他现在可以正常使用了。这里我全程都是使用正常的上网环境,我们来测试一下,帮我生成一张,欢迎大家点赞收藏。评论的图片要求十六比九的比例, 它现在已经按我的要求可以正常对话,并且可以生成图片了,而且调用的还是最新的 emoji 二模型, 并且全程不需要登录,不需要其他的上网环境。我们接入第三方 api 的 话,也是用多少花多少。这个方法主要是针对那些没有上网环境的同学, 如果你在安装过程中出现了任何问题,都可以在评论区留言,我会给大家逐一回复, 下个视频我将教大家如何具体使用这个 codex, 它和 cloud code 有 什么区别?我们下个视频见,欢迎大家点赞收藏评论。

哈喽,大家好,我是 madam 先生 allen, 今天我们这个视频详细的为大家去讲如何用 openclaw 做客户的背调。啊,这个视频呢,仍然有点长哈,呃,我相信你通过这个视频详细的看完过后,你能够掌握如何用 openclaw, 或者是如何用 ai 来配合你做 客户的背调。那我这个视频呢,仍然会分为两个,呃文档,一个是这个飞书里面这个呃文档,这个文档呢,它是一步一步地去引导大家怎么去呃搭建这个客户背调的 agent, 呃,包括步骤,然后用到哪些这个 agent 的 这个 prompt, 这些 prompt 可以 直接把它复制到 open catalog 里面,立马就可以生成。同时呢,它,呃生成的这种呃数据分析的这些信息是什么, 我们都会在这个视频里面详细的跟大家去讲。那另外一个就是这个 ppt, ppt 的 话呢,大家看起来会比较直观,我会基于这个 ppt 去给大家去分析。呃,接下来我们就正式开始今天的内容分享,就是我们现在很多的做 b 端海外这种客户开发的 商家,我们都会有一个需求,就是做客户的背调。那我们传统就是之前我们没有 a a i 或者是没有 opencloud 这种呃纯自动化的工具。之前我们很多时候做这个背调就是打开对方的官网看他的,比如说关于我们呀, 或者是浏览一下他的产品或者他的服务呀,有的有经验的这个外贸业务人员呢,他可能去他的呃官网看一下,有的呢,可能去这个领音里面看一下,还有呢,可能会去到海关数据里面去搜这个客户的一些信息,对吧?那这个是 我们在之前做这种客户背调的时候啊,常用的一些方法,这种对于很多成熟的或者是经验比较老道的这种外贸人员呢,都会用到这些方法。但这些方法呢, 他其实是呃,我们叫什么呢?他是分散在很多地方,比如说我要去 google 里面去搜,对吧?我要去他的官网搜,我要去这个 呃,这个理音里面,或者 facebook 里面,或者海关数据,或者招聘网站评论等等的,我去看这些数据,但这些信息呢,在之前都是通过人工的方式去收集整理到表格里面。然后呢?呃这种收集呢,他有好几个问题,就是第一个信息很分散, 你的经验不够,或者是你没有做过,做起来会很吃力,这是一个。第二就是我们去收集这些信息是比较耗时间的,对吧?比较耗时。同时呢如果没有 ai 的 协助的话呢,这些信息它是碎片化的,我们很难把它串联起来。第三就是第四就是呃 单一的客户我们去收,你可能会花一些时间,但一旦你手上有一百个或者两百个客户,那你就很难规模化的去呃,去抓取这些信息来去做判断。然后最后呢,就是呃这种信息的完善或者是完整度, 或者是他之间存在哪些关联或逻辑,如果没有 ai 的 话呢,他其实是很难形成判断能力的,所以说这就是我们说传统的背调,那我们真正做背调, 嗯,不是像我刚才说的,他不是简单的去看这个网站,他的官网的介绍,或者是他的色美,其实我们要做的是什么?就是我们要去看这个客户,我们要看他的一个是采购能力,对吧?他是是否之前有这个采购的记录,他的财务状况。第二他有这个是否有扩张的意愿?扩张意愿 很多小伙伴会问,我怎么知道呢?其实这个有一个方法,就是通过这个招聘网站,就我可以通过一些招聘网站去看他是否有对人员的招聘,我可以看到他的市场拓展计划,对吧?然后第二个,第三个就是他的真实需求,就是我们可以看到他在社媒里面或者其他的渠道里面,看他有没有去找新的供应商 来,我们可以判断他当前的产品能不能满足。第四个就是我们通过这些数据分析,呃,节约我们很多时间,对吧?我们可以节约大量的时间去快速的节测出这个客户,有没有必要我们去花时间去跟进 我们,呃,通过他的产品分析,他的市场的分析,可以看到他的产品切入点是什么,我们我的产品怎么去跟他去做对接,同时我可以找到谁是真正的关键的决策人,做这个才是真正的客户背调,他本质是商业情报的分析,而不只是简单的去看他的官网有什么,对吧?那我们说回来, 我们刚才说了,我要去做那么多的数据,那这个时候 openclaw 它能够帮我们做什么呢?就是 openclaw 在 这个时候它不是帮我们去看网站,而是它可以直自动地执行一套客户的情报分析 和收集的流程。首先第一个我们要去搜,用 opencloud 去搜他的,看他的官网深度去看这个网站,他就是关于他的一些介绍,他的一些历史,对吧?还有他的一些服务体系核心的业务布局,这个是可以通过官网来看。第二个就是通过社交媒体来看,社交媒体很多海外的,就像我们在朋友圈发内容一样的,海外的网站,他会在 不管是领英也好、 twitter 也好,或者是 facebook 也好,他会去在这些网站里面去发布他一些企业的动态,对吧?他的一些互动,呃,那个品牌的一些相关的信息,那我们可以通过这些数据来去看他的品牌相关的东西。然后第三就是我们可以看海关数据的分析,海关数据可以干嘛?可以看到他的 进出口的一些记录,他的贸易的这个,呃,供应链相关的一些数据,比如他的采购频率,他的采购的金额等等,我们是可以通过海关数据看。然后第四就是招聘数据,招聘数据是什么?就是我们可以知道 他的采购量,我们可以预估他的未来的采购的情况,他的市场拓展的情况。然后第五就是用户评论分析,如果这个产品或者这个品牌,这个公司,他在不同的平台都有销售,不管是 b 端的还是 c 端的,对吧?我们可以通过一些评论来去看他的产品的,或者他现在的一些口碑,用户的一些真实痛点是什么。然后第一 六个就是它的,嗯,可以通过这些信息来去提炼它的品牌定位,它的核心价值和目标的,用那个受众的画像,对吧?比如说我们可以通过去分析它的 facebook 的 广告投放啊,可以看到它的投放目标是什么?它的客户画像是什么?那我们再反过来看 我们的产品是不是符合它的用户画像?所以说这个时候 opencloud 的 价值就不只是简单的读起数据,而是串联这个群情报。那 这个时候我们说如果我要用 oppo 去做这个事啊,他的一个流程是什么?第一个就是我首先输入这个客户信息,然后呢 oppo 自动去做官网的分析,设媒的分析,海关数据的分析啊,招聘信息的分析,还有就是啊用户评论的分析, 然后呢再做品牌定位分析,最后呢再用 ai 大 模型来帮我去做情报的整合,那这个时候呃 的模型它的价值就很重要,它可以帮我们把前面抓起的这些数据,可能碎片化的这些数据做一个串联和整合,然后再去做分析。这个是 ai 很 擅长的点,我们可能很多 外貌的小伙伴可能没有那种经验,或者是没有这种分析的能力,但是 ai 这个时候它的价值就会很大,对吧?那我们比如说最开始我要通过输入什么信息,你可以直接输入它的官网,或者你直接输入它的公司名称,或者是它的社交媒体的页面,这个时候 open 了就开始去抓取。那我们说在抓取的时候它分为几层?第一层情报就是官网,官网我们可以看到它的 公司的定位,产品结构属性,还有它的品牌定位,对吧?这个时候官网只是情报收集的入口,它不是完整的情,那个商业情报。那第二层就是我们可以通过社媒分析,社媒分析干嘛呢?就你可以,比如说通过 twitter、 影音、 facebook, 或者是像如果他有做 youtube, 对吧?你可以分析他的视频,他在推什么,然后你可以通过的 instagram, 也可以通过图片去分析他在干嘛,对吧?我们说为什么一定要去做那个色媒的分析?我们很多小伙伴在做客户备料的时候,可能只是去看他的公司官网,对吧?其实色媒这个时候有很重要的点就是在于说,呃, 可能我们在官网里面他是属于宣传吧,对吧?大家知道宣传我肯定要给大家看最好的东西,对吧?那色媒其实它是属于呃 用以用户以他的目标客户去互动的这个渠道,那互动里面就会有很多真实的情况,比如说用户的评论点赞,比如说他今天发了帖子,他点赞是好还是差?他的评论用户评论他对他的好还是还是不好,对吧?这个是社会里面可以体现出 官网里面不一定有,但是在设备里面一定有。然后呢?这个时候我们覆盖的渠道就是啊,像 facebook、 instagram、 领英、 twitter, 还有这个 youtube 和 tk 这些渠道都可以覆盖。那我们分析了,比如说像我这地方列了一个案例啊,你可以去看到,哎,我可以跟踪,像我们下一步会去 做一个跟踪我,我去跟踪某一个我的目标客户,可能他现在的采购,呃呃,没有到他的采购点,但是我可以跟踪他的一些呃数据发布的一些信息,比如说 他在高频的发布某一些产品信息的时候,或者是他在频繁的跟某些 kol 互动的时候,比如说我可以在 dk 里面去搜他的品牌关键词,找出来他当前的推哪些视频,他的点是什么,对吧?这个时候我们是可以去抓取一些信息的,所以说 社交媒体其实是暴露一家公司,他真正关注的就是他投入的一些信息,很很核心的一些信息,其实是可以在这个社媒里面看的海关数据大家不用不用讲,对吧?我们是其实是可以判断他的这个采购能力。我相信做外贸的 很多小伙伴都知道,我们要去分析一个,找一个客户,我们就需要去通过海关数据去搜这个公司的采购,对吧?我的采购的历史的采购记录 来源于哪些国家采购的产品规格,它的上下游供应链是什么?然后我们可以基于海关数据判断它的真实采购能力。比如说我们在做客户筛选的时候,我可以根据它的采购力来去判断它是 属于 level 一, 还有 level 五的客户,我们可以通过海关的这种数据来去做判断,或者是打 等级,所以说海关数据是可以看出这个客户的真实的采购能力的。然后呢招聘信息分析呢?其实是干嘛呢?就是我们为什么要去看招聘信息?很多人可能不理解,他说我为什么要去分析这个客户的招聘信息呢?其实在招聘信息里面你可以看到他的业务的布局,他招什么样的人 啊?他的招聘信息里面显示,比如他面对哪,面对哪个市场,对吧?招什么样的人,我们可以通过这些信息去看到他的拓展的渠道,比如说他今天开始在招这个 他们这样的运营人员,或者是对 shopping find 的 运营人员。那我知道啊,这个网,这个公司开始就大量拓展这个独立站或者是电商平台。好,那这个时候我们就可以去做针对性的一些,呃,那个了解,对吧?然后用户评论其实是对于品牌价值 相关的,用户的痛点是什么?产品的缺点、口碑,用户的偏好等等这些信息。其实,呃都对于我们来说做背调是非常有价值的,所以说评论区往往是关他展示的 比官网更真实。这个评论呃是可能可以是社交平台,也可以是电商平台,对吧?还有可以是他的官网的一些,或者是一些第三方的渠道里面,那这个是非常非常重要的。那我们 就是说我刚才说了做这些数据的价值点,那我们怎么把这些数据串联起来呢?他不是一个不靠一个,他没办法靠一个啊, prompt 或者一个 agent 就 可以做做到的。我们是怎么做的呢?呃,这个地方就回到我们这个文档里面来,这个文档里面我们是这样的,就是,呃,我真正要去把这个 呃串联起来,就是我要去真正得到我刚才分析的这些数据,对吧?客户的这些情报数据。那我要做的结构是什么?我起码我要做多个 agent, 我 希望去做多个 agent, 比如官网,呃,每一个官网设媒、招聘、评论、海关、分析,我总共需要多少呢?最少五个 agent, 五个 agent 或者是 skill, 相应的 skill, 我 们可以叫做就叫做那个 agent 就 好了,我只需要向官网分析的 agent, 设媒是招聘,还有评论、海关数据最终的情报整合,情报整合啊,也是可以算是一个 agent, 然后呢,大家可以看到我下面,呃,我是针对每一个 agent, 我是 做了这个,我写了一个指令,哈, 这里面我先给大家展示出来,就是第一个就是官网的分析的 agent, 他的目标是什么呢?他的目标是公司的定位是什么?产品的方向,他是否是 b to b? 他的品牌定位是什么?那他的这个,呃 promt 是, 呃这个比如说 你可以直接把它复制起来,用第二个设媒,然后第三个是招聘的,然后第四是评论的,呃,然后第五是海关数据的,对吧?然后第六个最终才是一个我们要整合的 agent, 他 是帮帮我们把之前的所有数据把它串联起来整合。那最终他输出是什么呢?就是最终一个报告 输出出来,他就是比如说客户的定位是什么?产品方向是什么?他的设没分析出来最近的推广重点是什么?然后第三个还有就是这个招聘分析,他是 他最近招什么,对吧?海关是,呃最近六个月的采购记录、评论,还有最后会给我们一个开发的客户开发的建议,我们应该从哪一个 点切入,对吧?产品点还是属于他的品牌策略点去切入,那这个时候 open cloud 干的事情就是每把每一个步骤串联起来,把它串联起来。但是呢在这个过程中他还涉及到一个卡点,就是,呃, 就是我们在使用过程中会涉及到一个问题,就是海关,比如说这个涉媒,涉媒会涉及到反爬虫,对吧?然后海关数据,嗯,我们可以去,我们下去 有针对性的这种海关数据买,然后评论结构、网站差异,还有 i 键的输出稳定性,多步骤的,就是它的流程容易断。因为我在之前的视频有讲过,呃,像我单纯的单独的去搜 google 里面搜,通过 open cut, open cut 是 没问题,但是你一旦搜多了以后,呃它的准确度就会下降,对吧?然后呢?最后呢?就是它会出现一个问题,就是,呃被 爬虫禁掉,就是禁止你去爬取,这样的话对我们来说其实是有很多的障碍的啊。那我们来给大家去简单的演示一下这个,这个是怎么做的呢?就是你只需要像我们之前我上,呃,那个,前两天有个视频讲,就是我搭了一个外贸获客的 i g 的 框架啊,我, 我们接下来要做的很多时候,我,我要去分享一些内容的时候,我就会往这个框架里面做。怎么做呢?就是,呃,比如说接下来我要在这个外贸毛来获客框架, 嗯,外贸来获客 框架里面增加一个,增加一个啊,叫客户背调背调专属模块, 专属模块接下来我会陆续啊,前面加一句哈,这个模块会用到,会创建,嗯,六个 agent, 接下来我会陆续把每个 agent 就是 我告诉他的点是什么?就是,呃,我要在我们的这个外贸获客的这个 agent 框架里面去打一个专属模块,这个模块就是 客户备料,那客户备料呢?按照我们现在的文档里面的计划就是我需要去创建最少六个 agent, 对 吧?最少六个 agent, 然后呢?这六个 agent 呢?他要干嘛呢?就是负责官网的分析设备的分析,呃,然后什么什么等等分析,我只需要把这些指令给他就好了。那我们说第一个,我们现在创建第一个 我们的,呃,我先把这个复制给它哈。以下是要创建的 好,我这个地方老是要打错啊,我直接把这个给到它,呃。然后呢?好,我先打回车。 好,然后我会陆续的,他收到信息过后,我会陆续的把这个啊 agent 的 内容给他,比如说这个 呃,官网分析, agent 直接把他把那个名称给他,呃。然后呢?录第二步,再把这个呃设备分析了,陆续给他,他就会挨个去帮我去把这个创建。 ok, 开始了哈。第一个 好,复制第一个官网 直接粘贴, 然后呢我再来复制第二个,其实,嗯,如果你不想挨个这样复制很麻烦啊。建议的就是,呃,我们这样创建一个文档, 我们创建一个文档,然后呢把这些所有的 prompt 放在一起哈,放在一起过后一次性给到它就好了。 ok, 它已经创建好了,马上创建好。第一个,我们来说第二个 啊,你可以陆续放在这,然后呢?他是会做成,他会做成一个,呃,那个叫什么队列,对吧?我们来扣子。第三个招聘分析的, 然后第四个评论分析的,大家可以看一下这里面评论他分析哪些地方,像亚马逊的 reddit 的, 呃,还有这个什么 transport, 嗯,那个还有这个 facebook 啊, youtube 的 都有啊,我们都会把它复制, 然后呢在这儿好,然后这个海关数据的 这个是最后呢,是这个情报,最终的情报整合的就是它,它是来负责把所有收集的这些信息做最后的一个那种整合, 然后呢?复制完过后呢?最终的输出,对吧?然后呢?呃,给大家看一下,他输出就是把这些所有的东西弄完过后呢,呃,你只需要给他一个呃地址或者一个公司名称,他就会挨着去帮你去把这个呃 信息开始去挖掘。大家看一下啊,我这里面是呃陆续给了他好几个这个这个这个代码编码指令,他就会陆续开始去创建,创建好过后大家看一下啊,陆续在创建,创建好过后呢,我是可以直接在这个这个地方啊,这个地方可以去打开,看到 客户背调好,大家看一下,我客户背调的这个就出来了,他已经有了。好,我们等他继续创建啊,我给大家继续创建 好。创建好过后呢?呃,他的执行是什么?就是你可以看到他第一步官网啊,然后呢你可以要求他怎么做呢?就是,呃,我想要在这个背调的板块, 呃,他现在没创建完哈,创建完后我可以在这个地方输入一个名称,我要求就是我输入一个公司名称或者网站,然后自动开始呃,从第一到第六的这个执行哈,他就开始执行了,就是这样一个流程哈,给大家看一下,他现在正在创建第五个哈。 ok, 第五个完了,然后开始做第六个。 嗯,这个文档的话呢大家,嗯,就是你看完这个视频过后,如果你有兴趣的话,可以私信我或先加我微加我嘛?加我,然后呢关注我,然后再给我私信啊,我会跟你讲怎么去领取哈。好, 然后这个里面,呃,我刚才在我们 ppt 里面说到,就是你把这些数据全部抓取出来过后,它 ai 大 模型来做判断。这里面像我现在用的这个模型,是大家看到我现在用的这个模型是叫 mini max 啊,我前两天还发了一个视频,就是,呃,除了 mini max, 我 还 整合了那个 deepsea, 其实 deepsea 做起来也蛮不错的哈,大家可以去尝试一下。 ok, 现在我已经做好了哈,这个地方已经做好了。好,做好过后呢,大家看一下,就是这个是客户备料的这个模块,第一个分析设没干嘛干嘛,对吧?然后呢?嗯,这个时候我要让它怎么跑起来呢?就是 你可以直接跟他讲,你说我想要在客户背掉模块,背掉模块增加个输入框,我输入 需求,比如说网站、公司名称等,我们的 agent 就 开始执行。 好,你直接告诉他需求,就是我现在要在这个背调的这个模块,我要增加一个输入向,对吧?输入向输入以后呢,他就按照我的这个指令去执行,那这个执行过程中,其实,嗯, 如果你现在直接用这种方式去执行它也可以啊,因为那个 open cloud 它其实是内置了很多像 web 的 搜索啊,社媒的搜索,对吧?但是你第一次去执行的时候是没问题的啊,就是因为你的, 你可能首次去访问,像 google 呀,做 google 的 搜索呀,或者是做这个 facebook 的 搜索,或者是你的登录啊搜索,这也没问题。但是一旦你想要批量化的,比如说我们今天去在做这个对接的时候, 大家看一下我这个地方已经有了,对吧?呃,我今天在做这个,呃,分析的时候,我不可能,我在做客户开发的时候,我肯定不只是去找一个客户,我可能会找很多客户,对吧?那这个时候你如果太就是做的太多,你要收的太多的话,这个时候会导致你的嗯,这个 ip 就 你这个放 open call 的 这个 ip 出现问题,那这个时候我们会用到哪些问题呢?就是我们会遇到哪些问题呢?就是这里面给大家看一下啊。 呃,在这个过程中会遇到一个卡点,这个卡点就是,呃,你要去对接,你要拿到准确的海关数据,你得去对接那个一些海关的网站,对吧?海关数据网站 有国内的,有些帐务服务商也有海外的,这是一个你要去对接海那个海关数据,呃,单纯的靠 open call 其实是难的,你要去做整合,第一个整合海关数据,第二个售媒的反爬。反爬是什么?最简单就是你的 ip, 你 ip 访问太多的话呢,很容易就被禁掉,也就访问不了,对吧?这个时候很容易导致风控。然后呢?还有就是那个像 google, 你 要去搜那个 google 里面搜关键词或者搜相应的内容,也会出现一个问题,就是 google 也会有反扒,那这是第二个。第三就是数据结构的不一样,就是它有个什么问题呢?就是 可能官网的信息跟海关数据跟社媒的信息杂七杂八的,对吧?各种各样的信息都有,但这个数据结构不一样,你得去写一个就是针对数据的拆那个我们叫数据的清洗。那这个时候我建议就是你在这个 agent 里面,你可以让这个再给你去增加一个就是数据清洗的这个,这个这个 呃 agent 他 来负责把所有的信息呃拆出来,拆出来过后清清洗,清洗完过后再给到这个汇总的这个 agent 里面去,这个是要这样做。然后还有就是这个每个流程里面可能他出我们是直接,目前是直接调大模型哈。调大模型有个很大的问题,就我之前也经常讲,就是他会出现幻觉,就是你 他可能会用用用一些呃,就是不准确的信息,或者是他想象中的信息信息来忽悠,你说这个时候也会有这个卡点,还有一个卡点就是分析结果的不稳定,还有就是每个 i 键,我们在这个流程里面他只能只适合于单一的,单一的这个流程去跑,但是你要想让它 完整的串联起来,其实还是存在。呃,要做深度的去对接,要做深度的对接,那这块呢?呃, 我在这个视频里面,其实我是希望给到大家一个呃思路,大家知道哦,我要去做那个背调,用 open 来做背调,应该怎么去做?它的流程应该是怎样的?我的思路应该是这样的,但是最终你要想把这个呃 icon, 把它完整的跑起来,其实是你需要去呃考虑的问题,就是怎么去 跨越这个,一个是海关数据的准确度,第二就是怎么去解决反爬,第三就是怎么让数据结构统一,第四就是你的每一个步骤每个环节啊,它能够串联起来,每个 i 检测之间,在单任务没问题的情况下,我怎怎么样让让多任务能够串联起来,每个任务能够准确的去执行,而不是说我应该跑一个任务就就卡住了,对吧?所以说 这个才是说未来我们 open call 或者 ai, 我 想要在我的外贸的业务,我们今天是以外贸为主嘛?那你其他的业务链条其实也是相相,叫什么呢?呃,八八九不离十都是差不多的,就是怎么去跟你的实际业务串联起来, 这是我们做的这个数字员工系统,这个数字员工系统其实就是我平时讲的这些啊 agent, 我 们把它整合在一起,整合在一起,其实这些 agent 呢?它只是一个呃,我们可能你在呃正常的 那个浏览过程呢,你觉得,哎,就这个就是一个单纯的 agent, 比如说我们做这个客户开发,对吧?我们说这个客户开发的 agent, 或者是这个呃,我们这个地方叫任务嘛?它其实本质就是你可以看到我这上面有客户开发、市场调研,还有情报分析的这个 agent, 它每一个 agent 它的呃 职责和它的作用是不一样的。那这个 agent 呢?我比如说这个情报专业 agent 呢?我要干嘛呢?我需要给他赋予很多的技能,比如像刚才我们在这个啊, 前面讲的这些什么,呃,这个什么公司定位啊、产品方向啊、分析啊、社媒分析等等,这些数据分析我全部,我是授权给他,我,我把它定义为叫 skill 啊,把它定义成 skill, 那 这个时候在我的框架里面我会把它放得更大 啊,这种分析我们把它理解为叫 skill, 它本质来说它就是一个 agent, 对 吧?那这个 agent 呢?它要去实现我们说的,比如说客户的挖掘、客户的信息筛选、客户的这个海关数据的分析,那等等,它需要很多的这个能力,对吧?它需要很多的 这个能力,那个能力呢?在我的系统里面我们是怎么做的呢?就是把它,我们叫能力中心,或者叫这个我们你以为叫引擎中心,引擎中心里面有很多这个能力,这个能力是什么?就是你看到这里面 海关数据的抓取、企业信息的抓取、邮箱的提取,然后图片的生成、理应的查询,对吧?等等等等,商家的信息、 ip 等等,网页的抓取等,这些我们都可以把它理解为叫叫做 skill, 那 这个 skill 其实它是属于,我们可以把它理解为它是属于这个 agent 的, 然后呢?这些数据就它有了能力,那你数据从哪里来?我还去对接数据,比如说我是对对接中国的海关数据,或者是美国的这个数据,或者是 google 的 这些 啊,地图查询,我要用的 google 的 地图查询等等等等,我都会把它全部串联起来,串联在我的这个系统里面,他他他就需要去,就是我当我在这个,比如说我在首页, 我跟他一句话,比如说我今天要去做呃,这个客户备料的时候,比如说这个客户备料,对吧?我要去做这个客户备料的时候,我只需要告诉他公司名称好,那他就会自动去调用我整个能力库里面每一个能力。 啊,这个时候我不需要去,你不需要去说啊,我每个人之间怎么串联,他怎么去表达,他怎么去实现我的目标,对吧?你都不需要理解, 你也不需要去知道他怎么做的,你只需要在这里面输入我想要去做某个客户的背调, ok, 他 就开始去调,因为我这个地方我们还在做关联哈能力,我已经把它整合好了,但是现在这个串联上我们还得去完善他啊,我这地方可能搜索他不一定能够执行,但是我的思路是这样的,就是未来, 你就是你自己要要想要去做这个串联的时候,你可以基于我这个思路,就是,呃,先有这个框架,我可以基于这个框架,对吧?像我们刚才展示的这个,呃, 来看一下我们刚才展示的这个框架,那这个框架是单是单一的这个外贸获客框架啊,你跑一个客户没问题,你一旦跑多了以后,他其实中间就会出现很多问题,那你如果想要把它真正完善起来,你需要去完善。比如说我怎么去 避免爬虫,我要去解决这个 ip 的 问题,我怎么我要去获得准确的数据,我就得去解决这个海关数据问题,我要去在社媒里面不被封,不被那个,我要去解决反爬虫的问题等等的这些,我们可以把它叫能力,那你需要去不断去完善它。说我们在做这个系统的时候,其实就是呃, 大家之前有人在有小伙伴在我的前面的视频讲过,看到过,我们本来要计划发布,对吧?但是因为呃确实这里面设计牵扯的面, 牵扯的技能和这个流程非常非常的复杂,所以说我们已经跳票了有一两周了,那最近还是在不断的快速的去完善,现现在已经完成百分之八十到百分之九十了啊,很快会出来,所以说就是未来如果你对于想要说呃用这个 open cloud 去 搭建你的业务流,其实你可以基于我这个思路,如果你觉得你本身你做起来比较复杂,你面临各种各样的问题,你想要节约时间或者是用用我们的这种成品,那你也可以直接用我们未来发布的这个版本就好了。好,这个就是我今天想要给大家分享的关于就是呃如何做客户备料的 这个呃内容。呃,希望这个内容能够对你想要用 oppo 来解决你业务 开开展过程中遇到的这些问题,能够带来真实有效的帮助啊。感谢大家观看,如果你对于我们今天的视频里面的这些我和我们的产品或者是我们的那个文档有兴趣的话呢,都可以关注我啊,可以给我私信。好,感谢大家。

这节我们讲了 i 编码技术站的一个选型,编码 index 到底应该用 cologold code x 还是 open code 阿里斯框架应该怎么去选?这是今天的一个目录。 首先我们要选一个编码 i 工具,在当前这个时间节点,我会从这三个里面去选编码小龙虾,后面是这种 iint 加 i m 的 淘汰了,这种聊天工具加 iint 有 一定的应用场景,但在编码场景下显然不是最好的选择。然后我们把 ide 类的也淘汰了,市面上一大堆本质上是 vs code 的 加一个插件 iint, 感觉这样是时代的眼泪了,也不是不能用,非要用的话用 coser 吧。 但是为了后续的 hans 框架的兼容性,还有 ideek 沃尔沃 pro 的 一个定义,我们当下最好的选择就是 cologne code x 或者 open code, 这三个选起来比后面的 hans 要简单,其实就是看钱包厚度,如果你有钱,毫无疑问是 cologne code, 开箱什么都不配,就是能力最强的,但是得是原生的 cologne 模型, 生态也是最完善的,缺点的话就是场上高高在上。还有一个就是贵扣带子,就像是用不了可乐扣的之后的无奈之选,并且实际上他和这个 g p d 的 绑定要比可乐扣的还要严格,没法简单的就换成国内性价比比较高的模型提供商。可乐扣的更多是形式上的限制,加上我们频道主打一个贫穷,它的价格和国内模型对比起来性价比不高,我们就只能选 oppo 扣的了。 但是这个 oppo 的 也不是没有优点,免费就能用是它最大的优点,然后是它的扩展性最强的,逻辑上来讲上限是最高的,因为主要还是靠模型的能力。这些 ic 的 编码工具其实本身并不复杂,我们之前有一节是教你怎么自己做一个 ic 的 编码工具的, ok, 我 们这个编码 ic 的 就选完了,就是 oppo 的, 选哈尼斯其实就是选团队或者个人与 ai 的 一个协助方式,其实也就是选择合适的一个工作流。阿瓦西说我们百分之九十九的时间是在编排智能体,而不是直接写代码,然后同时再扮演一个监督者的角色。 我们其实讲 s d d 规范驱动开发那一节也拉了个表格啊,这边会有交集的部分,这次词典我们选择的是 superpowers, 其实就是不同场景下选择不同的哈尼斯框架,根据需要来灵活一点。这个表格我就不给大家细讲了。 然后咱们需要知道可乐扣的官方文章里写的五个简单的工作流,实际上刚才那些框架也都是把这些基础的流程拼接组合而来的,特别是这个编程者工作的模式, 基本上最后干活的时候也都是用它。我们可以简单的看一下这五个工作流程。首先是这个其实店将任务分解为一系列的顺序子任务,然后每个大模型最上一步的输出中间点可以插入这个检查点,作为这个质量的一个把关。 第二个是这个路由模型对输入先做分类,然后再将其转发到专门的后续处理分置。然后其实就是适合不同策略的场景, 然后是这个并行,然后多个模型子任务同时运行,然后最后汇总结果,然后就是我们实际上目前最常用的这个编排者。工作者的一个模式就是有一个编排者负责居中调度,然后多个工作者去负责一个执行,然后再汇总。 最后的话是这个评估优化的模式,一个模型的话实际上是负责生成,然后另外一个模型负责这个评估反馈,然后循环迭代改进。 这节是我们的哈里斯框架与基础的 ig 和 flow 的 一个对照,这个地方可以看到我们选的这个 superpowers 是 默认没有路由的。上节我们模型选型的时候讲又想省钱又想有好的效果方案的话是要选两个模型,一个能力强,一个能力弱。我们实际上需要小小的拓展一下这个 superpowers 的 默认流程, 在他默认的这个编排者居中调度,然后加上工作者实际干活的工作流中,引入一个顾问模式的一个流程。工作的实际解决不了问题的时候,我们需要路由到我们的一个顾问,也就是我们的专家。模型这块的话就不在这里展开细讲,后面实战的话应该会讲 excel 框架,具体应该怎么选,这边也总结了一下方案,根据自己的一个实际需求来就行,我这边也不细讲了。 ok, 这节内容就到这里,目前为止需要补充的前置知识就没有了,下节的话我们开始实战环节。


字节跳动最近开源了一个专门给 agent 的 设计的记忆系统,叫 open viking。 我 翻了他的原码,发现他的设计思路跟目前主流的做法完全不同。 今天聊一下他解决了什么问题,以及他是怎么解决的。先说当前 agent 的 记忆系统的实际现状和痛点。目前主流的 coding agent, 比如 cloud code 记忆系统的做法是这样的,记忆存成 markdown, 文件解锁的时候,递归,扫描目录,读取每个文件的前几十行元数据,拼成一个清单, 然后让一个便宜的模型从清单里挑出最相关的几条,读取全书,注入上下文。这套方案在编码场景下够用,记忆量通常不超过几百条,每条都是高价值的、不太会变的信息。 但当你把 agent 的 应用场景扩展到更复杂的领域,这套方案就开始暴露问题了。第一个痛点,记忆量有硬上限。 cloud code 的 active recall 机制,扫描上线是两百个文件,超过的直接忽略,对于编码场景够用。但如果你的 agent 需要管理大量的项目文档、用户历史领域知识,两百条远远不够。 而且随着记忆量增长,让模型从一个两百行的平面清单里挑选,准确率会下降,因为清单太长,模型的注意力会分散。第二个痛点,检索是单次判断,没有探索能力,模型看到一个招标清单,做一次选择就结束了, 他没有能力说这个方向看起来相关,让我深入看看这个类别下还有什么。如果最相关的记忆的摘药恰好写的不够好,或者用户的查询跟记忆的表述方式不同,一次判断就可能漏掉,没有递归,没有回溯,没有多步探索。第三个痛点,所有记忆平铺在一起,没有结构, 不管是用户偏好、项目背景,还是工具使用经验,全部混在一个平面清单里。模型需要从一堆混杂的信息中同时判断类型和相关性。如果记忆能按类型和主题组织成层级结构,模型可以先定位到相关的类别,再在类别内精确搜索,效率会高得多。 第四个痛点, token 消耗没有精细控制,要么读取完整文件,消耗大量 token, 要么只看摘要,可能丢失信息,没有中间力度。 一个记忆文件可能有几千字,但你当前只需要知道它的核心结论,不需要看全部细节缺少,先看该要判断值不值得深入,再决定是否读全书的分级机制。第五个痛点, agent 的 执行经验不会自动沉淀。 cloud code 的 记忆系统主要记录用户的偏好和反馈,但 agent 在 执行任务过程中积累的经验,哪个工具在什么场景下好用,哪种解析策略有效,哪些错误模式反复出现,这些不会被自动提炼和存储。每次新绘画, agent 对 自己过去的表现没有记忆。 open viking 针对这五个痛点,给出了五个对应的解法。解法一,用虚拟文件系统统一管理所有上下文。 open viking 不 把记忆资源技能分开存储,它把所有东西映射到一个虚拟文件系统里,用统一的 u r i 标识。顶层有三个目录, resources 放外部资源,比如项目文档、代码、仓库、网页。 user 放用户的长期记忆, 包括偏好实体记忆、事件记录, agent 放 agent 自己的学习记忆,包括案例、模式、技能。 agent 的 操作记忆就像操作文件一样,用 ls 列目录看有什么,用 find 搜索特定内容,用 tree 看层级结构。这不是一个比喻,是真的可以这样操作。为什么用文件系统?因为文件系统天然有层级结构, 层级结构意味着上下文,即一条记忆不是孤立的,它在某个目录下,这个目录有自己的描述,描述告诉你这个目录里的所有内容是关于什么的,相关的信息自然地聚集在一起。 解法二,三层分级加载,按需获取不同力度。这是 open viking 最核心的设计之一。每个目录节点都有三层内容。 l 零层叫 abstract, 大 概一百个 token, 就是 一句话,摘要用来快速判断这个目录跟我当前的问题有没有关系。 l 一 层叫 overview, 大 概两千个 token, 包含核心信息和使用场景,用来做决策。我需不需要深入看这个目录的具体内容? l 二层是完整的原始内容,只有在 agent 确定需要深入阅读的时候才加载。 源码里的实现是,每个目录下有一个叫 abstract 的 markdown 文件存 l 零,一个 overview markdown 文件存 l 一, 实际内容文件存 l 二,写入的时候,三层同时生成,读取的时候按需选择层级。 这个设计的效果是什么?在集成测试中,输入 token 成本降低了百分之八十三到九十六。因为大部分时候 agent 只需要看 l 零和 l 一 就能做出决策,不需要加载完整内容。 解法三,目录地归剪索,替代平面向量搜索。传统做法是查一次向量数据库,返回最相似的几条结果。 open viking 的 做法是一个多步的地归过程。第一步,全局向量搜索,在所有 l 零和 l 一 节点上做一次搜索,找到得分最高的目录。 注意,这一步找的不是最终答案,是哪些目录可能包含答案。第二步,在高分目录内搜索子节点找到的子节点,如果还是目录,继续递归下钻。如果是叶子节点,收集为后选结果。第三步,分数传播。 子节点的最终得分不只取决于自身的向量相似度,还会继承副目录的得分。一个高度相关的目录下的所有内容都会获得位置加成。 第四步,收敛检测。如果连续三轮搜索,结果没有变化,停止地归,防止无线下钻。为什么这比平面搜索好?因为它利用了层级结构提供的鲜艳信息。 如果一个目录的摘要跟你的查询高度相关,那这个目录下的所有内容都值得看一看,即使某些内容的向量相似度不是最高的。这就像你在图书馆找书,先找到对的书架,再在书架上找具体的书,比在整个图书馆里主本翻要高效得多。 解法四,解锁轨迹可示化。因为所有内容都组织在层级结构里,解锁过程就是一个从根目录逐层下钻的路径,这个路径是完全可追踪的,你可以看到 agent 先看了哪个目录的摘药,然后决定进入哪个子目录,最终选中了哪些内容。 出了问题的时候,你可以直接看解锁轨迹。是第一步局搜索就没找到对的目录,还是找到了对的目录,但在子节点搜索时漏掉了,还是分数传播的权重不对,每一步都是可诊断的。 解法五,自动记忆提取和自我迭代 open viking 有 一个 session commit 机制,当一轮对话结束的时候,系统自动从对话中提取。记忆分成八个类别存储用户。测四类, profile 是 用户画像, preferences 是 偏好, entities 是 实体记忆, events 是 事件记录, agent 测四类, cases 是 具体问题加解法, patterns 是 可付用的流程方法, tools 是 工具使用经验, skills 是 技能执行策略。 源码里的 memory extractor 类负责这个工作,他用大模型分析对话内容,提取后选记忆,每条记忆都生成 l 零、 l 一、 l 二三层内容,然后写入对应的目录。 还有一个 working memory 的 设计系统,维护一个期段式的结构化工作记忆,文档绘画标题、当前状态、任务目标、关键决策、相关文件、错误记录待解决问题。 每次更新的时候,大模型对每个段落做保持更新或追加的决策,而不是重写整个文档,这保证了工作记忆的结构稳定性。效果数据 open viking 在 集成测试中的表现,任务完成率比基线提升百分之四十三到四十九,同时输入 token 成本降低百分之八十三到九十六,任务完成率提升将近一半, token 成本降低超过百分之八十。 这两个数字同时改善,说明不是靠塞更多信息来提升效果,而是靠更精准地找到需要的信息。 一句话总结, open viking 的 核心思路是把 agent 的 所有上下文组织成一个有层级结构的虚拟文件系统,每个节点有三层力度,可以按需加载。 解锁的时候沿着层级结构地归下钻,而不是做平面搜索。层级结构提供了平面存储没有的鲜艳信息,让解锁从在所有记忆里找最像的变成先找到对的目录,再在目录里找具体内容。 最后说一个他没解决的问题。之前有一篇论文叫 man, 测试了 a 阵的记忆系统在急连更新场景下的表现。当一个上游事实变化后,依赖它的下游事实能不能自动更新?比如你搬家了,每天骑车十五分钟到公司,这条记忆还成立吗?结果是所有系统的准确率只有百分之三。 open viking 能解决这个问题吗?从源码来看,不能直接解决。它有一个 relations 机制,可以存储 u r i 之间的关联关系。但这个机制的设计意图是解锁时发现相关内容,不是写入时触发急连更新。 写入新记忆的时候,系统不会自动检查已有记忆是否受影响。不过它的层级结构部分缓解了这个问题,因为相关事实自然聚集在同一个目录下。 住在望京和汽车通勤可能都在用户记忆的同一个实体目录下。当 a 阵通过地归解锁进入这个目录时,它能同时看到这些相关事实,从而有机会在读取时发现不一致。 但这依赖 a 阵的推理能力不是系统层面的保证。急连更新仍然是一个开放问题,目前没有任何记忆系统从根本上解决了它。 open viking 让相关信息更容易被一起看到,但看到之后能不能正确推理出依赖关系,还是取决于模型本。