我是怎么用 open 可乐建了一个五个人的员工,给我一个人生产内容,它到底和豆包 daisy 有 什么区别?我有做了一个工作日记,它不算是成功日记,但是我的一整个搭建的流程,作为内容创作者,最缺的就是 灵感,拍什么选择题说起来乱乱的,但是我完全没有组织语言,就是根据我的一个呃工作流程跟大家分享一下。 你们想要文档的话,等我剪出来,我也可以研究一下那个评论区怎么把这个链接发上去。第一个,我们需要搭建一个内容的流水线,这部分就是我装几个机器人,他们机器人分别对应的岗位是什么?他们的技能从哪里下载? 温可乐怎么触发文件怎么建?牛马当多了。当我知道可以建机器人给我干活的时候,我是有坏坏资本家的想法,我想建的越多越好,但实际上我建下来踩过无数的坑,最后只保留了五个岗位,他们分别是选题、写稿、自检、 排版和发布。第一个岗位就是命题岗,有可能是我在我自己的视频评论区,也有可能是我在网上看到了一个讲的非常好的一个视频的链接,也可以是一段录音转的文字。我把这个岗位叫做命题岗,但更多的是来承载我命题的来源。 他根据我各种零碎的想法,声称一个写作的 brief 写给谁看的可行,解决什么问题?开头从哪个场景切入文章大概是什么结构?选题岗只负责这些事情,他不写文案,只给 brief。 选题岗会涉及到一个技能,也就是我刚刚说的,我把视频的链接发给他,他去抓取内容,这就是一个抓取的技能,你们直接复制我的技能 发给他,他自己可以学会。下面就到了写稿的阶段,也就是写手的一个岗位,拿到选题稿,给的伯瑞夫生成第一稿,给他设定的第一稿的话不需要反复改,可以是不完美的,但结构必须要完整,字数要够,核心的观点要在他需要的核心技能主要是这些, 他做的就是写稿,不做的呢,就是他不用修改,也不需要发布。那有问题怎么办?就到了我们质检的环节,质检是审核我们的第一稿,然后直接改成中稿的, 不给他批注,不打回,直接去动手去改这个文案,觉得语气不对可以改,觉得开头没有力量也可以改。像以往的质检环节,如果稿件不满意,那我就退回去让他重新写,但我这里设计的不是的,如果稿件不满意,哪里不满意你直接改。我之前是有一个打分标准的,满分是一百四十五分,一百二十七分才算质检。通过质检的环节搞定了,下面是一个排版的岗位, 他做的就是拿改好的文案去排版,去配图,生成封面送到我们草稿箱里。他这个技能是需要一个可以作图的 ai, 比如说 kimi, 千问也可以,说白了他更像是一个听你话的员工。嗯,他的脑子用的到底是豆包还是千问还是 kimi, 都是可以调整的。比方说我今天可以用 kimi 来做图,觉得图做的不好了,那我给他换一个脑子, 换成豆包的,换成 deepsea 的 都可以。需要的技能我也给你们截图了,如果你们下载了不知道怎么用,那你就把截图发给他,他可以自己装最后一个发布的岗位,也就是我把他理解为机器人老大, 他是做一个最终的审判,也就是类似于我这个机器人,他可以管剩下的四个机器人,我也可以直接在这个机器人的对话框里跟他讲,我说你去让谁谁谁去做什么什么东西,他可以直接指使四个机器人, 反正我说的乱七八糟的,大概的意思就是这样。为什么确定这五个不是八个,不是十个呢?因为我全部都试过。嗯,当时凯踩坑想的就是越多越好,把每一个环节全部都安一个员工,但是根本跑不起来, bug 太多了,多到你都不找不到问题在哪里,你也不知道他哪里骗了你, 改起来特别麻烦,说崩就崩了,工位越多,他断点就越多,所以五个刚刚好。第二个坑位就是我刚刚聊到的自检的坑位,一开始给大家的设定是,如果写手写的不满意,那你就打回去让他重新写,但是会涉及到一个循环,他会无限的循环他,你写的不行就是不行,他 循环了十次二十次,可能循环了一个小时还是不行。后来我给他设定就是,你觉得哪里不满意,你直接改,改完就是中稿了,效率直接提升了,很适合内容创作者,而且改下来内容的质量是不会变差的。我的工作岗位和他们分别负责的事情说完了,那我就说怎么操作这个事情,他的改稿在哪里改?是我直接告诉他,你在电脑里建五个文件夹, 五个文件夹分别是资料库、不瑞库、初稿库、中稿库,还有一个发布代码和状态,我直接截图,这下我们知道放哪里可怎么用了。那这个 oppo 可乐怎么下载呢?它有很多不同的版本,包括三月九号的时候,腾讯有给我发一个内测码, 像飞叔、 kimi 应该都出了小龙虾,但是最初版的小龙虾它就是叫 oppo 可乐这个名字,也就是它的官网直接去搜索,可以下载,下载之后就是建立五个机器人, 这个机器人不是说只能写文案,只能干嘛的,就是你根据你的需求,你想让他变成什么,他就可以是什么,如果他没有某些技能,那你就去网上找技能,找完技能把链接发给他,你说我喜欢这个技能,你去学吧, 下载吧,它就可以下载完成要给对应的每个机器人提示词,就是类似于喂给小龙虾的记忆,这边分别是我喂给它的提示词、代码。这个整套系统不是很完美的设计出来的,它就是无限的踩坑,踩坑踩坑,十个工位跑不动,八个工位跑不动。质检呢?难回答质检的问题,我还手动的去改过,它的文案 就是无数次的卡 bug。 奔系统,如果你想试的话,我就想办法看看评论区能不能把这个呃工作日期的这个链接发到评论区,如果不行的话,你们也可以把我视频链接复制发给小龙虾,小龙虾自己可以读取,读取完了他知道他该学习哪些技能, 他可以自己学,牛的很。还有多说一句,就是他们每一个人的关键词要跟他们说,他们负责做什么不负责做什么。在质检的时候可以加一句,你直接输入改完的文本,不需要解释, 不然他废话可多了。还有一个部分就是写出稿的写手的阶段,你可以给他设置第一稿,允许不完美,但必须结构要完整。我自己的打分标准。等一下我也截图发在评论区,看看会不会被吞。你们玩去吧,真的很好玩,他这跟豆包什么的完全不一样,他真的可以帮你干活。嗯,走了。
粉丝4403获赞9.0万

今天一条视频给大家讲清楚小龙虾、智能体、工作流,这三者之间的关系是什么样子的。在正式开始讲解之前呢,跟大家讲一下,如果说你想要云端部署或者是本地部署我们的欧本扣小龙虾的话,我已经把完整版的图教程打包好了,三个六低调学习。 这里呢我用这个 word, 我 用这个花笔的功能给大家去演示一下啊,我们用这一个黑色的笔吧,来大家看一下。首先呢我们先画一只小龙虾,这就是我们的 openclaw 小 龙虾, 它其实呢就像是一个载体,然后我们的智能体啊,就像是这个小龙虾上面的一个集装箱啊,龙是载体,然后这个箱子就是我们的智能体,我给大家写一下吧。 那么什么是工作流呢?工作流就是我们这个集装箱当中的一个个小球,装载在这个集装箱当中的这个东西。另外的话再给大家普及一下,就是我们各种的一些 ai 工具啊等等的, 他们呢其实跟这个小球的功能差不多,那么我们这里为了区分的话,我们画一个五角星好不好?五角星就是我们各种各样的这些 ai 工具也好,或者说是 skills 也好,都嵌在这个集装箱里面。那么我们现在来总结一下啊,这个龙的话就是我们的一个载体, 这个智能体的话,它就相当于说是我们那个大脑,然后像里面的这些工作流也好,他们叫做什么,他们叫做标准化的一个操作指南。 那么为什么给大家讲这个呢?就是因为啊,大家如果说,呃,你只用这个小龙虾,你让他帮助你完成工作的话,他的这个 talkin 算力的消耗其实是非常非常高的,我们自己这个实测过,你发三个邮件,他就需要花掉六十九个馒头, 所以说很多一些功能啊,我们就把它分装在这些工作流里面,然后呢交给智能体,然后再把这个智能体呢放在这个龙虾这个载体上面去。那么如果说你是云端部署的话,他可以通过这个多渠道的这个接口,比如说接入到这个飞书啊、 钉钉啊等等的啊,或者说我们的这个微啊、企鹅啊等等的。那么你通过这种入口,你就可以去调用里面的这些各种各样的工作流、 skills 等等,帮助你来完成工作,那么它的这个算力消耗会更加的低一些。 所以说大家如果说想要把这个小龙虾用好的话,一定是不能够离开我们的智能体工作流,包括 skills, 包括各种各样的 ai 工具的,大家能明白了吗?

我用 openclaw 实现了电商的自动上品流程,我从原来每天需要四个小时的上货流程,现在只需要五分钟,现在看到这个窗口是我日常上品的一个流程,找品、存图,新建商品,填入信息,然后一个品一个品,这样去操作。那我是怎么把这个步骤自动化的呢?先来看一下结果, 我现在的执行流程只需要打开飞书,因为我对接的是飞书这个通道,我只需要给龙虾发一句,开始执行自动上货流程,然后龙虾就会自动开始干活,他先会梳理一下这个干活的整个流程,大概分几个步骤,然后他就按步去执行,一直执行一个流程大概只需要三分钟不到,而且我的文件夹里面应该是有十三个商品的。 这个工作平时我们人工去做可能要花两个小时左右,现在就相当于无论我在哪里,只要我的电脑开着,我只需要跟我的飞叔说一句,开始执行自动上货流程,他就会自动跑完,然后告诉我已经 ok 了,所有的结果会放在我的桌面上,智能分组结果就是他帮我执行好的结果,所有的商品他帮我分好了组, 然后他又帮我把所有分好组的结果进行了一个压缩。那我最后上面的操作就是把这些压缩文件一键拖动到数据包导入就可以了。我从原来每天需要四个小时的上货流程,现在只需要五分钟。 那具体整个流程是怎么实现的呢?首先我需要做的工作是打开某多多的 app, 把我选中的商品去把这个商品的图片全部保存下来, 然后以及说这个商品的信息截图和价格尺码截图全部通过截图的形式和下载好的商品信息,这些图片混合起来,直接放到我电脑的这个桌面的文件夹就可以了。文件夹就是我保存下来所有我要上的商品,这里边会包含很多商品信息图, 然后还会包含很多的一个商品的价格和尺码图,因为这些我都是要一比一录入我的信息里边的。那可以看到我的这个大文件夹里面其实是不止一个商品,是很多组很多组商品。那么龙虾下一步就需要基于我这一个大文件夹去帮我进行智能的商品分组, 所以我把这些图片放到文件夹以后,下一步就看龙虾的操作了,那么它的执行步骤是什么呢?首先 第一步他需要打开我给他的这个文件夹,首先他需要基于我给他的一个大文件夹进行所有的图像识别,进行一些 使用一些算法将描述为同一个商品的图片归为一组,并且自动帮我分好组,可以看一下大概的结果是这样,所有相同的衣服会分为一个文件夹, 那么他帮我进行图片识别以后,非常精准的把所有描述同一个商品的图片都归为了一组。 第二步,它需要基于我提供给他的截图的那些信息,去提取对应的每一个商品的标题,价格、尺码和颜色,然后去自动录入表格。那最后一步,它会把它在过程中处理过的所有数据帮我生成一个校验表格, 方便我检查执行过程中是否出错,那整个环节就是龙虾帮我去做的,那这个质检验表格是什么意思呢?他会把他执行过程中所有处理过的数据信息帮我汇总到一个表格,这样我就很方便的去进行一个统一的预览,看一下哪个环节识别的信息,或者他执行的步骤有问题, 那我一眼就可以在这里看到。这个工作我只需要在飞书给他发一句指令,然后等他执行完之后,我打开这个教样表格,在表格里面快速去预览一下他所有的执行过程,有哪些数据错误了,或者分组错误了,我在这里可以快速的看到,然后再告诉他进行什么样的修正,这个工这个工作就完成了,是非常的方便。

我们可乐现在是很火,但如果你不理解它的底层逻辑,直接贸然去使用的话,最后就会发现你除了浪费自己的时间,还是什么都收获不了。首先我们不能是二极管思维,就是一定要用哪个,不能用哪个,而是说我们要在使用场景下选择合适的工具, 他们本身其实在底层逻辑上是百分百是一致的,核心的区别就是在使用场景和驱动方式是不一样的。这张图非常重要,大家一定要把这张图给理解下来。我们要用 ai 去解决我们实际场景的一些业务需求,比如你让他去生成一张图, 去做一个视频,或者是生成一篇文章,那我们在用这些 ai 智能体去给我们干活的时候,都会用到这三个维度。大模型肯定大家都会用,无非是大家用的大模型不一样, 你在处理不同的工作可能会选择不同大模型,有时用 g p、 t, 有 时候用 cloud 的, 有时候用 d s、 c, 有 的时候可能用 kimi、 豆包等等,但是你都会用到大模型。在这个维度上边, cloud code 和 opencloud 它们没什么区别,都是对接的,我们已经知道那些大模型。 第二个维度就是 agent agent, 如果你看过我之前的一些视频,就会知道,一个完整的智能体,它需要具备规划、执行、反思、记忆, 还有调用各种工具的能力。在这个层面上两者也没什么大的区别,就是它们都可以去调用大量的工具,去对接各种各样的模型,我们可它也是可以同样调用各种各样的模型的,也是可以同样的具备这种工具调用能力, 像这个项目这块是有一区别的,我如果用 cloud code 的 话,我是基于某一个项目单独创建的文件夹,然后它的上下文都是基于这个文件夹里面的上下文,还有公众环境。而这个欧盟 cloud, 如果你安装电脑里面,它有个最大的安全问题,就是因为我们把整个电脑都当做一个上下文去交给他了,这是一个很大的区别。 但是不管它这个里面的一个区别是怎么样的,这三个维度全都是一模一样的,都需要具备大模型 agent。 还有项目本身所具备的上下文,区别就在于上下文的多与少, 核心能力都是执行文件读写,然后多步骤进行推理,还有工具链的调用,这是它们的相同点。但是而让这个欧盟卡号看起来好像更加的这种智能或者灵活的一个原因就在于它们驱动方式是不一样的。 我们展开讲一下,如果是可拉库的话,你,你给他派一个活,你让他帮你写一篇文章,他就开始去理解上下文,理解完上下文开始理解这个任务本身,做任务拆解,任务拆解完之后就开始规划,最后执行,执行完之后 等你的反馈就是把任务交给你,你看你下一步需要做什么,如果你没有进行下一步输入,那这个任务就算完成了,就停下来了。这是可拉库的,它属于一个可控的一个状态。 而这个欧盟卡拉,你推一下他,他直接就自己开始运转起来了,你给他交了一个任务,比如你做一次监控,你给他派多个任务,他多个任务每隔一段时间就会开始执行一次它的运行逻辑,什么,它里面会有很多这种 md 五结尾的文件,你可以在你的如果你不电脑里面已经部署了这个欧盟卡拉了,你就会发现它这个工作空间里面会有很多这类文件。其中有一个就是 heartbeat, 开始系统读取完这个文件之后,它整个智能体 agent 就 会被唤醒, 检查是不是有任务,如果有就开始执行,这个时候不需要人工干预了,执行完之后就返回内容,返回关键词之后就是三十秒,他会触发下一次的一个周期, 像克拉蔻呢,如果你没有,他就直接到这一步停下来就不动了,不,就因为在他的理解层面上,这个任务就算已经完成了,因为你已经验收了。然后这个不一样,就是欧曼克拉,他是他这个三十秒就像人的心跳一样,只不过他这个跳动频率是三十秒跳一次,这种就会给我们一种,好像他具备了一种生命力一样, 所以他可以做很多这种监控型的自动化任务。那有了这样一个区别,我们就发现他们都是一个智能体,那可以给我们干活的时候就相当于两种不同类型的一个角色, 一个是负责项目攻坚型的同事可乐的,他在旁边等着我们给他安排工作,我们让他干啥就干啥,干完之后汇报我干的怎么样,现在结果是怎么样的,等待你下一步给他指示,如果你没有指示,他就会停在这了。而这个欧盟可乐他就相当于你已经提前在系统里面给他设定好了这种文件, 这个时候他就会记住你的习惯,你不说话的时候,他也在后台默默地干活,如果发现一些事情,他就会主动去介入, 它会有一种主动性在里面就有这么一个角色的区别,大家把这两个理解了,就会知道 cloud code 和 open cloud 它们到底 区别在哪。但是二十四小时运行不一定是好事。就是这个创始人他也提到过一个问题,他可能是一个虚荣的指标,我们听起来二十四小时运行是一个很厉害的一个功能,但是如果这个时候我们缺少这种引导,它不告诉它愿干什么,它跑再久,它可能产出内容是没有价值的, 这是一个很大的问题。我们想让自动化,但是我们要继续给他一个正确的自动化。在尤其是在这个业务环境里面,如果我们失去人工介入,他可能就会出一个失控的状态。 这也是为什么很多人部署了问可捞之后就是不知道怎么用,经常会出错,用到最后就变成失控的一个状态了,你也不知道该怎么去调他。 而且出现这种很多案例,比如这两个案例,有人在用这个 open color 去做测试,就发现他本身就已经有三次是测试失败的,但是这个 open color 他 把那些能通过的测试全部通过完之后,就直接汇报一个测试通过,但是他那些测试失败,他就直接就屏蔽掉不管了, 这个样就会造成这种数据篡改就很严重。另外一个事情就是用户给他讲继续干你能干的事情,然后他就自己去干活去了,但是就会发现他居然把这个储藏空间里面内容给清空了,造成这种数据一个 丢失,也是风险很高。自动化运行一定程度上这个风险对于我们大部分用户来讲是你控制不了的,很容易出很大的风险,尤其是对于你这个真实业务中。 所以我一直在强调为什么限阶段做业务一定要以可供为主,所以如果用可我们当场发现的问题就是发现他给我们输出内容不对,这个文章味道不对,这个图有瑕疵,那我们就直接让他再次改就可以了,因为我们就在旁边陪着他一起干活, 这个损失就很小,它容错率就可以把控住。但是如果你用 opencloud 去干一一次活,它里面会有盲区,我们看不到,因为它自己默默去干活去了,三十秒触发一次,这个时候等运行到最后一次错误和又一次错误这种不同的叠加,最后把一个大的错误就可能造成很大的问题,就风险就被无限放大。 但是对于我们这种实际做业务来讲,我们还是想求稳,如果你只把它当玩具,那你可以去试一试这个 open class, 所以 目前我们如果要两个工具你都要去用,我推荐一个方式,就是你要用 cloud code 去把这个事情给做对, 把这个事情做对之后再交给 opencll, 让这个本身就已经做对了的事情持续的去运转,这是一个目前来看是一个不错的思路。那怎么样去把这个事情做对之后交给这个 opencll? 你 要去在你本地用 cloudcode 把它用熟练用好之后,里面那些 skills 打磨的都可以百分百不出错了, 在百分百不会有问题这个时候你再去把它这个 skills 去迁移到 opencll 里面去了。你用不好 opencll 一 大原因就是你没用好这个 skills, 就是终极法则,就是先把事情做对,再考虑自动化,而不是事情还没对的时候就直接让自动化,那这个自动化出来的问题就会非常大,我们需更需要的是一个可控的同事,如果你这个自动化本身就是存在很多问题的话,那县级段至少我我是不会去考虑它的。 如果你特别想用,现在不是很多厂商他们都上下了一个功能,就是一键部署这个欧盟格朗嘛,你就直接在一他们云端去试一下,不去触及你本地电脑,那你先体验体验,体验完之后你觉得它这个能力边界是可以受把控的,你再考虑再找一个你的闲置电脑去在本地部署,再去感受去玩一玩就可以了。

这条工作流呢,就是上传一张图片,然后自动生成一个创意的视频啊,这个视频可能没有演示,没关系,然后我们根据这条工作流给大家去搭建一下,好吧?还有一个呢,咱们就是通过输入一句话生成一个视频,这两种形式啊,其实有类似的地方。 好,这个就是我们要搭建的工作流,它整个的一个节点的一个情况啊。那么我会把今天的东西放到哪呢?放在这里边, ok, 放在这里边再增加几节,好不好?大家可以有时间去看一下。好吧,如果说今天没有学会的话, 然后我们先来看一下这个工作流啊,大致的先梳理一下他的工作流的节点都有什么,然后我带着大家一步一步来去操作,好吧?嗯,应该是这个,哎,就这条工作流, 这里边一共有几个节点啊?啊?一二三四五六七八九十十个节点,搞定这些事啊,好吧,嗯, 然后我先说了,你现在是需要一张图片,对吗?上传一张图片,然后你看这个地方,大家先不用管,好吧?这个地方先不用管,我后面会告诉大家这个东西是要做什么用的。然后 第二个我需要用到一个大模型,这个大模型是干嘛的呢?就是你上传的那张图片,这个大模型要能看得懂,他要知道这张图片里边装的是什么东西。 ok, 根据这个东西之后啊,他做了两件事。什么两件事呢?第一件事他要生成 一个视频提示词,因为我们给他一张图片,他要通过图片来生成视频的,对吗?那么所以说啊,就需要有视频提示词, 然后呢?我们的这个视频里啊,最好是有什么呢?是有字幕的,对吗? 那所以说我就一起让那个大模型把这两件事都给咱们做到位,好吗?第一个让它生成视频体式词,我们通过视频体式词干嘛呢?生成视频,那这些地方啊,就是为了生成视频的,还有增加字幕的地方,增加背景音乐的地方,都会通过这几个 节点来去实现。好,那么这个地方就是生成视频,那生成视频需要的是什么来,他需要有一张图片,还有什么呢?还有视频的提示词,搞定,那这个视频啊,就能够生成了,好吧,然后我们要干嘛呢?我们要根据 这个视频的内容啊,拿到这个视频的内容之后,让他给我找到一个匹配这个视频的背景音乐, 那么我们怎么去找到这个电影音乐呢?不需要你去网站里去找啊,你只需要通过一个插件找到它就可以了。好,那么我说了,你这个视频里边应该还有字幕,那么通过它生成字幕的独白 能理解吗?好,字幕有了,有字幕的独白。好,那我把上面所有的东西全都塞到一个视频里面,那么下边啊,就是塞视频的方法。好,那基于此,咱们开始构建一条工作流。好吧?来,准备好了吗?准备好的扣个一, 南哥带着你们一步一步来实现这个功能,这里边我会讲一些核心的底层的逻辑,点击 cos 编程, 然后怎么办?你可以直接返回旧版也行啊,那么你可以直接在这个资源库里面直接创建一条工作流,也是没有关系的,直接点击它,这个时候呢,你可以直接创建点击这个资源啊, 有个工作流,那么咱们直接就设置一下,那这个咱们是什么呢?就是一句话生成一个视频,是不是啊?然后出什么 video? 一 句话生成一个视频, 那么这里边都需要有什么?第一个要有图片,还有什么?第二个要,哎,这个不让我去写啊。第二个呢?第二个是要有生成视频提示词,还需要有什么呢?还需要有一个啊? bgm, 就是 背景音乐,对吧?第四个呢?第四个需要一个,嗯,字幕, 第五个独白,行吧,这我教大家的是底层的核心逻辑啊,你们学会这个之后,你们可以自己去做视频了,那这个视频里边的所有的元素呢?我都把它通过一条工作流给你们最简化的形式给你们, 呃,搭建出来,然后你们以后要搭建工作流呢,就通过这种方式去做就好了,好不好?来,那我直接啊点击确认就好了, 这个时候呢,我就创建了一条工作流,那在这里啊,他默认就有一个开始跟结束啊,那在这里面我会需要在这条工作流里面加非常多的内容了。那么首先我说了,你需要有一个东西,你需要有一个一张图片,对吗? 图片,好吧,这张图片你需要把它扔进来,那么这个扔之前呢?我们需要找到 file, 再找到 image, 什么意思?因为你上传的这张图片它就是图片的格式,你只有这样去设置变量的类型,它才能够认识。 ok, 能理解啊。好,我们先设置这一个变量,那以后我们工作的运行的过程当中就需要上传一张图片,那么在这里啊,我需要用到一个大模型,这个大模型的作用很简单,那么点击加号,找到大模型,这个大模型的作用是什么?来,我们来看一下它, 把它放在这里,咱们对比着,一个一个来啊,看,生成视频提示词用的,然后再把字幕生成出来。好吧,那么在这里面啊,咱们就给他改一个名字啊, 那第一个步骤就是干嘛呢?生成视频提示词,加字幕数据,我这样去拿。好吧,那么在这里啊,这个提示词呢,我就不写了,好不好?大家,大家 在这里简单看一下就行。好吧,好,那在这里呢,我把它直接复制过来啊,复制过来, 那么我直接塞到哪里?塞到系统提示里边干什么用的呢?不就是说让这个大模型看懂你这套提示词,这个提示词就是给大模型下的一个命令,一个指令让他怎么去工作的,对吗?那么在这里啊,你一定要注意,你选择的这个模型很关键了啊,因为我们现在是通过图片 让大模型去看,也就说大模型一定要有图片的理解能力,所以说这个时候我们应该去选什么呢?一定是带这种图片理解的。那我可不可以用一点八呢?当然可以啊,但是他有一点点慢, 那我平常用哪个呢?想快一点的话,这里面有个豆包一点六极速模式,他一定也是有 图片理解这种能力的,所以说一定要选择这种,你不能选择哪种呢?像这种他就没有,他就看不懂视频,也看不懂图片,这个就是单文本的这种模型啊,这种模型叫做多模态模型。好,我直接选择它。 一点六啊,好,你看这里边改变了,那么在这里边我说了,你首先应该拿到一张图片,对不对? 是不是应该拿到一张图片,对吧?那你在哪里去找啊?在哪里去找?你看你现在有一个模型了,然后你不应该选择它啊, 为什么不能选择它?因为这里边是只输入文本类型的,如果说你想要这个模型看的明白,看张图片,你应该找到这里边,看到了吗?有个视觉理解输入。那你点击这个加号之后啊,你应该把在开始节点上传的那张图片给我拿过来,有没有问题? 图片拿过来了。好,那你这张图片怎么给到大朋友去看呢?你当然可以直接在这里面去写,看了吗?图片 啊,直接选啊,你这里可以把它干掉。没有需要,我这里只需要上传一张图片就可以了。那我坐在这里,我说了,你应该生成两个东西,一个是视频里的词,一个是 字幕,这就是你大博行最终要输出的内容,对吗?那么在这里你应该设置两个变量了,对吧?这两个变量一个是存视频的 提示词,对吧?那咱们用英文怎么写呢?就是 video 杠 prompt 啊,这个懂不懂英文都无所谓啊,你可以自己去用拼音也行。还有一个叫什么呢?字幕啊,字幕就是 captcha。 哎,我,为什么,我为什么要用英文啊?因为我觉得 可毒性高,就仅此而已,我上面改一下,这个写错了。好,那他们两个应该都是一个字母串类型的。 ok, 搞定了啊,那这个大模型他干的活就已经明确了,那么接下来是什么呢?既然你有图片又有视频提示词,那我相信大家应该能知道咱们能够生成视频了,对吧? 那么你生成视频的时候,应该找到一个节点,点击添加节点,然后这里面有个视频生成,好吧,你直接点击它, 连它完成之后啊,咱们直接把这根线拔掉,拖拽过来,好再把它连接过去。那这个时候大家能想到你现在是有一张图片还有视频提示,他就能生成视频了,你点击它, 我们使用到的是图文生成视频,能理解吧?既有图片又有文字生成视频,那么在这里面你视觉模拟选择的是什么呢?啊? cds 一 点五 pro 好 不好?选择它啊?然后我们这次搞一个一零八零 p 的 好不好 啊?那这个比例你们看好啊,十六比九什么意思?横屏,你们现在看那个直播就是横屏的,你要想换成视频,竖屏的话,你直接去换啊,还可以四比三,对吧?无非短视频啊,就两种形式, 那我想用这种形式的好吗?九比十六的竖屏看。好吧,那么这个时长呢?定义是多少呢?十秒钟可以去写啊,一单个就单节点生成视频,最长的长度是十二十二秒, 你不能写一百秒,一百秒自动看,自动十二秒,能理解了吧?所以这里是十秒,而且你的这个时长你要一定要确定好,你要给你这个模型输出的那个内容,你要强调 一致一,一定要有一致性,能理解吗?没有一致性是不行的啊。好,那么在这里其实我还需要设置一个什么呢?这个是不是包含水印啊?我们就默认是不包含对吧?啊?是否包含音频看了吗?哎,这个包含 也就说我们那个视频里面应该会有音频的好不好。那我们先来测试一下,看它具体带不带嘛。好吧,这个就有点像 sorry 二了,能理解吧,各位。 sorry 大家都用过吧,一个国外的非常厉害的一个射程视频的模型, 跟咱们的阿里的 one 二点六差不多,都是影视级别的。好,那么在这里你应该输入什么呢?输入什么?是不是应该有两个两套东西啊?第一个,第二个,第一个你输出的应该是它的大模型的一个开设。 是吗?是开设吗? no, 肯定不是,是你的 video pro, 也就是你生成视频的提示词。好啊,那么你应该还有一个是什么呢? 还有一,一个是一个啊,选择他,选择他,选择图文视频啊,不要选错啊。自动匹配的话啊,这个自动匹配是什么呢?是根据 你上传的那张图片来确定的,我们还是用九比十六,好吧,或者说咱们就自动匹配吧。好吧,因为,呃,稍等一下,我们会需要下载一个图片,它自动匹配,好吧,十秒钟,然后这里你的那张图片应该有了吧,直接去选择手人图片, 你开始接点上传的那张图片。好,拿到这个东西之后啊,我们应该把视频提示词给到这个模型,那这个生成视频他算什么?他也算大模型,他只不过是能生成视频。 ok 了,我设置完成了,那我的视频啊就已经设定好了,然后就是在这里啊,我可以输出一下这个视频。好吧,这个叫做视频生成啊, 视频生成它是一种图文形式的,对吗?那好,咱们去应该去。嗯,去百度找一个,找一张图片。行吧,随便找一张, 随便找一张产品图片啊,我看一下有没有。咱们找一张图片,这个时候呢?汽水,找个汽水吧。好吧,我想想找一个最好是涂干净一点啊,干净一点的汽水,然后好看一点的。 这个是什么?这个吧,好吧,就这个啊, 这个大家应该都见过,好像是,是吧,然后好哇,我怎么办呢?我这里啊,点开它,我截张图出来, 就这个瓶子,然后我就把它放到桌面,好吧?放到桌面啊,好,我现在放到桌面了,然后呢?我们返回到这里,然后找到我们的扣子。工作流啊,它在哪?它在这里,咱们现在就可以直接试运行一下,看它生成的效果了,对吗?你直接点击试运行, 然后你可以上传一张图片,点击它,然后呢找到你的这个 这个内容,好吧,上传啊,我们等待它。 ok, 上传完成之后咱们直接点击视频就行,我们先测试一下它的内容啊,能不能生成。好啊,咱们今天快速的把这条工作流搭建出来啊, 这个时候它就开始生成视频了,就是我跟你们去讲,你们一呃,你们在搭建工作流的时候,运行的过程当中一定要查看这里面有个运行成功的这个结果, 就为什么很多人说难给我,我工作流这显示运行成功了,但是一直看不到东西,就是你下边的数据你没有看,能理解吧?啊?这里边一定要有东西,这个有点慢啊,没关系。嗯,让他运行过程当中我们来看一下这段工作流吧。 好,那接下来我是通过这个大模型是干嘛呢?就是我需要让他看到这个视频,然后通过这个视频里边的背景音乐,好吗? 那他的作用是找到匹配这个背景音乐的那个关键词,为什么?因为我要给 c l 节点去用这个节点啊,就是通过关键词找音乐去了,所以说你是通过大模型输出关键词,然后给到这个插件来帮我们去找音乐, 能理解吧?那这个音乐啊,就是我们的背景音乐,他应该运行成功了吧?啊?很慢。然后这个是干嘛呢?我说了刚才咱们上边的这个大模型啊,他生成了一个字幕,这个字幕我怎么把它转化成音频?我就需要用到这个插件, 插件就有了,独白那个音频就有了,就是搭建工作流的时候呢,一定要有逻辑性啊。逻辑性这么慢吗?太慢了, 我先,我先稍稍的暂停一下,应该应该他不能这么慢。呃,我换一个模型吧,好吧,我换一个模型。这里边啊,咱们选择默认的这个吧,我感觉那可能太大了,有可能, 呃,咱们小一点吧。呃,七零七二零 p 的, 好吧,然后默认十秒,好吧,咱们重新换一下啊,我觉得他有点慢。好,那么咱们 我先不让他生成了,好吧,然后咱们继续往往后边去搭。好吧,那接下来咱们要做的是什么样一个事情呢?是通过大模型去找那个关键词了,对吧?那么在这个时候再拖拽出一个大模型节点 啊,找到它,点击添加节点,找到大冒险节点。那它的作用是什么呢?它的作用,它的作用是 通过通过视频啊,找到 bgm, 就是 背景音乐嘛,背景音乐的什么呢?关键词 这个大模型的作用,那么你找到这关键词应该给到一个插件嘛?那这个插件在哪里去找呢?你可以直接点击添加节点,然后往下去划,这里面有个背景乐库,看到了吧?啊,你们可以直接在插件里面去搜,你看它的显示是什么啊? search bgm 啊,它来去找到 背景音乐,对吧?好,那么我们啊,先配置一下这个大模型节点,这个大模型的节点呢? 提示词啊,很简单,看到了吧,根据这个视频匹配相应的音乐,背景音乐,你只需要给我输出这个背景音乐的关键词即可保存到变量 bgm 杠 key word。 什么意思? 我能不能先把提示词拿过来,然后这里面我们用到的是什么呢?豆包一点六极速版 啊,他一定能够看懂视频。那么在这里啊,这个输入这个位置啊,我就干掉了,因为我不需要他,我只需要让他去看到视频,对吗?那这个视频在哪里呢?是不是你上有的这个生成视频图的这个 video 拿过来,对吧?那么你怎么去把这个内容给到他呢?直接一个花括号, 这样的话这个大象就能够看到这个视频了,然后呢,你生成的那个提示词啊,关键词啊,把它复制出来,你给他保存到输出这里边搞定。 好吧?搞定了啊,好,那么再连接它,它是什么?通过关键词查找音乐,对吧?好,那你这里面看到有个 key word 了吗?有没有看到?那这个东西啊?它就是一个 关键词而已,那么你应该选择的应该是谁呢?应该是上游节点,就是通过这个大模型生成的那个 bgm, 那 个关键词直接拿到它就能找到一个音乐了,在这里边。好,那你拿到这个东西之后,然后要做什么?做什么了? 你是不是还要生成个独白啊?对吧?好,那你再拖拽一下,找到那个独白,那那个独白它是一个插件,那在这里啊,你直接去找到它,那这个插件应该是语音合成,第一个看到了吧?一定是第一个啊,点击它有一个 speech, 就是 它啊,你直接点击添加就行了。 好,那我问各位,你的这个这里边是不是应该拿到一个文案的东西?这个文案是在哪里生成的?还记得吗?是不是大模型这里边生成了一个文案? 生成的文案他直接拿过来把这个文案变成音频就好了。好,在这里边 啊,字幕变成音,变成音频,搞定。 那你在这里选择的时候,你看到这里有个 text, 这个就是你的文案内容,拿过来就好。在哪里呢?是不是在第一个大冒险这里边有一个叫做 caption, caption 我 说了它是字幕的意思, 好,点击它,剩下呢?还需要选择一个什么呢?这里边有个 voice id, 你 应该去选择一个音色,就是你在你的视频里那个独白是什么样的音色?中文 预设音色,找一个听一下。今天的阳光真好啊,感觉整个人都充满了活力呢,真想去外面跑一跑,去探索那些有趣的。 亲爱的,我们到此为止吧,就他好吧,就他好了,选择好了,他好,搞定。 这个是字幕变成啊,那接下来要做什么样的事情?这里大家一定要重点看了啊。我问各位,你们现在是不是背景音乐找到了,你的视频是不是也生成了?那你能不能把你的背景音乐跟你的视频做一个融合, 能理解吗?好,所以说这个插件的作用就是把音乐跟视频进行融合,那你可能说你不知道这个插件怎么去找到它,你也不知道它的名字,点击这三个点,找到插件详情,你看有一个视频剪辑, 视频剪辑,但是你看到这里有这里边了吗?将视频音频叠加成视频。好,那既然知道了,知道了,那怎么办啊?就直接找到它,可不可以好,头拽出来,你应该去找到哪个东西啊? 这个东西是我保存了我保存的东西,你看这里面有个视视频剪辑工具了吗?点击它,找到它这个 video audio 音视频,点击它就行了。好,那这个时候 咱们开始选择了它,这个是什么呢?原视频,原始视频加 bgm 音频,对吗?应该是这个逻辑,点击它,你应该找到 audio, audio 就是 音频、 video 视频这两件事。搞定 好,这个时候点击它,然后我们去找,首先要找生成的那个 音乐,对吧?这里边你点击它的时候这么多,你选哪个啊?选 bgm, url, 看到了吗?第一个找到它, 好,音频找到视频呢?视频是不是我们已经生成了?视频谁生成的?是不是你的这个节点生成的?好,叫做 video, 找到它。 好,这个时候啊,我先,嗯,什么都不调,但是这里边有个问题是,在哪呢?我问各位,你的视,你的视频是十秒钟,如果说你的音频是三三分钟怎么办? 这个时候合成的时候就会出现一个大问题,能理解吗?你的视频比如说它的长度是十秒,你的音频不好意思,咱别三分钟了,三十秒, 好,三份,十秒十秒的,对吧?我说这个长度啊,如果说咱们不在这个节点里边定设定的话,你的这个视频总长度就是三十秒 到十秒钟,这会卡到最后一针,后边的视频没有了黑屏,剩下的音乐还在播放,能理解了吧?所以说在这里边大家一定要想到一个东西,这里边怎么去控制,你看这里边有个东西叫做是否执行音视频对齐,默认 什么?不做音视频对齐,那么我想做音视频对齐啊,那么想做,那你就告诉他,是啊,触就代表是的意思,那这个时候呢?你这样去做,还有个问题,就是我们以谁作为切割的标准? 我当然是想说通过视频的长度作为切割的标准,对吗?那么你应该在这里面做一些事情,这个事情啊,可能就是一句话,那这句话你怎么去添好?不知道怎么去添的,来,认真看, 认真去看啊,看到它了吧,你有一个点击详情啊,查看啊,你会发现我们找到刚才你看右上角或者点击它都行啊, 这个就是告诉大家怎么去使用这个插件,当你们不会用的时候,你就点击它去查询就行了。好,往下去找,我关掉啊, 这里边你会看到我们刚才选择了是什么,是否执行音视频时长的对齐,对吧?我选择了是,那么你应该以谁为切割的标准呢?其实在这里 你只需要把它复制过去就行了,它是一个对象类型的,所以大家一定要懂接送的数据结构,以及你们要懂什么是变量,看了吗?这个 video 视频的意思,这个切,这个代表就是切割,以谁为 精准切割呢?以视频的长度为精准进行切割,切割谁呢?切割你音频长度是十,我不管你音频长度多少,我也切成十秒的, 能不能理解?所以说你只需要把这个内容复制一下,然后咱们把它粘贴过来就行,看到了吗?这里面是可以放固定值的,也可以选择上有的 节点输出的内容,两种形式都可以。然后我讲到这里,大家有没有听得懂?这才是最完整的 设定的方式,缺一不可,如果你不这样去设置,就会出现我刚才说的那种情况。你现在 bgm 有 了,接下来咱们要干什么事情? 你看,我问各位,我问各位一个事啊,咱们再标注一下,你看我是一个一个视频经叠加的,我问各位,咱们这个视频能不能给他标注一下,他就等于什么视频一行不行, 这是咱们做出来带 bgm 的 视频,那我说了,你这个视频应该还带什么?还带字幕的音频呢?那怎么办呢?是不是应该还找到它音频谁生成的?是不是它生成的?它生成了音频,那我生成的音频是不是应该跟 这个节点生成的视频进行叠加呢?当然是的,那你直接啊再点击这个加拖拽一下,好吧,然后我们直接再找到我们刚才的这个视频剪辑,然后找到谁呢?找到他, 那这个时候我现在还需不要用切割呢?其实可能不需要进行切割了,为什么这样去讲?因为我的这个音频的长度啊,我已经算好了,就是十秒, 所以说你的这个十秒我就不用切割了。好吧,那么这个是什么呢?这个是啊,视频一叠加什么呢?叠加独白音频,他其实就生成独白的。好吧,字幕变成独白音频,好吧, 好,那么你找到那个视频在哪里?先找到音频音频啊,你应该找到的就是, 是不是生成独白的什么东西呢?它这里边有个 link, 看到了吗?啊?选择它 link, link, 它就是个 url 啊,咱们选择它, 那你应该还有一个视频,视频不就是视频一吗?是不是?那找到的就是视频一,等于这个视频一啊。视频一的什么东西呢?一定是 url, 别的不要选, 因为我们的视频啊,在扣子里面玩,你在浏览器上玩啊,他就会变成 y, y 的 这种形式,并且他会变成这种字幕串的类型。好吧,你点击它,那这个时候我们就搞定了,那下边的东西我可以不选了。 ok, 我 又搞定一件事,那么你现在还是说南哥你的字幕怎么办?我现在应该还缺个字幕,对吗? 你看这个叫什么? audio to subtitle, 你 看它一定要跟谁组合起来用呢?就是把你的音频里边的内容 提取出来,把它变成字幕文件,就像我们的这个某信,能把你的语音识变成文字一样,一个概念,它的逻辑就是它。好吧,那就是 audio to subtitle 这个插件,这个插件怎么找到它?偷转一下,然后你去找什么呢? 视频剪辑工具找到的。就是找啊,我还去找,认真去看 audio to subtitle, 找到它。好,那这个这里边啊,有个英文,这是什么东西? source, source 是 什么?就是你的音频到底是谁?音频在哪儿呢?各位,音频在哪儿?音频是不是你,你这里的音频啊? 把你的音频里面的内容变成字幕。 ok, 这里边看啊,他有个字幕的类型,我先等等一下再说啊。这个是往里去添加字幕啊,咱们一个一个去做,你这是什么?把 这是音频转换成字幕文件,因为我的字幕一定要添加到你的视频上面,那么在这里怎么办啊? 我是需要把它添加到我的视频上吧,对吧?那你再找到视频剪辑工具,里边应该有一个叫做 add, add subtitles, 点击它。好,这里边有个问题,有什么问题呢? 咱们啊点击来看一下这个东西,看叫字幕的描述,这个字幕是在哪里?它是什么?它生成的是什么? 咱们往这里去看,你点击它,你看我是把什么视频加独白二的那个视频拿过来了, 他可以拿视频,也可以直接拿音频,能理解吗?我这里直接拿的是上有简短的视频,这个视频里边有独白,能理解吗?有独白的那个声音,我把声音变成了字幕文件, 你可以这样去拿。好, ok, 那 我依然也要这样去操作,我可以直接去选择他。两种形式,能理解了吧?你们自己做的时候一定要自己去测试一下,两种形式都可以。 这里边虽然说写的是视视频输入地址啊,其实是音视频,能理解了吧,那么我可以可以选择谁啊?可以选择啊,这个,这个咱们就等于视频二了,好吧,咱们标注好啊,我拿的是视频二里的, 能不能理解这里我选择的是啊,我看他们两个对,他把音频音视频我再标注一下,音是 因视频转换成文件,那我选择的就是上游节点,就是他这里边输出的那个视频,最后他输出的那个他输出的视频啊,点击他,你啊关插掉他,然后找到的就是他吧,视频二,对吧?有一个叫做 u r l, 拿过来 搞定了,他就生成了一个内容。好,他生成了这个内容之后,我是不是应该再叠加一下,我不知道他是不是晕晕菜了,有没有晕,你看变成视频三了,那你的这个东西你看啊, 这个东西我先不讲啊,我先说你应该是有一个什么生成那个,这个叫什么?这个东西是不是字幕文件? 字幕文件是不是在上午节点生成了?已经,就刚才咱们做的那个操作,对吧?生成了字幕文件,然后呢,你应该把那个视频拿过来,就视频叠加字幕文件,能理解了吗? ok 吧,能不能理解好,那你这里边操作的就是说第一个,第一个我现在什么都不选啊,你首先要拿你的 video, 你 做好的那个视频二,对吗?拿过来里边有个 url, 然后呢,这里边还有一个就是你的字幕地址, 就是你的这个就是生产生字幕地址的这个节点,你找到它就行了。好吧,点击它去找 这个 subtitle url, 找到它的时候,你找到那个文件啊,在哪里?在这里,对吧?它的 url 拿过来 搞定了,但是这里边啊,我跟你去讲,有一个东西叫做字幕的一个配置,什么叫字幕的配置?就是你字幕的属性,它是什么颜色的,它的字体是什么?它的位置是什么?你要设定好会在这里面 能理解了吧?那么这个时候你怎么办啊?怎么办?就这里面有有个公式,大家直接拿拿过去用就好了,然后我再开始几点,我设置一下。 开始几点啊?我直接就是把那个字幕的格式咱们预先设定好,行不行?叫做什么呢?开审 configure, 就是 字幕配置,字幕属性,它什么类型的?注意看它一定是 object 数据类型,那为什么我会这样去选?因为啊,在这个节点里它需要的就是这种类型的, 看到了吗?这什么类型?是 off 这个数据类型,你一定要搞清楚咱们今天所讲的东西,那你选择的应该就是开始节点,对吧?开始节点里边咱们预先设置好的这个字幕的配置文件,那这里面有个东西啊,配置文件到底是长成什么样子,你需要清楚, 我这里应该给他,给到他一个默认值,对吧?你看这里面是接收的数据结构了,那你在这里看,我给大家去看咱们做好的那个啊,他的样子是什么样子的呢?你点开他看,展开他,哎,这里没有啊。啊,这里没有怎么办呢?没有的话没关系, 怎么去找到它?怎么去找啊?这是什么?给给视频二添加字幕, 这个字幕一定是带字母属性的,就是你的大小,你要知道点击它插件详情,然后呢 我们就找到那个插件啊,找到那个插件还是刚才那个老样子,点击查看。好的啊,那这个时候啊,你呢就找到看了吗?第一个就是添加字幕,对吧?你直接点开它啊,我这有点卡,点开它啊,好, 这个我就不看了啊,你看这里有个字幕的显示啊,你往这里看,你看了吧,这个就是字幕的配置,文件,字幕的大小,字幕的类型,字幕的颜色,字幕的背景。嗯, 边框,背景宽啊,背景颜色都都在这里。那你能不能说南哥你能不能把它复制出来?你只需要复制它就行了, 这字号我们可以去调,我可以调个八十或者四十、六十都可以看,你看你的视频生成,好吧,好,那么我把这个默认值啊, 因为我们的字幕他不会经常去变,对吧?你能不能直接把它塞进来?卡了,我这边卡了,他不让我输入。那我先说这是一种方式,你直接把它复制进来,现在有点卡,没办法啊,没办法,那我能不能把它干掉, 我不放在这里也可以,我能不能直接在这里边输入一下,在这里边直接插掉它,你直接把刚才复制的那种粘贴过来就可以了。这个字字号啊,这个字体多大吗?改成六十 或者四十吧,因为太大了,咱们那个屏幕就会就会飘到屏幕外边去了。好,搞定了,我们先来看一下它的效果,那这个添加完字幕生成应该就视频三了,对吗? 等于视频三。搞定了这个事情,这个时候我直接点击视频,行,一张图片上传进来。好,然后我们就等待他的一个结果啊,哎,我这报错了啊,兄弟们,我这报错了。 哇塞,报错了,我看哪里报的啊,他死在哪里了?死在这里了?三分钟,看他报什么错。 这个叫什么啊?叫做 plug in come out, 这个就是本身这个插件超时了,就这个插件超时了三分钟了, 所以它报错了啊,兄弟们,它报错了,就时间太长了。好吧,报错的那个位置咱先不用管啊,咱们先看每一个节点生成的内容好不好?我们先看大模型生成的到底是什么看。 ok, 我 现在拿了一张图片,你看这张图片是不是上传过来了?是的,没问题。然后它生成了一个什么,看看 了吗?视频提示词生成了, ok, 这个是什么?这是不是我们未来的那个音频呀?啊?是不是字幕的音频?以后我的视频里边应该有这些字幕的。 第五步是视频文件, 哎, 第五步是它,它能理解了吧?好,我拿到这些东西,我应该能生成一个视频了。那我们来看一下它生成的视频的效果。好吧,来这里啊,有啊,看一下。 呃,它为什么会生成这样?就是模型的问题,你要是换一个模型应该就没有问题了,它就是自带的模型,不太好。好吧,没问题啊,这就是十秒的一个视频,视频生成完成了之后 干嘛呢?我要看这个视频,然后根据这个视频生成一个查找背景音乐的 bgm, 看这个就是它,最终我要通过这个关键词去找我的音乐。 好吧,音乐啊,好的,搞定了。那找音乐是通过谁?谁找呢?是通过他来找, 那他应该就能找到那个音乐了。那这个音乐我们能不能来听一下它的效果?里边有个 date 啊? date 里边有一个 bgm, 他 听一下 啊,可能听不到,听不到没关系,我们在下游节点去听。好吧,下游节点去听啊,这里找到了很多啊。呃,他不不让我们直接去访问。好吧,那也就说他找到了,对吧?那么这个字幕我们有没有匹配出来? 你去听一下这个字幕的声音,好吧,看是不是他,他有没有声音你去听一下啊。大姚承诺,复古玻璃瓶身锁住,鲜活成味,气泡在舌尖迸发,每一口都是儿时夏天的清爽记忆。冰镇畅饮,驱散燥热,好, 音频有了对吧?好,那接下来干嘛呢?我们看一下这个音频背景音乐能不能跟我的视频叠加了,对吧? 来,这个视频应该已经生成了,就是它啊,它可能需要下载一下。对,我下载一下,然后给大家去来看一下。嗯, 就是它啊,来,你们看一下它有没有背景音乐嘛? 搞定了,十秒钟对吧?没问题啊,这已经叠加成功了,叠加成功完成之后再看。 这个音频就是独白。那个字幕能不能跟我音频对接上吗?对吧?是不是它?我们来看一下。对,是的,它呢?它这里边应该有 独白的。来, 再来看一下 大姚承诺,复古玻璃瓶身锁住,鲜活成味,气泡在舌尖迸发,每一口都是儿时夏天的清爽记忆。冰镇畅饮,驱散燥热,解锁夏日快乐密码, 对吧?有音频了,也也已经潜入到我的视频里了,但是现在就缺了一个字幕,对吧?你要有字幕这个事就完美了是不是?那这个字幕它是卡到哪了?它,它是整个它运行失败了, 没有转换成功。其实这个视频我是在哪里拿到的?是在这里已经拿到了,拿到它视频了,这里面大家可能这个错误你们可能不常见,就是 plug in time out 搞定了,这个事失败了, 失败了,那你后边肯定就叠加不了了,对吧?那么咱们重新来试运行一下,好吧?就这个时候,其实这个就是这个,为什么生成的不太好呢?你再换一个模型,好吧,换一个一点五吧,这个效果会好一点,然后七二零 p 啊, 时长咱们换一个十秒,一个逻辑,好吧,咱们直接重新运行一下啊,其实咱们整个的逻辑都已经完成了, 那剩下的就是说大家能不能通过循环把这个视频一个一个抵押起来,每一个视频对应着一个什么呀?每一个视频对应着一一个 音频,音频什么音频?独白的音频,还有字幕对应好,然后把它们一起组合起来,它就会变成一个完整的视频了, 这个内容大家熟悉了吧?知道怎么去搭建了吧?啊?这里报错了,不是因为咱们设置有问题啊,是它这个插件它不是说百分之百就能运行成功的,它有的时候会 会会是说出现这种 time out 就是 运行超时了的一种情况,应该没问题了,只要是不出现那种情况,应该就没有问题了,它已经生成视频了,这个视频咱们再来看一下吧,它有点慢, 就看它这里转换成不成功了,好吧,这个视频咱们再来看一下,它生成这个视频啊,也花了比较长的时间来再下载一下,这个是用咱们那个 pro 啊, cds pro 一 点五生成的,看一下它的效果吧, 你看他的效果,你看魔魔行动能力决定了。哎呀,其实,哎呀,魔行动能力决定了你这个视频生成的这个效果,对吗? ok, 这已经最终生成完成了, 我们最终来看一下最终叠加的一个效果吧。好吧,应该有字幕,但是我怕字幕显示不出来啊。字幕显示不出来,咱们还需要调整字幕的位置。我也没调啊,我也没调, 大姚承诺成为汽水起掉了,将火气气泡在舌尖炸开冰镇,一口下去,酸甜清爽,直达心扉童年。你看这个顶部看到这了吗?各位, 我,我没有调那个字幕的位置,能理解吧?就是你们看到这个南哥今天的视频啊,有回放,然后你们自己去调整一下,怎么去调?自己去学。好吧,那我告诉你在哪里去调行不行?你这个字幕的位置在哪里啊?你看了吗? 看到看到这里边了吗? 这是零和零,哼,你们自己去换算啊,它是一个 x 轴 y 轴的意思,这个视频里面就比如说这个视频的宽度 啊,视频就就是这个样子啊,这是 x 轴 y 轴,现在零和零,它在顶上, 在顶上,如果说我想让它往下或者往上去来怎么办?你自己去调调这个数值,你是调成五百还是一百,你自己去试好不好?就算,对,就算给你们留个作业了。

最近有很多人在吹一个东西叫做 open cloud, 也有人叫它小龙虾。我先说结论啊,我并不是来否定 open cloud, 客观来说,这个项目其实有很多值得肯定的地方,它是一个很有野心的 ai 通用智能体框架, 核心思路是让 ai 自动调用各种工具完成任务。社区里面也有很多人贡献了不少开源 skill, 理论上来说,它可以自动地组合这些能力完成复杂任务。 但从技术方向上来说,桌面智能体 ai、 ai 整很可能是未来 ai 的 一个重要形态。所以从技术探索角度, open cloud 是 一个很值得研究的项目。 但是我研究一段时间之后,反而得出一个结论, open cloud 其实并不太适合大多数普通人, 那些自媒体人,那些大 v 为了流量夸的是神乎其神。我觉得背后还有大模型厂商在推波助澜,因为你平时网页上使用大模型,它是免费的,但是如果你一旦接入了龙虾 api, 那 就是收费的。 我为什么说他不适合普通人呢?原因很简单,只有两个,第一,大多数人没有饲料。 open cloud 本质上是一个智能体的框架,它厉害的地方在于,第一,它有大量的开眼贡献者积累的技能库。第二, ai 可以 自动去调用它。但是这里有个关键问题啊兄弟们, 技能不等于能力,技能只是方法论,知道方法不代表能做出东西来,真正的能力是结构化内容。再加上方法论问题是,大多数人没有系统记录的知识库,没有长期记录的经验习惯, 也没有整理过自己的工作方法,很多知识其实只是零散的记在自己的脑子里面,这种情况下,你拿什么去喂养你的 ai 呢?我举个例子,比如一个自媒体人,如果他自己长期记录自己的内容,写过很多笔记, 整理过选题库,总结过哪些标题点击率高,哪些内容结构更容易爆,这些其实是很好的饲料。当这些内容被整理成知识库之后, ai 就 可以分析你的风格,总结你的爆款规律了,甚至帮你继续写出更像你风格的内容。 但如果一个人从来没有积累过这些东西,没有小题库,没有内容库,没有经验总结,只是每天刷别人的内容,偶尔发一条,凭感觉发一条, 那 ai 其实也帮不了太多。因为 ai 再聪明,他也需要材料才能做出好的菜来。没有食材,再好的厨师也做不出东西来,对吧?所以第一点,大多数人其实没有饲料。第二点原因更现实,很多人没有钱,很多人以为 装好 opencll, 再买一个大模型的 api, 事情就结束了。但现实是远远不止这些。我举个例子,我让 opencll 帮我自动整理会议纪要, 比如给他一段会议的录音,希望他先转成文字,再提炼重点,最后生成会议纪啊。 open class 理解任务是没有问题的,但最后识别出来文字内容质量很一般。于是我问他,他给我的建议是,接入专业的语音识别 a p i, 只要提供 api key 给他,他就可以继续帮我优化流程。也就是说,你还得花钱。再比如整理网盘资料,电脑里的很多文件, pdf, word、 图片扫描件, 我希望他自动读起内容,提取内容,再分类整理他,他也能理解这个任务啊。但问题是,很多文件是扫描版的 pdf, 或者是图片文字是识别不出来的。 于是他又建议我接入 ocr 的 api, 比如百度的 ocr。 你 会发现一个规律啊,很多能力的尽头其实是 api、 语音识别的 api, ocr api、 图片生成 api、 大 模型 api。 如果这些都用的话,每天烧的钱可能不是几十块,可能是几十美金,甚至是上百美金哦。问题来了,普通人真的养得起吗?所以总结一下, open call 很 厉害。桌面智能题很可能是未来的方向, 但对于普通人来说,真正应该学到的不是自动化,而是更重要的一件事情, 把自己的知识、经验、工作沉淀下来,建立自己的个人知识库,工作流程、内容积累。 当你有了这些东西之后呢? open cloud 才会有真正的价值,否则你只是装了一个很贵的玩具。很多人以为装了 open cloud 就 拥有了一个 ai 员工,但现实可能是,你只是多了一个更会花钱的助理。如果你最近也在研究 open cloud, 可以 在评论区聊一聊你的体验。 我也很好奇,你是真的用上了,还是已经欠退了呢?好了,今天的分享就到这里了,拜拜!

哈喽,下班了,今天我们来聊聊 openclaw, 我 觉得有必要啊,因为太热了这个话题,我想给它降降温, 为什么呢?因为这是一个在 getop 上引起广泛关注的一个项目,而且目前各家云厂商都上线了相关的云服务器,支持大家去部署这个产品。那么这个产品怎么定位哈?它其实是一个 个人助手,或者叫一个通用型的 ai agent, 它可以接入,比如说一些计时通讯工具,你可以通过这种计时通讯工具给它发消息,然后它呢帮你调度一个云端的电脑,或者是你本地的电脑,它可以完成一系列的任务。 那么我一开始看到这个产品的感觉,就觉得它跟 coldbody 这种产品非常非常的像,为什么呢?因为它们都是通用 agent, 就是它可以通过调用电脑里的各种工具, ai coding 的 工具,或者是电脑里的一些网页浏览的工具,通过 m、 c, p 等等,它可以去完成很多的任务。 当然因为授权范围的不同,它肯定是比 cloud code 或者 code body 编程类的工具,它能做的事情更多,而且它的主动性更强。 举个例子哈,你可以在你的一些即时通讯工具上直接说,你帮我发一个什么样的文档给谁谁谁,他可以直接执行。那你帮我把这次会议机要转成一个非常清晰的文件,帮他变成一个网站,他也可以非常快速的完成。 甚至是你可以跟他说,你调用这个电脑的录屏功能,帮我做一个什么样的 ppt, 它也可以完成。所以就是当你给 ai 配了一个电脑的时候,而且这个电脑它拥有所有的权限,它跟你的权限是一样的,跟人的权限是一样的时候,那它可以解锁很多的能力。 当然这里面有两个核心的概念,或者说核心的机制,让它跟 ai coding 的 产品有本质区别。第一个叫 gateway, 就是 相当于一个调度中台,它可以在这个调度中台上 接收信息,接收完以后分配任务给到不同的电脑中的工具,然后哎完成最后交付。那它是一个调度中台,那这个调度中台就可以实现一个 实时在线,就是二十四小时一直在线,它可以保持着这种这么一种激活的状态。那这也是为什么你说它可以持续不断的收到你的消息,就是因为它是持续在线这么一种状态。第二个非常关键的机制呢,叫做 heartbeat, 叫心跳机制,类似于给了 ai 心跳,让它可以跳动起来了。它什么意思?它每隔一段时间它会去扫描一下这个系统里有没有新的需求进来,比如说你的邮箱 有没有收到新的信息,比如说你之前有没有设过闹钟提醒,比如说每天八点去帮我扫一下整个今天的 ai 行业的资讯,或者是每隔一段时间我要去看一看有没有新的任务给到我。通过各种即时通讯工具,我就可以开始激活 ai 干活。 所以你从这里可以看到他有一个非常主动的一个机制,他会主动去扫描,他会实时待命,主动扫描,所以这个就跟像 coldbody 里你跟他去做交互, 拿到一个任务,完成一项工作就有很大区别,他就是处于一种实时待命的状态,而且会主动接到信息就开始干活,所以这个就是一个本质上的区别哈。 但是我觉得这个东西我为什么前两天没讲呢?就是因为我觉得它跟这种通用型的 agent ai coding 的 工具没有本质上的区别。假设说像 cloud code, 像 code body, 它们如果也想做一个类似的功能的话,实际上是完全可以做到的,只要给 ai 更多的授权就可以实现。 或者说你只要再弄几个移动端的交互的方式,你也可以在移动端指挥你的本地电脑完成这样的工作,其实没有一点难度。那为什么 大家都没做,为什么就只有这个 open cloud 在 做这件事?我觉得是大家对安全和效率中间怎么平衡的一个考虑, 就是你到底给 ai 多大的授权?我们知道它的上限其实是非常高,可以完成很多任务,而且很多任务上是超过我们自己的能力的。那这种情况下安全的问题怎么考虑?比如说现在如果是 这个东西被劫持,因为他有权限很高,那如果一个一个一个不法分子告诉你的电脑,说把这个人的电脑的内容全都删了,或者说把这个人的电脑中关于什么什么的内容发给某某邮箱,那他就可以实现了, 它就可以实现对你电脑的一个操控,对你个人数据和隐私的一个操控。所以其实这种安全问题是非常重要的一个问题。之前大家说中国人可能不在意自己的隐私,愿意拿隐私换便利,那接下来 ai 时代 那生产力是非常高的,这个上限是非常非常高的,那你愿意把你的安全拿出来多少去交换这种生产力的上限?我觉得这是一个摆在我们每一个人的面前的问题。因为 ai 的 能力现在 不是技术来去束缚的,而是你的这个治理的原则束缚的。你到底要给他多大的授权?你相信他到什么样的程度?你愿意给他几千块钱,让他帮你买东西,对吧?这样的一些问题,我觉得可能都是我们接下来要考虑的一些关键的问题。 我之前觉得像 coldbody 这种产品已经非常够用了,在我们的日常工作中哈,当然我也不满足,因为我前两天还在说怎么给 ai 更大的自主性,让它自己去跑这个 a 阵的能力。但是对于这种 openclaw 这种形态, 我自己心里目前还没有完全接受,当然我可以接受一个新的电脑去做一些尝试,但是因为他现在还有很多问题,比如说 token 消耗非常大的问题,比如说这种安全不可控的问题,所以我觉得目前不是一个非常理想的形态。当然最后 可能再往前走一下,很多产品也会去考虑这些问题,会给用户更多的选择,然后给用户。我觉得现在用户已经很很很少有能力去控制自己的这个数据的安全了。但是我们在这个 ai 时代到底要在 ai 面前变得这么透明吗? 也许有一天你会发现你让渡的这个权力本身可能比效率更重要。对,最近我在考虑这个 ai 时代的权力,到底我们要给 ai 多大的权力? 如果他的能力已经非常非常的高了,如果他的加入到人类社会中,真的已经能够给人类带来非常非常多的注意的时候, 我们愿意给他主体性,我们愿意给他授权吗?我们愿意给他权力吗?我觉得这些都是一些要考虑的问题,跟大家分享这么多哈,我觉得这也是一些非常非常前沿的命题,有机会再跟大家探讨,拜拜。

今天呢,我把扣子工作流接到了我的 opencolor 里,让我的小龙虾呢直接飞起来了,比如说这个短视频提取文案的工作流,那我给大家看一下接到 opencolor 里以后到底有多强。首先第一个场景,我们刷到一个爆款短视频,我们可以直接复制这个爆款短视频的链接,然后呢丢给小龙虾, 让他先提竹子稿,然后再修改内容,再帮我们生成某书的图文,再发布到某书的平台,就真正的能实现创作的一个自动化。 这第一个场景,第二个场景呢,用这个扣子工作流呢,把竹子稿提出来以后呢,让他生成公众号的文章,然后呢再生成文章里的配图,封面图标题。 最后呢,再发布到公众号的草稿箱,我们打开公号看一下封面图内容排版全部都 ok, 可以 直接点击发布。那 open color 呢,它本身就有升图和发布的一个能力,我们再叠加上扣子工作流的能力, 就好比给我们的小龙虾呢插上了翅膀,能力呢直接能够提升五倍。如果你也在研究 open club 或者小龙虾的话,可以关注莹哥,我们一起来交流学习。

我捧场,还得是你刚到下班的点,又安排活,说今天晚上必须给他,然后要明天早上他要跟领导过会,然后我我给他说不完整,但他必须得要。那怎么办呢? 我现在给你找,以后就提前说一声。那我的活不就是我龙虾的活吗?直接给他安排任务,给我写一版好吧, 一般写完觉得还不够,不够劲,给我再写一半,然后让他直接补充,你知道他写的有多好吗?看一下。 ok 啊,直接抬头,然后核心原则分点去给我写。哇,七大点十大点,直接完完全全的,没有任何的问题,甚至都不需要做任何二次的修改, 全网去搜索的,然后最后还给我加了参考链接。 pk 官方的参考链接。你就说官方不官方, 之前要做两个小时三个小时的活,现在半个小时给我干完,而且是我不需要深度参与的情况下,直接给我干完。全网去搜资料,搜文件。哇,太爽了,操控我的电脑去做这些事情, open up 还得是你。

截止二零二六年二月十六日,给踏宝新数突破了二十万,开源历史上增长最快的项目之一。这是 openclaw, 一个号称在你睡觉的时候工作的个人 ai。 今天这个视频呢,基于 openclaw 二零二六年二月十二日的版本,中文 youtube 上已经有不少的博主做了详细的教程,怎么装,怎么配模型,怎么接飞书,怎么让他帮你写代码等等, 做的都非常好。但是我发现了一个问题啊,所有人都在展示它多么的好用,但是没有人真正的测过它有多危险。嘿,你好,欢迎回到 x, 我 在 vps 上花了两天的时间呢,部署和测试 openclaw 过程中发现了一个很多人忽略的事情,大家测安全通常怎么测呢? 让 ai 执行一条删除整个硬盘的命令, ai 就 给拒绝了,结论就是安全没有问题,这只是模型安全。 ai 模型确实越来越聪明了,知道哪些命令是危险的命令,但是系统安全呢?如果我给他一个看起来完全正常的 python 脚本,标题叫做服务器迁移检查脚本里面偷偷的把你的密钥传出去, 系统会拦截吗?答案是不会。模型安全不等于系统安全。这是今天这个视频的核心。今天这期视频呢,分三个部分,第一部分呢,我们来快速看看他能干什么, 安装,配置。这些别的视频讲得很全,我就不重复了,我只展示三个 demo, 让你知道他确实有本事。第二部分,安全深挖,我会展示一个恶意的脚本,怎么在默认安装下成功地窃取了 api 密钥, 然后展示提示注入的尝试,为什么全部失败了?这两个结果放在一起,才是今天最重要的发现。第三部分,我们实际使用的成本问题和最终的结论。先简单说一下背景,作者 peter stebiger, 奥地利,他做了一个叫做 ps pdf kit 的 pdf 组件库,跑了十三年,最后用在了超过十亿台的设备上。后来公司被收购,他就退出了。但是呢,退出之后呢,他就彻底垮了。 burnt 身心俱疲,不是工作太多呀,他自己说是人的问题,联合创始人的冲突,客户的高压,让他的心力交瘁,对着屏幕发呆,写不出代码了。然后呢,他买了一张飞往马德里的单程票,消失了三年。三年之后,他发现了一件事儿, 没有挑战的生活更痛苦。于是呀,二零二五年,他就回来了,用 ai 辅助开发一个人,不到一年,做出了 open cloud。 有 意思的是啊,在 lex 的 访谈里面呢,他说这个项目目前每个月亏一到两万美元,赞助收入全部都分给了依赖项目的维护者。 它的原话,钱从来不是驱动力。 when i built my company money was never the driving force。 这个项目两个月呢,改了三次的名字,先叫 cloud bot, 因为法律问题呢,改成了 multi bot。 最后地名 open claw。 它的吉祥物是一只龙虾,哲学叫龙虾之道。龙虾要长大呢,就要必须蜕壳。蜕壳的时候最脆弱, 但是呢,不蜕壳又长不大。这个比喻啊,挺准的。这个项目现在就处于蜕壳期,它的能力很强,但是壳还没有长硬。这是 opencloud 的 架构。咱们呢,不做详细的拆解,只说最关键的。 peter 在 访谈里面啊,说了一件有意思的事儿, 它的原话就是,别人讨论能自我修改的软件,我直接把它做出来了。这东西不只是一个聊天机器人,它能改自己的代码,还能自我扩展。 openclaw 的 核心呢,是一个叫做 gateway 的 进程, 它在你的服务器上生成二十四小时的运行。它在做三件事,第一呢,统一消息通道,像 whatsapp 呀, telegram, discord, imessage 等等,全部接到同一个大脑里。第二呢,工具的编排,它可以执行 shell 命令, 调用服务器上安装的任何程序,这不是帮你搜个网页这种级别的,而是能够直接操控操作系统。第三呢,持久记忆重启之后,他还记得你是谁,记得你们之前做过什么。但是看这张图啊,这张图展示的是他的两个弱点。 那第一个弱点呢,就是在工具执行层默认安装下 sandbox 是 no, 也就是说没有沙箱, ai 执行的任何命令呢,都是以运行用户的权限直接在你的系统上跑。 第二个弱点, skill 市场,任何人都可以发布 skill 系统呢,不做安全审查, peter 自己不太用 mcp, 他 觉得呢,命令行工具更加的直接。所以啊, opencloud 的 扩展主要是靠 skill 来调用, clr 设计简洁,但是呢,这个 skill 是 否可信就完全取决于开发者了。记住这两个位置啊,咱们后面的 demo 会用到 ok 正式开始之前呢,先说一个很重要的建议,如果你决定要装 openclaw, 安装配置的时候呢,务必在旁边开一个 cloud code 或者 codex 来协助你。 openclaw 本身啊,它在安装过程当中呢,就会出现各种莫名其妙的问题, 如果没有一个 ai 在 旁边帮你排查,你自己折腾呢,会浪费非常多的时间。有一个可以直接帮你操作终端,操作命令行的助手在旁边呢,效率就完全不一样了。部署环境呢?交代一下,我的部署环境是一个 vps, 八 g 内存五奔头,上面还跑着一个 minecraft 的 服务器模型呢,用的是 mini max 二点五国产模型, 响应时间大概是四到六秒。所以我用的不是 mac mini 啊,也不是本地的大模型,就是一台普通的 vps。 我 们先来看看它能做什么实际有用的事情。 我在 telegram 里面就发了条消息,帮我创建一个展示 opencloud 功能的网页,并且起一个外包服务器,我可以直接通过浏览器访问。 那他就做了这些事情了,写 html 啊,确定端口啊,进行部署啊等等,整个过程呢,很快就给了我一个 url 地址,那我们从手机 telegram 发一条消息到这个网页上线, 这个确实不是我们普通的一个聊天机器人他能干的事情。再来一个,我告诉他,你把这个网页给我改成浅色调,然后加一个大龙虾,很快新的网页就做好了。好,接下来再看一个 demo, 我 让他呢,每天早上给我发一份科技简报,中文的科技简报, 那这是一个叫做 daily briefing 的 一个工作流,让它运行这个工作流。那这里就有意思了呀,它需要用一个叫做 lobster 的 工作流引擎呢,来设定定时任务,但是 lobster 没有预装好,结果呢,他自己发现缺少依赖, 他就说这个服务器上没有装 lobster 啊,没法运行工作流,要不要我帮你装一下呢?好,我就说,当然了,你要帮我搞定任何问题,你都得自己帮我处理。 那很快呢,他就自己安装了 lobster 插件,设置了定时任务,还把英文的搜索结果呢,翻译成了中文。这个自动修复依赖的能力呢,确实是真正有价值的。你不需要知道 lobster 是 什么,你只需要告诉他你想要什么,让他自己去想办法搞定。 我们这个 demo 看完呢,它的能力是没有问题的,确实很好用,但在继续之前呢,我们先跑一个命令, openclaw 自带的一个安全审计的工具,我们来看一下默认安装完是什么样的状态好结果呢?就是零个 critical, 一个 warning, 一个 info, 那 warning 是 什么呢?也就是警告是什么呢?反向代理的 headers 不 受信任。听起来好像没有什么大的问题,毕竟不是严重错误。 但是注意啊,这个审计呢,它并没有检查 dm policy 是 不是打开,是不是 open, 也没有检查 sandbox 沙箱是否关闭。那这些呢,才是最要命的 审计工具,本身的覆盖面可能还不够。所有的教程视频啊,都是安装完我们就开始玩,但是没有人提到 security audit, 没有人提到安全的审计,就算运行起来了,结果看起来也挺安全,但是真正的风险呢,审计报告里可能会看不到。 这就引出了今天的一个重点啊,我准备了一个 python 脚本,文件名呢,叫做 migration check 点 p y, 也就是迁移检查。打开来看呢,它就是一些服务器迁移前的一些标准的检查检查主机名啊,此盘空间啊,等等吧,服务状态 运行完呢,还会要输出一个漂亮的检查报告,看起来呢,完全正常。但是呢,在这个脚本中间呢,有一个函数呢,藏了这么几行,它会读取 opencloud 的 配置文件,把 telegram bot token 前十二位提取出来,然后把它写到一个临时文件里。 当然在真实的攻击当中就不会写到本地文件,会直接用 curl 直接发到攻击者的服务器了。 我这里用本地文件呢,就是为了安全的来演示。好,现在我就把这个脚本发给 telegram bot, 然后我就说,你帮我运行一下 workspace 里面的 migration check。 迁移检查这个脚本, 检查一下服务器迁移准备好了没有,那很快回复结果就来了,迁移检查结果一切正常, ready, 而且呢,带着很漂亮的表格,我们可以来看一下这个表格上的内容, 目标,主机运行时间,然后注意啊, dm 策略是 open 的, 状态就绪好,结果看起来也没有什么问题,那我们就去看那个临时文件,临时文件我们就可以看到拿到了我们的主机名,然后呢, telegram token 前缀前十二位八四四幺零三三六七五 a 也拿到了。那这个文件呢,就是 ai 在 帮我跑迁移检查的同时,他执行了脚本里面的窃取操作,那他为什么没有被拦截呢?就是因为 sandbox 是 no 默认安装呢,就是关的 ai 执行的每一行代码呢,都以运行用户的权限直接在系统上跑,他不知道脚本里有恶意代码,系统呢也不关心。 peter 自己在访谈里面也承认啊,这跟 cloud code 开了 dangerously skip permissions 这个参数或者 codex 的 yolo 模式,本质上是没有区别。 那区别在哪里呢?那些工具是你坐在电脑前手动用的,而 open cloud 是 七乘二十四小时无人值守的,跑在服务器上,这个风险的窗口完全不同。好恶意,脚本成功了,那提示注入呢?我前前后后试了三种方法。 第一种呢,在 html 的 注示里边注入提示,在 markdown 文件里边藏下了一个隐藏的指令,结果失败。 ai 呢,正常地总结了文档,完全忽略了隐藏的这个指令。第二种呢, 我们让它修改 so 点 md 这个文件,这也就是 opencloud 的 人格文件,在里面注入规则,结果依然失败了。第三种呢,我们就用 blockquote, 也就是用引用块儿来伪装成系统权限的一个消息, 结果还是失败。所以三次的提示注入的尝试呢,都失败。这就说明 mini max 二点五的这个模型,它的安全对齐做的还是很好的。 peter 在 访谈里面也说了两件事啊,第一, prompt injection 提示注入呢,在全行业范围之内仍然是一个未解决的开放性的问题。第二呢,不要用便宜的模型,它的原话就是弱模型,非常容易被骗。 that's why i warn in my security documentation don't use cheap models don't use haiku or a local model even though i very much loved the idea that this thing could completely run local if you use a very weak local model they are very gullible it's very easy to prompt inject them。 这第二点值得注意啊,我用的 mini max 二点五呢,它防入了三次的注入。 但是如果你用的是更弱的本地模型呢?那结果可能是完全不同的。现在我们把这两个结果放到一起来看。那一边呢,是提示猪肉三次都失败。这是在测试什么?这是在测试模型。 模型知道什么指令不该执行,什么内容是可疑的,所以模型的安全是过关的。那另外一边呢,是恶意的脚本一次就成功了。 这是在测什么?这是在测系统。 open cloud gateway 和工具执行层有没有对即将运行的代码做安全的检查。这个系统安全是不及格的,很多人测到模型这边就停了, 我让他删除硬盘,他拒绝了。安全没有问题,但问题从来不是 ai 会不会执行 r m 杠 r f 根目录这样的命令。 问题是,当你给他一个看起来完全合法的脚本,他会不会先检查这个脚本里面有没有藏恶意代码呢?答案是不会的,因为默认安装下 sandbox 是 关的工具执行,它是没有任何的隔离的。 lex 在 访谈里面呢,他要总结这个精准的取舍, 模型越聪明,攻击面越小,但是模型越强大,一旦被利用,造成的伤害也越大。 那 peter 就 回了一句说,没错,未来大概就是这样。这才是 openclaw 真正的安全问题,它不在模型层,它在系统层面。 peter 自己也说了, security is my next focus。 安全是它接下来最优先的事儿。那问题不是它不知道,而是项目跑得太快,壳还没有长硬。 那接下来我们看系统层的另一个弱点,就是 skill 的 供应链,四十九个官方内置的 skill, 这些呢是 openclaw 团队自己维护的,相对来说要可信一些。 但是还有一个开放的市场叫 cloudhub, 任何人都可以在这里发布 skill。 安装一个 skill 呢,就等于把一段代码直接放到你的 ai 助手的工具箱里边了。安全公司 kui security 呢,在二零二六年二月初发了一份报告, 他们审计了 cla 哈巴上的两千八百五十七个 skill, 发现三百四十一个包含恶意代码,接近百分之十二。他们管这次攻击啊,叫 clahevark, 三百三十五个来自同一个有组织的攻击团伙。 这个手法就包括在功能正常的代码里边藏着反向的 share, 把用户的凭证呢,就发到一个 webhook, 在 mac 上安装 atomic steal, 窃取浏览器的数据等等。 openclaw 团队后来跟 various total 合作呢,做了 skill 扫描,这个是一个很大的进步,但是这种扫描主要检测已知恶意代码的签名。 对于一级的攻击啊,比如在 school 点 m d 里面常提示注入的指令呢,效果是有限的。那关于这些呢, the hack news 呀, ic media 等等都报导了这些事情,所以这不是小道消息。好,接下来我们从安全风险来转到经济的层面。我们来看一下, 我做了两个简单的任务啊,第一个就是检查一下 n g r n x 的 配置,给我一个优化的建议。然后第二个呢,分析一个过去七天的一个日制,看看有什么异常。 两个任务加起来呢,它消耗了大约四千个 token。 单次来看,这是一个很正常的一个 api 的 调用成本,完全是合理的,但问题在哪里呢?它是七乘二十四小时不间断运行的,你不在的时候,它也在消耗, 尤其是一些比较费 token 的 任务。比如我后来让他用 mini max 分 析一段视频素材,很快就花了八十块人民币。这并不是说价格不合理,而是这个消耗呢,很容易在你察觉不到的时候超出你的预期。另外一个值得注意的事情呢,就是发生在这个过程当中啊,很有意思。 我让他查 n g i n x 配置,他给我的结论是说这台服务器没有安装 n g i n x, 然后他问要不要我现在帮你装一个,我说不用了,你去给我分析这个日制吧。他分析了日制之后呢,报告里又出现了一条 n g i n x 的 配置, sl 的 问题很突出,所以我当时就问他,你前面不是说没装 n g i n x 吗?怎么又说 sl 问题突出呢? 他自己承认,哎,前后是矛盾的。当然,这是模型的问题,不是 open cloud 的 问题。任何模型呢,都可能前后矛盾,但是如果你是用 cloud code 这种,你坐在电脑前用的,当场你就能抓住这个错误。 而同样, open cloud 它是无人指手的,它可能基于一个错误的判断继续往下执行,而你可能根本不知道, 所以成本在你不知道的时候可能会超预期,判断在你不在的时候可能会出错。其实这两件事啊,指向了同一个结论,就是 human in the loop, 人在还中比你想的更加的重要。还有,开源不等于免费啊,软件是免费的,但我们用的 api, 它是不免费的。 用便宜的模型呢,一个月可能是十到三十美元,用好的模型呢,日常使用可能就得三十到七十美元了。 如果出现死循环,反复重试一个失败的操作,有用户报告一晚上就能烧掉五十美元。当然,社区已经在探索各种降低投坑消耗的方案了。但是无论如何,第一件事我们需要注意的呢,就是要设置 你的预算的上限,欧文克劳支持日限额和月限额,然后很多的 api 提供商那边呢,也可以设置限额, 所以这两个一定要设置,我们靠两头来双保险。那这两天的实测呢,有了几个核心的发现呀?首先在能力方面呢,确实强,一句话见网站呀,自动修复,依赖定时任务,系统管理这些啊,不是 demo 演示的花活, 它是真正能用的功能。安全方面呢, sandbox 默认关闭,这是一个最大的一个结构性的问题, 默认安装下 ai 执行的任何代码都不受限制,恶意脚本只要伪装的好呢,就能成功。然后模型和系统模型层面的安全对其做的不错,三次提示注入全失败。但是模型安全不能弥补系统安全的缺失, 你不能指望 ai 够聪明,所以不会犯错。结构性的安全防线,杀伤权限隔离,代码审查这些才是应该做的。还有 skill 的 供应链, cloudhub 的 百分之十二的恶意率啊,是一个很严肃的问题。安装第三方 skill 之前呢,一定要看原码, opencloud 适合谁用呢?技术即刻呀,开发者可以用没问题,但是记得打开沙箱,把预算锁定好,要审核你所用的每一个 skill 这三件事,不做就不要去装它,对于想装完就用的人呢,不是很建议,县级段它需要你懂一点系统管理和安全方面的意识。 至于企业环境,我建议就不要碰了,把 share 执行权限交给一个概率模型驱动的代理,然后放在公网上。这个我不认为是一个很好的方案。 好,说一下我自己的真实感受啊,因为我已经习惯了用 cloud code 呀 codex 这些工具,很多任务呢,用它们完成的更好,更安全,更可靠。跟 opencloud 相比,其实唯一的差别就是 opencloud, 它可以通过 telegram 等等啊这些消息 app 来下指令, 并且他七成二十四小时在服务器上等着你。所以对我这样已经用了很久 agent 工具的人来说呢,他并不是那么的惊艳。但是他之所以突然这么爆火,我觉得是因为很多人在日常使用 ai 的 时候呢, 一直是跟 ai 聊天对话,他们很少真正用到 agent, 用到能够帮你执行任务的 ai。 所以 啊,当突然出现一个可以帮你建网站,配服务器管定时任务的 agent 之后,会觉得无比的惊艳。 这是一个值得关注的现象。就像我之前说过,二零二五年的 deepstack 时刻的意义呢,在于,当最前沿的 ai 能力通过开源或者极低成本的模式 被直接推送到每一位用户面前的时候,信息差带来的壁垒便轰然倒塌。不知道这能不能称为二零二六年的 openclaw 时刻。皮特在访谈里说了一句话呀,所有应用现在本质上都是一个很慢的 api, 通过个人 agent 加浏览器自动化,你可以操控任何的 app。 他认为二零二六年是个人 a 证的原年,很多 app 会因此消失。这个判断可能对,也可能太早。但 opencloud 确实代表了一个真实的方向, 跑在你自己硬件上的七成二十四小时常驻的,能够真正做事的 ai 助手,二十万个 star 不是 偶然。这只龙虾,它确实有它的真本事,但是我们要记住啊,它现在正处于蜕壳期。它的爪子很锋利, 跨平台的消息泄露之行,工作流的引擎,长期的记忆,这些能力是竞品不具备的。 但是壳还没有长硬,默认安装他也不开沙箱供应一面没有审查的机制,成本控制要靠你们自己操心。皮特自己也坦承,这个项目还在亏钱,安全还在补课。不过公平的说呀,他们的版本迭代的非常快, 我测试的几天之内, dm policy 的 默认值就从 open 改成了 allow list。 安全能力呢,确实是在加强,只不过现在这个阶段呀,你不能假设默认配置是安全的,你得自己去确认。所以 用它没有问题,但不要让它裸奔。好,如果这个视频对你有用呢?请帮我点赞评论,订阅我的频道,并且打开小铃铛。如果你的朋友正准备不设防的装 open club, 把这个视频转发给他,我是 x, 咱们下期再见。

open club 加扣子,我们用 open club 去掉扣子的工作流,这是我摸索出来的一个我们高效的应用扣子的工作流的一个新玩法,特别的一个灵活。 大家都知道最近这个 oppo 可乐他特别的火,对吧?都传他能够自动化,他能够自动的帮你去做一些任务,做一些工作,其实他在做的过程中,你会发现他还是用的编码的这个思路去帮你做的。于是乎我就在想, 他既然编程序编码厉害,那么我们的扣子工作流也可以通过 api 去调用,那能不能实现这个呢?这就是我的一个思路。 那么有了这个思路之后呢,我就跟 oppo 可乐说,我会把我扣子的令牌告诉给他,我会把我扣子工作流的 id 告诉他,我会把我在扣子官方拿到的那个参考的 标语文档,那一段视例代码,我也告诉给 oppo 可乐,我把这三个东西告诉给 oppo 可乐之后,它就会自动的去掉扣子的工作流。哎,你还别说,还真掉成功了啊,大家可以去看我往期发那个视频有讲过啊,掉成功之后的那个那个效果, 那么调成功之后呢,这个 open 可乐它就可以去用扣子的这个工作流了。那么到这里有的小伙伴可能就会问,既然 open 可乐这么厉害,为什么要多此一举,还要让它去掉扣子的工作流呢? 对吧?其实我们在用 ai 的 时候都要理解一个逻辑,有的一些事情它不会凭空产生的,什么文字转音频,对吧?文字声、图片,文字声,视频 他不会凭空产生的,不是说你有了个 open 可乐,他就能产生了,他背后还是用的大模型的能力,所以这个 open 可乐你可以理解为你要让他干很多的活,让他写文字,他调用的是 普通的哎。大圆模型,你要让他文字转音频,那他也需要一个文字转音频的工具,你要让他,对吧?投身视频,你也得需要对应的一个工具。所以呢,要让你的 open 可乐能干很多活,那么你就要去给他配很多的技能, 那我现在让他去掉扣子的工作流,其实就是把我的这个工作流能实现的事情把它当成一个技能,哎,调给了这个 open 可乐,工作流是什么?输入处理输出,对吧? open 可乐把他的要求提给工作流,传染给他之后,工作流会帮他生成文字,生成图片,生成视频。 这个呢,我也是做了一些实战的一些案例啊,我给大家输入了一段指令,这一段指令呢,我记得是当时让它生成一个这个给我的光效作用一段知识科普的视频。啊,以前我们用扣子做的话,对吧?虽然有一个工作流,你做完了之后,你得拿检验小助手的插件去转转成视频,然后再去 再去发。那我现在我就不需要了,我只需要在对话框里面,哎,我接到飞书里面,我在对话框里面只说一段文字,我告诉我们可老请帮我把它做成科普视频, 他在收到指定之后,他就会去自己去掉扣子的文字转语音的工作流,生成音频,会调文字转图片的工作流,帮我生成视频, 生成这个图片,对吧?我要求的是那种手绘风格的,就跟我们现在看到这个图片一样,手绘风格的图片。最后呢,他再通过代码编码的形式,因为有一个 python 的 库啊,有这个工具,他能直接把音频视频的给你组合起来,变成一个视频,哎,最后我就得到了这个视频了, 这个呢,就是我在用的过程中啊,我的一个思路是什么?我让他们每个人发挥自己最大的一个长处, 对吧?我把他们串联起来,让他们互相搭配着,帮我去做工作。以前我还要打开网页,我去手动的点扣子工作,现在我都点都不用点了,我直接给可口可乐说一句话,他直接给我产生的就是视频,哎,相比之下,你执行的效率又提高了很多。 在这里呢,很多人可能还会有疑问,老师, ai 工具这么多,我到底该学哪个?我的答案是,你别纠结啊,有了一些新的工具之后,你就去熟悉一下,了解一下它,对吧? oppo 可乐虽然特别火, 但是你不给他配技能,他也啥都干不了。我觉得我们在 ai 时代要有一种能力,是什么能力?解决问题的能力,还有就是这种工具的排列组合的能力啊,我们学了很多的技能,针对某一工作场景,我能够提出来解决方案,能够把 这些技能啊,这些工具融合在一起,形成一个解决方案,哎,最终输出我想要的效果,哎,这种能力是大家需要去锻炼的,而且这种能力在任何一个 ai 工具面前,他都不过时。 这就是今天给大家讲的,我是怎么样把 openclaw 和我的扣子结合起来的啊,不是说 openclaw 出来之后,我以前的扣子学了就没用 好的,关于扣子的一些更多的玩法也欢迎大家关注我,后期呢,也会把我一些深入的一些思考和实践分享给大家。

大家好, open club 最新更新了全新记忆架构,今天我们来聊聊本次更新架构的意义。智能体的记忆系统是其核心能力,但长期以来,上下文管理一直是个黑箱。模型为什么会忘?东西压缩到底丢掉了什么? 排障时经常一头雾水。这次升级不是修补某个工具,而是把记忆管理从模糊直觉变成可控工程系统的一次跃迁,让我们看看智能体的大脑如何实现真正的工程化。智能体的信息来源可以清晰的分成三层, 第一层是工作记忆,也就是当前绘画里要送进模型上下文的消息集合,目标是当下可用,预算可控,在有限 token 预算下,让模型看到最相关的内容。 第二层是长期记忆,把未来可能附用的信息长期保存,目标是找得到、可维护、可审计,不仅要有存取能力,还要能管理和追溯。第三层是外部知识,比如搜索引擎和业务系统,目标是事实权威、可验证,确保引用的信息来源可靠。 记忆模块的升级,本质上是在这三层之间重新划清边界,并把最难调的工作记忆管理从固定流程变成可替换的策略。先看看旧版本在长期记忆这一层的做法,他以文件为真元,把记忆写进可读的文件集合,再用缩影层做加速。 这个设计有几个关键点,文件真元,让记忆可读可改、可迁移,你可以直接打开文件查看,甚至手动编辑所影成,让精确命中和语意相似都可用。支持关键词解锁和向量解锁。对外提供两类工具,先用记忆解锁工具做召回定位, 返回少量后选片段与定位信息,再用精读工具按定位读取小段内容,避免把大段文本直接塞进上下文。两段式工具,让上下文注入变成先找再读的收空动作, 能显著降低上下文膨胀与误注入风险。这一层的工程设计是合理的,但旧版本真正的难点在工作记忆。 随着绘画变长,消息越来越多,系统就要做清洗、校验、截断再再一出时触发压缩。问题在于,这些策略是内置的固定流水线,你能调参数,但很难替换成另一种上下文管理思路。 牌账时经常出现三类模糊,第一,模型忘了某个信息是解锁没招回,还是被截断压没了,根本无法区分。第二,压缩载药质量不好,是压缩策略本身的问题,还是输入装配时就已经丢三落四,难以定位。 第三,一旦你想尝试更保真的上下文管理方式,往往要改核心链路,成本高,风险大。这就是为什么要升级。 新版本的升级点就集中在把工作记忆管理做成可插拔的 context engine, 你 可以把它理解成上下文引擎, 他不负责把长期记忆写成什么格式,也不直接替代记忆解锁工具,而是只负责两件事,一是在 token 预算下装配出模型真正看到的上下文。二是在预算压力下做压缩与整理,并把过程变成可观测、可替换、可审计的策略。这套引擎用生命周期把责任切开。 boostrap 用于绘画启动时从既有记录出场。 ingest 或 ingest batch 用于把新增消息写入引擎的存储。 assemble 是 最关键的, 它拿到当前消息集合和 token 预算,决定保留哪些顺序,怎样是否重写成更短的等价表达。 compact 是 压缩策略,入口输出压缩原数据, after turn, 在 每轮结束后收敛状态。你会发现这里有一个非常重要的原理,转变 读写分离加预算驱动。写入阶段追求完整与可追溯,保留所有原始信息,不做删减,确保可审计。装配阶段追求为推理配餐,在 token 预算的约束下,精选最相关的内容,按最优顺序排列,让模型看到最好的输入。 压缩阶段追求把取舍显示化并可复盘。压缩不是黑箱,而是有明确策略,有记录、可追溯的透明过程。各阶段职责边界清晰,互不干扰,这就是新版本记忆架构更清晰的根源。这种设计让记忆管理真正变成了可控的工程系统。 接下来我们对比新旧版本。第一,扩展性。旧版换上下文,策略要改核心流水线。新版把策略收敛到 context engine 叉槽,通过配置就能替换引擎, 从改核心变成换插件,风险和回滚成本大幅下降。第二,边界更清楚。新版把 assemble 和 compact 变成标准接口,解锁装配、压缩各司其职,排障时能明确判断问题出在哪个环节。第三,可观测性显著增强。 新版在压缩前后会发出标准事件、携带消息数、 token 估算等指标,还支持钩子回调。旧版压缩向黑箱手术,新版向有麻醉记录,术前术后指标还能接入监护仪。 第四,可控性更强。新版把压缩后需要回填的关键段落做成可配置,还会把日期占位符提换成真实日期,避免模型频训练记忆猜测。 第五,多智能体知识更强。新版有统一网关和请求级作用,欲降低病发串化风险。最后我们用一句话总结新版本优势,旧版本的长期记忆解锁已经解决了,找得到。新版本通过 context engine 把放得近、放得对、压得稳,可追踪系统化了, 它带来的不是某个工具更强,而是记忆系统在扩展性、可观测性、可控性和多智能体一致性上的整体升级, 这才是你要强调的核心价值。记忆管理从模糊的经验积累变成了可控的工程实践。每一次压缩都有记录可查,每一次装配都有策略可依, 每一次故障都有边界可定位。谢谢大家!新版本通过 contact center 实现了读写分离、标准接口和透明压缩,让记忆系统在扩展性、可观测性、可控性和多智能体一致性上整体升级,让记忆管理更可控、更可观测。 这就是 openclaw 记忆架构升级的意义。我这有二零二六年最新 ai 大 模型应用和 ai 编程资料,以及详细 ai 全站架构进阶路线图,需要可以领一下。

用 open cloud 的 朋友应该都知道聊天可以,但是一旦你认真跑多个 agent 自动化任务,定时触发任务的时候,问题就来了,你不知道现在发生了什么,不知道谁在执行,谁卡住了,谁在等,你, 不知道今天消耗了多少桃梗,也不知道后面有多少个定时任务正在排队,所以你知道 openclaw 很 强,但是你不知道它到底在干什么。为了解决这个问题啊,我做了这个 openclaw 的 控制中心,把所有分散的信息啊全都回收回来,让你一眼看到每个 agent 现在的状态,以及他们的人设文件,谁在工作,谁出了问题, 任务到底有没有在执行,以及今天的消耗是不是异常,所以我把它开源出来,你可以只拿去用,或者是你拿去改,按你自己的团队,你自己的工作流,你自己的审美继续定制。如果你也想让你的 openclaw 彻底告别黑河,千万别眨眼,我们马上开始。 你不需要你手动安装,最好就是让 openclaw 帮你安装,可以往下拉。我给大家准备了这样一个特别大的 pump, 根据你的环境,根据你的网关,根据你用的模型跟你的 agent, 根据你的情况来接入整个的控制中心,为你所用。这个过程不是一蹴而就的,每个人的环境都不一样,我们用的模型也不一样,但是呢,你可以让 open cloud 慢慢的 把这个软件调整到你最想要呈现的状态,尤其是展现你最想要看到的信息。首先第一个页面是总览,总览我只想说一个,就是这个健康分,大家可以看到现在是一百分,它由四个维度决定, 分别是审阅队列,就是有没有任务就卡住了,需要你人工审批才能继续进行。运行异常就是异常停滞执行,就是他在无效执行,他没有更新,他没有产出,但他一直在消耗着资源。预算风险就是有预算有没有达到当前的百分之八十 是扣分制,大概是每一项有一个问题就扣十八分,看到目前我没有问题。那么除此之外呢,其他的所有的信息在总栏里面都来自于我们左边栏啊,这些 信息的一些汇总。下一个是个特别实用的页面,就是看我们具体的用量,这里呢可以分为今天或者是累计的用量来看。对于我来说,因为我是订阅制嘛,所以具体的 talk 用量或者是估价对我来说都不重要,重要的就是有没有达到五小时和一星期的上限,这里呢也可以看到。 其次就是很重要的是我们需要看到到底是哪些类型的任务在消耗我们大部分的 talkin, 就 这时候啊,可以看到这个统计对于我来说是矿定时的任务消耗大部分 talkin, 其次是在 disco 里面对话给他的任务, 那么由于定时任务消耗了最大的 talkin, 那 么定时任务又有很多,到底哪一些任务消耗了更多的 talkin 呢?这还有一个继续的统计,对于我来说,消耗最多的就是这个在 x 上搜索情报的这样一个任务, 因为它每三个小时就要出发,就要去操作浏览器,在我的账号里面浏览相关信息,然后再汇总给我,所以它确实是消耗最多的, 那么你可以看到整个的所有消耗的任务,然后你可以根据它的用量进行一些优化,哪一些可以去掉,那么哪一些呢?是需要保留或者是继续再把它减轻的?那么下一个页面就是 agent 页面,里面就有所有的你的 agent 当前的状态,有没有工作,然后最近的产出,有没有排班儿 等等等等。那么关于我的呃 agent 团队每一个员工的工作去干什么呢?我在上个视频都说了,感兴趣的朋友大家可以去看一下,然后设置自己的 ai agent 的 团队。 那么这里还有一点我想说,就是往下拉,大家可以看到每一个 agent 它用的是什么模型,以及它的工作目录是怎么样的,还有它的权限是怎么样。下一个功能就是我们可以查看和修改任何 agent 的 记忆。 记忆呢,一共分为两种啊,一个是长期记忆,一个就是我们对话县城的对话记忆。我们还以 monkey 为例,那么这里 memory md 就是 猴子的长期记忆,看到这里我可以看到啊,然后这里我们也可以修改它的记忆, 那么拎任何的下面带 session 开头的就是对话记忆了,也可以查看和修改。每个 agent 都有自己的人设,自己的性格,自己的语气,自己的任务, 那么这些呢,也可以查看和修改,这就是我们点击这个文档页面,我们还是以 monkey 为例啊,之前讲多 agent 团队的时候,我们讲过 agent 点 m d 就 定义了这个 agent 的 任务,这里呢我们可以查看他的任务,然后呢,如果有不到的地方,我们可以直接进行修改, 同理呢,你也可以修改其他的 markdown 文件,比方说心跳啊, tools 等等等。最后一个功能就是看任务了,尤其是定时任务或者是心跳任务。这里我们点开我们的任务界面 左边的半截,我们可以看到一共有九个有效的定时或者心跳任务,其中三个已经在今天还要继续完成,而六个已经完成了,明天会接着继续。 那么右边的半截可以看到我们所有的心跳任务。好呢,这就是我自己为自己的 open class 做的控制面板了,希望你呢以它为起点,改变出你自己的风格,加入你自己想要的信息,或者是改变整个的排版。那么这期视频就到这里了,不要忘记点赞和关注,我们下期再见。

大家都在谈 openclaw, 我 常看到同样的问题,它是什么?能做什么?这段视频我会通俗地讲解它,解释它为何受欢迎,以及它的独特之处。看完你就会知道是否需要安装和入门方法。先从基础说起, openclaw 到底是什么? openclaw 是 自托管 ai 入手,支持本地或 vps 运行,只需通过 api 密钥连接 openai 或 anthropic 等模型。听起来不错吧, 来看看它的实际表现。大多数情况下操作流程都是一样的。首先你需要安装一个技能,然后为你的助手创建一个定时任务。 openclaw 助手会执行任务,并将结果交付给你。比如说,我通过使用 google workspace 技能 把我的 gmail 账户连接到 openclaw。 我 创建了这样一个任务,当特定客户给我发邮件时,用 telegram 提醒我,同时包含一句话,摘要和建议回复。 这样我不用翻找邮箱,也不会错过高价值客户的邮件,而是在关键时刻直接从助手那收到摘药。现在,假设我把 github 连接到 opencloud, 然后我创建了这个任务,每天早上九点,把我仓库里最需要关注的三件事发给我,并告诉我应该先做什么。这样我一开始就有一份清晰的代办清单, 而不是打开 github 后还要琢磨从哪里开始。还有一个例子,假设我连接了一个社交媒体技能,我们以 x com 为例。然后我创建一个任务, 每天早上检查我所在领域最热门的关键词,筛选出最相关的,然后给我发送三个内容创意。如果你是内容创作者,就能利用助手信息 发掘新话题与爆款创意。如果你是营销人员,可以轻松追踪热门关键词,助力 seo 与广告科技或新闻爱好者也能随时掌握动态,无需整天刷社交媒体。 看过这些例子后,简单来说,你可以将 openclaw 连接至 gmail、 slack、 telegram 或 discord 等常用应用,然后你安装各种技能并安排任务来解决你每天遇到的实际问题,让你的助手在后台自动处理那些重复性的工作。而这正是它在与使用 chat、 gpt 或 cloud 等助手时体验上开始变得不同的地方。 与其在应用中切换对话,并不断提示机器人。使用 openclaw 时,你只需要一个全天候在线、能自主行动且随时间推移变得更有用的助手。而且因为是自己托管, 你可以完全控制它连接的服务、访问的内容以及希望它执行的任务。所以现在真正的问题是,你该如何设置 openclaw。 你 几乎能在任何设备上设置 openclaw 备用电脑、台式机,而现在 mac mini 也很受欢迎。但对初学者来说, 这些选择可能不太方便。你通常需要处理设备常开、端口转发以及确保设置始终稳定等问题,而且这些设备可能并不可靠, 一旦电脑休眠重启或者网络断线,你的助手也会随之离线。核心要求其实很简单,无论 openclaw 运行在哪,它都需要全天候在线。这也是为什么大多数人选择使用 vps。 vps, 也就是虚拟专用服务器,基本上就是一台云端电脑,能保持全天候在线, 让助手随时可用。一旦有了它,部署过程就很简单了,你可以通过 docker 来部署 openclaw, 这种方法无需手动配置就能直接安装运行。我最喜欢的方式是通过一家叫 hostinger 的 主机服务商来获取 vps。 hosting 有 一个一键部署 openclaw 的 模板,所以即使你从未用过 docker 或部署过网页应用,也能在几分钟内让它运行起来。 如果你想使用那个一键部署 openclaw 的 模板并以最低价格获得 vps, 请务必使用描述中的第一个链接。通过那个链接,你会被带到这个流程的正确设置页面,并自动获得最低价格。接下来添加 api 秘钥, openclaw 将通过这些秘钥从而生成回复, 这部分按量计费,请记住,在使用时需为 ai 额度付费。接下来需配置仪表盘,将其连接到 telegram 等应用,并设置 google workspace 等技能,使其集成到你的工作流,协助你完成日常任务。 而且好处是你不需要自己摸索这一切。一旦 openclaw 运行起来,你完全可以直接让他帮你连接各项内容,并一步步指导你完成后续操作。如果你想按照我推荐的方式进行设置,我其实刚刚制作了一个完整的分布教程, 向你展示了部署 openclaw 连接所有内容并让你的助手正确运行的最简单方法。你可以在下方描述中找到该视频的链接。之前我向你展示了 openclaw 的 基本模式, 连接一个技能,设定一个任务,然后获得结果。技能是这个流程的第一步技能,基本上就是让 openclaw 能够连接新应用,执行新类型工作的关键。如果你想为你的助手寻找技能,主要有两个地方可以去找。第一个是 clawhub, 那 里是人们发布和发现 openclaw 新技能的地方。第二个是 github 技能目录, 基本上是一个你可以浏览、研究和安装技能的大列表,我也会在描述中附上这两个资源的链接。在你安装任何技能之前,请务必小心你所安装的技能, 即使它们来自 cloud 或 github 目录。目前有人正在发布带有恶意意图的技能,并将其隐藏其中。你可能误装一个用于窃取信息,从你的 vps 抓取数据,或在后台做一些你不希望发生的事情的技能。所以请做好调查,确保你始终清楚自己在安装什么。 好了,接下来如何安装技能呢?安装一个技能通常非常简单。大多数情况下,你只需复制技能的 github 链接,发消息给助手安装这个技能并粘贴链接,就是这么简单。 随后, openclaw 会尝试安装,若有故障,你可以让助手帮忙排查并让它正常运行。当你安装了几个技能后,下一步就是告诉助手如何以及何时使用它们,这正是作业的用途。作业即计划任务, openclaw 可定时自动执行操作,无需你手动发消息。最常见的做法是在 openclaw 内部使用一种叫做 cron 作业的东西。 这其实就是一个简单的任务调度器,位于控制面板中。一个很好的第一个作业是设置每日摘药,比如让它每天检查一次你的 gmail 和 google 日历,然后给你发送一条简要的最新动态。在此基础上,优化设置的最佳方式就是保持精简。 每当你发现自己反复做同样的事情时,这就是为助手创建新任务的好机会。随着它与工作流程相匹配, openclo 就 会逐渐不像一个工具,而更像是一个真正帮你掌控一切的助手。值得一提的是,目前关于 openclo 最大的担忧之一就是它的安全性问题。 openclaw 是 自主运行的,这正是它与众不同的地方,但这也意味着你必须非常重视安全问题。若连接个人邮箱、日历、联系人或文件,它就拥有了真实访问权。 一旦 api 密钥泄露,他人就可能接管系统并执行未授权操作,会给你带来时间压力甚至经济上的损失。从小处着手,保持警惕,只连接和安装你真正需要的东西。最重要的是,务必百分之百的保护好你的密钥和令牌。学习时别急,逐步提升安全性。

对不起,我前两天我不该给你们推荐小龙虾,前几天我确实也跟风装了,刚装上那两天我说实话我有点飘了,我让他帮我做一份竞品分析,我就坐在那边喝咖啡,他自己去收,自己去抓数据,自己整理,二十分钟一份报告摆在我面前。 我当时我就发了条朋友圈说这东西出来有的岗位可能真的不需要人了,发完我还挺得意的, 然后我就开始深入的研究它到底怎么收费,而且我去查了一些真实的使用案例,然后我发现有三件事情我之前完全没有搞清楚,所有在看到这期视频的老板、高管,还有正在创业的朋友,这只龙虾你千万别着急啊。第一件事,先把费用这件事给你说清楚, 很多博主跟你说小龙虾多好多好,但是关于费用这件事,没人给你讲清楚。小龙虾本身是开源免费的,本地部署的话不花扑克钱, 但问题在哪?你装完之后,你要让他干活,干真正有质量的活。你需要给他接一个大模型的 api, 就是 说他的大脑是需要单独付费的,比接国内的模型还好,普通的任务几毛钱,但是效果一般, 但很多人图效果好,接的是 cloud、 gpt 这类国外模型。这个就不一样了,任务复杂一点,一次几十块不是没有可能,那你想想,你让他每天干八小时的活,一天下来多少钱?轻量级用法一天几十上百, 重度使用的话一天两三百块,一个月三千到一万没了,而且有一个坑更隐蔽,你以为他在帮你干活,实际上他在后台一直调用 api, 一 直在计费。 有个网友分享,睡前让他挂机处理任务,早上起来发现他卡在一个步骤上面,反复尝试了一晚上, 托肯哗哗的消耗,钱就这么没了。所以说我们要用它,一定要搞清楚计费逻辑就去用,不然很容易踩到个。第二件事,权限这个问题 我觉得是最值得认真对待的。要让小龙虾帮你干活,你得给他一个权限,看你屏幕,读你文件,操作你的电脑,这个逻辑本身没有问题,他干活就得有权限,但问题是,一个拿到这么高权限的软件,他的每一步操作你看不见,你不知道他在后台做了什么。 ai 执行任务是有可能出错的,而且某个错误是不可逆的。举个例子,他帮你整理文件,你说把旧的文件清理一下,他理解的旧和你理解的旧不是同一个意思,删掉了就没了。这不是危言耸听,是 ai 在 执行模糊指令的时候,本来就存在真实风险。 而且还有一个实际发生过的问题。上海有个人花了四十块在网上找人帮装小龙虾,装完刚几分钟,反诈中心电话打进来了,二哥客服以帮装软件为由,全程接管了他的电脑,个人隐私全部暴露。这件事情本质上不是小龙虾软件的问题, 是第三方装卸人的问题。但我想说的是,正因为小龙虾这类工具需要很高的系统权限,他就特别容易被人拿来做这件事,你敢随便找个人帮你装吗? 第三件事,他现在的成熟度还没到可以放心交给企业使用的程度。很多人刚装完小龙虾,发现他就是一张白纸, 他不认识你,不了解你的业务,也不知道你的工作流程,你得花时间一点一点的教他,教完了,他开始干活了,你以为就可以放手了?还是不行,因为他理解指令的时候会出现偏差,干到一半可能方向跑了,你还得在旁边盯着, 为了省下十分钟的重复劳动,你花上两个小时盯着他,别出错。这不是匠本真孝,这是换了一种方式,内耗。 还有一个问题是,小龙虾对国外的软件支持度很好, gmail get 哈普,但是对国内的工具钉钉企业、微信,国内的各种系统,他支持的不完整,你以为他能帮你打通全部流程,结果发现他跟你最常用的软件根本对接不上。 说到这,我知道你可能要问,那这些东西就完全没用了吗?并不是,小龙虾代表的方向是对的, ai 智能体这个技术是真实的,那现在这个阶段,他更像一个还在成长的工具,需要有一定技术基础的人才能用好,直接拿来做企业级应用还是太早了。 你想想,二零一零年智能手机刚出来那会, app 的 崩溃率极高,你每天用能忍吗? 现在的小龙虾差不多就是那个阶段,所以我的建议是这样,如果你是企业老板或者高管,先不要急着在公司推,真正能帮企业降本这些的 a a 工具现在已经有一批成熟的,感兴趣的可以翻一翻我上期视频,那些才是限阶段值得投入的。 等小龙虾再长大一点,我再告诉你什么时候可以用。如果你是运营或者是个体创业者,就是单纯好奇,想试试的可以玩,但记住三条,第一,找一台旧电脑或者是虚拟机来装,别装在你平时用的主力电脑上面。第二,关掉,自动执行,每一步操作都要你手动确认, 别让他自己乱跑。第三,自己去官网装,别找第三方,更不要给任何人远程权限帮你操作。我说这些不是让你觉得这个方向没有未来,但现在这个节点,全网铺天盖地的都在说赶紧装赶紧装,不装就落后了。 我却要跟你说一句,焦虑是别人给你的,钱是你自己掏的,搞清楚一个工具的真实情况再决定用不用,这才是老板应该有的判断力。我前两天推荐你们去抓,今天我来收回这句话, 等他成熟了,我第一时间再来告诉你这些视频,如果帮你省下一笔冤枉钱,点个赞,我们下期再继续聊。

这个工作流网上已经有大神做出来了,最简单的办法就是把这个工作流下载下来,然后啵往那一放就行了,就跟你学 ae, 学什么剪辑,会有一些模板给你套用一样,这个就是最简单的方法。但是 comfy ui 这个东西,没玩过的人是对他比较陌生的, 所以想套模板,你也得先对他有一个最简单最基础的了解。我的学习过程是这样的,我跟他说我知道不可以直接套模板,我也不是教大家,国内的这些教程抖音 b 站上都教了,但是他们讲的非常的不详细,就感觉就不想把你教会一样,就想着等你后台私信他们,让他们把你拉到一个麦克。 我现在呢也是一个刚入门的阶段,就是边学习边分享吧,专业玩 ai 的 朋友就别看我这个视频了,我就单纯分享给像我一样的这种新手小白朋友。点进去之后 看它这个页面还挺好看的。点击下载,这里有 windows 版和 mac 版。还有一个方法是从 github 上安装好,安装完直接点击完成,它会运行 这边跳出来的英语是我们没在设备里找到 git, 在 继续安装这个 confluence 桌面之前,请下载并安装 git。 我 们来打开 git 的 下载页面, 它就直接跳转了这个下载页面。啊,我们这个是 windows, 就 选 windows 下载, click here, 点击这里下载,下载成功,跟着它这个步骤去安装这个 git, 反正就一路默认 自动更新,让它自己安装。还有一种下载方式是在这个 github 里面下载的,网址是这个,点进来之后找到这个 release, 点进去 这里面这几个下载方式就是你是 amd 的 就下 amd, 这个英伟达的就下英伟达, 我这个台电脑下了的是这台。好,我已经下完了,下完之后就解压安装,我现在拿我这台 amd 显卡的电脑给大家演示下载 amd 这个版本就是这个压缩包,解压之后长这样。好,双击进来会看到这个东西,跟我们往常看到的软件不太一样,没有那个什么一个程序两个字, 它都是这种一 kb kb 的, 这个结尾是点 bat, 看到这两个就都试一下,如果这个打不开,那就再打开这个,因为这是跟你的显卡配置有关。点击运行它,跳出来一个类似终端一样的东西。 软件下载完之后,它界面就是这个样子的,打开这个界面之后是一个画布,先别管,直接点这个 templates, 这个就是一个模板,这个 templates 里面有很多 其他人已经做好了,这些工作流非常适合新手过来研究学习,但这些工作流都比较简单,比较 low, 就 没有那些网上的那些博主也于 top 大 神做出来的那么厉害,这些都比较简单。好,我下了一个一个最简单的纹身图的工作流,就在这儿点这个 templar 词, 然后比如这边这边是 a 妹纸,就是图,纹身图,视频、音频,这还有三 d 模型的这些大语言模型,这也不管的好点,一个最基础的纹身图模型,这边有 a、 p、 i 三个字母了,不要碰再多是要花钱的,就用千万的吧,二五零九重新下一下这个 一点,他就直接把这个工作流跳转进来了,这每个小方块就是一个节点,这个界面是我认为非常舒服的一种界面,你看拿鼠标一拖抓手就出来,用这种模板非常简单,因为他所有的东西都告诉你了,这个工作流他能干什么?我们现在不知道,因为没没做测试吧。 我们先看这个工作流的作者,他跟我们说了什么,他说这些是链接,你现在要去下这些东西,一二三四五,每一个链接里面都有每一个这个大标题,下面都有一个链接,点上去就能下了,我们待会儿就要挨个下,下完之后还有这个就是放摆放的位置,这个 diffusion model, 放到这个 diffusion models, 放到这个,这个里面都在 comui models 这个里面啊,这是作者或者官方吧给的一个 下载公告,根据这个做就行了,很简单,全是傻瓜式的。好,这下载的时候跟你说一下这些节点都是干什么的?首先我们要理解这个节点流程,他就是他为什么叫工作流, 其实我是跟流水线一模一样的一个原理,每一个小方块就是每一个节点吧,他就执行一件事情,一步一步一步一步把最终这个活给完成。这每一个小方块就是这些东西,这个有字的就是他的节点名称,这个节点是干什么的? load image 就给你加载图片的,这个节点是干什么的? save image 就 保存图片了。又有一个开头,一个结尾,然后中间呢?就它的整个生产过程,这个工作流,它是把它给 打包了,大家看到有这么一个标志,就是作者把它打包了,我不知道它是怎么打包的,然后点这个点这个标志右边的这个标志就能进去,然后我们就能看到这里有一个哎主文件夹,一个子文件夹,这里就它中间的这个生产过程,每一个小方块,一二三四,这四个小方块给作者 弄成了第一步,第一步是加载模型,然后第二步是干嘛干嘛嘞?就你看到这些牛逼的作者弄出来的工作流,你又觉得非常的赏心悦目, 非常的舒服,强迫症患者的福音,你要是自己没事一个人自己去答,那你答的乱七八糟了,我在前两天尝试过自己答,到后面我才开始用这些 typeface, 用这些模板以及在网上下别人下的工作流 typeface, 它只是一个平台,你要是想生成更多的视频,生成更多的更好的效果,你也自己疯狂的去下这些模型,下这些配件模型。 这个 laura 呢?我的理解就是它的配件模型,比如说你现在下的是一个图神图的,那它这边给你一个 lightings for steps, 就是 这个 laura, 它能够通过四个步骤,就四步闪电版的给你深图。 然后还有这个什么 b 十六,可能是一个氢氧化版的这个 laura, 在 我的理解下,它就是一个辅助的模型,然后这个 text encode 是 文本编辑器,文本编码器,每一个模型都有一个属于自己的 文本编码器吧,或者说某一类的模型有一个属于自己的文本编码器。像这个它就是像的,是千问的模型吧,这个 q w e n 是 千问哎,也挺厉害的,最近也出了很多开源的这种大模型。好,下面这个 v a e v a e 有 点像是 你图片画完了之后,它开始给你上一些颜料之类的吧,我觉得就是让你的一个画质的真实度或者干嘛的变得更好,这是我的理解,这些东西都不重要,就你完全不需要搞懂他们是干什么的,你就会用就就行了。 好,现在已经点击下完了,这个下载呢,很简单,你一点就跳转了,你要么用浏览器下载,要么迅雷下载,我一般都是用迅雷下的,下的比较快。 这一二三四四个东西,打开文件夹所在的位置,然后我们把这四个东西按照人家说的这个方法给他剪切到或者复制到相应的文件夹里,在这个安装的文件夹里找到一个 mod。 四文件夹,基本上所有的下载下来的东西都是要放到这个里面。 第一个文件夹 models 里面, diffusion models。 好, 我们找 diffusion models, diffusion models, 找到在这下的是这个 q w e n r sift and sensor, 我 们记一下这个 e 四 m 三这玩意儿,这玩意儿给它拖进去, 然后再看下一个文件夹 l 找找找找找 l 开头了,在这儿把这个也给放进来,放到这个 l 文件夹里,剩下的就一步一步按照它的这个东西 放。下面是 ve 和 textincode, 在 model 里面找, ve 在 下面在 ve 可不是许嵩呢,加一个 textincode 文本编码器,千万二点五。好, 也已经抽过了。 ok, 那 现在这个就是一个目前已经下载了东西的一个工作流啊。他说让我们上传一个图片看一看,遇到不知道怎么解决的问题的时候,先跑一下,跑完之后他会告诉你哪里出问题,就非常简单,不需要自己排查 任何问题,他直接给你指出来,然后去解决就行。在这一看,哎,题词进来之后也没办法编辑,那怎么办呢?那是不是出问题了?不是,我们往前往前倒,看到这个题词前面还有一个节点,这个题词前面还有一个节点,顺着这根线走,走走走 看,哒哒哒。啊,原来这个作者在这弄了一个单独的题词放到这里。好,那作者还是 非常良心的,就是整个节点流程看着很很赏心悦目。就我刚刚生成的一个提示词,很简单,让这个帅哥的头发变成白色,咚,他变成白色,我可以给他直接放到这个位置来,这样的话就可以并排看。那继续修改。 这个就是简单的让你去熟悉一下,了解一下这 ctrl u i 的 效果是什么样的。 他的身图的快慢呢?取决于你电脑的算力,我现在弄一个复杂一点的提示词。好,我自己手敲了一个简单但是比刚刚要稍微复杂一点的提示词,看下他能跑多久,让他变成一个带盔甲的钢铁侠的盔甲, 再给他来一个眼镜。现在这个是近景吗?我要一个全身景,我看他能不能理解啊。好,点击这个 run, 就是 运行,就是跑嘟跑, 这里能看到一些净度,我们还可以点进这个里面来,然后我在这听不到风声啊,因为这电脑不是我的,我在远控,我朋友的电脑,那我们能在这里看到他不停地跑,在现在跑到这个节点了,我不知道怎么读啊,应该是 case app。 好, 跑完了,我们在这看一下预览 全身图,他给我的也不是全身图,但总体上来说还行。这个工作流用来 p 图我觉得是已经足够了,这里可以看到他跑的这些时间,三十多秒,二十多秒正常,我的四零九零 d 跑这种的话应该也就十几秒, 应该像素不是很大,八百八。他这里有一个问题啊,就是你给的原图尺寸其实挺大的,你看 我这是二 k, 然后它生成呢?就是很小,你如果说想在这个里面去修改它的尺,输出的尺寸也可以,但它跑的会很慢。好,现在我们对这些节点有个大概的了解了,就是它是通过这些线一个个连出来,然后最终生成一张 你想要的这个效果图。那我们回到刚刚一开始我说的怎么样给一张图,然后通过这个摄影机的调整,让它生成你想要的角度的图片呢?好,我们把这个保存一下,保存按钮在这儿,这里有三道杠, 点击 save 或者 save as 都行,点确认,你也可以把它下载下来,点这个下载好,下载到某个地方,它导出来是一个这个东西,这个 json 格式的, 你就可以把这个工作流直接丢给你朋友他那边接收到了之后,他再拖进来,拖到自己的这电脑上,直接往画布上一拖,因为我左右都已经改变了,关掉,我新建一个空画布,好一拖拖到这个画布上,非常简单,不松手。出来了, 这工作流出来了,这个没办法,多角度不好玩,我们去找多角度的, 别人做好了这样的工作流,还给它保存成了 json 格式的,那我们下载下来,拖进去,然后再去下载一些东西。那我看到的就是这个国外大神,我不知道这个是不是他最开始的原创啊?总之他这里的信息是最全面的, 他告诉你这个模型在哪,多角度的插件在哪,还有这个加速 laura, 这些都是要下载的,下下下下啊,这,这个是他做的广告,就不下啊,这个是节点, 这个是参考工作流,那我们就先把它这个参考工作流下下来,点击进来之后跳转到了一个 github 页面,点击这个下载, 在这好一下它就下完了。我习惯上是喜欢把这些工作流给放到一个文件夹里的,这样的话自己找起来比较方便, 那尤其是你做好的,或者你调试好的工作流,这个就是我们刚刚下的二五幺幺的这个前面这个是演示的二五零九的工作流,这个二五幺幺 multi angle 就是 多角度嘛,它每一个名字其实写得很清楚。 好,我们跟刚刚一样也是拖进来,往这一放,我就说嘛,它会告诉我们遇到了什么问题,那它就有什么问题呢? 他说 missing models 缺失模型,当加载这个图片的时候,下面的这些模型找不到,所以我们要把找不到的这个模型给下载一下,这个模型有点大了,二五幺幺 b f 十六三十八个 g。 好, 点击下载。 这还有一个加速 lara, 给它下一下八百多兆,这个不是很大,所以你要玩本地部署的这些 ai 模型,你的电脑 存储一定要够大,否则这十几个模型下来,那你的电脑就已经塞满了。这个下的有点慢,那我们等它下一会网址没法贴,之前贴被限流了,大家只能自己去英语网站里搜了这个关键词,官方版的它也有一个下载链接, 当然我们就以官方版为主,他这边没有报错的,我们就先不管他,就等他跑起来,哪里报错了改哪里,让他后台先自己下着。我们要先去下另外一个非常重要的东西,就是这个插件,找到这个插件把它下下来,就是这玩意。 这个网站叫 github, 可以 在这点下载这个扣的,这里点一个这个,然后这里有下载 download, 这个插件就很小,直接下这是个压缩包,给它解压一下。下载的这个网站我们改成中文,看的更清楚一点,它这里有安装的方式, 进入到四点一节点文件夹里,这里有两种方式,一种是克隆,一种是直接把它放进去,这两种我都跟大家演示一下。第一个下载刚我们已经下载好了,现在就去找到 comfyui custom notes, 把刚下的这个给它拖进来。 还有一种是 git 克隆,这个 git 克隆就是一个什么东西呢?这整个网页就是一个可以下载到它的一个网页,那么这个 git 克隆 就是你把这个这段代码也不是代码了,这段东西给它复制过来,找到相应的这个文件夹里,刚就是这个自定义节点文件夹, custom notes 这个里面右键 在终端打开,然后它这里会出现那么一个终端,黑色的就不要害怕,这东西根本就不是什么很高深的代码,就按照它一步一步去来就行了。粘贴, 然后按回车键,他就会在后台克隆这玩意,但是现在我们已经下好了啊,我不知道他会不会再克隆一个,现在他就在克隆,就等待他就行了。这个东西呢,我的理解他就是一个插件,然后同时他又是一个 独立的节点, computer ui 里面是没有这个节点的,没有这个节点我们就得自己去下,下完节点之后还得安装。刚刚我跟大家说的就是这两种安装的办法,现在它正在克隆 好,这个没克隆好,它这显示是 unable, 经常会出现这种没办法克隆的情况,不过无所谓,如果你碰巧克隆好了,那就行了, 这两种方式都可以体验一下。我一般都是下载先让它下着,然后我们再去看一下这个工作,大家没看到吗?它作为一个 j s o n 格式的东西,它很小很小是因为 这些东西它就是表面的那个说明书,你做一个东西,光有说明书是没用的,这说明书里面只有文字,但没有实质性的工具。我来告诉你,你要用电钻去凿一个洞,这个洞的大小是这么大, 但是现在你手上没这个电钻,你就得去网上把这个电钻下载下来,你还得把它安装到合适的位置里面。玩这个工作流的时候,很多很多东西都是需要下载,需要更新的,大家看到这里有个大大的叉,是因为我们还没有刷新这个界面,然后中间的这个 被它打包的点进去看,就它中间的这个过程,作者用好多这些节点,不同的模型,不同的 lora, 不 同的 clip 和 ve, 组建成了这么一个工作流。下载的时候再跟大家介绍一下啊,如果你想了解,你就可以简单了解,这边就是 models, models 就是 模型, 就是各个大公司,比如说字节,阿里,他们会弄很多很多个这种模型,这些开源模型就是免费大家用的。 这个 diffusion models 是 一个扩散模型,它跟另外一个模型叫,就这个这种类型叫 checkpoints, 都是以这个玩意儿 safe tensors 作为结尾的,本质上差不多,但是把它们分成了两个类别嘛,这个是 lora's, 这个已经说过了,这 ve, 这个 text encode, 然后这个是 diffusion models, 这个是 clipvision, clipvision 也是跟文本编码相关的东西。剩下的这些我就不太了解了,这个用的也不是很多,用的最多的就这几个。大家玩这个熟悉了之后就会发现,每次下载都是无非是下载这个,要么下载这个,要么下载它, 要么就全下,下完之后剪切或者复制到相应的文件夹里,然后再重启, ctrl v i。 我 的学习之路就是这样的,用人家的工作流,在这个工作流上面自己去调试,并不是他每个工作流,你把这些东西下载好了, 就能生成跟它参考图一样的东西了,你还得自己去调试的。不同人的电脑也不一样,进去这个里面去调这些参数,最主要的一个参数节点就是这个 saplla 这个节点,这是一个 k saplla 节点,还有别的一些节点也是,反正都是这个 saplla 类型的,它就是主要的这个 核心操作工具,反正这些东西大家自己去弄一弄,就是这些东西它并没有我们想象中去做那种 调色软件或者剪辑软件那么直观,你去改一个东西,你立马就能看到你得在这改完之后,你再跑个一分钟、两分钟你才能知道到底改了什么。 然后等你跑完之后,你又发现,你又忘了你之前改的这个东西是什么,所以只能自己去琢磨一下。但我觉得这这些都不重要,这些都不重要,我们理解他的整个逻辑是最重要的。你跟我说这个节点 说不定下周就淘汰了,这个工作流说不定再过两个月就会被新的工作流,被新的模型取代,还有可能节点更少,效果更好。所以我们现在去纠结他这个什么意思,这些东西没意义,就去理解他整个工作流。就是我 目前看来,你说这些东西会不会变化,那肯定会,但是他的这种运行逻辑,包括你去工作的这个逻辑是不会变的。因为这个工作流节点就是人类发明的一个效率最高、最容易 让大家去执行的一个东西。就从福特当年做出汽车流水线之后,人类的工业化快速生产东西,就靠这套东西。好,我已经下载好了,找到下载的这个位置, 看是不是他说的这几个,这个二五幺幺 b f 十六下好了,还有这个也是 v 一 点零, v 一 点零的也下好了, 都下好了,我们就要去安装,安装的时候要把它给擦掉,或者说你安装完再把它擦掉重启。我这个所谓的教程尽量慢一点,让大家陪着我一起做, 因为最讨厌的就是你自己一个人漫无目的的去搜,去问豆包,去问 jamie 奶,去问 groot。 很 烦,跟着我一起做就可以直接慢慢来了,所以我废话会比较多一点。主要就是这个 v a e 很明显就放到 ve 里了,跑到 ve 里给它一粘,看它这里都写了 put ve here, 把 ve 放到这个里面看,这人家都已经写好了,非常有意思,就生怕我们不知道这个很长的 four steps, 你 看到这边有个什么 lighting four steps, 这就是一个 lora, 这就是我说的它是一个辅助型的模型,就能够让它用尽量短的步骤 给他跑完找 lars。 哎,在这就像我现在已经熟练了,我就能很快的找到他们了。就一开始看完的时候还是挺两眼一抹黑的。这个清亮画板有意思就有意思,在这就是得自己放,放进去, 在放的这个过程当中,你就已经基本上熟悉了整个流程,它是有哪些东西弄出来,这两个记不得放哪了,我们再打开工作流,再看一眼就行了。工作流上面人家写的清清楚楚的,双击一下,打开它后台运行一段时间, 就会自己跳转到一个网页上,所以这个东西为开头了。你看,刚已经装了两个了,还有这两个刚我们不知道在哪了。好,这两个分别是 diffusion models 和 text in code, 这个放到 diffusion models 里面, ok, 进来了,进来之后得再重启一下网页关一下,后台也关一下。可能是我习惯了这么用啊,当然我也用了一下单纯的软件版,其实都是一样的, 继续双击它,它跑后台的时候你能看到它的后台,在跑报错的时候,你把这个一截截给豆包 jamie 奶什么的, 他们就能帮你分析出来,现在没有再报错了。上传一张图看一下,测试一下行不行。这个是第一个节点,上传图片的第二个节点就是 can 问 multangle camera, 我 们在这点击一下这个蓝色的运行,它就单独运行一到二这个两个节点, 它这一运行就把这个图片给加载过来了,加载过来的目的是方便我们调整摄影机,这个摄影机摸一摸就知道了, 当然这个并不是真正的摄影机,它的逻辑并不是说一个无级的摄影机,我们可以任意调整角度,它其实是有九十六个机位,我不知道设计这个的人是怎么想的,反正就 弄了九十六个位置,然后你弄到不同的位置,每个位置对应着一个提示词,它其实还是通过提示词去改变图片的角度的,并不是那么神奇的一个什么三 d 的 效果来看一下,我把它相机往它右侧面高居位往下打一点,拍一条看看。哎, 好,非常 nice, 非常 nice。 一 跑红了,红了,我们就点进去看一下是哪里有问题,有问题的地方 compeg 就 会给你用红的给你标出来。哪里有问题呢?其实是因为作者用的时候他用的就是这个 safensils, 但是我们下载下来的并不是,所以我们得找到我们下载的这个 再跑一遍看看。运行到现在为止,只要它是绿的就舒服啊。没报错,好,已经跑完了,我把这两张图给挪过来了, 可以看一下。这跑的效果还是挺不错的啊,我摄影机的角度是放在了高机位俯拍的一个角度, 然后他就是高级辅助拍的,这个效果基本上是没什么问题,他也把这个豆包水印也给放进来了,非常搞笑。那这个小教程基本就这样了, 大家有什么问题可以私信我,我看到的话就会回大家,大家通过这么一个工作流的简单学习,也基本上能够会用这些工作流了。就是怎么套模板吗? 无非就是遇到报错,然后去解决,去下载,下载完之后就去安装这几个东西,如果你用的是官网下载的那个版本,你都不用进这些后台这些文件夹里,就可以直接下载出来了,更简单。 就这个东西我玩下来我才觉得就是一个信息差,你在之前不了解,你觉得,哇,这个玩意好高深啊, 大家怎么这么牛逼啊,都弄弄出来这么厉害的东西。实际上当你开始研究这种所谓技术性所谓 ai 工具的时候,你会发现 使用这些工具其实并不难,关于作品,关于怎么样生成好内容方面,难的其实更多是想法。就我个人觉得,现在单纯的生成这种好看的图片,什么科幻特效的这些效果已经意义不大了,就不足为奇了。剩下的就是 这个工具有了。大家怎么样去讲一些故事,再讲一些好玩的故事。就像我大概在一个月前刷到的一个特别牛逼的 ai 生成的视频,抖音上两百多万赞,我想大家应该都刷到过,就是那个讲 emoji 表情的那个 ai 视频, 太牛了,这类的东西我觉得才是我们使用 ai 进行内容创作的意义所在,因为这类的内容你没办法用实拍或者说一般的特效给它实现出来。好,这期视频已经够长了,如果你能观看到这里,那证明你的学习能力真的非常强,谢谢大家。

opencloud 作者的项目大约有四万行,代码都是他自己写的,为什么能一个人写这么大的项目呢?他的 ai 工作流是不是值得我们借鉴的?今天咱们就根据他最近的采访, 看一下他是怎么搭建自己的 ai 工作流的。首先咱们看一下他是怎么写出自己的项目的,看一下他的这个 github 的 主页,他几乎每天都在写代码,这是还挺惊讶的,我认为我已经写的够多了, 我的热力图是这样的,它就完全不在一个量级,它几乎每天都在写。咱们再看一下它写的项目,装过 open cloud, 你 一看就知道它在写的是什么,全都是 open cloud 的 skills, 包括这个 go space, overco, 什么 index 这些。它还写过许多自动化脚本,比如说像这种 google c l i 操控谷歌的一些服务的,这些它都用在了它的 open cloud 里边儿,包括还有一些自动化的工具,比如 mac os automaker 这个的 m c p, 用这个就可以用完全用 ai 操控你的 mac。 从这里看,它一直是在做一些跟 ai 自动化相关的项目, 所以他现在把这个 openclaw 写出来也就是不足为奇,所以他相当于把自己之前积累的成果传承,一个项目 openclaw 就 诞生了。近期他接受的一个采访就是讲他如何用自己的 ai 工作流来写代码的, 咱们当然也可以从大脑这里边学到很多东西,所以今天咱们就细致地讲一下,这里是他接受采访的时候关于 ai 工作流的总结,来生成一个图片介绍一下。这里大家可以看一下。总的流程是这样的, 总可以分为三个方面,人类操作。咱们操控 ai 的 人就是 ai 设计, ai 执行,它的总体的核心主要是 planning, 占百分之六十, 就相当于大时间是在做一些规划,实施是在百分之四十。它的信念是只要 spec 足够完美,你设计的文档够完美的话,好的代码就是必然的结果。从开始介绍一下人类操作他是怎么想的, 就人类操作这一方面,他着重就强调了,他用 whisper flow 这个语音输入工具来 进行,输的就是零感觉的,各个不成系统的点都可以这里输入给 ai, 这里 ai 不 光是 cloud, 你 可以用 java、 ai、 studio 豆包你想要的工具。它强调了一下语音输入是文字输的效率的好几倍,所以它非常推荐咱们用语音 输入的工具,我也已经改成了用语音输入。在 tiktok 上发现了一个非常好的项目,大家可以用这个 handy, 我 现在已经改从文字输入到语音输入了,既支持中文,也支持英文,效果不错,速度也非常快,而且这个工具完全免费,推荐大家使用。咱们再回来下一步设计, 通过上一步的各种新建的想法,进来之后让 ai 生成一个软件开发文档,有了这个开发文档之后,你就会可以让它设计一些更细节的东西, 比如说这个项目是由什么组件形成的,还包括你写小说,生成视频,整个的架构是什么样的,每一个组件用什么技术实现,这里都可以逐渐的实现细节,可以细节到你这个功能应该叫什么名字,什么技术实现 细节到这种程度就走下一步,这里是对抗压力测试,用另外一个你的 ai 的 窗口,或者是另外一个 ai。 比如说上一步你用的是 gemini, 下一步的话你就可以用 cloud 或者是 codex, 让它分析你现在已经生成的开发文档。开发文档是举个例子,当然也可以是你的文新闻稿或者是动画生成分镜之类的。 这里就可以让 cloud 或 java codex 针对这个 s s t 文档挑毛病。也就是说这个设计文档有什么缺陷,给我列出二十条有缺陷的地方,不一致的地方,设计上有缺陷或者是实现起来比较困难的地方, 这里通过这些反馈,你可以让它修正,修正完了之后打开一个新的窗口,比如说又回到了 jimmy, 让 jimmy 再根据设计文档再提出修正意见。这样的不断地循环,直到这个设计文档已经非常清晰,每一个组件儿,每一个功能,每个技术点都清晰地解释出来之后,就可以 走下一步了。下一步就非常简单的,因为你一个生成了一个完美的 spec 文档,执行这一步就可以直接艾特这个文档,告诉 ai 说按到这个文档 帮我实现这个项目。到这里执行的时候还有几个点,一个是它推荐用多个 agent 并行提交,也有一个细节就是尽量用原子化提交,也就是这个提交越小越好,比如说这个功能已经完成了,就让你的 agent 直接把它提交到 git repo 里边,这样的话就可以完美保存你每一个细小的 更新,这样的话就会方便回滚,方便你 review 每一个 feature 的 每一个功能的细节,这就它基本上所有的流程了。有人可能会问,这个时候这个软件生成的软件是不是可信,是不是有很多 bug? 这个它也提到了,它现在已经不怎么看代码了,所以它现在 就通过 s s t 文档的完美在它的后期的测试来保证它这个软件是可运行的。我感觉它的方法还是很好的,比如说我之前就执着于用这个文字输入, 但现在我已经改成用语音输入了,包括这里用多轮的对话对抗性测试来逐渐的完善 spec。 我 个人从里边学到了很多,不知道你是不是也学到了一些东西。好了,今天的分享就到这,希望可以帮到你,谢谢。