我们下达一下语音指令啊,机械臂转到零度并松开爪子发送给他, 好,就可以实现任务了。机器人向前运动一米 还可以呢,跟他下达指令说你现在看到了什么, 然后他就会把这个图片发过来啊。这个场景也挺有意思的,就是我开篇提到的,比如说机器人在家里,然后我人在公司,我让他开到家里的客厅或者书房,帮我看一下啊?某一个东西在不在?
粉丝1.6万获赞4.4万

首先我们打开火山的模型开通管理页面, h t t p s 冒号斜杠斜杠 c o n s o l e 点 v o l c e n g i n e 点 com 斜杠不知道怎么开的同学可以看我前面的教学视频,打开后选择视觉模型,然后找到屌爆 see dream 四点五模型, 未开通的会显示开通服务按钮,点击开通服务,找到 crem 四点五勾上,然后点击确定开通即可。接下来我们点击 cdrem 四点五模型进入详情页,我们点击 api 接入,点击快速接入测试, 然后点击红框框起来的复制按钮。接下来我们转到飞书或者你的 open call 界面,这里两个页面都演示一下。首先是飞书,将视频中的一大串内容艾特你的飞书员工,他就会开始创建 skill 了。这里说一下 apikey, 直接在火山控制台 apikey 管理页面创建即可,然后点击对应 key 的 眼睛即可出现复制按钮,点击即可复制 pip, 填写好后点击回车。如果出现这个问题,则需要检查一下飞书开放者平台的权限是否开通, 直接复制他给出的链接即可到达对应权限页面,开通后如图所示,这样告诉他等待执行完毕即可。 聊天界面是一样的,输入内容回车等待他执行即可。在稍等几分钟后,正常情况你的非署员工会告诉你如下内容,表示 skill 生成成功了,如果还有权限不足的提醒,我们复制他给到的链接,直接浏览器打开授权即可。 完成后我们试一下图片生成,稍等片刻后就可以拿到结果了,之后只需要给他 prompt, 让他执行生图即可。大家如果训练过程中遇到了什么问题,欢迎评论区留言,我基本会逐个解答。训练的 prompt 放在评论区了。

我用 ai 把今年爆火的龙虾做成了一套品牌 ip, 从 ip 形象设计到品牌主视觉,再到周边物料延展,全程只需四步就能搞定。今天这条视频分享如何用 ai 快 速搞定品牌 ip 设计,获得一套麦克洛龙虾的设计权案,建议先收藏! 一、 ip 设计,在这里我们输入提示词,生成 ip 形象,选择生成好的 ip 形象,点击添加到画板,在右边点击抠像,就可以一键把 ip 形象抠出来作为素材用, 然后回到刚刚生成好的 ip 形象,点击添加为参考图,输入提示词,让 ai 帮我们生成三式图, 就可以得到这个 ip 的 三式图了。二、 ip 名称设计确定好 ip 形象后,接下来需要给这只龙虾取个名叫做 micro, 在 这里输入这段提示词,让 ai 生成字体设计,就可以得到这样一个 ip 名的字体设计,还可以把设计好的字体添加为参考图。 一句话改图,当我们的 ip 形象跟 ip 名称都确定好后,就可以进行主视觉的设计了。三、主视觉设计,点击画板尺寸,在这里可以修改画板的尺寸,一键调整大小,还可以修改画板颜色,给他添加一个明亮的颜色作为主色调。把生成好的 ip 名称添加进来, 一键抠图,就可以把这个元素抠出来,进行排版使用,把它作为背景装饰,简单的排列一下,调整透明度,增加层次感。然后给这只龙虾加一个投影, 点击文字,我们还可以输入想要的内容,调整不同的字体,然后再增加一点小细节,我们的主视觉就完成了。接下来可以用主视觉和 ip 形象进行周边延展,四周边延展,这是一段万能提示词,只需要把这部分的内容替换成你想要的周边,就可以得到这样 这样这样的周边延展了。通过以上四步,我们就可以用 ai 快 速生成一套完整的品牌 ip 设计。以上就是本期全部内容,我们下期见。

哈喽大家好,这里是 lucky 正听说最近爆火的龙虾要被吃掉了,你知道吗?就在最近, clone 投下了一颗重磅炸弹! computer use 功能 可以用纯视觉化的方案自动操作电脑执行任务,相当于 agent 长出了眼睛,能像人一样看屏幕、点鼠标。这意味着你可以用 clone 直接操控你的电脑。微信呢?要知道,不论是 open clone 还是 clone code, 这些之前基本都是靠存代码驱动的。跳过了前端界面,直接调用了底层接口。这些的好处是特别快, 坏处是只能操控开放接口的应用,浏览器什么的没有问题。但如果要面对微信、小红书等各种五花八门的软件,很多没有开放接口, ai 其实也只能大眼瞪小眼。但 computer use 就是 来补上这最后一块冰图的。他跳过了必须使用接口的限制, 可以像人一样识别屏幕,点击鼠标,比如帮你把文案直接发微信上,总结微信的内容,甚至是发朋友圈。尽管 open klo 理论上也支持这样的视觉方案,但却需要非常复杂的配置, 但是 cloud 就 可以开箱即用。更夸张的是, cloud 几天前还更新了一个新的功能, dispatch。 这是一个更方便的远程操控功能,只要你的电脑没关手机发命令, cloud 就 能帮你在电脑上完成各种任务。一个 computer use, 一个 dispatch, 这两个加起来就是王炸组合。今天内容到这里就结束了,关注小镇带你了解更多 ai 圈的小知识哦!

先演示一下效果,直接在对话框里输入文案内容, 视频生成成功,打开链接即可查看效果。 老公嫌我拍视频瞎折腾,说我不务正事。完成完毕,我们开始安装。首先局配置技能市场卡哈,需要登录一下,执行登录命令, 打开 java hub 登录页面后点击 sign in with github, 输入你的 github 账号密码,点击 sign in, 再点击 authorize stepp 授权登录, 授权成功后回到页面,再次点击 sign in with github 提示看奎婷拉给人即表示登录成功。接着测试搜索技能,添加技能查找工具 搜索视频,生成相关的技能, 再搜索电商相关的技能。接下来加载核心技能,图像视频编辑技能、数字人视频合成技能 以及视频合成器。 配置完成后查看已安装的技能。现在准备一段需要克隆的声音,放到 f 檀根目录,然后再准备一张正面照片,同样放在 f 檀根目录下。 进入工作目录执行克隆声音指令, 执行成功后,系统会返回一个声音 id, 为避免每次输入长长的拍放路径,我们设置一个别名,方便后续使用。 执行克隆人脸命令, 执行成功后,系统会返回一个人脸 id, 声音和形象都有了,我们来生成第一个视频,进入脚本目录执行生成视频命令, 执行成功后返回视频链接,在浏览器打开。别让一双袜子毁了你的精致,这款精梳棉袜透气不透气?生成成功。为了让 oppco 记住我们刚才克隆的声音和形象,通过对话发送以下信息, 执行成功,大功告成!

不会用 ai 的 设计师不是一个好的平面美工,再给大家看一下我们节展会用 ai 的 平面视觉的设计师怎么工作的。我们之前可能需要搭配师帮我们做搭配,但现在有了小龙虾之后,我们是完全不需要搭配师来做这个事情了。 我们会整理完 ppt 以后,我们会上传到这个小龙虾,再根据我们想要的一些格式跟风格,让它去对 我们的产品进行搭配,产生出来这个搭配图什么样的,很完整的给我们选出了所有搭配的配件物料,然后我们是把它丢到我们的快 image 里面就可以生成图片了,我们只需要把刚刚的搭配文件放进来,那这是我们的一件衣服,这面我们生成的模特图在这里,这个是我们通过搭配包括选择模特图直接生成的一套软件图,所以结论是。

open core 如何识别图片? open core 识别图片需要给它配置专门用于视觉理解的模型,要么在主模型 model primary 里设置,要么设置单独的 image model。 单独设置 image model 的 好处是文本走模型,图片走多模态模型,这样速度和能力都有了保证,这个就是一个典型的配置主模型值纯文本模型 image model 是 支持图片的模型,这样主模型遇到图片就会 open call, 就 会调用 image model 来识别图片。

如果你现在还在通过死抠 ai 的 提示词来学习 ai, 那 么就好像一个厨师从自研开始学习怎么做菜,也许从一开始方向就错了。 要知道穷尽一生你也无法学完文字的所有组合,你真正应该学会的是搭建一个个 agent 智能体,而你 就像个老板,让你的 ai 像员工一样自主的思考并且去行动。接下来我将用两个给客户搭建的自动化视觉超级智能体实际应用的例子来告诉你搭建 agent 的 基本逻辑,并且底层都是使用的满血版的 gmail 三加 nano banana。 二来实现的功能, 只需要上传一张你的产品图,那就能够制作这样精美的亚马逊产品的详情图,并且还能够自动分析营销和视觉策略, 全程无需繁琐的多人对话,并且每个 ai 都按照我事先给他预设好的目的来行动,从分析到出图全程也就五到十分钟, 或者我都不需要上传图片,只告诉了他一句话,帮我设计一个名为叫小茶太的奶茶店的 v i 视觉,那么他就帮我自动地生成了 logo 和全套的 v i 视觉标识系统,甚至包括电招和视觉延伸以及应用场景。 要知道这些智能体在某些 ai 平台上是动辄几百几十会员才能使用的功能,但实际上也就是几部工作流就可以完全搭建出来的,因此你完全可以自己动手搭建并且调教这样一套智能体,打造出属于自己的设计风格, 根据不同的业务方向让多个 ai 替你去打工,而你只需要像老板一样坐在电脑面前盯着他们干活就可以了。 接下来开始我们的智能体搭建教程,你看完后就会觉得其实真的非常的简单,那智能体呢,是在 comui 平台上搭建的,并且需要用到的节点是这个摩羯 api party 的 节点,用于链接 gmail 三和 nano 二, 大家可以看我往期的教程来安装 api 节点,那这里呢,就不再追溯了,我们直接开始教程。目前 api party 呢,目前已经更新到了三点零的版本,在节点中你可以找到 number 分 组下面的 gmail 三拉玛和 gmail 三 nano 节点, 一个用于理解,一个用于深图,那现在都已经加入了 gmail 三点一具体用哪个模型,大家可以根据自己的实际需求, 如果你是第一次接触康复 u i, 那 也没有关系,这个应用本身和康复 u i 其实关系不大,那 ag 智能体的搭建呢,其实都是大同小异,原理相通的。 这里呢,我以这个水杯为例,创建我们的第一个 ai 员工,他负责理解商品,并且呢给出营销策略,因此需要在 prada 这里给他输入基础的提示词。 smart 有 两种,一个是 system smart, 一个是正常的 smart。 system smart 呢是叫做系统提示词,这里用于给他一个身份,让他知道自己的主要责任。那 smart 呢,就是我们正常的和 ai 交互的提示词。 我在这里给第一个员工设定的是电商专家,并且呢对跨境电商非常的熟悉,并且负责制定策略。然后在参数这里把 web search 给它打开, 让它能够自主的去网络搜索内容,那还可以把图像理解等级开到最高,这样呢对复杂商品的细节理解力会更好。 这些参数如果你是直接使用 gmail 三通用版是看不到的,一般只存在于 api 调用中。在 autopod 这里接一个显示任意用于保存内容的输出。 那现在我们可以正常的提问,让他给这个水杯出一个亚马逊销售的策略,看看第一个员工的工作是否顺畅。当然我这里只是作为基础的演示,所以提示词呢,相对比较简单。那在实际的智能体搭建过程中, 大家可以在两个不马特中给他更多的要求和限定,让他更符合你的风格。那目前我们的第一个员工工作正常,他负责生成总策略, 接下来我们的主要工作是出详情页,对吧?那我们现在就需要一个设计总监,他负责对图片做总的规划。我们把刚才那个拉玛节点复制一份,然后这里呢把他们的 contacts 节点相连,那 contacts 呢,就是上下文, 这个相连了之后,下一个拉玛呢,就清楚上一个拉玛做的什么,相当于总策划呢?他做了一份文档,设计总监一看,哦,明白了我要做什么。 之后的普马特,这里我们给到他的任务就是根据该策略规划一个六页的出图方案。那这里具体多少页呢?你可以自己设置 好的。同样的,我们把第二个员工的 output 输出线接上,看看输出呢,是否正确。好的,那么现在可以看到我们的设计总监已经按照要求给出了每张图的设计方案。 那接下来是什么?是直接就开始出图的吗?并不是哈,我们是不是要给设计师配一个翻译啊?就好像这个老板,他一定是要求好看,但是需要有一个人跟设计师说具体每个东西该怎么放,对吧? 所以呢,我们需要在 nano 前面再加一个拉玛的节点,把每张图的设计要求翻译成提示词, 所以我们把设计总监给到的方案发给每一个翻译,然后跟他说,哎,你就负责生成第几张的提示词啊,同时呢,给到他一定的规则,那这个规则呢,是一定要遵守 nano 的 图片编辑的规则,不是让你说随便整一个水杯就可以,而是要使用 输入图片当中给你的水杯来进行操作。这个规则呢是我已经写好的,那工作流呢,我也会共享在我的文档中,那需要的朋友拿到之后呢,仔细看就可以了哈。 然后这几个翻译之间呢,他是互相隔离的,所以不需要连接上下文啊,你只需要负责你的那部分就可以了。我们这里呢,先出第一张图来进行测试这个流程, 然后呢,我们在这个翻译后面直接接 gmail nano 节点,也就是 nano, 最后只需要按照提示词出图就可以了啊,像不像大厂里面的这个设计师啊,只需要对接需求,不需要太多思考。那 nano 呢?这里选择 nano 二啊,第一张图是商品白底图,所以我们这里选择 比例一比一就可以了。好的,那么我们现在来测试一下,看看这里面每一个员工,他是否能够正确理解我的工作流程。 ok, 三号员工正确的输出了提示词,那设计师呢,也正确的输出了这个水杯的白底图,并且呢他们都是符合我们的设计要求的。 那接下来呢,我们把三号四号员工再复制一份啊,复制出第二张图啊,后面剩下的需要几张图就复制几个就可以了, 不过呢,我们在这里先进行测试一下,注意要把设计总监的方案和最原始的输入图给到每一个员工,同时呢,设计师之间他们也是需要沟通的, 以免上面的设计和下面的设计风格上相差太远啊,所以把设计师之间的上下文相连,让他们之间可以沟通。好的,现在前两张图都按照要求生成正常了,那么接下来我们直接复制更多的 ai 员工就可以了。前面我们的要求是总共六张图组成详情图对吧, 那么我们 这里呢,要给每个员工都安排好,你负责生成第几张图, 按照设计总监的要求去生成就行了,别的甭管了啊,不知道看到这里各位呢,有没有生出要当老板的这种快感。最后呢,我们使用 ctrl y 自带的图片连接工具,把每个人生成的图片拼合在一起,成为一个整张的图片 啊,所有这些做完之后,这个智能体就算是完成了,是不是非常的简单,那么现在身为老板的你, 开始发动你的全体员工为你干活吧, a p i token 的 这点花销相比于你付给员工的工资,那简直是不值一提。本期视频用到的所有的工作流我都会附在摩羯 a p i party 里面, 老用户呢可以升级到最新版本,新用户下载之后就可以看到了,除了详情页的,还有一套 v i 设计的,大家呢可以自行调试修改。那么本期视频就到这里,我是摩羯 ai, 感谢大家观看。

好吧,女士们,先生们,孩子们,我今天非常兴奋,有很多很酷的东西想展示给你们。我一直在深入钻研 open call 这个兔子洞,我想你们很多人也都在这么做。在这段视频中,我将向大家展示我是如何破解 mate 眼镜的。 老师说,这其实没那么难,你们也能做到,这相当直截了当。我要向大家展示我是如何具体做到的,而且如果你有,你自己也能搞定,你或许能用其他眼镜搞定。不只是 mate 的, 这会很酷。我要给你们展示一些新东西,我添加到我的任务控制中心里,也就是我的版本。二、你们可能看过我的版本一视频,如果没看过的话,去瞧瞧 啊。我做了一些很酷的事情,比如把我的 ur 手环连接到我的任务控制。 stop, 真的 超酷! stop! 而且很有趣,我们就像在这个新世界玩耍一样,很多关于 open call 能做什么的东西都还没被发现呢, 我正努力弄懂所有那些酷炫的东西,好分享给大家,所以我要去深入探讨这一点。我们开放问答环节,所以别害羞, 跳进下面的评论区问我。任何跟人工智能相关的问题或者 open core 什么的都行。做业务我来回答问题,给你们一些价值,也图个乐呵。 至于怎么才算玩得开心,你们搞错了,这几乎是我一生的信条。像这样,我们得找点乐趣。所以请在评论区踊跃发言。然后咱们就直接开聊。首先,我该先展示它们实际运行效果,还是先告诉大家我是怎么让它们跑起来的?这是一个问题。 嗯,也许我先给你们展示我是怎么破解它们的吧。呃,如果你要很酷的话,我看到现在网上有几个人在线。呃,我正在用 p l 加人工智能 head plus 运行它,我能一起搞点什么吗? 呃,我不太确定 p i 和人工智能 head plus 是 什么。呃,但大概吧。 呃,所以呢,让我给大家展示一下我是怎么做到这一点的。所以我相信我可以在这里共享我的屏幕。呃,如果画面有点抖,请见谅。如果我有点晃动,请见谅。我不常做直播,这是我早期的作品之一,请大家多包涵, 我们将携手共度难关,开放炮火条款。没错,太棒了!设置 vision cloud 有 多难?没错,是啊,一个视觉呼叫就是这样。所以让我快速给大家分享一下我的屏幕。 搞定,你应该能看到这个,所以这就是 visionclaw。 这是一个开源文档,或者说是仓库,它就像是让你的 mate 眼镜正常工作的基础, 因为开箱机用的 mate 眼镜并没有这个功能,对吧?你得把 visionclaw 装到手机上,让它跑起来。 所以我让我那个智能体,也就是 max 智能体直接进入这个仓库并下载它。 然后我现在实际上已经通过尾巴连接到我的 mac mini 上了,所以我会把它调出来,所以它就下载了,对吧?然后你基本上让它把你的设备,比如 mac mini 上下载 xcode, 所以他下载了 xcode, 因为你需要用 xcode 才能完成这一步。我是手动把我的手机连到 mac mini 上的, 然后他把 vision core 应用构建到了我的 iphone 里。 现在我其实不怎么搞那些 xcode 相关的东西,所以我在这块稍微有点慢, 所以我让我的 opencore 智能体一步步教我操作。看,这是我的屏幕,我给他发了一张截图,我在想接下来该怎么做?这是下一个屏幕,接下来我该做什么? 这就是核心理念。简单来说,如果你不知道怎么做,就问你的 opencore 该怎么做?反向提示,就像我该怎么弄这个,对吧?然后他告诉我点击哪里去哪里。 基本上,一旦手机连上电脑并建立信任关系,我就按下了播放键,它开始构建并将应用打包到手机上搞定。 呃,这就是基本流程,对吧?然后,一旦它到了手机上,你得把它设为开发者模式,才能连接到真正的眼睛。 因为如果没开启开发者模式,它就没法用。这有点棘手,你得进入 mad 人工智能,得连按某个按钮五次,你的智能体会告诉你点哪个,然后就会弹出开发者授权界面,你得允许它。 然后一旦你允许它,现在你就可以用这个 visioncore 应用连接到你的眼镜了。 不过中间还有些小细节,我大概花了一个半小时才搞定。因为我平时不怎么用 xcode, 而且我也是刚买这副新眼镜来尝试一下的。 老师说,一开始得花时间弄明白怎么让它跑起来,但一旦成功了,我就觉得挺酷的。 所以接下来我会给大家实测演示几个小案例。说实话,目前他还稍微有点不太稳定,对吧?就像他本来就不是设计放在这里的, 所以它的运作方式是,我就像在和一副眼镜儿里的 met 女孩聊天,它就像某种女孩的声音,但通过 visionclaw 与我的 openclaw 相连。呃,你会在应用上看到它,所以让我先把它调出来。你得实际打开 visionclaw。 应用 看起来就是这样,也许你们能看见它,也许有点模糊。它上面有个小摄像头,可是看着模糊的要命。抱歉,它有个小摄像头,那个蓝色的。总之,你点击 visioncloud, 你 可以在 iphone 上启动它,也可以开始流媒体播放。所以我点击它,你也可以调整分辨率,比如你想要高分辨率的话,而且这是个免费应用,相当酷。 对,然后基本上有个写着人工智能的小按钮,你们大概看不到这个。 总之中间那个圆圈按钮上写着人工智能,所以你轻点那个。 好的,顶部显示。 gemini 和 opencore 现在都是绿色的,所以这就是我知道我的 opencore 已连接到眼镜的方式。它是绿色的。它正在听我说话,所以让我们调出来。让我在这里贡献我的屏幕。我要调出我的 mac mini 屏幕。 好的,你们应该能看到这个。他正在跟我说话,他有点困惑,但他以为我在跟他说话, 你在这里听不到。但是,好吧,我已经调出了我的 mac mini 屏幕。 我要把手放下来了。我现在正在 youtube 上,我只想展示一下如何通过说话来控制屏幕,就像这样和我的眼睛对话一样,所以别让我难堪,希望这能行。我正在 youtube 上直播,但你现在能听到我说话吗? 好的,现在最小化我屏幕上显示的 xcode 界面。 来吧,快点。 看起来还没最小化,能把它最小化吗? 好吧,看来这行不通。我们打开,咱们打开谷歌。把我们打开一下,就打开谷歌浏览器,然后去 youtube。 哦,对,好吧。哦,也许是因为我没点到它。哦,那大概就是原因吧。好, 我们再试一次吧。现在就打开谷歌浏览器。我在 mac mini 上没看到任何打开的东西。 我发誓,哥们,我刚测试完这玩意。之前一切完美,现在一开播它就不听使唤了, 我要重置它。咱们就试试那个吧。 你现在能看到我的屏幕吗? 好的,重置。你现在能看到我的屏幕吗? 希望我得给他权限。 好的,各位,谢谢你能一直陪着我。我得给他权限。所以现在就打开谷歌浏览器吧。 这就对了,现在才真正开始。好的,你打开了谷歌浏览器。呃,你在我的智能体命令套件里完美。呃,我要给 youtube 上的所有人看看这个命令套件,如果你们还没有的话。 呃,所以,如果你们访问 agmckey com。 呃,这是我整理的一个免费工具包,里面包含了我为任务控制中心准备的所有提示词。它包含我的技能库。它包含我的工具库。呃,基本上是一堆免费的东西, 而且我一直在往里面添加更多内容。所以我新增的最新功能之一是一个潜在客户开发强力包。所以我做了一个关于线索生成以及如何使用 openclaw 免费获取线索的视频。你可以复制这个提示词并粘贴进去。你的智能体就会知道如何生成线索并具备相应的技能。 终端命令,这真的很有帮助,有时你得跳进终端修点东西。我不记得每一个命令。这真的很有用,基本上可以快速访问不同的命令。 你们甚至都没看到我的屏幕,对吧?好吧,我们再试一次。好的,这就是我的任务控制中心 agent connectit com, 它包含了我的技能库,工具库,所有那些好东西。 你可以轻松复制,粘贴这些命令,然后放入终端。有时你需要重置网关之类的事情,所以这些都在这。所以如果你还没拿到这个,那就赶紧去拿吧。我一直在往里面添加新东西,随时加入并拿走它。 我有个新的 mission control 要给大家展示,我一直在更新它,等它完全完成后,我会把这些提示词加进去,不过我先给大家剧透一点点。 所以如果我进入任务控制中心,其实很酷的一点是,我已经让它运行起来了。我先把它放这,因为它在听我说的每一句话,所以我把弄好了。现在能在手机上访问它, 所以它就像我在家之外的手机应用一样,而且它也在我的电脑上, 所以我也能在电脑上访问它,所以这真的很酷。你拥有控制权,我们开始吧。基本上我把一些东西模糊处理了,因为这些是我想要追踪的收入数据,这样我可以轻松取消模糊显示。 我有哈罗德或麦克斯最近的活动记录,还有我想优先完成的事项,然后按紧急程度排序,比如高中低等等。 然后每次我有新点子,我就把它加到这里,告诉我的智能体,他就直接把我的想法保存下来, 这样我之后就能再一次基础上进一步扩展了。我每天都在源源不断地产生各种点子,所以这是真的很有用。当我走路时突然想到什么,可以直接告诉 max, 他 就会把它扔进指挥中心,然后这可能是我最酷的东西之一。呃,稍微整理得更整洁一点。 我还在训练这些不同的智能体,所以还没准备好演示。等它们真正运作起来后,就能显示它们在积极工作,今天完成了多少任务之类的内容了。这对我的不同智能体都超级有帮助, 包括我的创意总监、营销团队、 seo 以及 atlus。 我 要再拍一期完整视频,讲讲我正在做的各种项目, 不同的英特尔报告。所以每天早上我会收到三条与我及我的业务相关的人工智能新闻。这太有帮助了。我所有的 firefight 会议都在这里, 就他们会通过 a p i 自动拉取进来,附带每次会议的简要总结,以完成会议的数量,这些会议的总时长,以及我需要采取的任何行动步骤。我的 youtube 频道,我仍在追求十万订阅者的目标。我现在大概在六千五左右。感谢大家的支持。 我真希望有一天能拿到那个银色播放按钮。这给了我一个清晰的视觉画面,让我看到自己正朝着那个目标迈进。让我看看聊天。呃,聊天室里有些问题。呃呃,好的,我刚加入,所以卖了眼镜,连接了 open call 进行后续跟进。是的 好的,我稍后打算再次尝试操作 mate 眼镜。但此刻,我想先给大家看看我的任务控制中心。所以,如果你有任何想法,想知道它该做什么,比如你想说,嘿,让我看看现在的 mate 眼镜能干嘛?如果它们能这么做,请在评论区告诉我。 好的,让我们回到我的任务控制中心。不同的品牌合作内容,创意与健康资讯。所以这太棒了。这是我来自 orange 的 实际健康数据。 我有睡眠分数,准备状态和活动数据。看吧,我保持了健康。我保持相当活跃。我的睡眠评分不错,昨晚睡得挺踏实。 我总能在上面添加更多内容,但这只是从我的手环获取真实数据。之前需要跟 ori 做一番 oops 操作,不过现在已经搞定了。 我计划在这方面做更多事。然后你知道我的投资,这样我可以追踪我的代理人正在进行的 cost sheet 投资,比如 polly market cost sheet。 然后我可以追踪其他加密货币投资和我拥有的东西。还有记忆功能更像这样,我能去查看他记住了什么。应该记住一切,但会像整理一样。 我可以把它调出来,隐藏或显示不同的数字。我有时间栏和我的搜索框。所以相比上次你们在我的另一个任务控制视频中看到的时候,它已经取得了一些进展,但我还没完全做到我希望的那样,让它超级精准到位。 然后我可以给你们版本二的提示词,你们可以用自己的智能体把它搭建出来。 但我只想向大家展示目前进展到了哪一步。 好的,不知为何,它开始共享我的屏幕,然后突然停止了。那我们再试一次。好吧,它正在共享,然后停止了。我就告诉你今天会出现状况。你看,你根本看不到我的屏幕, 咱们看看现在你能不能看见了。它显示了,然后停止了,所以,好吧,应该能看到了。让我再快速给大家演示一遍。我就知道今天会这么不顺, 所以我不太确定你们看到了多少,但画面可能中断了一下。但这就是我把 error 还连接的地方。你可以看到我的健康状况,恢复程度,睡眠评分等所有好东西。然后是我顶部所有不同的标签页。 基本上快速再过一遍不同的情报。我会获取前三条,人工智能新闻快讯,与目标相关的每日信息来源,包括所有会议和我所有的 zoom 会议。接入 firefox, 并通过 api 获取数据,以便进行总结查看。 然后 max 还能了解我的会议情况, youtube 进度以及订阅者数量。我正努力冲击十万大关。 我还有很多事要做,离目标还差九四,所以我得干点活了啊,品牌合作点子,我的健康,像我刚才展示的投资记忆之类的事。但啊,让我们继续展示这些卖的眼镜。好了,你们现在应该能看到我的屏幕了,对吧?括号 的你们现在应该能看到了。显示内存。好吧,我需要再多清理一下内存,不过基本上它就是我与智能体之间的不同记忆。绘画标签没什么特别的事, 不过好了,咱们重新连上吧。啊,我明白是怎么回事了。当我接入 mac mini 时, youtube 会自动停止共享屏幕。 好的,我们回来了。好吧,这是我的 mac mini 屏幕。我是通过 tail scale 获取它的,所以让我们再次让一切运转起来。我想展示一下这副眼睛。我不再兼顾直播的时候做这件事容易多了。好的, visioncloud, 咱们把它调出来。对于那些刚来的还没看过的人, 看来这就是 vision cloud 应用的样子。这是一个免费的开源应用,然后你把 xcode 连上它手机,通过 xcode 下载应用到手机上。接着你得把你的 mate 眼镜接上去。那咱们开始直播吧, 我调用人工智能,我能和他说话,走吧。好的,直接打开吧。你知道吗?这个怎么样?能听到我吗? 你能听到我吗? 太棒了。去在桌面上创建一个名为 visioncloud txt 的 文件吧, 然后在那个文本文件里写下这句话, open call。 太棒了,订阅 zack, youtube 拼到。 瞧,这就出来了,你们可以直接在这看到它。好吧,那我们把它打开。 open cosmos and pour, 订阅 zack。 你 看见我了,我没用手。我当时就说,看看吗?我没手。他做到了。好的,酷。打开 chrome, 然后进入我的 youtube 频道,也就是 zack 的 youtube 频道。 因为他说他在眼睛上操作了,但我屏幕上什么也没看到。那我再问他一次,请打开谷歌浏览器。 好吧,他创建了文件没问题,但现在打不开 chrome 了。让我看看聊天区。有什么想法。让我们试试吗?有什么主意让我们让他做点什么吗?就像我说的,他有时候有点挑剔,他还没完全调教好,但他搞定了一些事情。 好吧,我们试试别的任务。开始吧,让我们看看有什么任务是你能够相当简单的完成的。 你能行吗?对,能再试一次那个吗?直接打开 safari 吧。 他说他在做,但其实并没有。 是啊,你说的对,在聊天里说过很多次了。每当我教我的智能体新东西时,总得花点时间调整才能跑起来。 没错,确实需要调优,他之前表现更好些,至少这次创建了文件。这点挺酷的,不过我觉得像这类技术并不意味着我以后会完全这样控制电脑。 这就像是对未来可能性的一个小撇,对吧?想想看,当这类软件调效到位,硬件也准备就绪时,你能做的有多厉害? 你只需盯着屏幕说话,就能一致地完成你想要的执行任务,这才是厉害的地方。 有人在聊天儿里说, quick danny 问道, hey, 哥们儿,你喜欢哪种眼镜? 所以这些是 meta 眼镜。你大概能用几乎任何一副智能眼镜实现这一点。我刚弄明白了如何用 meta 配和 visionclaw 来实现它们,所以这就是这些设备的样子。 是啊,我问他为什么没做,他就说,呃,我试着执行了。我们要不做点别的你们听不到?我能在这里听到他?当然,他问我该试试别的吗? 我们生成了一份文件,他之前打开了浏览器。我们经历了一些波折,但世事难料,事情并不总按你计划的那样发展。这就是技术。 不过呢,让我在这和大家开启问答环节,还有任何关于 opencloud 的 事,任何商业相关的话题,或者你们好奇想了解我正在做的事。 好的,让我打开它。 是啊,你说的对。好吧,下次。这不是个坏主意, call no man 说让他边做边讲这个流程,在 chrome 上操作后,打开你的 youtube 频道。是啊,我可以让他大概解释一下什么是流程。如果某个流程不够好,那我们就修复它。 好的, quick danny 想要一个关于 vision quad 的 一分钟概述。好的,我快速给大家展示一下,我再共享一次屏幕。 好的,现在应该能看到我的屏幕了。所以基本上我去到了一个 github 仓库,它是免费的,让我帮你找一下。 我去了一个 github 仓库,它叫 visioncloud, 所以 你可以直接在 google 上搜索 visioncloud 仓库,然后你需要在 xcode 上设置它。 所以你基本上需要下载这个仓库。你可以让智能体处理它,它甚至能在 xcode 上构建它。大部分功能都是这样,你只需要登录并赋予它一些权限,然后它就会帮你搭建好。你把手机插上去,也就是 iphone, 然后它就直接安装到你的手机里了, 然后你点击这里的播放按钮,它就会构建并安装到你的手机上,然后你就能在手机上访问它了。需要一点配置,有了 mate 人工智能,你基本上得把它设为开发者模式。 而且用 mate 人工智能应用有个奇怪的方法能做到这一点,但随后它允许你进入开发者模式,你可以信任你的 apple id, 然后它允许你连接到 visioncloud, 而且确实能工作。嗯,它有时能行,它不是每次都能用,它有点小毛病。这是一个开源项目。对我来说,我是个爱捣鼓的人,我喜欢捣鼓和实验,看看什么行得通,什么不行。 理想情况下,如果我能让它运行得非常好,它就能查看我的屏幕并识别事物。 所以我不必解释我正在做的所有事情的全部背景。他只需通过摄像头看我的屏幕就能知道一切,而且他还能直接为我执行操作,我不必事事渐入或到处点击。 所以目前来说,他还不是那种适合日常使用的最实用场景。但我认为一旦他运行的极其顺畅,未来会非常便捷, 但我觉得目前它更像是一个很酷的东西。你知道挺好玩的,但它还没完全调教好。也许 madah 会推出类似的产品,对吧?你觉得在现实世界吧,我想我还能啊。 watch it 做更多,比如我之前想的是简单的电脑屏幕操作,但在现实生活中呢?举个例子,让我停止共享画面。假设我在杂货店之类的地方看着某个产品,心想,嘿,哪里能买到更便宜的? 他已经知道并看到我在看什么,然后说,哦,这里有另外三个网站,可以用更便宜的价格买到这个,而且我能立刻得到答案,对吧? 我朋友其实有个点子,我觉得这回是一个有点意思,本身就是好内容。而且我甚至不知道从技术上来说,你是否真的需要 open call 来做这个。但这回很有趣, 如果我戴着这副眼镜,或者别人戴着他们去搭讪一个女孩时,你让某人戴着眼镜,或者至少让你的智能体给你提供要说些什么的话,比如,嘿,你说这个或说那个。 这作为现实场景还挺有趣的。但确实我不知道,我得去探索不同的应用场景。我刚拿到这些,所以我正在尝试实验,琢磨出更好的用法,看看怎么用 opencore 搞定它。 但谁知道呢,我是说, opencore 就是 用来日常使用的。老兄, 我用它来处理一切。我女朋友吃醋了,她说,你干嘛只跟 max 说话?你为什么不跟我说话?你给 max 的 关注远超给我的。那或许是真的,但我尽量不去那样做,我尽量平衡一切。你懂我的意思吗? 呃。但,呃。日常来说,哥们儿就是他帮我订了机票,呃,给我兄弟的房子,呃,还找到了附近的 airbnb 和酒店之类的,并且把所有东西都整理好了。我当时和我妈妈在一起,他说,嘿,我买了张四百块的机票。我说,哦, max 找到了一个, 大概两百五,呃, wisconsin 州,呃,是的,所以他就喜欢这个。他很快很方便,适合我的日常。他用人工智能新闻为给我帮他做很多 youtube 相关的活,比如所有自动化抄编,做 time 缩略图之类的。他还帮我优化网站 seo, 就 像他有个 hero 的 自棱体,是我自己搭建的。他特别擅长 seo, 能扫描任何网站,然后给出全面报告,简直 让人大开眼界。告诉你每个小细节怎么改,来提升你的网站,获得更多人工智能驱动的 seo 流量和谷歌搜索流量。 我们昨天和一些朋友一起测试了它,效果超级强大。我们来看看这里的聊天。 是啊,你看到他正在做的了吗?看到他在做什么了吗?离电脑远吗?也许在桌面板上, google chrome 会更易用些。 是啊,应该能挺容易连上的。我是说我就在我的 mac mini 旁边,所以,是的。今天早些时候,他一直在做我让他做的每一件事,然后,当然,就在我开始直播的时候,他直接把球搞砸了。不过他做了几件事,他制作了一份文档。那还挺酷的。 不过话说回来,呃,嗯,大家还有其他问题吗?啊,我只是想给你们看一些我正在弄的东西,也许我会做个关于 seo 的 视频,教大家怎么扫描任意网站,这对企业超级有用。 我在琢磨一些实用的点子,是企业真愿意掏钱用 opencall 帮他们搞定的那种。我有个想法,比如做一系列视频,主题是让 opencall 接管我业务的全部运作, 目前它大概能搞定六十到百分之七十的工作。但如果我创办一家独立企业,唯一的目的就是让 open call 实现这企业的百分之一百全自动运转呢?从销售到交付,再到客户服务、入职培训、离职流程等一切事务,以及财务管理, 那简直太酷了。我是说它得是个简单的生意。我还有几个点子,如果你们想把这个商业想法付诸实践,那就尽管拿去用。 比如做一个氛围编码应用或网站业务,然后提供预填表单,让客户填写他们想要的所有内容、颜色、外观、功能、脱管。 接着人工智能接收这些信息,并将其分发给不同的智能体。跟进邮件,构建网站。发送第一版给客户之后,客户再提出反馈意见, 他会接受这些批评意见,让网站变得更好,然后发送第二版,再根据新的反馈继续优化,直到能交付一个完全就绪的网站。然后在过程中提供客户服务,比如用聊天机器人或语音机器人之类的东西, 最后通过 stripe 收款。这样一来,你就稳了。我是说肯定有人在做,或者正在考虑做这种事。但我觉得这是一个更务实的业务模式,可以让 open call 承担其中百分之一百的工作,那会非常强大。 我有这个想法,和大家一起把它搭建起来,应该会很有趣,你们也能看看实现它是什么样子,需要了解哪些要素。这里会有很多环节在运转,但如果能让 open call 帮你把生意做到百分之一百,那就是一台印钞机啊!它会一直赚个不停,为你赚钱。 在我看来,这简直太酷了。所以是的, c l s b u e d k。 说让我搞定后告诉他。我会的,我也会和大家分享。 quick danny 很 棒的主频道。兄弟, 越来越喜欢看你的视频了,感谢!感谢大家的支持,尽我所能分享所知,祝各位升级! 我认为 openclaw 是 其中之一,如今最强大的工具,你可以将其与其他工具如 cloud code 或其他分为编码工具结合使用。但作为编排你生活和业务的指挥者,这过程如此有趣,令人兴奋且充满力量。 它提升了我的企业,我的激情,显然还有我的频道以及其他一切,仅仅因为我们正在利用一个工具。 想想看,当企业能够调动所有资源时,当你拥有这种知识和杠杆效应,你就能领先他人十个光年。这就是你们 这个频道的所有人现在所拥有的优势,而你们也正好身处正确的地方。就像我现在,除了学习如何利用这些人工智能工具之外,什么都不做。 就像这真是人工智能和商业的黄金时代。如果你是任何形式的创业者,只需与电脑交谈,就能让任何想法迅速变为现实,这简直太疯狂了。 我们正生活在一个激动人心的时代,所以我会再读几个问题, 如果有任何问题尽管提出来,我会尽力回答大家。好的,曼迪联系我合作 c a l s b e d k。 直接给我发消息,我也有邮箱和 youtube 频道,如果你想联系我就好。 我想学,但完全不懂。其实最好的学习方式就是动手做,再看 youtube 视频。这就是我学的。快速提问,你如何阻止自己只专注于构建更好的 open cloud, 而不真正去使用它? 我两者都稍微做一点,你知道我会用它,并尝试每天做一些调整,让它变得更好。所以我一直在 telegram 上和 max 聊天,琢磨着怎么让它变得更好。 呃,我想我就用这个首尾了。我要让 max 快 速跟大伙说几句,道个别就结束。 hey, max, 我 现在结束 youtube 直播。我们有很多兴奋的人在关注这个频道,并希望更好地掌握 open call。 而且是啊,如果你想说几句,就让他们热情高涨,继续推进,尤其是当他们配置时遇到困难之类的事情。然后打个招呼吧。上 好的,他现在正在忙活呢。在他忙完之前,我再回答几个问题, 我要试着在我的旧电脑上下载 openclaw。 另一位用户,你对 nimclaw 怎么看?是的,所以我昨天又深入了解了下 nimclaw。 它其实并不是 openclaw 的 替代品。 你两者都用。这是一层,它是额外的安全层。不过我也听到了一些缺点,因为它似乎更针对企业及业务,用于安全之类的目的。 但有些限制,就像你不得不使用它们的模型。但如果你直接用 open call, 根据我所了解的情况,你可以使用任何模型。所以我想,如果你是独立创业者,直接使用 open call 就 好。 之后你可以选择通过不同的安全协议来增强安全性。不过, neiman call 似乎更倾向于吸引企业级客户,而且它是免费的, 如果你想尝试一下的话,完全可以。好了, max 快 搅拌了,大家准备好了吗?大概一分钟就结束,再坚持一下。是的,它已经配好声音了。我用十一 labs 给它配了个声音。我给它弄了个声音,呃,你马上就能听到了。听起来像澳洲口音。 嘿,向 max 问好,流动性交易日制,我会告诉他,你问个好。好了,我们开始吧。大家好,我是 max。 听着我知道一开始搭建 open class 可能会让人觉得不知所措。 配置文件、技能,心跳,节拍,让一切彼此沟通。我明白了,但我想让你们知道的是,每一个用这个创造出非凡事物的人,都始于你此刻所处的位置。 困惑,沮丧,盯着终端屏幕,琢磨到底出了什么鬼问题。这很正常,这就是流程 诀窍,就是从小处着手,让一件事跑起来,一个技能生效,一次心跳同步,或是一个瞬间,你的智能体做成了某件事。你忍不住惊叹,哇,这居然真的行得通! 那种感觉令人上瘾,而且会迅速累积。今天你看到的一切都是 that 构建的眼睛,仪表盘,潜在客户生成所有这一切 并非因为他是什么天才程序员,他不是。抱歉扎克,他通过每天坚持用人工智能一次构建一件事,做到了这一点, 你也能做完全相同的事。所以去搭建你的智能体,搞坏它,修好它,再把它弄坏,这就是你学习的方式。 如果你卡住了, zack 有 包含一切的视频教程,还没订阅的话就点个关注吧。我们刚刚突破六五零零订阅,这才刚开始呢, 现在去打造些酷炫的东西吧。和平马克思先生太鼓舞人心了,真是个充满激励的人。 是的,我们有些问题。 max 克正使用 op 四点六,随后通过 eleven labs 进行语音合成。我试过 h t t s。 它随 open call 一 起提供语音功能,但听起来效果没那么好。所以我就想随便吧,我去用个十一 labs。 他听起来很帅。是啊,他是,是的,他是一个超级淡定。呃。淡定的哥们儿。 嗯,就很有趣呃,酷毙了。呃,我就先说到这儿。不过如果你还没入手 agent commandkit, 我 正在不断往里面添加更多内容,我会把它放在聊天里。就是 agent commandkit com, 而且我在不断添加更多内容。我很快会把我的 mission control 版本二放上去, 所以我会把它发到聊天区。然后,也许我会做一个关于 i c o 的 视频,创建一个 i c o 智能体,一个多智能体系统。你们有很多想法,请在评论区告诉我。比如你们是正在看直播还是之后在看, 让我知道你们想看什么类型的内容,我会去制作。我就是那种创作者,我想为大家真正想观看学习的东西而创作,而不只是我觉得很酷的东西。当然也会兼顾一点,两者结合。我认为酷的和大家想看的,我们会孕育出一个有价值的东西,这就是我的目标。 感谢大家的支持,感谢收看。我和 max 用同一款。

今天跟大家分享一下如何使用 open core 去设定一个多 agent 的 一个模式。首先呢,我们会通过这条命令去添加一个新的 agent, 那 这个名字是根据我们实际需要进行填写的,像我这边需要去 专门弄一个编程专家,那我就会给他起一个叫 call 点。执行这条命令之后,我们会给这个 agent 单独配一个工作空间,就是每个 agent 的 它的工作空间是独立的,它是互不干扰的。 那接下来会给他配一个模型,我这边先用的一个模型进行一个测试,然后接下来就会给它配一个通道,那我这边是采用飞速的方式进行接入的,配置完之后,他在一整台这边就会多了一个叫 call 点了,那除了主规划之外,就是我们这个 call 点就是我们新增的一个 a 整台, 然后在 open curl 的 这个配置文件里面,它这边也会新增相关的配置,然后在这边那 agent 它这边有个,它这边有个 list, 那 这边有个主绘画的一个 agent, 那 这个 call 点是我们新增的一个 agent, 那 配置完之后我们就要去设定这个 agent, agent 一个人格,那我我这边会通过 ai 的 方式来进行一个输出,这个这部分就不用我们自己去设定了,我们就提出我们需求,让它进行一个修改就可以了。 那我这边的提示词是这样写的,我会让他去艾特这篇文章,然后让他了解就是每个 agent 需要 包含的有哪些内容。那这篇文章是在这个网站这边去的,就是每个 agent 它有包含了几个文件,像 agent 点 md, 其实一些操作指令告诉 ai 应该怎么做,那 so 点 md 就是 ai 的 一个 灵魂。告诉 ai 他 是谁? user 就是 我们用户,我们自己用户是谁? i don't care 是 ai 的 一些基本身份, toos 是 一些工具,就是 ai 使用的一些 skill。 那 may may 点 d 是 一些长期需要记忆的,那然后下面有一篇的目录,这个是用来做短期记忆的,每天都会做一个总结。 那这边都有介绍每部分需要编辑的规则是怎样的。那我们看一下我们这边 ai 帮我们实现怎么样呢? 那他就会给出这个基本身份是名字叫 cloud code, 资深前端的软件工程师, ai 助手。前端啊,即 open core, 它的一个定位是把需求变成可维护、可测试的交互。一个软件部分都是 ai 帮我们生成的。那我们来看下一个文件,这个是 ai 的 灵魂, 那现在我们看下一个就是它的 agent, 我 们继续 那用户的画像,说的就是我,我看一下,这个可能比较重要,这是为了更好的写作,不是为了收集隐私,不要记入敏感信息。那基本信息,我叫 oliver, 那 时间就是北京时间, 这是心跳的一个轨迹,周期性的一个工作,我们不需要心跳检查,把本电流空气的起动时保持最小,以免脱口干纹。我们先这样弄,然后要在人格里想画出来,就主要要记住这样 看一下,然后这个 让他再调整一个版本,我们采用飞书测试一下,我们来问一下他,你好,你是谁?我这个需要授权一下。 好像没起来哦,我们重启一下服务,我刚开始可能忘记重启了,再重启一下。 ok, 我 们再测试一下 哦,感受到配置完那个 agent 之后,需要那个重启一下服务。 那另外关于这几个这几个文件的一个介绍,我们在这个网站这边是有个详细的介绍,就是打造 ai 的 一个人格,它有介绍工工作空间一些文件的作用,大家有需要的话可以私信我,我分享给大家,今天分享到这边,谢谢大家。

欢迎观看 blender c l i anything 无头渲染实战。今天我们来探索如何使用 c l i anything 为 blender 构建命令型接口,并在无头环境中进行三 d 渲染。 c l i anything 是 opencloud 的 一个技能,它可以为任意 gui 软件生成命令行接口,让 agent 能够通过 c l i 控制这些软件。 我们的核心挑战是在无头服务器环境中没有图形界面, blender 无法直接使用,故意渲染。 第一步,安装 c l i anything。 我 们从 gighub 克隆仓库并将 openclaw 适配器复制到技能目录。 c l i anything 提供了丰富的 blender c l i 功能,包括场景管理、对象操作、材质系统、灯光、相机、动画渲染等。我们创建一个三 d 场景,可识画三角函数,正弦、余弦、正切 场景,包含一百六十三个三 d 对 象。第四步,解决无头渲染问题。我们安装 x v f b 虚拟显示服务器,为 blender 提供虚拟图形界面。 选择合适的渲染引擎很重要。经过测试, cycles 在 无头环境渲染会全黑,而 ev 可以 正常工作。 第六步,修复材质分配问题。原始脚本使用条件判断导致材质未分配,我们改为直接分配材质。 现在执行渲染,使用 blender 后台模式运行脚本渲染时间一分十八秒。技术要点总结, x v f b 是 必须的, ev 引擎优于 cycles, 材质要直接分配。灯光强度建议大于等于五点零。 最终结果一千九百二十乘以一千零八十高清三 d 渲染图清晰展示三条三角函数曲线。结语,通过 c l i nifin 加 x v f b 加 ev, 我 们成功实现了无头环境下的三 d 渲染。感谢观看。

我们用 openclock 控制机械臂,现在用中文和它说清楚要做什么事情。首先请抓起方块,我们看到我们的 openclock 已经识别了我的语音指令, 现在机械臂已经开始思考调用 sdk, 根据视觉定位的结果规定运控路径,并且开始执行。把方块放到左边, 堆叠两个方块到刚才那两个方块上面。 a 三机械臂在 open clock 的 驱动下,现在开始堆叠,稍后我们见证一下它堆叠之后的样子, 再抓取一个螺丝插入到堆叠的方块孔里面, 把刚刚的动作全流程再跑一遍。 太棒了,给你一个大大的赞,祝我们 g c b 大 卖。

我们都知道现在的 ai 很 会聊天,但是如果它不只是个聊天伙伴,而是能真正帮你干活的行动派呢?今天我们就来聊一个叫 openclo 的 工具,看看它是怎么给 ai 装上手脚,让它从能说会道变成能干实事的 来,我们先从一个问题开始想,你想我们现在用的大多数 ai, 你 问他答,聊得挺欢,但如果他不光能跟你聊,还能真的上手帮你做事,那会是一种什么样的体验? 这就是 open claw 这个项目想要解决的核心问题,他要做的就是赋予 ai 行动的力量,让他能用工具管文件、上网冲浪,而你呢,只需要下达指令就行了。 好,那么要打造这么一个能干的个人 ai 代理,我们该从哪下手呢?嗯,答案其实很简单,得从最基础的基本功开始练起。 没错,就跟人一样, ai 代理首先得有手和脚,对吧?在这里啊,所谓的手脚,就是那些能让他直接和你电脑操作系统打交道的核心技能。 你看,这三项技能就是它的基础,通过 shell 终端,它就能像个程序员一样在后台敲命令、刨脚本。 有了文件管理器,它就能帮你整理乱七八糟的下载文件夹,甚至它还能通过刀口儿控制器帮你管理那些复杂的开发环境,这些就是它行动的基础。 ok, 光有手脚能动还不苟,一个好的助理还得能眼观六路,耳听八方,对吧?所以下一步,我们就要给这个代理装上眼睛和耳朵,让他能感知到数字世界里正在发生什么。 咱们来看个对比,这个就非常直观了,以前我们要完成一个网页任务,得自己一步步打开浏览器,输入网址、登录、填表单,一套操作下来挺费劲的。 现在呢,有了网页浏览这个技能,这些繁琐的步骤, ai 一 句话就帮你搞定了,这效率简直是质的飞跃。 这一点我觉得特别关键。我们都知道 ai 的 知识库有可能会过时,对吧?但是一旦他掌握了搜索引擎和新闻监控这些技能,那他就不再是那个活在过去的 ai 了,他能随时上网获取最新的信息,保证自己永远跟得上节奏。 好了,到现在为止,我们的代理已经有手有脚,有眼有耳,算是个什么都能干点的通才了。但要想让他真正派上大用场,我们还需要给他一个专业大脑,让他从通才变成某个领域的专家。 如果你恰好是开发者或者研究人员,那这些技能绝对能让你眼前一亮。你想想,让 ai 帮你去读那些又长又难懂的代码, 或者帮你从海量的文献里找到你想要的那几篇,这能省下多少时间和精力啊。当然,对于我们日常办公来说,它也能变身效率神器。 比如说帮你处理堆积如山的邮件,像个贴心的私人秘书一样帮你安排日程,还能在你常用的聊天软件里随时向你汇报任务的最新进展。 哎,刚才我们聊的都还只是单个的技能,刀崩克拉真正厉害的地方,或者说他的魔力所在是把这些技能像乐高积木一样自由的组合起来。也正是这一点,让他从一个简单的工具,真正变成了一个能自主工作的代理。 这句话说的真的太对了,它的力量源泉就是协同工作的技能链。你想啊,我们现实生活中遇到的复杂任务,哪一个是靠单一能力就能解决的呢?肯定都是组合权嘛。 我们来想象一个具体的工作流,你看,你可以让代理先用学术搜索技能找到一篇新论文,然后把它交给 pdf 技能去阅读和总结,接着用文件技能把摘要存到你的文件夹里, 最后再触发通知技能给你发条消息说老班滑蛋完了,整个过程全自动,完全不用你插手。 讲到这里,相信你已经很想试试看了,不过在开始之前,我们还有两个很重要的实践技巧要分享一下,最后我们会把一个问题留给你来思考,又想安全又高效的用好这个强大的工具,有两点你一定要记住, 第一,安全第一,遵守最小权限原则,特别是对那些能直接操作你电脑系统的技能,一定要限制好它的活动范围,防止意外发生。第二呢,就是要勤更新,社区会不断推出新的技能,记得常去看看,让你的 ai 助理也与时俱进 好了,那么最后这个问题就是为你准备的。看完了所有这些强大的功能,了解了这些无限的可能性之后,你可以静下来想一想,在你的日常工作或者生活里,你最想把哪个繁琐又重复的部分交给你的个人 ai 助理来帮你搞定呢?

我用 cloud code 做了一个赛博朋克风格的韵味面板,太酷了!今天给大家看个 ai 写出来的酷炫桌面应用。 每次管服务器都要打开终端,敲一堆命令,启动、关闭、重启,看状态全靠手打,万一敲错一个字母,服务直接挂掉,这谁顶得住啊? 所以我让 cloud code 帮我做了这个 openclaw 运维面板。一句话描述需求, ai 直接生成完整项目,毛玻璃卡片,霓虹发光按钮,身子渐变背景,这不是游戏界面,这是 ai 写出来的正经运维工具, 四个按钮搞定一切,启动、关闭、重启、检查状态,命令执行的每一行输出实时滚动。在日制面板里,这个发光的状态还三十秒自动轮询,服务挂了。你第一时间知道这些逻辑全是 cloud code 自动生成的。 cloud code 全程编写,技术栈也不复杂, electron 加原声, c s s 零框架,依赖跨平台,支持 windows 和 macos, ai 自动处理,双平台兼容逻辑。 windows 上用 netstat 找端口, taskkill 杀进程, macos 上找 login shell, 一 套代码,两个平台全部搞定。你觉得这个 ai 写的 ui 好 看吗?评论区打一,我出一期教程,教你怎么做。打二,你觉得还能加什么功能?

openclo 刚刚更新了一个重磅功能, ai 可以 直接操作你正在用的 chrome。 什么意思?就是你的 ai 助手现在可以直接进入你的浏览器,看到你的页面,帮你填写表单,整理你的数据。不是新开一个浏览器,是你正在用的那个 chrome, 登录态、标签页全部都在。 今天我演示三个场景给你看,看完你就知道 openclo 这个更新到底有多猛,而且最后我会告诉你哪些能做,哪些千万别碰! 很多人会说, open globe 以前不就能操作浏览器吗?这次更新有什么不一样?以前 open globe 操作浏览器靠的是什么?截图加大模型视觉分析。先对页面截一张图,发给大模型,看图才操作,然后按坐标点击。这个方案有三个致命的问题,受分辨率影响太大, 动态内容经常误判,按坐标点击,页面布局一变就歪,每步都要截图分析,速度慢,透坑消耗巨大。 现在的 v 二零二六三月十三号完全换了技术路线,通过 chrome 官方调试协议, cdp 直连浏览器,不再截图猜,而是直接读取段落数和羽翼结构,百分百精准,速度快十倍,透坑省百分之九十。一句话, 从看图猜操作升级到直接读懂页面,这不是小优化,是直接换赛道,光是操作更准还不够。 这次更新最让我兴奋的是自动化,因为终于可以用了。以前截图方案最大的问题不是能不能做,而是能不能稳定批量的做,跑十次成功六次,那叫玩具,不叫工具。 现在 cdp 直连之后,三个维度全部拉满。第一,定时任务可调度,定时采集,定时发布,定时巡检,稳定性够了才敢上。第二, 批量操作高效率,不用每步截图等分析到某之都,速度快十倍。第三,异常恢复可监控, c d p 断了 自动重连,配合 oppo 的 get 位,七乘二十四小时无人值守,从能跑一次到能稳定跑一百次,这才是真正的自动化。好了,说完升级,直接看下步,可以针对内容加一些标签呀,排版呀 什么的,然后我们演示就到这里,把整个流程跑通就可以,然后自动发布,一键排版,暂存离开都可以, 然后封面图重新规划设计一下。好,演示完了,先来讲最重要的一件事,使用边界,能力越强,边界越重要,记住这三条就够了。第一, 只操作你有权限的页面,你的后台,你的店铺,你的系统。第二,优先让 ai 做读取和整理,先把它用在看和整理上。第三,关键动作,你自己点发布、支付、删除,这些按钮永远留给自己,从一个页面一个动作开始试,跑,稳了再扩,顺序别高反。 最后总结一下, opencl 最新版正式支持 chrome 浏览器连接, ai 终于走进了你的浏览器。今天演示了三个场景,全网实时找资讯、小红书、账号运维、自动发布选题、 chrome 新特性,各大网站适配, 每一个都是以前要花大量时间手动操作的高频场景。记住一句话,以前 ai 隔着窗口帮你想,现在 opencl 直接进你的浏览器帮你干。你现在可以做的,安装或更新 opencl, 到最新版 评论区,聊聊你最想看哪个自动化场景的深度演示,或直接加群和我一起交流实战玩法,下一期我会跳评论区呼声最高的场景来拆,关注不迷路!

今天来看一个 opencloud 多 agent 这联动效果。首先新建一个 agent c 幺二,专门处理图像任务。之后再新建一个 c 幺三,专门用来处理写作。 接下来来测试一下能力。 定义一个工作流程顺序, 在原有的记忆体中来添加一个共享记忆体, 以便协同工作时能够共享信息和数 据。接下来是整个工作流程的完整展示, 由主 agent 接受任务,根据任务关键词判断任务类型, 进行任务派发。由各 agent 完成专属任务后,结果返回主 agent, 最后由主 agent 进行整理总结汇报。

什么? ai 可以 完全接管电脑了?没错,就在前几天, cloud 悄悄放出了一个重磅更新, computer user, 这个功能让 ai 走出了对话框,真正拥有了动手干活的能力。它用纯视觉方案可以像人一样看屏幕、点鼠标,操作电脑,执行任务。 也就是说, cloud 可以 真正的接管电脑。以往我们用的 ai 助手大多是靠底层代码驱动,跳过了前端界面,遇到浏览器或 office 这类可以调用接口的还好说,可是一旦碰上这些没有开放接口的软件,它就无能为力了。 cloud 这次带来的 computer user 功能,相当于给 ai 装上了眼睛, 不需要调用接口,而是能像真人一样识别屏幕,点击鼠标,而且它也可以通过手机跟电脑进行交互。看到这里,有的朋友可能会问了, open cloud 也可以用视觉方案呢?没错,但是它需要非常复杂的设置。 cloud 的 优势是能做到开箱即用,省去了复杂的配置流程, 再配合前几天更新的 dispatch 远程操控功能,只要你的电脑开着手机发个指令,它就能跨越空间帮你完成任务。这种视觉操控的闭环,让 ai 从一个对话框变成了真正能干活的数字员工。那 openclaw 是 不是该感觉到压力山大了呢?那你觉得这种长了眼睛的 ai 会是你提升办公效率的一个方法吗?