秒学 ai 之什么是 cli 小 镇上新开了一家面馆,阿强第一次去,他拿着厚厚的菜单翻来翻去,先看图片,再点按钮,再勾选辣不辣,要不要葱,最后还得再确认两遍。点一碗牛肉面,手指头戳了半天,后面排队的人都快饿晕了。隔壁的老顾客老牛就不一样,他往窗口一站,张口就来牛肉面,大碗微辣不要葱,打包。 老板听完反手就下锅,三分钟就出餐。老刘说,我不是靠点来点去,我是直接把话说准。 电脑里的 c l i 也是这个路子。 c l i 全称叫 commandline interface, 叫命令行界面,一种完全通过输入文本命令来与计算机系统、软件或者工具进行交互或者控制的方式。而是通过鼠标点击图形界面。 平时我们用鼠标点图标点按钮,就像看菜单点餐,直观但是慢。 c l i 呢?就是你打开一个黑乎乎的窗口,用一行一行文字命令去告诉电脑干活,你说得准,它就快, 你说错了,他也不会猜,只会冷冰冰的报错。这种用文字命令直接和电脑对话的操作方式就是 c l i。 我是 ai 门外汉,请跟我一起铭记,出门外汉,入行 ai, 赶上 ai 的 浪潮!
粉丝51获赞731

老大团队真的杀疯了,最近啊,他们 github 上面开源了一个神级项目,三天狂飙八千新,现在已经破两万了。他最厉害的地方在于,只需要一行代码,就可以为复杂的软件生成一套 ai 可以 直接调用操作的接口。简单的说就是过去啊,软件是给人用的,但经过它转换之后, 直接变成了 ai 可以 使用的工具。更牛的是,它除了可以喂给小龙虾外,它可以被 cloud、 code、 codax 等多个 ai 平台直接使用。如何实现呢?只需三步,我就拿让我的龙虾实现自动操控 blender 来做演示,记得点赞收藏!第一步啊,安装 c o l a n d, 只需要直接复制这些命令行给你的小龙虾。这就像给 ai 装上一个万能翻译器,让它能够读懂任何软件的操作手册。第二步,让 ai 自动扫描 blender。 我 就跟我的小龙虾这么说,它就直接开始分析 blender 的 原代码,把所有的功能都提取出来了, 生成了一套完整的控制接口。第三步,就是见证奇迹的时刻,因为现在的 ai 已经完全掌握了 blender 的 控制权。我直接对我的龙虾说,用 blender 生成 ai 接管的三 d 霓虹灯效果, 它没过多久啊,成品就直接出来了,超级酷炫!除了 blender 呢,这些耳熟能详的软件也都能玩的溜。但你没有想过,当软件完全为 ai 所用,那么人类是不是应该要放下鼠标了?

前两天看到有个人评论说他之所以不用 cloud code, 是 因为每次关闭窗口以后,聊天记录也没了,下次打开只能从头开始聊。 实话实说,作为世界顶尖 a 型的工具,怎么可能会犯这种低级错误呢?哈喽,大家好,我是专注用动画科普 ai 的 阿 k, 今天这期视频我想给大家仔细的分享一下,想要用好 c c 应该掌握哪些技巧。本期视频全程无网,可放心观看,走你! cc 其实一直有两个版本,大家比较常见的是 c l i, 也就是命令行版本,还有一个是在 g u i, 也就是图形界面的桌面端,这两个版本一直是并行开发,针对的也是两波完全不同的受众。 简单来说,桌面端提供了图形界面支持,更直观的代码对比和任务规划面板,适合偏好视觉化反馈的朋友。但我更建议大家尝试 c l i 版本,也就是我们今天分享的主角。 原因在于 c l i 版本的运行效率更高,对系统资源的占用非常低,更关键的是它在自动化集成和插件扩展方面有着天然的优势,能更方便的接入各种第三方开发工具。 在环境准备上, windows 用户只要提前安装好 node js 和 get 即可。不会其实也没关系,这里我教大家一个携修功法,那就是用一个有免费额度的 a 键的工具,比如翠,让他来帮你安装。那接下来就是 c c 的 安装环节。首先,由于 astropik 对 npm 命令的气用,以 以及新的 i r m 命令,国内使用百分百会报错,现在能用的官方命令只有这一条了。实测的时候,也许是因为我的网络问题,整个过程比较慢,但可以顺利完成,所以如果大家碰到跟我一样的情况,请保持些许耐心哈。护住它的方式很简单,我们在任意位置点击鼠标右键,选择在终端打开, 这样我们就能看到一个黑黑的命令行窗口,接着我们输入 cloud 并按下回车就可以了。但是第一次启动 c c 时,大家一定会碰到登录问题。好,这里就涉及到一个非常重要的知识点了。首先, c c 按道理来说是必须登录,而且只能用它们自家的模型,但是 s o p 这个公司吧, 懂的都懂,所以我推荐大家使用 cc switch 来给 cc 配置国产墨烯 a p i 不知道怎么用的话,问豆包或者 deepsea 都行。 ok, 那 相比随便找个地方呼出 cloud, 我 其实更推荐在指定文件夹里呼出,什么意思呢?比如我们现在要做一个测试项目,那我们就在非系统盘新建一个文件夹,并命名为 test。 为什么要用英文呢?因为这些编程语言都是国外开发的,他们开发的时候是不会考虑中文规范的,所以用中文名的文件夹或者文件夹路径中出现中文是有可能报错的。大家一定要养成用英文命名的习惯哈,哪怕是拼音都行。 进入 text 的 文件夹,然后在空白处点击鼠标右键,选择在终端打开。那在这里呼出 cloud 和在桌面呼出 cloud 有 什么区别呢?区别就在于在这个文件夹内的命令行窗口呼出 cloud, 它就默认为绕你这个文件夹里的项目来进行开发了。也就是说咱们人为的给它规定了行动范围,有利于我们接下来用自然语言给它下达开发指令。 达到这一步,其实也就意味着可以让他干活了。但如果想要更加自如的操控,他还得了解一些常用命令。首先他有三种常用模式,第一种是默认模式,主打一个稳健,每一步改动他都会停下来问你,你点头同意他才动手。 第二种是全自动模式,不问不看,直接开干,效率最高。第三种是 plan 模式,这就是只动嘴不动手,他会帮你分析逻辑出详细方案。 而切换三种模式的快捷键是 shift 加 tab。 我 个人比较推荐新手朋友在第一阶段先用 plan 模式来规划项目结构,等全部逻辑确认清晰以后,再切换模式去落地。注意哈,这里虽然是全自动模式,但实际上在涉及很多安全性敏感的操作时,比如要执行一段复杂的终端命令, c c 还是会对你进行询问的。 这时候屏幕上会出现三个选项,第一个是同意他的这一次操作,第二个是同意并授权接下来的所有这类操作都无需再询问。第三个是拒绝,一般情况下,如果你信任他生成的方案,选第二项就行。 然后是视频开头说的那个聊天记录的问题,其实我们只用输入斜杠加 resume 并回车就能看到一串聊天记录列表,选择你想要的那个,就可以无缝衔接到之前的聊天内容中了。那如果我们在项目开发的过程中执行了一段效果不尽人意的操作,之前的聊天内容之前 也可以把它理解为后悔药,当然,项目可以回退消耗的 token 肯定是退不了的哈。最后还有两个重要的命令,分别是斜杠 compact 提炼并压缩上下文和斜杠 clear 清空上下文。因为有研究表明,当上下文窗口占用超过百分之五十的时候, c c 的 执行质量就会降低。 我们需要养成当项目完成阶段性功能后,压缩或清空上下文的习惯,从而保证项目顺利开发。那具体怎么监控上下文消耗情况,以及如何在清空聊天记录后,还能让 c c 知道项目开发进度呢?这个咱们下期视频细聊哈。 掌握了前面说的这些,其实就足够支撑我们顺畅体验 c c 的 强大了。但如果你想要真正把它用到得心应手的程度,就必须深入研究一下它的三个境界功能。第一是 skill, 它是给 ai 准备的标准化作业手册,能让它在执行特定任务时输出的更加稳健且有条理。我之前做过两期视频详聊它,感兴趣的小伙伴可以去看看哈。 第二是 m c p, 它作为一个通用扩展协议,能让 ai 彻底突破本地环境的局限,去调用更广泛的外部工具。这个咱们下期视频也会详聊。 第三是 hux, 它是一套自动化的触发机制,能帮你实现完全无感化的开发工作流。那如果你想更系统的学习这些实操, get 上有一个开源的高新项目,它是专门教你如何上手 c c 的 纯干货教学仓库, 我自己也在用它学习哈。 ok, 那 以上就是本期视频的全部内容了,我是专注用动画客服 ai 的 阿 k 无惊无险又到六点下了个班。

最近有个开源项目火了,叫 open c r y, github 上四天就涨了八千星。他干了一件什么事?他把任何网站和应用直接变成命令行的工具?你平时刷 b 站,光直呼看小某书,这些本来要点来点去的操作,现在可以直接变成一行命令, 甚至可以直接通过 skills 交给 ai 去调用。你在 code code, open code, open crottt 使用的时候, ai 直接读取这个 skill 文件, 瞬间学会调用。它的原理就两样东西,第一,用 chrome 的 c d p 协议,直接附用你的浏览器登录状态。第二啊,一层适配器,把网页的接口翻译成命令行的参数, 没了,不存你的密码,也不存你的凭证,所有的数据都在你本地跑。已经有五十多个平台内置的适配器了,甚至连 ctrl shift、 gpt、 note 这些桌面应用都能控制安装,有多简单呢?看这个直接交给油喷扣的。 所以, open c l 本质上不是一个工具,而是在干一件更大的事情,它把整个互联网变成 ai 的 工具箱。

用 ai 变成助手,大家肯定或多或少遇到这样一个问题,每过一会, ai 就 会找我要权限,或者问我这个事情能不能做,所以我们推出了 auto mode。 我 们的核心思路很简单,用一个轻量的 ai 去审批主 ai 的 操作,对安全的我们自动放行, 对危险的我们自动拒绝,全程都不会弹框,那么怎么去启动它呢?其实很简单,大家看到只要我按 shift 加 tab 就 可以切换到 auto mode。 现在我来给他一个任务, 你看他这边就先先读文件,他接下来会再去改代码,最后得跑跑测试,四三步全都是自动完成,不会有任何一个确认框弹出来。这背后有三层确认机制,第一层,读文件,这种只读操作,在白名单上我直接放行。第二层,对于一些编辑工作工作区内的文件,它是安全的路径, 我们会让他走快速路路,路径也是直接过第三层,嗯,有一些稍微有一些风险的命令,我们给一个清零的分类器,如果这个操作和我的请求一致,那我们就会放弃他。 那么可能就会有人问,如果我换成很危险操作呢?比如说这个,嗯,这样子呢?嗯,我想把整个代码库全都删掉,我直接删库跑路啊。大家看到其实他这个逻辑就会在在这边被拦住, 而且我们不仅如此,在此基础之上,我们还有垄断机制,如果我连续多次被拒绝系统,它的模型可能卡住了,或者是遇到什么解决不了的问题,于是我会自动垄断整个 os, 防止它无限的重试,浪费我们的资源。 那么总结一下, default 模式,可能每步都要做做确认, accept 编辑它是自动过的,但是命令还是要手动 p 的 优漏全放,但是缺少了一些安全的网,那么 auto 是 中间地带 安全的,自动过危险的会自动拦住,全程零弹框,我们可以说它就是在效率和安全之间的最优解。

飞叔刚才做了一个决定,可能改变整个软件行业,他把自己给拆了。就在今天,飞叔官方开源了他的命令行工具,十一个业务领域,两百多条命令,十九项 a i a 证的技能,直接调用两千五百多个 api。 以前你想让 ai 帮你发个飞书文档,查个日程、填个审批,对不起,他做不到,因为软件是给人设计的,你得动手打开 app, 点点点。现在不一样了, ai 直接操作,不管是 cloud code、 open cloud 还是 cursor, 只要一行指令装上就能用。 这代表飞叔承认了一个事实,未来软件要同时服务两种用户,人和 ai。 c l i 开源之后, agent 不 需要打开任何 app, 它只需要一行命令。这意味着软件生态正在分裂,归给人, c l i 给 ai, 双态并行。 飞叔是第一个,但不会是最后一个。我们正在见证的是从人机协助到人机共生的签约。今天,飞叔打开了这个潘多拉盒子。

最近用 c l i 比较多,就是 command line interface, 它其实就是一个 像下面这种就终端的一个类,类似于一个终端,然后下面这个是 kimi code 的 一个终端, kimi code c l i, 然后也有其他的,网上有很多,这个看每个人的需要,然后就直接通过终端跟他对话,让他帮我去做一些工作或者任务。然后我之前用的比较多的是扣子编程,然后现在我用这个 c i 之后,我就没有怎么再用这个扣子编程了, 因为扣子编程它就它的缺点就是没有办法操作本地的文件,它所有操作都在云端,而 c l i 它是可以直接处理本地的文件,所以操作起来它会更加的方便。 那扣子编程是不是就真的没有什么用处呢?然后这次我用 我用这个 c l i 和这个扣子编程同时做一个游戏像素图像的生成网页,然后我就发现扣子编程在处理图片和视频相关的工具上面还是有优势的, 因为他可以直接调用极梦的生图和视频的大模型。然后现在我们可以来看一下他们两个做出来的区别,这个这个就是用扣子编程做的, 然后你看它它其实做出来的图片效果还是是很好的。 然后这一个是用 kimi kimi ko 的 编程做的,就它的网页看起来还挺好看的,对吧?看这个有模有样,但是但是但它的 但是他的深涂功能,你看非常的非常的没法用,就这样没办法深涂一下, 所以你对比一下你就发现就是扣子编程并非一无是处,还是有地方可以用的,但是他已经 已经不像之前那么的好吧?那么的有用了。然后如果你有这个极梦的会员的话,那你其实可以直接用 c i 调用极梦单模型的能力,这样的话基本上就告别扣子编程了啊?这个就是扣子编程跟 c i code 的 区别。

microsoft 之前开了一个浏览器自动挡工具叫做 browser agent, 可以 支持大模型通过 c r a 方式来去操控浏览器。最新它开了一个叫做 browser harness 的 一个有自愈能力的 browser agent。 相对于之前的 browser agent 来说,它的整个定制化以及可玩性会比 browser agent 会更强一些。就好比一个原厂车跟一个改装程序,你可以完全去定制化自己的一套 browser agent 的 服务。那么这些使用也很简单,你进入这个官网,点击 pointfour ios, 它就会复制对应一个安装指令,然后你只需要把这套指令 印刻到你的 procode 呃命令行工具里去点击确定,它就会是执行一系列的安装流程。然后在安装过程中,它会弹出一个浏览器界面,让你授权浏览器 bug 的 一个权限,因为你要去操控浏览器去做操作,你必须把它全打开闪退。 这个工具安装完成之后,会打开浏览器从另一项照这个项目的一个 bug 界面,然后这边会有个提示,那你这边其实会有演示,通过它来去做一个 star 的 操作。点击 yes 之后过的话,你不会看到通过 rosoft 它已经成功的在这个开源项目上面进行一个 star 操作。 那我们来看一下这个 browser 它去做什么事情,它其实也提供了一个自然语言的描述结果。首先会到这个浏览器,也就是我们 rocco 的, 它会先去读这个项目的一个 sql 的 id, sql 的 id 去理解它的使用方式,就会连接我们的这个 browser, 通过它跟我们的浏览器去建立一个搜索连接, 然后再通过我们的浏览器去发送一个指令给过去,这样它就会调用现有的 helper, 然后去封装浏览器请求去操作一个浏览器, 这种浏览器会返回你结果,那他会去分析什么结果,不过他发现 helper 不 足以满足你的需求,那么就会通过 l n 来去实现一套新的 help 来去满足你的需求场景。所以说 plus hash 其实非常灵活,它会根据你的一个需求目标去调用你的浏览器去执行对应的任务,会根据返回结果去判断是不是要定制化去实现一套脚本来去满足你的业务需求,这样做其实会非常消耗托管,但是它其实可以去实现一些非常复杂的定制化的一些需求场景。 这个层次在 boss user 这边你是做不到的,因为 boss user 其实做了一层比较高的一层封装,但是它其没有爆露出一些非常底层能力出来。如果说你的场景的整个定制化要求比较高的情况下,那么其实用 boss hines 会比较合适,你可以根据你自己的需求去分装出自己的一个 help 出来,去满足你的多样化场景的需求。

家人们,最近费叔在 github 悄悄开放了 c o i, 不知道有没有人跟我一样,第一眼看到就觉得这绝对是 ai 时代的必备工具。如果你现在还不知道 ai 是 什么,真的要注意了,在 ai 时代可能就有点掉队了。 说到 c u i, 就 必须提他的老搭档 g u i, 那 这两个到底是什么?今天我就给大家掰开揉碎了说清楚。很多年前的电脑,还没有现在这么多花里胡哨的图形界面,没有这么多可点击的图标。最早人类和电脑沟通 全靠敲命令,这就是 c o i 的 图形,它的全称是 command line interface, 也就是命令行界面,简单说就是用命令行指挥电脑干活。而现在我们用的天天点鼠标操作的图形界面就是 g o i, 全称 graphical user interface 图形用户界面。它的出现就是为了照顾咱们人类的操作习惯,不用天天死记硬背命令行,点点鼠标就能搞定,大大降低了电脑的使用门槛。重点来了,飞书开源 c o i 到底意味着什么? 大家看,这是飞书在 guitar 上的开源项目,这个操作背后藏着 ai 时代的核心逻辑,智能体根本不喜欢图形键面对它们来说, c o i 才是最顺畅最高效的操作方式。开源 c o i 本质上就是给智能体开放了一个操作入口, 以后咱们不用再哒哒哒敲命令,也不用反复点鼠标,只要把你想做的事儿用自然语言告诉智能体,它就能自动调用 c o i 帮你搞定所有的操作,比如创建非输文档、多维表格、发送消息、总结会议纪要, 只要你能对他说清楚,让他干嘛,智能题就能完成,省时又省力。再往长远看,这绝对是一个超级大的趋势,以后会有越来越多的应用,慢慢开源自己的 c o i, 一 方面是给咱们人类用,满足不同人的操作习惯,更重要的是 要服务好 ai 智能体,跟上时代的步伐。所以如果你现在还没有开始接触 c o i, 真的 要抓紧动起来了。大家看飞书官方早就把详细的安装方法清清楚楚的放在官网上了,步骤特别简单,跟着一步一步操作,几分钟就能搞定。当 当然,如果你们在安装过程中遇到任何问题,或者不知道怎么配置,都可以联系我,我可以手把手帮你搞定,绝对不让大家在 ai 时代掉队。后续我还会分享更多的 c o i 的 使用技巧, ai 智能体搭配 c o i 的 玩法,请大家点赞加关注,学习不迷路!

我用了很长一段时间的龙虾,我认为龙虾这个东西啊依然是被高估的。你真的需要一个通过自然语言去培训的一个数字员工,在你不确定他有哪些能力的情况下,完全交给它自动化去执行任务吗?其实你更需要的一个东西呢,应该是你 口袋的一个人工智能助理,它可以去操作你的电脑。我觉得那如果基于这个逻辑的话,那为什么我不可以把 c l i 这些指令去给它暴露出来?比如说我本地就使用的一个 cloud, 我 就使用 codex, 我觉得我已经调的这些 colog 啊,点 m d 文件或者 a 阵啊,点 m d 文件,他们调的已经很好了。那为什么我们不直接把它暴露出来,直接在远程在我口袋里面拿出手机,我就可以直接去使用我本地的 colog 这些 c l i 呢?所以基于这个逻辑的话,我觉得很多情况下,我们不需要去培养一个数字员工,我们只需要把我们本地使用的这些 c l i 呢 暴露出来,让我们去使用泰迪 graham 的 这种接口呢,去直接使用它就好了呀,我就开发了一套可以把 codex 和 cloud code 暴露出来,让我的泰迪 graham 直接拿手机的话就可以去操作,跟他们去一起去探索一些东西,或者开发一些东西。然后呢,我本地的这个目录呢,直接就暴露到我的手机口袋里,我出去的时候我就可以 指挥他去干活,去盯着他去干活就好了。那我真的没有必要再去培训一个龙虾了。如果你的 cloud codex 已经非常好用了,那直接使用我开发这个项目的话, 直接就使用你本地的这个桌面呢?不好吗?通过自然语言去调龙虾的这个事情呢?我对他表示一个怀疑啊,就如果你真的想把龙虾调的很好,我自己也在调啊,过一段时间我也会把调试的内容给大家分享出来,但是我调的逻辑呢,一定是你基于你懂它里边的原理,然后它的记忆系统是如何规划的, 如何去沉淀出一个 so 点文件啊, memory 怎么去整理的,他怎么能帮助我,他怎么就能改善?你把这些原理都搞明白之后呢?然后去从底层直接去搭建一个龙虾的一个数字人,我觉得这个是一个比较靠谱的一个方式, 如果这些东西都没有搞定的话,那我们就沿用现在的东西,把 codex 和 cloud code 先暴露出去啊,当我们出去的时候,我们能用上我们已经非常熟悉的这些 a 帧的 a 帧,那就已经很好了。所以如果你真的想问我 ai 自动化的第一步是什么? 就是把你现有的已经在本地在做的这些项目的 cloud code 和 code text 先暴露出去,先让你和你本地的电脑先分离, 让你在时时刻刻呢都可以操作你远程的电脑这些 a 阵呢?跟他们去聊天,去探索思路,让他们帮你远程的去开发。这个项目以一种 ai 远程的口拍类的方式先运行起来,而不是完全的搭建一套完全自动化的系统,你自己不理解的自动化系统,你再去指挥,再让他干活。

我最近在用智普的 ai 模型,然后我就发现了智普旗下的这个 ai 编辑器类 code, 它是和其他的 ai 编辑器完全不一样的,它是完全基于 agent 集成的,这种编辑器 和其他那种 vs code 二次开发是完全不同的。它里边是内置了三个 agent, 一个 cloud code, 一个是 emily cly, 还有一个 code 叉 cly, 然后里边打开就是这样直接和 itunes 对 话,然后就可以输出代码。后来我就打开了它的整个 app 包,看了一下整个的目录结构,这个是它的编辑器的一个主的可执行文件,下边看看 这个是它内置的一个内扣的 a 金的,这个里边打开其实就是酷狗的扣的和精品 c l i 的 两个 a 金的,这个的话其实里边是一个 note g s 的 一个运行时再往下这个扣的叉,这个就是扣的叉的 a 金的, 等于说它这个编辑器其实把市面上有的三个 a 金的集成进去,封装了一个界面。

今天我们给大家演示一下一个开源项目,这个项目主要是 markdown 文本里面去抽取出结构化的这个 knowledge, 它可以抽取出八种格式,它可以抽取出记录,它可以抽取出结构化的报告,一些关键 key point, 它也可以抽取出实体,当然它也可以 抽取五种知识图谱,它是关系型的知识图谱,这个是多实体之间的关系,包括它有时间维度和有地点维度的这样的一个知识图谱。它第五个是有时间和 地理纬度的这样一个知识图谱,它都是可以去抽取,那么这个工具应该来讲是非常不错的,我们给大家来介绍一下。那么它的主要的功能,它有一个命令, c l i 的 这样一个命令,它可以去配置大模型, 去分析你的各种各样的 macdunk 的 文件,创建这样的一个知识图谱的这样的一个知识库,它也可以去构建 前面给大家介绍的不同类型的这样的一个知识图谱,那它也支持这种叫 light i g 的 这个知识图谱,也能支持 graph i g 的 知识图谱,也能支持 k g 建的这种知识图谱,它能支持很多的方法,那么它也有各种各样的模板,能够支持金融、法律啊,法律啊等等。 mag 的 知识图谱,它能支持很多的方法啊, 他都能支持这样的一个知识图谱的这样的一个模板的抽取,当然你也可以去定义各种各样的模板,那所以这个工具就是 apple extract, 这个工具应该是挺有用的,我们给简单给大家演示一下,我刚才跑了一下,这个是一个舒适的这样的一个知识图谱,你可以看到他有七十三个节点,有八十五个边,他等于是这样 他就构建了舒适的这样一个知识图谱。那我抽取,我是用一个标准的模板去帮助他去自动抽取的,那这个工具应该来讲还是非常不错的,我们给大家看一下他这个模板里面就会有非常多,我是用的是这个模,是从人物传记 当中,回忆录当中,年谱当中抽取实体和实体之间的关系,他这个叫传记图模板,他有各种各样的模板,你可以用,他也有些概念,有些文档结构,这个他其实都是可以抽的,是通用的,当然他也有一些金融的。简单的给大家看一下工业的,他也有工业的,法律的、医学、药物相互作用, 其实都是可以透的技法。好,这个给大家来介绍一下,那么它的这个方法里面它也能支持比较多的,这种方法有好多方法,这个我们想的会比较多, lightig, 它也通过这个项目 cyber extract, 它也能抽取出 lightig 的 这样的一个知识图谱。好,我们简单给大家讲一下它是怎么用的,它是比较简单的,它主要是安装这个工具就可以了, 它默认它是用了这个 g t 四 o mini 和 text embedding 三 small 的 这样的一个 embedding 的 模型,当然你可以改一改,你也可以通过环境变量你可以去修改一下,我是直接改了原代码, 在这儿你可以去改一下它的 customer 的 这样的一个 model, 改完之后呢,你就可以跑在你自己本地部署的模型上面去抽取出 你需要的这样的一些知识图谱。这个工,这个开源项目它是有一个好处,说它抽取知识图谱,它可以根据模板来抽取,相对来讲会比较方便,它也能够定义出这种 skill, 在 我们的那个 open code 里面去被调用,这个也是比较方便。好,今天我们这样一个开源的一个项目就给大家介绍到这。

四月三号, cloud 官方宣布 computer use 可以 在 windows 系统上使用了。不得不说,最近 cloud 在 computer use 的 功能发布上真是频繁啊, 先是三月二十四号发布了 computer use 功能,然后呢,前两天又说 c l i 也能使用该能力了,那今天呢,又支持了 windows 的 系统, 那我们今天就用大白话来带你搞明白 cloud computer use 到底是什么,怎么用,能解决什么问题啊?不废话,我们直接上干货。 先说结论, cloud computer use 就是 让 ai 直接控制你的电脑,那以前 ai 只能在聊天框里说你可以这样做,那样做,那现在呢,它是真的能动手帮你解决问题了。 打开软件,点鼠标,填表格,整理文件,他就像一个真的人坐在你电脑面前帮你干活一样,他能看到你的屏幕,能操作鼠标键盘,能打开你的 excel 表格,你的浏览器 note 等等,这样的软件都可以。 而且最牛的是它有个叫 dispatch 的 功能,那也就是说你人在地铁上,你掏出手机给 cloud 发条消息,帮我把昨天的会议录音转成文字发到我的邮箱,那么家里的电脑就可以自动的帮你干完,你回家直接看结果就可以了。 那你可能会问了,他到底是怎么做到的呢?用更高效的方式,比如说如果你有 google 套件或者是 loxton 这样的集成软件的话,那么他直接调用 api 是 最快的。 那如果说有些呃任务是网页能够搞定的,那么打开 chrome 它就能操作了,那必须用桌面软件的话,那才启动 computer use 直接控制你的电脑,所以它不是一上来就占领你的屏幕,而是说按情况使用它也不是随时随刻都在截屏录屏。 好了,说完原理,我们来看看怎么用。那你需要准备三样东西,第一就是一台 mac 或者是 windows 的 电脑,呃,对, windows 它现在终于支持了。第二就是你需要开通 cloud pro 或者是 max 的 会员。 第三就是你需要下载最新版的 cloud 的 桌面应用,然后设置非常简单,真的只需要五分钟。第一步,打开 cloud 桌面的应用,然后点设置,找到 computer use 的 开关。 第二步,系统会弹窗,要两个权限,就是辅助功能的权限和屏幕录制的权限,你全部点允许就行。第三步,打开 cloud co work 或者是 cloud co 的, 然后你输入任务,比如帮我把桌面上的图片按照日期整理到文件夹里,然后 cloud 就 开始干活了, 就这么简单,比起其他类似的工具,那它配置确实简单太多了,那它到底能帮你干什么呢?我举三个最实用的场景。第一个场景,数据整理里有一堆 excel 表格,要处理的话,什么删除重复项啊,做图标啊,导出 pdf 啊, 那么以前你得自己点鼠标去点半天,那现在的话告诉 cloud 了,一句话,它自动就帮你搞定了,你该干嘛干嘛去。 第二个场景,自动化测试,比如你开发了一个 app, 需要模拟人的点击操作进行测试,那么 cloud 可以 按照你的指令一步一步的操作,帮你完成整个测试流程。 第三个场景就是远程控制,这也是我最喜欢的。比如说你在地铁上突然想起要处理某个文件,你掏出手机给科老的发条消息,那么家里的电脑你是需要保持开机联网的,他就会自动帮你干完活,那他的结果就会直接发回手机,你回家直接看结果就行了。 那讲到这里的话,肯定有人会问,这些功能 open cloud 也能做呀?它们到底有什么区别?那我简单说几个关键的区别。第一就是应用性, cloud computer use 它开箱即用,装完就能用。那 open cloud 的 话,它需要自己安装部署,它的门槛比较高。 第二就是远程控制, cloud, 它是用手机 app dispatch 的 功能,它超方便。然后 opencloud 呢?它是需要通过 telegram, whatsapp 或者飞书这些聊天软件进行控制, 它支持的聊天软件会更多。那第三,它的适合场景,我个人认为 cloud 它会适合日常临时性的任务快速上手。那 opencloud 呢?它是适合长期重复性的任务,二十四小时后台运行。第四就是价格, cloud 它是需要订阅的,至少的话你需要花二十美元一个月起步。 那 openclaw 的 话,它是开源免费,但是调用模型是需要收费的。所以我的建议是,如果你是个小白,追求简单,那你可以选 cloud 的 computer use。 那 如果你是一个技术宅,你想深度的定制,那你可以选 openclaw。 好 了,那我们今天就说到这,简单总结一下 cloud computer use, 它到底是什么?它是让 ai 直接控制你的电脑,它怎么用呢?你下载应用,开权限,输入任务,五分钟就搞定了,它能干什么呢?它能干数据整理、自动化测试、远程控制等等重复性的劳动。 那它和 opencloud 的 区别是? cloud 它简单好用, opencloud 它灵活可定制。那好了,视频就录到这里,如果你觉得有用的话,记得点赞关注我们,下期见!关注点赞收藏,助力 ai 之路。

今天这期视频的目标依旧只有一个,我会从最基础的操作入手,用最直白、最真相、最透彻、最粗俗、最不拖泥带水、最不绕弯子的方式,一步步的教会你如何正确使用 cloud code, 以及如何让你的 cloud code 更好用。 那首先第一步就是放弃上期视频当中我们使用的 c l i 操作界面,也就是这个界面,它虽然来说是效率最高的使用方式,但并不是最适合新手的使用方式, 所以这里就推荐大家去下载一个这样的 v s code 的 插件,在插件当中使用 cloud code, 因为它不仅可以帮你更加可直观的看到各种的文件内容,让你更清晰的看到 cloud code 给你修改了什么, 那配合 v s code 的 其他插件也可以实现更多的功能。第二个就是你可以在右边的对话栏更加方便的和 cloud code 进行对话,它的输出也会更加的直观。它的下载方式也很简单,首先我们前往 v s code 的 官网,点击这里下载 v s code, 当你安装完成之后,你就会进入到这样一个页面, 点击这里打开一个对应的文件夹,选择一个路径作为你的项目文件目录打开之后你就会进入到它的编辑界面,然后你点击这里的插件按钮,搜索 cloud code, 选择第一个插件, 点击安装。我们在这里先随便创建一个文件,创建完成之后,右上角就会多一个 cloud code open 的 按钮,点击之后你就可以打开你的 cloud code, 你 就可以和它正常的进行对话了。 那接下来我们来简单介绍一下在插件中使用 cloud code 的 基础操作。首先我们把目光聚焦到右下角 点之后,我们会看到这里有 cloud code 的 三种模式。在 ask 模式下, cloud code 每次修改文件之前都会先向你提问他这样改行不行, 如果你说可以,他才会动手。这种模式是最安全的模式,但相对来说他的效率也比较低,所以一般来说我也不会用这个模式。第二种模式就是 id 的 模式,他会跳过绝大部分的这种确认的操作。只有少数危险的操作,比如说删除一些比较重要的文件, 或者使用指令去安装部分软件,这些还需要人工的去手动确认,那其余的操作基本上都会一路自动执行。最后是 plan 模式,在这个模式之下, cloud code 不 会去修改任何的文件,他只会先思考加尔来宾怎么做,然后给出一个详细的计划给你,当你确认方案可行之后,他才会开始执行。 那这种模式就比较适合你在执行一些复杂任务的时候去用。就算是 id 的 模式,你还是会频繁的去确认 cloud code 的 操作。如果你不想一直点 yes, 你 可以在 vs code 的 左下角点击 settings, 在 这里搜索 allow danger, 点击这里的 cloud code, 然后把这里的选项勾上, 关闭之后,你就可以在模式的选项栏里面看到一个新的权限模式,叫做 ipas 模式。选择 之后, colotico 的 就会跳过所有的权限确认的环节,在这个模式之下, colotico 的 会一路自动干活,不需要你任何的操作进行确认, 非常的便捷。但相对应的,他也可能会出现部分危险操作,比如一不小心删除了某些重要的文件,所以这种模式需要慎重的使用啊。后面也会教大家如何使用地址,做好版本管理来避免这种风险。那总的来说,新手就建议先使用 id 的 模式, 当你有复杂任务的时候,可以先使用 play 模式进行规划。如果你真的需要 cloud code 完全坐等在干活,你可以使用最后的 by pass 模式。再来我们继续技术操作的讲解, 当你发送了某一个请求,你又不想让他继续执行的时候,点这个按钮他就可以暂停当前的操作。如果你对 cloud code 的 本次对话修改的效果不满意,想要重新生成,那么我们可以回到当前对话的最上方,这里有一个回退的按钮, 点击之后这里有三个选项。首先第一个选项是在当前位置创建一个新的独立绘画分支,点击之后 cloud code 会开启一个新的绘画窗口, 这里包含了之前的消息记录,你可以在这里继续对话,同时也不影响之前的操作结果。第二个选项是指回退修改的操作,但他不会回退退话记录这里你就可以看到当前绘画所修改的代码文件以及代码的行数, 点击之后就可以进行退回,但是这里的绘画还存在。第三种就是既退回你的代码操作,同时也退回当前的绘画,确认之后,你就能看到刚刚的对话以及对应的代码操作都被撤回了。接着我们来看左边,首先是这里的文件, 显示的是你当前打开的文件,默认情况下, f s code 插件会认为你需要修改当前打开的文件,在你和 cloud code 的 对话的时候,他就会把这个文件作为参考一起发给 cloud code。 如果你需要修改的不是这个文,就可以点击一下隐藏文件,不发给 cloud code 进行修改。 如果你想要让 cloud code 去修改其他的文件,可以使用艾特符号进行制定。需要注意的是,这里一般只会展示文件的名称,如果项目中有重复的文件名称,你就需要通过后面的路径来进行辨别。 如果你想要把一个当前项目下没有的文件给 cloud code, 比如一份你很早就想要的需求文档,你可以在这里选择 upload 进行上传,也可以直接通过复制粘贴的方式发给当前对话。不过需要注意的是, cs code 插件只支持部分格式的文件上传, 如果出现了屏幕上方以外的文件格式,那建议还是放到 cloud code 的 项目目录,使用艾特的方式进行引用。接下来我们来看到这个斜杠部分,这里有很多的小模块,首先是这里的模块,点击 switchmodel, 这里就可以切换你的模型,这里的模型就可以在 cc switch 当中进行配置。第二个是 effort, 这里的选择就决定了你模型发挥的功效, 最低是 low, 最高就是 max。 简单来说,这就是对于你模型的聪明程度。选择 max 就是 发挥你模型最大的功效,但相对应的,它的 tool 的 消耗量也会增大。那这里的建议是,如果你去处理一些比较简单的工作,你可以选择 medium 或者 high, 当你处理复杂工作的时候,你再选择 max, 从而去减少你额度的一个消耗。 那第三个是 thinking, 就是 决定模型是否进行一个思考,默认情况下把它开就可以了,不需要关闭。那接下来我们跳过中间这一趴,来到我们这边的命令行。 这里的绝大部分命令你其实没必要一开始的时候继续记忆,因为绝大部分命令你可能都用不到,你需要用的时候你再去查询。我在文档里面写了一些常用的指令,供大家进行一个参考。当你有 v s code 这个 ui 界面的时候,你只需要记住两个指令。首先第一个就是这里的 contacts, 点击之后它就会显示当前绘画上下文的一个使用情况。 那在这里可以看到当前已经使用了百分之多少的上下文。一般情况下,当这个上下文的使用比例超过百分之六十到百分之八十的时候,你就需要执行第二个指令,也就是这个 compact 的 指令。执行这个指令,它就会帮你自动的精简和压缩上下文,让你的上下文更干净,从而提高 cloud code 的 完成任务的质量。 那下方的操作你需要了解的基本就这么多了,下来我们看上方的人。首先最右边的是打开一个新的绘画,当你当前的任务结束的时候,你就可以开启一个新的绘画来进行下一个任务,避免上一个任务的上下文来影响到本次的任务。左边这个就是历史对话,点击之后你就可以看到你历史的对话记录,点击其中任意一个,你就可以回到当时的对话记录 好了。由于时尚问题,本期视频就先到这里,下期视频我会告诉你如何使用 skills m c p c l i hux 等等内容来进一步提高 cloud code 的 使用上限。如果你觉得本期视频对你有所帮助,记得点赞、关注、收藏。这里是七号,我们下期视频再见。拜拜!

codex 加飞书 c i 简直就是王炸组合,如果你的工作场景里面经常要用到飞书,那我真心建议你一定要把飞书接入 codex, 因为我自己本身就是在做自媒体和内容电商,所以我对竞品内容分析有非常大的需求, 但是市面上很多软件和系统都非常的难用,以及我在用 codex 之前,我自己也搭过一个,只不过是用扣子去搭的一个工作流, 非常的困难,拖拖拽拽搞了我非常久的时间,但这一次用 codex 加飞速 c l i 一个小时不到就帮我全部搞定了,给大家看一下,从提需求到他帮我规划只用了两分钟,然后到确定他帮我搭建这一个系统,只用了二十三分钟。 这个是我让 codex 直接用飞速 c l i 搭建好的一个表格,这个程序它是已经写好了,只要我复制小红书链接,它就可以自动帮我拆解标题,还有正文,还有 视频口播的这个脚本。我觉得视频口播的脚本是对我来说最重要的一个部分。 ok, 那 我们现在复制一个链接,让它试试跑着看, 它现在已经自动在跑了,然后已经在处理中,大家可以看一下。好,它不到两分钟就帮我已经拆解出来了, 对,我们来看一下啊,还是非常非常牛逼的。那其实在我搭建完这一个表格之后,它帮我拆解完视频口播脚本这一部分,其实我没有用到任何的 token, 只是一开始让 codex 帮我开发的时候需要消耗一定的 token, 等后面我再用这一套脚本去跑的时候,已经完全不需要任何的 token, 它花费的额度基本上为零。我在扣子上面搭建这样的一个工作流,还需要我付一定的额度。但其实 codex 已经在这一个文件里面写好了,这个脚本 我在跑的时候就完全不需要消耗额度。但是如果要让 ai 基于这一个口播脚本去分析改写的话,就需要接入一定的 token。 如果你感兴趣的话,我下期也会分享我是怎么用豆包或者是 deep sync 接入到这一个程序当中,让它帮我搭建后面的分析和改写。 所以说大家一定要去接触一下 codex 和飞书 c l i。 如果你也对 ai 加电商, ai 加业务落地感兴趣的话,后续呢,我也会持续更新我的一些实际案例,欢迎大家一起交流。

我用 cloud code 配合 obsidian 制作了 cloud code 的 原码工程的全部架构解析,以及 harness 工程的流程。可识画画布,可以看到这个是 cloud code 的 架构的画布,这个是 harness engineering 的 画布, 然后也都是非常的清晰的结构,也包括全部的细分的架构。 接下来我会展示我的制作过程,如果你想要这份笔记,他也已经在给它开源了。话不多说,我们开始首先就是左边这些细分的架构文件,我是先让 antigo 去阅读整个源码,然后让他挑出重要的架构, 然后我让他给我挑出的每个架构都去分别的进行一个总结。然后就是在 off 系列里面给克拉克的下任务,让他创建一个 canvas, 去展示这些架构之间的关系, 可以看到效果还是很不错的。从中端输入到进化题,日词,三级压缩,什么上下文组装,整个架构写的是非常的清楚。 然后就是 hanning senior, 可以 看到他的解释是非常的直白的,然后这边也是做了一个 markdown 的 那种流程图,但是这边他太窄了,显示不完整,然后我们可以看到他这个整体效果还是可以的, 可以看到他这边是放在了和其他九个笔记在一起,然后我们这边去看一下, 然后在左边找到韩联森的女儿们,可以看到他这边是整体的架构,完整的生命流程全都给写进去了,以及我是让他使用奥布 c 定 c o i 优先。然后他这边也是用的有双链,可以通过链接去直接去别的笔记里找到归属地, 包括后续也会再根据原码再去补充,然后就是把这个笔记给开圆了, 我这边就直接跟扣代克说帮我把这个文件给上传到 github, 然后我这边有接 m c p, 直接就传上去了,之后我是不开心,祝你们天天开心。

谷歌刚刚发布了 jimmy 三点五 plus, 同时还把他们的编程工具 antigravity 升级了二点零,那这次就很明显了,谷歌的话这次是要全面提升它的这个抠点能力。之前不管是在 coi 还是 ide 还有模型, 其实给我的感觉就表现很一般,那这一次的话,这个模型最大的亮点官方说就是它的这一个速度啊,是前模型的四倍, 所以这一期我们就测一个最关键的问题,这么快的速度,它整个的一个代码质量会不会缩水?那我直接会拿两道真实的一个编程任务,把它和 cloud op 四点七, gpt 五点五放到同样的项目里面,同样提示时看它大家的一个表现情况。那下面的话,我们大概去扫一下它官方改出来的一个奔驰 mark 评分哈, 在编程方面的话,主要就看这一个 terminal, 奔驰二点一,还有这一个 sw 一 奔驰 pro, 从这个评分看的话,这一个 jimmy 三点五 plus 这个评分还是可以的哈,但是基于我之前对于谷歌模型实测的结果来看,就是评分不代表一切,因为之前就感觉它在这个编程方面挺拉的,这次我们就看整个的一个三点五 plus 表现到底怎么样。那这一次的话,我们的整个测试题目哈,就是沿用之前测试 cloud of 四点七,还有就是 gpt 五点五的两道真实的一个编程任务。第一个的话就是我们这一个 skills agent 嘛,需要把它从一个 c o i 做成一个 web ui。 第二个的话是希望他从一个已有的比较复杂一个项目里面把这个认证登录给它迁移过来,这一块也比较复杂,需要支持啊, get 谷歌,然后还要做一个落地页。好,我们来看一下这两个实测项目哈,左边的话,就我刚刚说的这一个 skill is a 镜头嘛,第二个的话就我们图片生成 a 镜头,那这次的话,我们是用了这个 anti gravity 它的一个 c o i 终端工具, 整体这一块呢,它的交互的话是跟呃卡扣的很像,那我这边测试下来,他的速度是真的快,相当相当的快,他说四倍,一点都没夸张。 那大家看一下它这个交互的一个情况啊,其实还是感觉挺挺好的。这个交互,那至于整个模型的能力怎么样,那这两个任务我这边实测下来,它都没有一次性的去完成,它或多或少都有一些小问题。那同样的这个提示值,在同样的项目,我给到了 gpt 五点五 以及 calloff 四点七,它都是能够一次性完成的,不管这两边哪一个项目都可以完成。但是 gmail 三点五 plus 它除了快,但它其实还是会有一些或多或少的 bug 嘛。好,我们来看一下它整体的一个表现情况。 好,我们来看一下这个是 jimmy 三点五 plus 帮我们完成的 skus agent 的 一个 ui 界面嘛,它可以去执行一些操作,比如说我给他一篇文章,可以让他帮我们去总结,它就会去加载这个的 skus。 就 我之前有一期视频 专门讲了这个 skills 的 一个工作原理嘛,那这是它完成的一个效果,整体上 ui 这块还 ok, 那 这边的话是 g p d 五点五给我们完成的,左边也是有我们的一个的一些 skills 是 哪一些?那右边的话就是它整个的一个操作的一个过程嘛。怎么说它这个 ui 的 一个结果的话,我觉得就是呃 g p d 五点五的会好一些。 那关于图片生成这个项目,让它去做一个落地页,以及让它去做一个就是谷歌 get 五的认证登录嘛,那这块它也是完成的,但是不是一次对话完成的。 u i 这块的话就是谷歌还是可以的,就是相较于 g p t 五点五的话,我觉得还是会好一些,就 u i 这块的话,我们还是优先选择就是谷歌的模型嘛。 好,下面我们来看下整体这个评分结果哈,那这个评分的话,还是跟之前一样,我们是把所有的模型生成代码通敏之后,然后改到模型去做 review。 那 这边的话 g p t 五点五是要胜出的,它的分会高一些。 第二个的话就是 cloudoff 四点七会辞职,那 gpt 三点五 plus 的 话,它整体评分效果会低一些,也就是它除了快,那代码质量上的话是会差一些。那这边的话也有些解决方案,比如说你可以用 cloudoff 四点七做设计,或者 gpt 五点五做设计,然后再用呃 jimmy 三点五 plus 去做执行。 那这块儿它还不是还发布了这个 anti graphic 二点零嘛。那这个 id 的 话,你就把它等同于 codex 吧,跟 codex 一 模一样。那我这边的话 现在还登录不进去,不知道啥问题。好,下面我们来进行一个总结。那这次他的整个编码水平的话,就是速度上确实是领先很多,但是在交付的一个结果上来看的话,跟国外两家模型还是有差别,尤其是在一些复杂项目里面,他还是会有偷懒的情况。 如果你是需要去做一些原型啊,或者做一些 u i 啊,我觉得这个 jimmy 三点五 plus 真的 是有比较有吸引力,因为它整个速度比较快,而且它的价格也比较便宜。那如果你是需要一些复杂的项目啊,多文件呀,那阶阶段我还是更推荐大家使用 g p d 五点五,在 codex 里面 你运行起来也非常的快。扣袋子这个 app 我 强烈推荐给大家用,我已经最近用了一个多月了,真的非常非常的好用, card 的 话就是封号真的特别严重,我已经放弃了。 ok, 那 这就是这期视频所有内容了,如果大家觉得这期视频做的不错,可以跟我一箭双雕,我是阿江,我们下期见,拜拜。

最近搭了一套很丝滑的 board agent 管理框架,这是他们在群里相互安排任务。比方说我要做一个方案汇报,我会先跟我的管家 agent 说,他就会把相关的 agent 拉到一个任务群,直接在群里面 at 相应的 agent 去派任务, 让内容编辑先负责文稿,然后内容编辑完成之后,设计师来出 ppt, 审稿人作为第三方会直接给到审稿意见。 每个 agent 都有独立的交付产物,你看这是最终交付的 ppt。 有 一种跟数字同事合作的一个感觉, 它整个框架的底层能力是依赖于飞书 c r i 它们最近还挺干的,一个月大概更新了有一百多项能力。安装很简单,一行命令就能搞定。安装之后绑定一个 agent, 新增一个 agent, 实力启动 get away, 选择飞书通道,创建 bot, 就 能直接对话了。你如果还想要这种多 agent 的 写作效果,你就重复这个过程,多建几个。