看来万物颗粒时代真的要来了!就在刚刚,腾讯新闻 c l i 正式上线,直接把全网资讯装进了你的终端,不用开浏览器,不用下 app, 全程键盘操作,敲命令就能看遍天下事。如果你是每天泡在终端里的程序员,便为科研人员,这个工具绝对是你的刚需效率神器。
粉丝8717获赞15.0万

仅需一条指令,万物皆可! c l i。 港大在 github 上刚发布一个超火的开研项目,让所有软件都能被 agent 的 驱动,让你的龙虾面对海量软件不再苦恼。什么是 c l i? c l i 的 全称是命令行界面,说人话就是 ai 可以 直接调用的接口,也就是各种 ai agents 的 自然语言。首先需要安装 python 环境,其次是需要改造 c l i 的 软件。别忘了你喜欢的 ai 编程工具。我的选择是 open code。 首先要检查 opencode 是 否是最新版本,打开 opencode 问问是否是最新版本。果然不是最新版本,那就让 opencode 的 自己更新一下吧。 按照顺序克隆仓库,全局安装 cli anything, 可以 得到五个斜杠 cli 命令,一行命令生成 cli。 经过以上七个字任务,我们就可以得到一套完整的 blender。 c l i。 无论使用哪个 ai 平台,我们都可以用这些命令使用 c l i。 试试用 r e p l 模式操作一下 blender。 先创建一个叫 productshot 的 scene, 我们打开文件看一下效果。 c l i。 命令果然执行成功,我们再试试。随便打开一个 c m d 窗口,调用一下已经安装好的 game。 c l i。 这里还自动创建了 game 的 skill。 新建一个 procreate, 再新建一个 layer, 在 坐标三百三百处写一个红色的 c l i, 最后导出到地盘根目录下看一下效果。果然符合预期,以后你的龙虾就可以实现 c l i。 自由了。怕你后面找不到点关注不迷路, up, 带你上高速!

c l i、 m c p skill 有 什么区别?其实用一句话就能记住, c l i 是 入口, m c p 是 接口, skill 是 手册。先说 c l i, 也就是命令行界面,它解决的问题是你怎么去使用一个工具。比如你打开终端,输入一行行命令,这些都属于 c l i, 它本质上是一个操作入口。也就是说, c l i 不是 能力本身, 而是你和程序交互的方式。你可以把它理解成一个窗口,只不过这个窗口不是图形按钮,而是命令行。接着说 m c p, 你 可以把它理解成它是让 ai 接上外部世界的一套标准接口。比如 如 ai 要读本地文件、访问数据库,调用搜索浏览器,或者使用别的工具,它总得有一套同一的方式去连接。 m c p 干的就是这件事,它不是界面,也不是某一个具体的工具,而是一种接线标准。最后说 scale, 它是指一套被封装好的经验流程和说明。你可以把它理解成 ai 处理某类任务时的操作手册。比如让 ai 去分析 pdf, 生成报表,写代码,做汇报,它不只是靠模型临场发挥,而是可以加载对应的 skill, 按照预示好的步骤去完成。所以 skill 强调的不是连接,也不是入口, 而是怎么做这件事情更加专业,更加稳定。这样一对比,三者的区别就清楚了, c y a 是 交互层, m c p 是 连接层, c y a 面向的是系统和工具, skill 面向的是任务执行的方式。再用一个更加生活化的类比来帮助你理解,假设你在操作一台很强的智能工作台, c y i 就 像是前台操作面板,你可以通过它发布 指令。 m c p 就 像后面的插线板和标准接口,负责把各种设备接进来。 skill 就 像专家写好的 m c p 和操作手册,告诉系统遇到某类任务,按照什么步骤去做就可以了。这回你记住了吗?欢迎评论区告诉我。

大家好,今天我们来把两个小白最容易混淆的概念彻底讲清楚。 c l i 和 skill 这两个词经常出现在 cloud code 的 教程里,但很多人装了半天,还是分不清它们到底是什么关系,有什么区别。 今天只讲这一件事,讲完之后你会发现其实非常简单,一个比喻就够了。你家厨房里有一台烤箱,烤箱就放在那里,插上电,但只要没人去按按钮,他就一直待机,什么都不干。现在你买了一本烤箱使用说明书, 说明书告诉你什么时候该开烤箱,温度调多少,烤多久。好,记住这个画面。 c l i 工具等于厨房里的烤箱, skill 等于烤箱的使用说明书。烤箱负责真正慢活儿,说明书负责告诉人怎么用它。两个缺一不可。先说 c l i。 c r i 的 全称是 command line interface, 就是 命令行工具,不要被这个英文词儿吓到,它的本质就是一个装在你电脑系统里的软件程序, 你通过 m p m install 或者 brew install 这样的命令来安装它。装完之后,它就待在你的电脑里,等着被调用。最关键的一点, c l i 工具不会自动运行, 你把 versile c o i 装好了,它不会自己去帮你部署。只有当 codecode 主动发出命令,比如执行 versal deploy, 它才会醒来,真正去干活。所以记住, c l i 是 真正干活的工具,但它是被动的。再说 skill, skill 和 c o i 完全不同,它不是一个软件, 不需要安装,它就是一段文字说明,通常是一个点 m d 文件,这段文字被读进 clod 的 记忆之后, clod 就 知道了。遇到这类任务,我应该怎么做,按什么步骤来,用哪些工具?比如有个叫 frenton design 的 skill, 里面写着,遇到前端界面任务要生成有真实设计感的页面,避免紫色渐变和套路字体。 cloud 读完以后,碰到前端任务,就自动按这个规范来 skill, 不 需要安装,让 cloud 读一遍就能立刻生效。而且 cloud 会智能判断,他觉得需要的时候 会自动除法对应的 skill。 好, 现在我们把两个概念放在一起对比,看表格的第一行本质是什么? c l i 是 软件程序, skill 是 一段文字,说明装在哪里? c l i 装在你的电脑系统里。 skill 装在 cloud 的 记忆里,怎么加载? c l i 用 n p m 或 word 安装 skill 只需要读取一个 m d 文件。最重要的区别,会不会自动运行? c o i 不 会,必须被主动调用。 skill 会 ge 的, 识别到任务类型就自动触发。 最后一行,用我们的比喻总结, c l i 是 厨房的烤箱, skill 是 烤箱使用说明书。现在说两者的关系,这是最关键的一页。看这条流程,你说一句话, skill 知道该怎么做。 cloud code 下命令, c l i 工具真正干活,你收到结果。所以 skill 是 指挥官,他告诉 cloud 应该怎么做。 c l i 是 士兵,他接到命令后才真正动手执行。 下面三个场景帮你理解触发机制。第一个, c l i 永远不会自动运行,你把温手 c l i 装好了,但如果 cloud code 不 去调用它,它就一直待机。第二个 skill 智能触发, 你说做一个漂亮页面, cloud 识别到,这是前端任务,自动调用。 friend and design skill, 你完全不用点名说用哪个 skill。 第三个 skill 手动触发,你也可以直接点名说,用 stock investment analysis skill 分 析这条新闻,或者立刻按那个 skill 的 框架来工作。知道了是什么之后,我们来说怎么用。先说 c l i 怎么安装,两步非常简单。 第一步,在终端里输入一行命令,比如安装路由 g 杠 g versa, 然后 versa login 登录一下,就这样,你不需要理解这行命令是什么意思,复制粘贴就好, 就像在手机上装一个 app, 装完就一直在了。第二步,告诉 cloud code, 你 有这个工具,你只需要用中文说需求,比如帮我把这个项目部署上线。 cloud code 会自己判断需要用 virtual c l i, 然后主动去调用它。你不需要记任何命令, 重点记住, c l i 只需要安装一次,装好之后,以后所有项目都可以直接用,不用重装。 skill 的 加载比 c l i 还简单,因为根本不用安装。有两种方式,第一种,写进 cloudy, 点 md, 长期有效。 cloud 点 md 是 你项目的手册文件, 在里面加一行 read skill, dot md and follow it, 这样每次 collab 打开这个项目,都会自动读取这个 skill, 长期生效。适合你经常用的规范,比如固定的设计风格,代码命名规范。第二种,对话中直接说临时有效。 你可以直接跟 cloud 说,帮我用 fourier design skill 做这个页面, cloud 立刻提取,并按那个 skill 的 框架工作。你也可以直接上传一个点 md 文件, cloud 会自动提取里面的内容。总结一句话, skill 不 需要安装, 让 cloud 读一遍就能立刻生效,光说概念可能还不够清晰。我们用一个真实案例走一遍场景。你说帮我把股票新闻 app 部署上线。第一步,你说这句话,你完全不需要知道任何技术细节。第二步, skill 发挥作用。 skill 里存着部署的正确步骤, cloud 读完就知道,先提交代码到 github, 再用 versio 部署。第三步, cloud code 判断 他知道需要调用两个 c l i 工具, heatop c l i 和 versatile c l i。 第四步, c l i 工具真正干活,执行 get push, 再执行 versatile deploy, 全部在后台自动完成,你完全感知不到这个过程。第五步,你收到结果, 三十秒内新版本上线,你拿到一个可以分享的网址。你只做了一件事,说清楚需求 school 和 cli 共同完成的所有技术工作。最后,我用三句话帮你把今天的内容全部记住。第一句, cli 装在电脑里是真正干活的工具,不被教导,永远待机。 第二句, scale 装进 cloud 的 大脑,是告诉他怎么做的说明书, cloud 会智能判断出发。第三句,两者的关系。 skill 是 指挥官, c l i 是 士兵, 缺一不可,配合才能跑起来。记住这三句话,以后不管看到什么 c l a 工具或 skill, 你 都知道它们各自是什么,怎么用,谁指挥谁好。今天的内容就到这里,如果觉得有帮助,欢迎大家点赞关注我们,下期见!

不知道大家有没有想过,为什么到二零二六年的今天, cli 这个概念似乎又变得如此火热了? 那其实先介绍下什么是 cli 吧,其实 cli 就是 一个命令行,就比如说我这是一个 macbook, 那 我的命令行呢?就是长这个样子,我可以通过手敲一些命令,去实现一些我所需要的功能, 它包括像文本输入啊,结构化输出等等,那它的地位呢?其实就相当于 ai 界的一个母语。那前段时间可能有两个这个开源的项目比较火啊,一个叫, 一个叫 c l i anson, 一个叫 open c l i, 那 分别对应的这个 github 的 样子就是这就是这里。那 c l i anson 呢?它其实就相当于把开源的软件可以变成这个命令行可以控制的这种方式的工具。 那 open c l i 呢?其实就是想能够将桌面的应用以及网站转换为 c l i, 就是 可以让我们的 ai 更好的去操控这些网站,这就是它们两者的一个区别。 那 c i 那 么火,那像去年,去年可能大家都使用 m c p 去控制我的这个工具,那现在呢?大家可以发现 ai 可以 直接通过命令行 ci 去控制我们的这个。 嗯,工具,比如说前段时间飞速不就开源了自己的这个 c l i, 那 我其实总结了以下几点呢?比如说像 c l i 的 优势,它比如它比较消耗,投投坑比较少,那对人类也比较友好。那像 m c p 呢?它可能说 更加标准,那对于多用户或者权限控制比较强,那 对于我个人而言,我其实觉得 c l i 才是未来的一个趋势,你像 ai 天生不太适合去控制这种可式化的这种界面,就是 g u i 嘛,那 c l i 可能更适合 ai 一 点,所以说为什么管它叫 ai 界的这个母语?

我们来讲下 openclaw 和 cloud code 的 区别,今天一个视频给大家讲透。 首先 openclaw 它是不能直接操作系统的,它相当于它只是一个给大家写代码用的,我们可以指定一个工作区,就指定一个文件夹,它只能在这个文件夹下面工作,比如说帮你这个主代码都给你操作, 他不能帮你发邮件,也不能帮你这个做智能家具的管理啊。系统你这操作可以做不了的还是 open 可乐,可以, open 可乐它基本上你整个电脑,而不是某一个工作区或者文件夹,而且他是开源自主全能的, 比如说你让他帮你整理一个邮件,对吧?那你只要告诉他你的邮箱的那个账号密码,他就能帮你去管理这邮件,甚至他可以帮你管理家里的这些空调电风扇都可以,只要他有这个,你在电脑上安装了这些米家。 还有就是这个恐龙的扣的他这个记忆他是在废话级别,他是一个 tab 奥本恐龙的话,他是会持久记忆你的每一句话,他都会永远把你记下来。 而 open code 的, 呃,这个 clone 的 code 的 话,它目前情况下它只能对接它自己家的这个 ai, 而 open clone 它是可以对接各种第三方。从生态来讲的话,也是这个小龙虾更加的全面一点, 因为它是一个完全开放的社区嘛,开源的,它跟那个 code code 不 一样,所以如果你是用来写代码的话,那我觉得你可以用这个 code code, 但如果你是想要一个全能的助手, ai 助手,那肯定还是要选这个小龙虾的。 ok, 结束。


有朋友问这个 c l i 跟龙虾的区别,虽然龙虾是可以在一个 i m i m 工具里边去调用的,但是你看不到它的过程 啊。我们如果想要能够了解到它真真实实的在干什么活的时候,还是希望能回到这个命令行的 d l i 的 里边,看到它看的时候就觉得特别的有安全感。插件它其实标准是不互通的, z l i 就是 一个更好的选择, 因为某种程度上 c i c l i 就 代替了插件的作用,它里边打包了命令,打包了 skill, 甚至能打包 m c p, 对 吧?那其它其实本质上就是插件,对,然后最初的 c l i 是 完全开源的,就是大家去 github 上就能 呃看到这个仓库,然后你只要把这个仓库链接发给你的 agent, 让它安装相关的, 就就可以直接用了。而且这次我感觉飞书的 c l i 的 呃能力非常非常的齐全,我觉得这也是有依赖于说飞书之前把开放平台做的特别好,特别细,把每一个权限,每一个功能真的这次都开放出来了。

开源项目 open c i i, 它能把网站变成一条终端命令,让 ai 一 阵特直接调用。我们实测对比它和两个工具 open k i s 和 bb browser, 看看谁最快、最稳、最好用。 先看结果,我们设计了三个测试任务,搜索 b 站热搜在什么值得买,平台搜内存条推荐,以及跨微博、知乎、新浪财经搜索政务信息。 速度方面, open kylie r s。 全面领先,必战热搜 open c i l。 用了二十三秒, open kylie r s。 只要十秒,什么值得买?六十七秒对二十九秒多平台汇总五十五秒对三十五秒, 基本都是两到三倍的差距,但 tiktok 消耗两者几乎一样,说明速度差异来自工具本身,不是因为调用了更多大模型能力。 稳定性上, open c l i 三次全部一遍成功。 open clear r s。 在 第三个任务里,知乎热搜失败了,触发了重试。 bb browser 因为和 openclo 的 参数不兼容,三个任务全部没跑通,这是一个已知 bug。 具体原因, b b browser site 传递了 timeout 参数, opencloud tabx 命令不支持这个选项。在 github 上已有用户提出了这个问题,目前还未修复。什么是 c l i 化工具?这类工具到底在做什么?一句话,把原本需要打开网页,手动点击才能拿到的数据 封装成一条终端命令,本质就是给没有 api 的 网站造一个 api, 再套上命令行的壳。它和传统爬虫最大的区别是,爬虫是给程序员用的一次性脚本。 c l i 画工具是给 ai 用的标准化工具箱, agent 执行一条 list 命令,就能发现所有可用工具输出格式统一一可以直接为给下游处理,而且它附用你浏览器的登录状态,不存密码,不管 gucci 过期 风控也低。原理分五步,第一步,找数据接口,你在浏览器里看必占热榜,背后浏览器一定发了某个请求, open c i i 在 后台拦截所有请求,分析哪个数据包装的是热榜内容,找到隐藏的接口地址。 第二步,搞定身份认证,它不自己登录,直接借用你科目里已有的登录状态,和你手动打开网页没有区别。第三步,写适配器,把整个流程写成一个三十行左右的配置文件,请求这个地址,取出列表,保留标题和播放量,截取前十条 以后,每次执行命令就自动走一遍。第四步,处理复杂情况。有些网站需要滚动加载,或者数据藏在页面代码深处,这时候就往网页里注入一段小程序,模拟操作,把数据掏出来。第五步,终端和浏览器怎么通信? 靠一个 chrome 插件当传话人,命令从中端传给插件,插件在浏览器里执行,拿到数据再传回来。底层架构分四层,第一层命令解析,第二层,适配器加载,第三层,浏览器通信。第三个工具的差异主要在中间两层, open c l i 启动时要扫描加载所有适配器文件,通信要经过守护进程和扩展两层中转。 open k l s 在 编译时就把适配器打包进了程序本体, 启动零开销,而且通过浏览器调试协议直连,少了中间层,所以快两到三倍。 b b browser 走了另一条路,它自启动一个专用的 chrome, 十六,完全隔离, 如何部署与使用?部署方式是四 q 技能包加浏览器插件的组合。我们找到 open cai 的 开源地址,使用官方命令通过 npm 安装,然后下载 playrite mcp bridge 扩展。 下载解压后,打开浏览器的插件管理页,开启右上角的开发者模式,点击本地文件,把解压后的文件上传。当前是 open c i i 一 点四点一版本, 运行 open clea doctor 命令,检查一遍,没有报错。克隆 open clea 技能包放到 skills 文件夹下,安装完成,就可以直接给 open clea 下达任务了。 open clea 二 s 部署步骤类似, 首先执行一键安装脚本,安装完成,然后去他给的网址下载对应系统的扩展文件。和 openkly 的 一样,解压并上传 openkly rs 的 技能包,只有一个 markdown 文档,告诉 agent 如何用这个 skills b bbrace 也是 n p m 一 型命令,它的 open 克拉集成模式无需安装扩展,但目前有兼容性问题。需要特别注意的是,工具的浏览器插件目前仅在 google com 上验证可用。最后总结, open c i i 功能最全最稳定, 六十一个站点,三百五十五条命令,三次测试零失败,适合大多数用户。 open cle 二 s 速度最快,最轻量,但稳定性稍弱。 bbbzy 的 open 跨集成存在已知 bug, 建议观望。希望本期视频对您有所帮助,我们下期视频再见。

i 到来之后呢,越来越多的界面名词复活了,那他们之间到底有什么关联,或者有什么区别?那我们得先从这个界面的进化史讲起。上个世纪六十年代呢, c l i 这个命令行界面诞生了,那它就像一台打字机一样,你输入一行命令,它突出一堆纯稳的,结果它 是没有排版布局的模式呢?也是一问一答。它非常依赖于键盘的输入,较高强度的敲击命令,也比较依赖这种命令语法。那我们现在能常看到的 c l i 就是 windows c m d partial, 包括还有苹果用户的终端,那这些都是准写 c l i。 到了七零年代末呢, t u i 这个文本用户界面出现了,它呢依旧是在终端里,只不过它是用文本字体画出具有这个空间布局的窗口面板。它的主要依赖方式虽然是键盘,但是 从键盘的命令输入转化成了方向键的上下左右,以及确认。现在还能见到的 t u i 的 这种产品就应该是 v i m 编辑器,像 cloud code open close 飞出了 c i, 那 这些是 c i 还是 t u i? 那 其实它既不属于 与 t u i, 也不是纯写的 c u i, 而是近代演化出来的一种变体,叫 rich c u i, 它其实还是在终端里,它还是一种瀑布流的形式,只不过它又局部引用了一个 t u i 的 元素,比如像什么颜色折叠菜单,加载动画。那我们来看这张图, 如果我们正常的 c i i, 它这一百五十行全部要列出来,而且不会有这么多提示的颜色,它依旧还是这种瀑布流逝的输出方式,但是它局部的引入了这种 p u i 的 折叠,包括还有一些突出的颜色色彩,那它其实就是为了让人和机器都更加的易用,因为这是人机交互的一个底层鸿沟。计算机这个机器它其实是一种流逝思维, 它是限行高速的,到底层只认识零一,那他能在一毫秒里读完一千行纯文本的这个日记对于他来讲是自然语言,那对于人来讲就是高负荷的乱码。那人类呢?跳跃的这种图像的感知能力,它是一种模式识别,那人脑 极不擅长去看密密麻麻的字体,但是扫一眼就能捕捉到这种图形的起伏或者颜色的变化,那这也就是 t u i 和 g u i 的 一个使命,就是利用机器极快的数据处理能力,把绘色的这种限性流,也就是字体瞬间提炼翻译, 重构成人类大脑里最喜欢的这种空间布局和视觉图像。那既然我们提到了 g u i, 那 我们就把时间推进到八零年代,此时 g u i 图形用户界面大面积爆发,这时候鼠标 也开始普及,它突破了字幕网格的限制,然后像素渲染出了精美的图标动画,包括还有很好的一个排版,那机器把这些排版过的重点数据展现在你的面前,那你就不需要高强度的动脑去理解那些字幕,看到了图标直接用鼠标去点击就可以完成,这是一种视觉的直觉反应,那我们现在常见的就是 我们所用的所有 app 应用程序,包括任务管理器,那给大家直观展示一下这个 c l i t o i 和 g o i 到底有什么样的区别?这种就是 c l i, 这个命令是让机器来突出你现在此时此刻你电脑里面的这些应用程序的占用情况,但是它是一种静态的, 我这条命令什么时候发?那它开始突出的时候,这个命令就是当时此时此刻的占用情况,那它下一秒它是没有一个动态更新的过程的。你看这是像瀑布一样流势输出,一直输出到 最后结果,那这是 t u i, 我 们就发现了它其实用这种线框,用这种小网格,然后通过颜色的渲染,我们进行一个区域的划分,它是一种动态的过程, 那你看到上面这个 cpu, 它是一,这就对应了我们整个键盘,键盘上按一之后,它就跳转一个页面,我按二,它又跳转一个页面,那我们来看一下 g u i 是 什么样子。这三个命令展现的内容其实是一样的,都是展现出来这个任务管理器的概念,那这个我们就能更直观的去看到,我们每一个可以进行一个选择,通过的都是鼠标去点击, 而 p u i 主要是通过这个键盘,而现在的一些 p u i 也可以通过鼠标进行一个局部的点击,那它主要还是要通过键盘的输入输出, 那这个就是 g u i, 我 们非常直观,能看到这些信息层级动态的渲染。到了九零年代中期,互联网诞生了,宽带也开始提速了,那这个时候 web ui, 也就是网页端界面就出现了,界面你不需要再打包好去安装到本地的硬盘,或者是全部托管到了云端,只要有这个浏览器有网络,你随时随地可以加载渲染进行访问, 那本质上呢?它其实就是 g u i 在 互联网时代的一个延伸,你就像各类的这种 sata 工具,或者是网页邮箱,这些都是 它可以零安装,即用即走,还可以跨平台,但是它会牺牲一点,调动底层的这种硬件的极限性能,但是这不是绝对的,这我们下次会讲解一下 web ui 在 云端互联网和本地网络的一个区别。 那为了让大家更直观的去理解,我用这个去饭店点菜来给大家做个比喻,来串联这四个阶段。首先你用 c i, 就 好比你自己亲自去了饭店跟后厨喊或做一个什么菜, 那后厨听到了直接给你做端上来。这个全过程里面你是没有菜单的,你的点菜全凭你的记忆进行的操作。用 t i, 相当于你依然在店里,但是店里多 做了一个自助点单机,你不需要背菜名了,你可以通过上面这个键盘的方向键来进行选菜,但是这上面还依旧都是文字,只是给你做了一些区分,那比如说荤菜都放在一起,素菜放在一起,你选择完之后,他直接传给后厨,做完之后再端给你。那到了这 u i, 你 就好比走进了一家装修非常豪华的饭店,还有高清的菜单,这个 菜单上面有非常好的非常直观的图片,每道菜长什么样子,还有服务员会给你推荐菜,也就是给你划重点, 那你只需要用手指一指,我要这个菜,我要那个菜,它就传达给后厨,后厨再做完之后给你再端上来,那到了 web ui, 你 就可以脱离了终端的现场了,也就是脱离饭店这个概念,可以坐在浏览器里等服务,也是在家里等这个服务。 那这个时候我们提到 web ui, 它其实分成两种,一种是云端的 web ui, 那 这个时候就像美团点外卖,它必须要依赖于什么?依赖网络和公共骑手,它骑手进不了你的家,只能给你送到门口。 如果断网了啊,你既点不了单,公共骑手也不知道你在哪,只有你下完单,公共骑手接单那一刻,他才知道你的具体位置。 那本地部署的外部 u i 相当于你雇了一个私家的这种外卖员专送,他可能拿着一个加密的钥匙,就是这种系统权限,断网了他也能送,而且他能直接送到你家里。把这个菜放到你的桌子上,我不知道大家清晰不清晰啊?我们下期来分享一下大厂为什么开始回归 c l i 了。

直接说结论, cloud 在 昨天更新的 computer use 这个插件是没有办法投入生产的,现在还远远没有达到可以用的程度。 昨天推特上 cloud 更新了一个 computer use, 我 看到这个推送,我就迫不及待打开电脑尝试了一下,那具体的打开方式呢?就是在你桌面的这个 desktop 的版本里面,然后打开 cloud code 里面有一个设置,你把这个设置里面的 browser use 下面的 computer use 给它打开,打开之后你就可以使用了。然后我也尝试在 c u i 里面打开它, c u i 现在是不支持这个插件的,那我对于这个场景非常感兴趣的点,呃,就用这个个人微信回复去做了一个测试,这个就是你们看到的测试结果, 呃,我让他给我微信里的一个联系人发送一条消息,你中午吃了什么?我在这里给大家做一个这个详细的这个讲解。第一是他直接输入了消息,因为他这个时候打开了我的电脑, 那其实它后面识别到这个群聊不是我想要发送的联系人,它就再次切换到这个我想要的指定的联系人的对话框。但这里问题来了,我就发现了这个 computer use 它真正的这个操作逻辑,它是在不断的截图,然后截图识别图像上面的要素,然后判断这个控制点,然后通过键盘操作的方式 来进行选用。那键盘操作会有个什么问题呢?就是我最终其实这个进程没有跑完,我就给他放弃掉了,他会遇到一个非常严重的问题,他在搜索框里面搜索我想要联系的这个联系人,一旦这个联系人搜索的结果是多个,因为微信的搜索联系人一定会出现多个,只要你跟这个人有群聊, 那出现的第一个结果就是,呃,这个你,你的这个联系人第二个结果就是你跟这个联系人存在的一系列的群聊,那这个时候这个键盘的搜索就会一直出错,就导致我只是让他简单的在微信里面给我的这个联系人发送一条消息,这件事情都做不到。 所以 computer use 它真正要落地在你的电脑里面去操作你的软件,这一条路我觉得还有很长的路要走,但是我觉得 browser use 已经非常好用了,因为 browser use 明显它对于控件选举的精确度是要非常高的。

大家看我现在这个开发界面,左边是 codex, 右边是 clode code。 很多人都很好奇, clio 模式和 app 模式到底差在哪?什么是 clio 呢?就是 command line in the face 命令行界面,你可以把 clio 理解成 ai, 直接扎进了你的项目工地。 它就在终端里,能看代码、改代码、跑命令,节奏特别快,特别适合连续开发、调试、修 bug。 这种感觉就像一个真正下场干活的搭档。而 app 模式更像一个图形化的指挥台,你不用一直盯着终端,信息更直观,操作门槛也更低。 它更适合查看任务、对话、写作、梳理思路,用起来会更舒服一点。所以简单总结就是, ci 更硬核,更深入项目一线, app 更省心,更适合可式化写作。我现在基本就是两边搭配着用,一个负责高强度执行,一个负责更顺手的协同。

在这里,思维变成了一棵树, obsidian 已正式发布, c l i ai 终于能够直接看懂你的整个知识点了。嘿,你好,我是 blink ai 加知识管理的实践者。如果你对 obsidian 还不清楚,可以先看这条, 今天就 obsidian c l i 的 基础概念,到真正用起来,一次性给你讲清楚。如果你对 c l i 这个词不熟,可以完整观看,如果你知道 c l i, 想看看具体怎么用,可以挑到第二张入门。 首先, c l i 到底是什么?很多非技术背景的朋友第一反应是,这是 obsidian 出的一个 ai 助理或者 agent 吗?其实完全不是, c l i 的 全称是 command line interface, 也就是命令行界面。现在屏幕左边就是我们平时用的 obsidian app, 它有按钮,有菜单,可以点击属于 g u i, 也就是图形用户界面。而右边这个就是 obsidian c l i, 也就是 obsidian 的 命令行操作界面,一个是用鼠标点击,一个是键盘输入指令, 他们的操作对象都是 obsidian 的 笔记。我们来举个最简单的例子,比如你要添加一条笔记,在 obsidian app 的 图形界面中,就是点击新建笔记这个按钮,点击之后,新的笔记就已经创建了,然后你可以界面中进行编辑。 而在命令行界面中,我们要创建一条笔记,就要用到相关的命令,就是 create 啊, create 一 条笔记,然后这里可以输入它的名称, 对,然后名称假如等于 newnote 好, 然后这个时候就已经创建成功了。看到这里就会出现一条叫 newnote 的 笔记就创建成功了。 对比来看,你可能觉得 c l i 的 界面黑乎乎的,全是字,很抽象,也很复古。哎,你说对了,在计算机刚诞生的年代,鼠标还没有发明出来,也没有高级的图形显示技术,所有的操作都是像这样用键盘输入指令来完成的。以前的所有程序都是命令行操作界面, 直到一九七零年,施乐研发出了图形界面,后来苹果又把这个技术用在了个人电脑上, gi 才开始普及。你可能会问,既然 app 用的好好的,我为什么要去敲命令呢?为了复古情怀吗?当然不是。 obsidian c l i 不是 给人类用的,而是给 ai 用的。人 类用起来很抽象,而 ai 可以 瞬间学会这些命令,也可以迅速将多条命令组合起来,实现大量而复杂的操作。但让 ai 用起来的前提是,你得先教 ai 怎么用。 接下来看实际操作。第一步,起用 obsidian c l i。 首先打开 obsidian 的 设置,确保你的版本是一点一、二点四或者更高的版本,然后找到下面这个命令行界面,把它打开,然后这里提示要注册路径,点注册好。然后我们来验证一下,打开终端,输入 obsidian, 如果能看到这个界面,就说明已经起用成功。第二步,教会 ai 使用。以 cloud code 为例,要教会 ai 技能,当然首选是添加 skill, 而恰好 obsidian ceo capano 亲自编辑了一个 obsidian c o i 的 skill, 然后个人建议修改一下 cloud 点 m d 文件,在里面备注使用 obsidian c o i 的 规范。 例如,在进行 obsidian 相关操作时,优先使用 obsidian c l i 的 skill 去调用命令,所有的命令都加上 silent, 除非我刻意说明要在前端打开,这样不会每完成一次操作都给你弹出一个窗口。还有就是标签搜索时优先使用 obsidian tag 命令,而不是进行权威搜索。 好,接下来我们来验证一下,我们在 obsidian 中就不用手动输入命令了,就可以直接跟 obsidian 说,帮我创建一篇笔记,标题叫 ai 创建的笔记,笔记的内容是今天的日期, 然后 cloud code 就 调动了 obsidian c l i 的 这个 skill, 并且使用 create 命令创建了笔记啊,名字叫 ai 创建笔记,内容是今天的日期。仔细看这个简单的操作,其实也是叠加了多个命令在一起。好,我们到 obsidian 中看到,刚才的这个笔记已经创建成功了啊,内容也是没有问题, 那么恭喜你又教会了 ai 一个新的技能,刚才演示了基础的用法,接下来我们聊一个更深一点的问题, 看到这里,聪明的你会说了,现在的 cloud 点插件不是也能让 cloud code 来阅读和修改 obsidian 的 笔记吗?为什么还要使用 obsidian c l i 呢?接下来我们就来聊聊这两者之间的差异。 首先我们要对 obsidian 建立起两层的认知。第一层, obsidian 说简单一点就是一个 markdown 编辑器,对 markdown 的 文件进行真删改查,跟众多的 markdown 编辑器差不多,甚至在颜值啊体验方面还不是最好的。 第二层, obsolete 又不仅是 markdown 编辑器,为了做更复杂的知识管理, obsolete 的 双向链标签属性 base, 这些能力都是超越了 markdown 标准的存在,跟普通的 markdown 编辑器就不一样了。对于第一层 markdown 文件编辑, 所有的 ai agent 天生都具备这个能力,因为它本质上就是对纯文本文件的读取和编辑,简单说就是读文本。但到了第二层,要理解双向链笔记属性标签的编辑,简单说就是读文本。但到了第二层,要理解双向链笔记属性标签的编辑,简单说就是读文本。但到了第二层,要理解双向链笔记属性标签的能力就不太够了, 他们只能一个个的去读取文件,去推断,费时费力,还容易出错,更别提 token 的 消耗了。而双向链这些信息, obsidian 的 内部是直接知道的,现在 obsidian 通过了 c o i, 就 等于是直接告诉 ai, 你 不用一个个去推断了,我直接告诉你了,说人话就是懂关系。 我们还是用查反向链接来举一个例子,比如你想知道有哪些笔记提到了复利思维这篇笔记,复利思维这篇笔记的 markdown 文件里并没有提到其他哪篇笔记提到了我,而查找的办法,你得一篇一篇的去找, 有打开健身笔记,找到它链接到了复利思维,你要依次打开每一条笔记,通过文本匹配去看它有没有提到复利思维,最终才能得到答案。这种关系在 opposite 中本身就已经存在, 如果通过 c l i 的 方式查询,我们只需要一行命令,瞬间查出相关的笔记,因为 obsidian 已经建立起了完整的链接锁影。 好,接下来我们来看一个比较有趣的场景哈,比如我想分析在我的笔记库中,有哪些笔记同时提到了 ai 和知识管理两个标签。呃,但是 ai 呢,可能 包括多种 ai 开头的标签,比如,呃, ai 工具, ai 概念, ai 学习等等。那我只要用比较简单的语言告诉 code code, 用 ops 店专门搜索标签的命令来同时找 ai 开头的标签和知识管理标签的笔记。 这个时候他就开始起用这个 c 店的 coi 啊,当然他会先学习一下,他先用了 help 去了解,然后,呃,他就开始干活了啊,他进入了我的笔记库,然后去 学习了这个标签是怎么怎么回事?对,然后就开始找标签了, ai 标签, ai 概念标签, ai 时代怎么学知识管理啊?通过这些标签找到笔记,然后最后进行一个汇总。好,那找到这些笔记之后,第二步我就是让它在 offsetting 中创建一个 canvas 文件。 中心节点呢,就是叫 ai 知识管理这个主题。然后第二级的节点就是它前面找到的这些 ai 工具啊, ai 概念啊,这作为二级的节点呢,就是 具体的笔记文章啊。当然这也是用到了 jason canvas 这个 skill 去创建,在 opposite 中创建 canvas 文件。 好,然后这里就已经创建完成了这个 canvas 文件了。那我们在 opposite 中看看吧,这里就汇集了我之前所有的关于 ai 加知识管理相关思考的笔记,在这里,思维变成了一棵树,以这样的方式回顾之前的思考体验,真的是很不一样。 如果在这个过程中你产生了新的动件,也可以直接记录或者添加新的笔记。好,我们再来总结一下。对于单条笔记以内的文稿进行编辑,例如润色、改写等等,适合用 agent 直接查改。对于需要跨多条笔记进行关系梳理和洞察,就需要用到我们的 obsidian。 c l i。 以前 ai 只能一篇一篇翻你的笔记,看到的都是碎片。现在有了 c l i, ai 能看懂你的笔记是怎么连接起来的。有的朋友可能会说,我的笔记还很少,知识网络没有建立起来,那我也用不起来啊。恰恰相反,现在就是最好的起点。 你的每一次记录, ai 都能理解它在整个知识体系中的位置。之后我还会分享如何用 oops 键加 c l i 构建起你的第一个知识网络,并让 ai 第一天就能帮到你。

昨晚睡前把几张产品图拖进多维表格,今早醒来三条爆款带货视频已经躺在桌面没看,网页全自动,还在死盯急梦的进度条,生怕刷新任务全没做。十几个视频,你就得变成给 ai 打下手的按键机器。官方悄悄发布的急梦 c r i 工具就是来终结这种低效的。什么是 c o i? 和现在火爆的 m c p 啥区别? 网页端是给人看的汽车仪表板, c l i 则是车底的控制线圈,没花里胡哨的界面,全是物理开关,但对 ai 来说沟通效率最高。那 m c p 呢?它就是翻译器,负责告诉 agent 的 开关在哪, c l i 负责精准按下 来看实测。这里我用自己做的一套专攻电商带货视频的 agent, 它有两个暴力模式,第一,如果你有产品描述或白底三式图发给他,他会自动提取我们的 skill 文件,带过审核直接输出分镜。第二种更猛,扔一个爆款对标视频进去,他直接扒开别人的镜头,语言反推,生成五个带风格差异的提示词变体, 根本不用你动脑写脚本。然后我准备一个降噪耳机产品的三十白底图上传给这个 agent, 和他说我需要生成一个产品的卖点视频,然后他就会识别我们的这个产品图片,开始生产提示词。生产完成后就可以通过 cie 提交产品白底图和生产视频提示词到极梦那边, 这里他也是提交完成了。我们来看看,极梦这边是已经在用 sedans 来生成了,而且 agent 也是有一个脚本在不停查询视频的生成状态,所以我们只管提交就好了,生成完成后他会自动帮我下载, 然后也跟大家说下。目前是打算把这个 c i e 和非书多维表格通过一个程序打通,你只需要把白底图丢进非书表格,自动触发 ai 写好词,接着直接拉起 c i i 在 后台批量升视频。 最爽的是当状态跑完变成成功,这个程序会自动轮询下载所有的视频文件,并且在非书里标记成已出片。这样把只需要白天把提示词写好,晚上直接批量跑视频。不过目前还在测试,等测试稳定后开源给大家,如果喜欢可以点个赞!这里是 chloe, 关注我,获取更多 ai 应用!

刚才看了张泽拉的一个视频,真的是太惊艳了,最近不是飞书刚推出了飞书 c l i 吗?但他张泽拉的话是用飞书 c l i 做了一个飞书的 妙计,也就是飞书的会议纪要,然后直接让 ai 编程工具的话,把飞书会议纪要里面提到的暗号的关键词都抽取出来,并且可以把里面比如说要发给某个人,会后要发给某个人什么信息, 以及要跟某个人交代某个东西,直接让 ai 提取出来之后通过 cli 直接就在飞书里面发送给对应的人。那这个核心的一个产品理念就是 把原先的要沟通,然后在会议里面沟通,在会后再做某个事情,压缩到了直接你沟通过程中铆定了一些暗号,那会议后的话,直接 ai 帮你抽取出来,并且借助 cli 这种手脚的工具直接就可以做了,这在产品上是一个很大的突破, 并且在所有的 ai 的 产品里面都可以去这么去用,因为未来越来越多的 c l i 的 形态会出现,所以这个思路的话也分享给大家,非常值得各位想做产品的以及未来参与到 c l i skill 里面实践的里面的同学去学习跟理解。

兄弟们比 c l i anything 更炸裂的杀起来了!之前我们说 c l i anything 能把所有开源软件变成供 ai agent 调用的命令行工具,但面对像数据孤岛一样的网站怎么办? open c l i 的 出现,补齐了 ai 自动化的最后一块拼图。它不碰网站原码,却做了一件更狠的事儿,直接附用你浏览器里已经登录的账号状态,生成网页操作的 c l i 命令。 比如你在某破站挂着账号, ai 就 能直接越过繁琐的登录,替你发视频、发弹幕、搜内容。一句话,你在网页上能做什么, ai 就 能替你做什么。只要输入一条命令, ai 直接接管你的互联网。 c l i anything 打通了本地软件, open c l i 打通了全网,网站图形界面终将成为过去式,因为命令行才是 ai 的 母语。

c l i 命令行界面是与 cloud code 交互的主要方式。虽然图形界面很方便,但 c l i 提供了最完整的控制和最强大的自动化能力。脚本管道 c i c d 集成都离不开 c l i。 c l i 有 两种运行模式,交互模式输入 cloud 启动,支持多轮对话,历史记录。斜杠命令打印模式,输入 cloud p 加问题,单次查询后退出。适合脚本调用和管道操作。 掌握这些核心参数, model 选择模型 sonit 平衡速度和能力 opus 最强, haiku 最快。 continue 继续上次绘画 resume 加绘画名,恢复特定绘画 output format 选择输出格式 text, 纯文本 j s o n。 结构化数据 stream j s o n。 流逝输出 ci 提供精细的权限控制 tools 限制可用工具, allow tools 设置白名单,这些工具无需确认。 disallow tools 设置黑名单,禁止使用这些工具。 permission mode 设置权限模式 plan 指读 auto 自动批准。 恭喜你完成了 cloud code 系列教程的全部学习,从斜杠命令到 ai 编程的完整工具链,现在去实践吧,让 ai 成为你的编程助手。