粉丝999获赞2670

仅需一条指令,万物皆可! c l i。 港大在 github 上刚发布一个超火的开研项目,让所有软件都能被 agent 的 驱动,让你的龙虾面对海量软件不再苦恼。什么是 c l i? c l i 的 全称是命令行界面,说人话就是 ai 可以 直接调用的接口,也就是各种 ai agents 的 自然语言。首先需要安装 python 环境,其次是需要改造 c l i 的 软件。别忘了你喜欢的 ai 编程工具。我的选择是 open code。 首先要检查 opencode 是 否是最新版本,打开 opencode 问问是否是最新版本。果然不是最新版本,那就让 opencode 的 自己更新一下吧。 按照顺序克隆仓库,全局安装 cli anything, 可以 得到五个斜杠 cli 命令,一行命令生成 cli。 经过以上七个字任务,我们就可以得到一套完整的 blender。 c l i。 无论使用哪个 ai 平台,我们都可以用这些命令使用 c l i。 试试用 r e p l 模式操作一下 blender。 先创建一个叫 productshot 的 scene, 我们打开文件看一下效果。 c l i。 命令果然执行成功,我们再试试。随便打开一个 c m d 窗口,调用一下已经安装好的 game。 c l i。 这里还自动创建了 game 的 skill。 新建一个 procreate, 再新建一个 layer, 在 坐标三百三百处写一个红色的 c l i, 最后导出到地盘根目录下看一下效果。果然符合预期,以后你的龙虾就可以实现 c l i。 自由了。怕你后面找不到点关注不迷路, up, 带你上高速!

这个开源项目能让你的小龙虾去操作各类软件应用,就是由香港大学数据科学团队开源的 c l i anything, 短短两周时间就获得了二十点三千的 star, 每天一个硬核的网站推荐第四期, 一毫命令,让任意应用软件接入 open cloud、 cloud cloud code 等 agent, 变成 ai 的 专属工具。且最厉害的是,它可以直接扫描应用的源码,规划命令分组,直接构建 c l i。 通俗点讲就是这些应用软件可以直接让 ai 去操作。以前是只有用户去操作软件, 现在 ai 可以 直接给软件下指令,你只要告诉 ai 需要干什么, ai 会自己去调用,并且把最后的结果告诉你。十六个复杂且多样化的应用验证,一千八百三十九次的测试,都确保了它生产的可信。

切换多个 ai c l i 太麻烦,又想多个 c l i 工具同时运行?这个工具简直就是开发神器,提高你的十倍开发效率,并且完全免费开源。比如你想同时使用 cloud 和 codex, 只需点击头部的 cloud 和 codex, 它会自动帮你运行 c l i, 并且非常流畅。这个开源工具做了并发症处理,我们可以同时进行工作, 我们输入内容简单测试一下,这个就是在使用中多个 ai 同时进行开发。还有就是能不能多个相同的 c o i 同时运行。当然可以,比如 codex 进行测试,我创建三个 codex, 并且都输入内容,然后快速提交,并且都能快速的回复你。这个开源项目刚在 deepapp 中获得二 k 的 收藏,它专门在你的电脑上运行, 支持 kol 的 colex, 同时运行多个代理,而不产生上下文切换开销。并且将每个任务单独放在一套工作树中,互不影响,并且适配全部的 ai c r i 工具,没有的可以自定义添加配置,感兴趣的赶紧收藏,防止找不到。

get up 穿顶最近被一个叫 c l i anything 的 项目刷屏了。它不是花架子,而是真能把 g i n p、 blender、 liboffice、 obs 这类专业软件一键转成 ai 能直接调用的命令行工具, 核心思路很很 ai, 擅长处理结构化文本,干嘛还让它看屏幕点鼠标,直接把所有软件变成 c l i。 让智能体像人一样精准操控复杂程序。这项目来自港大数据科学实验室,上线三天就冲上 c l i, 让智能体像人一样精准操控复杂程序这项目来自港大数据科学实验室,破五点二万, fork 超四千两百,关键是它能打 官方验证,支持十四款主流软件,从 inkscape、 kaiden live 到 image j pair of view, 甚至 jenkins 和 partner, 全都能一行命令转成 ai。 友好的 c i 背后是一套全自动七阶段流水线分析软件 行为,把 g u i 操作映射到 api, 自动生成命令结构状态模型。 json 输出,连文档和测试都自动写好。产出的 c i 工具自带父 json 事务日记,支持 on 完整 help 和 schema, ai 自己就能看懂怎么用。比如在 cloud code 里输入 client 完整 help 和 schema, ai 自己就能看懂怎么用。比如在 cloud 里输入 client anything gimp, 几秒后就有 clientythinggame 命令可用。 ai 能直接加图层、改颜色,导出文件,全程结构化输出,零起意。内部测试显示执行成功率高达百分之九十九点八七, 比传统 ocr 加鼠标方案错误率低二十三倍,资源消耗还少七成。更关键的是, cli anything 正推动一套叫 agent native 的 新标准,真正智能体友好的软件必须支持结构化输出、可自描述接口。这套规范已被 mcp 社区采纳, lunching auto, gen 等主流框架也开始继承它生成的工具链。未来的软件不仅要给人用,更要给 ai 用。而 c l i anything 就是 那座桥。项目地址 get up 搜 h k u d s c l i anything。

最近港大又开源了一个非常震撼的项目,它能让你的小龙虾直接去操作各种软件应用半天就狂飙二点九 k 的 star。 记住这个开源工具,它最牛的地方就在于你只需运行一行代码, 它就可以生成一套标准的 c r i 命令,把任何软件变成 ai 直接调用的工具。也就是说, ai 不 再只是聊天软件,也不再是只能给人用的。当软件给它执行后, ai 可以 直接去调用各种软件,完成任务就非常离谱。

哈喽,大家好,我是酷狗。本期视频是关于 obsidian 的 一个比较特殊的使用,就是我们通过安装插件以及把 google 可以 或者类似的这种 coding agent 给它打包进来,成功的能实现批量管理这个笔记 你说做一些这种格式化的呈现提取行动的逻辑,做这种方便理解多文件的这么一个效果。我先说一下第一点,这工具是干什么的?我觉得大家可以决定要不要往下看,因为确实 ai 时代的工具很多,每天都会有新的可能,明天就会给大家进,不一定每个都要去学,每个都要去看, 这样你会加重自己焦虑。你就 obsidian 或者 notion 这样的软件,它其实就是一个,它叫笔记软件,我觉得是最适合哪一类人?你有大量的文本 输入管理需求的人,比如说你是个自媒体的创作者,你天天要写文章,或者你是一个可能天天要管理有很多工作文档各种东西的人,其实你就需要去有一个地方能够方便打开,方便管理一键输出的这么一个地方。那可能 obsidian 就是 一个不错的选择,因为它的文件都是保存在本地,以那个云端的服务器,没有什么延迟,因为确实是在你的本地。 我们往下看,怎么他从一个普通的类似一个大号备忘录的一个东西,变成这种又智能又可适化,你又能做很多这种个性化的一个东西。首先就是 os 点,如果你不做这些这么复杂的事情,它就是一个大号的备忘录,你看你就,你可以新建一个东西,随便在里面写写,写吧吧吧这个东西它其实下载也很简单,你去查官网,你搜 os 点的官网, 搜到官网,在官网下载就可以了。它的初审形态就是一个大号的备忘录,我们要让它有智能化的能力,以及说真的能去帮我们干很多事情,所以我们就要将 ai 放进来,我们要将大模型放进来,那为了做这个事情,首先我们要让在里面有终端,我们要在里面做终端才能把这个大模型的这种移置进来。为了到这个事情,我们先要在它的插件 找到它能够去啊做终端插件,在设置里面,大家可以找到第三方插件,一开始进来这里有一个安全模式,大家点关掉就可以了。在这个社区插件市场浏览搜 terry no。 好,我这里已经安装了,如果大家没安装,点这里安装就可以了,安装完了他就会,你就可以退出了,你就可以在旁边这个栏看到这个 有一个小框框,那个东西点击之后这个框就会弹出来。如果大家第一次进来啊,没有安装那个锅可以,也不要慌,或者说你找不到一个合适的视频教程,也不要慌张,因为挺多的博主或者那些的学习者,他们都是以把 把包蔻跟精简结合起来。我是因为听说包蔻比较贵,又有比较多不稳定的,刚好我又买了 coco 洁面奶的会员,物尽其用,试一下能不能用,那其实最后发现也是可以,其实没有很多教程,我觉得算一个,但是你第一次做,你也不要慌,如果你有任何的问题,你直接问你最爱用的那个 ai, 我是 要问洁面奶,因为我觉得这些事情不是什么特别难的,就就就就, ai 一定会,而且我觉得就没有比 ai 更懂自己的人了,我就没有一个 ai 所谓的 ai 博主会比 ai 更懂 ai。 你 直接问他,我是一个小白,我下载了 c 店,装了产品,有插件,想在里面装奶,可以怎么的操作,他就吧吧吧吧,他会给你转换的态度非常好,每一步他都会跟你说明直接在这里面做怎么样,贴哪些, 如果你碰到一些什么暴躁什么,你还可以直接截图,直接问卷,你看这里,比如说我一些就可能加入,其实我也不懂什么意思,我也不知道这杨大宝什么意思,他会告诉你下一步,包括有时候卡了我问他,他也会跟我想可能是网络有问题,什么不啦不啦之类重启一下什么之类的。 在他的这个帮助下,你其实很简单,就能在那个 obsidian 里面去把 gucci 给放下来,放下来之后你就你的那个 obsidian 就 拥有智能的能力了,这是一个这个月钱巨大月,就这里面你可以想里面住了一个人,你在这个框里面,你跟他,首先你要你跟他对话,那怎么让那个怎么唤醒你,你的 jimmy 其实很简单,就 open 这个 terminal, 你 点这个整合式,点完之后你在里面直接输入 jimmy nine, 我这里重新开了,因为已经安装好了,你输入 jimmy 他的名字就可以把它唤醒。你可能需要等一下啊,我的网易比较慢。对,你等一下,你看到这个剧之后证明就安装成功了,就可以在这个对话框里,像你跟所有的 ai 大 冒险对话一样,跟他去下达任务,或者去问他任何的事情。在这里面你把管理按进来之后,这种 啊,我不知道怎么讲,应该叫抠 id 吧。他有个好处,就是当他发现一个任务完成不了的时候,因为他有一些权限,而且他可以问你要权限,他会自己去寻找工具,自己去下载软件,什么 skills, 什么这个插件什么的去完成任务,你只需要给他权限就可以了。反正在我看来已经当智能,且能够自己去主玩,能玩很多东西,比对话模拟模型要好玩一些,好用很多。 反正你已经给他对话了,因为我之前说过,如果你是一个日常在里面有写很多文章笔记的这个人,这时候这个就能发挥很大的作用。但是我没有,我把一些抖音写的文章给放下来了,全部全部放下来。对,你把它添下来之后,你还可以指挥这个大模型,就勾勾编码,去对它进行一些批量修改,比如说把里面的图都去掉,只留文字什么,这些他都是能做到,不用你一个个去删。举个例子,他 可以批量过来,还可以去帮你绘制一些这种图啊。但是这个他也需要安装一些插件,当时我安装的那个插件应该是他的创始人写的一些的插件。 我当时也是在网上看其他博主,听说他们那个变自己的 ceo, 他 写了一些这种 canvas skill, 大家去搜就能搜到,他就能把你的那个东西,这个笔记啊放到 canvas 里面去做格式化,你可以搜这个 obsidian canvas skill 就这个人。对对对对,你可以直接把这个链接,就这个 github 的 链接贴给你的这边来告诉他安装里面的那个。我这里已经安装过了,有点怕他跑 bug, 我 就不给大家再去演示一次。对,安装之后他就变得很厉害了,他就变得很厉害了,你看他现在有大脑了,你安装这个 skill 时候,相当于给他上了不同的那个手脚,他能帮你干很多的活了,你就能给他去下达命令。就比如说你跟他说整理都 抖音文章,将抖音文章这个文件夹里的笔记,一个是画的形式呈现并绘制成要精美的 canvas 来,我也告诉你说,对,好他,他就开始工作了,我刚已经给他下来了命令,他其实就能画出这样的东西,他能够去读取你的这些 canvas, 所以 他能读取你笔记,去理清楚中间逻辑。 我这里就随便给他贴了几个东西,你看他这里已经在非常的努力工作,读取这种东西,把它做成一个这种开放式,你能去提高容量的需求。比如刚一版,当时我生成这个,我觉得他有点丑,我说你能不能做一个学术更强一点的,更更美,美观一点的,你看这时候他就给你要权限了,你看你可以上,你再回到这个框,你看你的 log, log, log log 上下按这个回车就可以了,帮你开始画,那你看他就在工作,工作,你看他就画好了,我看一下他画的是哪一个东西,有时候会没有办法打开,你跟他说打开失败,请修复。 所以我觉得可能 google 这个 qq 音乐也没有 coco 那 么好用,怪不得大家都用了,但是没有关系,你让它修复就可以了,等一下它也不会让你们太久了,到时候它就会变成一个这样的东西。就是我跟他说可能做一些格式化比较强的,再加一些这种 emoji, 让它更更 好看一些,它再继续的做好,我们再试试看,你看就打开了。他这次跟上一版不一样,他可能整理的我这些文章里面的逻辑啊,他可能觉得说我主旨是围绕这种 ai 时代所谓的什么生存全景去展开,他自己给我定了一个认知底座,什么时代浪潮这种比较高大上的一些词。 嗯,总是他会去整理,中间你有什么你可以让他去改好,反正这一期的春名先到。这已经太长了,我觉得未来我会不断的去探索 c 店怎么结合 jimmy 会之后怎么做出更多好玩的花样。那也欢迎大家去探索。好,谢谢大家,拜拜。感谢看到这里。

c l i anything 让所有软件变成 ai agent 的 原声工具。一条命令把任何软件变成 agent。 可以 通过 c i i 控制的工具安装,超级简单,只需要添加这个 marketplace, 然后安装 play anything 插件,一行命令,插件就装好了。最酷的部分来了一条命令就能给任何软件生成完整的 c l i 接口。比如给 g m p 生成 c l i, 它会自动完成分析设计,实现测试文档和发布全部七个阶段。 它支持的平台超级多, cloud code, open code code, 还有更多平台正在路上。基本上你想用的主流 ai 编程工具都支持它能做的事情超乎想象。 创意工具,像 gimp blender create 办公软件,像 library office 开发工具,像 jenkins github, 还有像 zoo 这样的会议软件, 全都能变成 agent。 原声工具质量也是顶级的。十一个专业应用,一千五百零八个测试,百分之百通过率。每个生成的 c l i 都经过单元测试和端到端测试,确保生产环境可用。它最大的优势是什么? 不是用 u i 自动化,不是调用有线的 a p i, 而是直接生成真正的 c l i 接口。完整的软件能力零妥协。 agencies 可以 像专业用户一样控制这些工具。 c l i anything 让任何软件都能被 ai agent 控制,不需要 api, 不 需要重新实现。一条命令,让软件真正变得 agent native。

港大最近开源了一款非常牛逼的项目,它可以让 ai 去操作你的各种软件应用,记住这个开源项目一天时间就狂涨五 k 的 star。 它的核心功能就是只需一行指令,它就可以一键扫描软件的源代码,并且生成一整套完整可以命令, 从而让软件变成 ai 可以 直接调用的工具,让你的 ai 不 再只是聊天工具,而是真正意义上变成可以帮你处理工作的打工牛马就非常夸张。


港大近日开源了一个备受瞩目的项目,上线仅一天便斩获两千多颗星标。其最大亮点在于只需运行一行指令即可扫描软件源代码,并自动生成一套符合标准的 c r i 命令。简而言之,它能将任何软件改造为 ai 可直接调用的工具接口。 也就是说,过去软件面向人类使用,而经过该工具转换后,软件将转变为面向 ai 的 接口形态。当所有软件都可供 ai 调用时,人类或许真的可以逐步摆脱鼠标操作了。

兄弟们比 c l i anything 更炸裂的杀起来了!之前我们说 c l i anything 能把所有开源软件变成供 ai agent 调用的命令行工具,但面对像数据孤岛一样的网站怎么办? open c l i 的 出现,补齐了 ai 自动化的最后一块拼图。它不碰网站原码,却做了一件更狠的事儿,直接附用你浏览器里已经登录的账号状态,生成网页操作的 c l i 命令。 比如你在某破站挂着账号, ai 就 能直接越过繁琐的登录,替你发视频、发弹幕、搜内容。一句话,你在网页上能做什么, ai 就 能替你做什么。只要输入一条命令, ai 直接接管你的互联网。 c l i anything 打通了本地软件, open c l i 打通了全网,网站图形界面终将成为过去式,因为命令行才是 ai 的 母语。

很多程序员的工具链里,终端 ai 助手已经成为了标配。不过说实话,想找一个用起来比较顺手,不用魔法并且稳定的方案,其实不太容易。最近我发现了一个叫 iflow c l i 的 工具,内置国产大模型,还支持 skills 啊,我用起来比较舒服。大家好,我是海拉的编乘客,今天我使用 i flow 给大家演示两个用法,一个是在日常生活中用它来写一些想法验证啊,写一些 poc。 老规矩,我们不打开 ide, 不 手写代码。第二个,我们使用 skus 来对我们代码仓库做一个体检。 好,那我们先打开 icl i 的 官网,在这里进来之后呢,我们先安装复制这一个命令,然后粘贴到你的终端中。 好,紧接着我们需要登录,我们敲斜杠 else, 然后选择第一个登录, 接着我们选择默认的模型啊,也就是 g l m 四点七。 好,我们语音输入,你是什么大模型啊?这也是我最喜欢问的。好,它现在说是 g l m 四点七大模型啊,也就是说我们可以在 iphone 里面使用多个大模型。 在日常的开发中呢,我们会经常做一些想法上的验证,比如说验证某个技术方案行不行啊?老板甩过来一个需求,说,这个淘宝上边的搜图,哎,拍张照片搜到对应的这一个商品,能不能做?我们先进入目录, 我们叫 image search。 接着呢,我们开启 i flow, 我就直接和他聊,老板说什么需求呢?老板说淘宝上面的这个搜图是怎么做的,是吧?那我们问一下他。 呃,我想问一下,类似于淘宝上面拍照搜物啊,搜到某一个商品啊,这个背后的原理是什么?这个专业术语叫什么啊?请回答我一下,谢谢。 我们通过刚刚描述很虚的需求啊,就可以拿到一个术语叫做以图搜图啊。紧接着我们就直接把需求告诉他, 我想做一个以图搜图的这一个,呃, poc 啊,我想请你帮我列出这种最小的需求是什么? 好,我们看一下,这里有一个以图搜图的最小 poc, 核心需求如下,有一个,上传图片特征,提取 相似图片解锁。然后呢,技术组件呢,建议使用 python, 图像模型呢?建议使用 clip, resnet 和 mobile net。 还有一个向量数据库啊,有一个 fast 和一个。呃, milos 啊, 前端呢?简,建议我使用简单的 html, 后端框架呢,使用 fast api 啊,这个包括选型做的都还可以。 呃,这里我有一些不明白的地方,就是图像模型和向量数据库,因为我其实在写 poc, 我 并不完全需要一个数据库,我只需要让他帮我写文件,最后帮我解锁就好了。这一个数据库呢,可能并不是一个必选的像, 而这一个图像模型呢,这里面涉及到很多个模型,我也不知道哪个模型好,但是在写 poc 的 时候呢,我现在需要验证这一个图像解锁是不是 ok 的, 我并不需要做到非常非常精准的图片解锁, 我需要把这一个 poc 跑完。至于模型我们选择什么模型,还是后面选择单独的某一些模型做一个 fight, 这些呢,都是可以在后面考虑的,不属于我们 poc 的 部分,所以我需要问他。 这里我有两个问题啊,第一个问题是模型上的选择,其实我更想选一个比较小的啊,能够跑完这一个是 poc 的 啊,一个模型就好了。然后呢,请你给我一些建议。第二个问题是,我觉得销量数据库其实并不是必要的,我们可以先把东西存在本地,对吧?然后我们就 可以完成这一个 poc 了。呃,你先不要帮我实现它,不要写代码啊,我们验证一下,我们聊一聊, 在实际的过程中,和 ai 聊天的时间应该是占到整个开发比重的四分之三。呃,我的建议是大家尽量花更多的时间和 ai 聊通了。然后呢,再去落实 好。我们大致扫页,针对 poc。 他 建议这一个清亮模型啊, mvnet v 二 resnet efficient net 这个我都不明白。 open clip 啊,这个我是明白的,但是 open clip 我 印象中它的汉语知识不是很好,并且呢,我们只需要做以图搜图,并不需要做一个文字搜图,所以说这个 我们选一个中间一点的吧,选一个四十五的。然后我们看到问题二,向量数据库的必要性啊,说 poc 间呢,确实不需要向量数据库啊,他认同我了。 好,这里面我们看一下,通过 npy 加鱼弦相似度就可以搞定了啊,零依赖,代码简单。然后呢,一千张以上图片会慢啊,慢呢?估计就是解锁方面吧,我觉得这个不是什么大问题。 然后建议方案模型存储后端前端,然后启动时加载模型,从本地 m p y 加载特征库,然后上传图片,提取特征,与所有特征计算相似度啊,这个看起来都还挺 ok 的, 那我们切到一个 呃 plan 模式吧,我们把我们的开发计划再深入的聊一聊。我现在呢,想请你使用呃, esnet 啊,来帮我。这个模型。 后端呢,使用这一个 fast api。 前端呢?呃,我建议你使用这种单页的一个呃页面,然后呢,我希望通过 fast a p i 把这一个网页 host 住啊, 接着呢,样式上我建议你美化一下啊,用一个类似 vs 的 高高科技感的暗黑模式。 然后我们再想一下,在这一个数据流这一边,有一个启动时加载模型,从本地 npy 加载特征库, 然后上传图片,提取特征,与所有特征计算相似度。这里面还漏了一个情况,需要补充一下,我们可以先写,还需要写一个脚本,把这一个几千张图片把它转化成特征库,才能 在上传特征库的时候提取特征,返回 topk。 结果啊,所以说这里面还漏了一点, 是这样子啊,呃,还有一个需求是我需要你,呃,写一个脚本对吧,可以把对应的图片转换成一个,呃,特征 特征库对吧?好,记得一定要开 plan 模式。 他说图片库的数据来源是什么?需要网上下载样本图片的方案吗?啊,这里我已经准备好了, 大家可以看到这里面有 image 啊,我把它这一个移过来, 在这里我们选择 type something。 你说。接着呢,前端页面需要一个拖拽上传图片啊,实时预览上传的图片, 要把它缩小一点。 接着呢,显示相似度的分数,这个需要的点击查看大图呢,我觉得没有必要,然后我们再提交答案,这个时候呢,他就开始做了 技术栈后端前端存储,还有这个计算啊,运行相似度没有任何问题。 呃,有一个 build features 啊,通过特征库来构建脚本啊,也没有什么问题。 核心功能拖拽啊,返回暗黑色的这个科技感 ui, 现在我们可以看到,作为 poc 的 话,一整个规划是比较靠谱的啊,那我们就直接选择第一个, 呃,看一下这个功能特性上面都好,是吧。我们好,我们接下来安装一下依赖 啊,我们大致扫一眼这一个 view feature 这一块有没有问题啊?大致扫一眼,通常情况下不会有问题,但是难说。 好,我们先构建对应的这一个 feature, 接着呢,我们可以给大家看一下对应的这一个图片里面是什么啊,都是些小猫小狗啊 啊,我现在都已经感受到我的这一个风扇在狂转了。 好,这里面已经,哎,已经做完了是吧?然后他写了两个文件来看一下啊,在 matedata 里面写了一些,应该是原数据,然后在这一个,呃, features 啊, py 里面啊,有十四兆啊,它应该是把这一个图片提取成某某些特征啊,它就和人类一样,人类不能像相机一样记住每一个像素,但是人类呢,也是通过照片上的特征来区分的啊。我们启动服务, 能启动吗?哎,能启动能启动,我们打开好拖拽图片。 ok, 接下来我们验证一下啊,我们选一个蓝猫, 把它截图保存下来。哎,蓝猫原来是俄罗斯的, 打开一下,接着呢,我们点击选择把这个图片读过来。哎,我们可以看到,基本上都可以找到懒猫了。 这个输入法真的是变了,选一个吧,选一个放下来保存,接着以图搜图 搜索。哎,我们可以看出来,那这一个小狗就被搜出来了。 poc 写完了,我们还想知道 poc 距离真实的生产还有多远? 我现在想问一下这一个,如果说我真的要做这种宠物上面的解锁呀,对吧?这个搜索到对应的宠物还有哪些这种非常呃硬核的工作是需要做的啊,我觉得是不是 呃 poc 距离生产还是有一段距离的啊?请你和我聊一聊 poc 层面啊,使用的是这一个 oxford, 还有点意思,它是不是读到了哪些原数据 真实呃,生产需要真实场景的图片啊,手机随手拍,各种角度,光照复杂,宠物遮挡,被主人抱着躲在沙发后啊,这确实是 多宠物同框,这也是,然后模糊低分辨率,这是看起来就是非常多啊,然后数据清洗式,这一块标注式,一块数据增强技术啊,构建更大更多样化的做一些模型的特化,就是模型现代化, 这个生产需要 fight, 然后目标检测,注意力机制,聚焦宠物的关键部位, 多尺度的,多尺度的特征啊,这看起来太多了,太多东西需要做了。现实的建议是先做 mvp, 然后逐步打磨,不要一开始就想做的完美啊,这也是符合咱们这一个就是基本要求的。可以看出来, flog 加 glm 四点七给出的这一个建议啊,都是比较重肯的啊,有哪些东西要做啊?有哪些东西是比较硬核的代码啊? poc 的 最核心的部分可能也就几十行几百行代码, 但是要真正的把一整套做出来还是需要很庞大的这一个工作量的。 在上一个项目中呢,我们写的是 poc 啊,写 poc 的 时候呢,就需要 web 扣定一些,氛围编成放松一些。 但是当我们在加功能啊,想让这一个代码变得更稳定一些的时候,那我们就需要加入一些这种质量审核。我之前写了一个 skills, 那 我们打开这个 skills 来看一下,这个 skills 是 我专门用来检查代码的,那 基于代码整洁之道,聚焦七个高收益的检查维度。比如说命名,一定要是有意义的,命名函数要尽量的短小啊。就是,而且要单一职责,尽量减少重复, 尽量规避过度的设计啊,一些魔法数字,还有结构清晰度和 项目规范。呃,每一个问题都会给他排上不同的级别输出的格式呢?是像这种有原则、有位置,有级别,有问题,有建议啊。然后有两个 reference, 并且这里面会开启多个 a 键来扫描这个,这里面我们让他帮我全面做一下审查汇总的报告。每一个维度开一个 a 键 啊,但是要串行完成,不要并行。如果开四五个 sub a 键的长时间跑的话,会遇到并发症问题啊。我们建议他一个维度开一个 a 键的串行完成,一步一步做。 iphone 目前还没有开放并行,但是在他们的论坛里面有并行的体验卡,如果大家有需求的话,可以去看一看, 大概二十多分钟就把任务跑出来了。呃,跑了接近七十五个问题啊,应该是非常给力的,高优先级的大概有十二个,中优先级的有二十九个,我们看一下,大致扫一眼吧, 有些命名啊,这个项目规范啊,我们往后拉一拉看 啊,高优先级,看看删除组建或实现集功能啊,这就没写,是不是然后 mcp test 啊,我这个也是没写。 嗯,这个检查确实是挺到位的。然后消除重复的文件,更新逻辑, 这里面有重复的代码哎,看起来符合我的认知。然后提取关键业务,敞亮, 重构核心业务函数啊,总的说来还是不错的啊。这里面包括有这个 run, open code, s t k streaming 啊,这个函数呢,要提取 event buffer, event handler, session manager 这些类。呃,都是蛮符合我的理解的。 用了几天,我的感受是够用,而且比较省心。市面上大部分固定 a 键呢,有的功能它都有,比如说 m c p, 工作流 skills, 开箱就能干活,登录就能使用。另外,零点五版本加了两个非常实用的功能, 一个是 hooks, 可以 用来做一些提醒。一个是 restore, 如果你搞砸了,你可以回退。当然,我也建议大家用好 git, 这样子你可以做一个双重保险。那我在体验的过程中呢,也有一些不足。 c l i 的 这一个界面上的细节, 我觉得可能还需要打磨一下,比如说我看不到上行和下行的 token, 在 写大一点文件的时候,我非常想知道他在写文件还是卡住了 i f o 官方与社区,他也希望社区能够涌现一些类似于欧曼 open code 的 这样 强大的编排系统。怎么说来,如果你喜欢在终端里干活, i f o 绝对值得你试。如果你也在使用 i f o, 欢迎来聊聊你的使用体验。我是海陆编程课 ai 永不眠,我们下期节目再见。拜拜。

嘿,大家有没有想过一个问题,现在的人工智能像什么 cloud 啊, gpt 啊,它们的大脑啊,可以说是超级聪明了对吧?但一让它们去用我们电脑上的软件,就感觉,哎呀,这手脚怎么这么笨呢? 就好像一个天才艺术家,偏偏长了一双不听使唤的手,这不是很奇怪吗?所以今天呢,我们就来聊一个专门解决这个矛盾的超酷工具。 所以呀,这个笨拙到底是怎么回事呢?其实问题就出在 ai 的 大脑和我们电脑里那些强大的软件之间,缺了一座真正好用的桥, ai 能想,但就是动不了手,或者说动不好,没法稳定的去操作。 你看这张图就说的很形象了,现在我们让 ai 用软件,主流的方式是什么呢?就跟让一个机器人隔着玻璃看着屏幕上的画面,然后再去模拟,我们人去点那个鼠标, 你想想,那画面速度能快吗?而且特别脆弱,只要软件界面稍微更新一下,一个按钮换个颜色,换个位置,他可能就直接蒙了,整颗任务就崩了。这哪行啊, 我们真正想要的,肯定是让 ai 像个老手一样,直接利索地去操作软件,对吧?下达起令,百分之百搞定。 当然了,大家也不是没想过避雷的办法,但这些老路子说实话啊,都走不太通。比如说那个模拟点树标的,也就是 g u i 自动化,刚才说了太脆弱了, pass 掉, 那用 api 接口呢?这听着很专业对吧?可问题是,我们平使用的大多数专业软件,人家压根就没给你留这个官方后门,你想用也没得用,那最后干脆为了 ai 把整个软件重写一遍得了吧,这成本简直是天方夜谭。 所以你看,这些路都堵死了,必须得想点心肉。哎,这个新招儿它就来了,它就是我们今天的主角, c l y anything, 你 完全可以把它理解成一个嗯,专门给 ai 用的,能控制所有软件的万能遥控器。 好,那我们说的专业一点, c o i anything 到底是什么呢?它其实就是一个工具,能自动给任何软件。注意啊,是任何软件装上一个稳定可靠的命令行接口。这个 c o i 全称是 command line interface, 程序员朋友们肯定都懂, 就是那种打自下命令的方式,特别直接,特别高效。这个超酷的项目呢,是香港大学数据智能实验室搞出来的。说白了,它干的事儿就是在 ai 的 大脑和软件的手脚之间,架起了那座我们一直都想要的桥。 而且啊,它们的口号也特别霸气,让所有软件都成为 ai 机能体的原声工具。 你琢磨琢磨原声这两个字,啥叫原声?意思就是软件不再是 ai 需要去学习、去适应的一个外部工具了。 不,它直接变成了 ai 身体的一部分,就像我们指挥自己的手一样,想怎么用就怎么用,完全无缝连接。 听到这你可能就想了,哇,这听起来也太牛了吧,是不是得配置半天,写一堆代码啊?哎,恰恰相反,这工具最绝的地方就在于整个过程是全自动的,你啥都不用干。对咱们的用户来说,这简直就跟变魔术一样。 你看啊,整个流程 ai 自己全包了,咱们要做的就一件事,把一个软件的原始码扔给他,然后呢, ai 就 开始干活了, 他自己去分析代码,自己设计命令,然后生成能用的工具,他甚至甚至连说明书都给你写好了。从头到尾就六个步骤,所有丧活儿、累活儿, ai 全干了,咱们就等着收获就行。 好,我们现在知道了它是什么,也知道了它是怎么变魔术的。那接下来就是最让人兴奋的部分了,有了这把万能遥控器, ai 到底能帮我们干些什么实事?这可就让 ai 真正从一个只会聊天的嘴炮,变成一个能干活的实干家了。 这一下,想象空间可就大了去了。比如说搞设计的,你可以直接让 ai 帮你用 blender 建个膜,或者用 gimp 给你批量 p 图, 做办公事的,让 ai 用 liboffice 给你自动生成一份带图标的附造报告, word pdf 都行, 程序员就更爽了, ai 自己就能去操作 docker、 gitahard 这些工具。甚至啊,在一些很专业的科研领域,比如用 free cad 搞工程设计,用 m h g 做图像分析, ai 现在也能直接上手了。 为了让大家看得更明白,咱们来看一个实际的命令长啥样。就比如屏幕上这行, 你看他写的是 clear 杠 anything liberal office writer add heading 杠 t。 季度报告这行字翻译过来就是一句大白话,喂, ai, 去打开 liberal office 的 文档,给我加个标题,标题内容就是季度报告, 你看,就这么简单,这么直接, ai 就 能通过这种命令,准确无误地完成你想让他做的任何事。 所以说,这一句话总结的真是太到位了,这一下, ai 就 真的从一个只能陪你聊天的聊天机器人,升级成了一个能帮你干活,能用你所有工具的超级助理,或者说实干家。 当然了,我们聊了这么多,听起来好像特别完美,但任何一个新技术刚出来的时候,肯定既有让人兴奋的地方,也有他现实的局限性。所以接下来咱们也得客观的看一看,他现在到底怎么样,未来会走向何方。 好,我们来看看他的优点和一些需要注意的地方。优点这边可以说相当给力,首先他能调用软件,百分之百的功能,一个都不少。 其次因为是命令行,所以特别稳定可靠,比点鼠标那种强太多了,而且它还是完全开源的,大家都可以用。 不过呢,另一边也要看到,它现在最适合处理的是开源软件,因为需要看源代码嘛,而且 ai 自动生成的东西,有时候吧,可能还需要咱们手动去稍微调整一下。最后一点也很关键, 你想让 ai 干复杂的活儿,那肯定得配个好点儿的 ai 大 脑,比如现在顶级的 callout 模型。其实啊,聊了这么多,咱们只要记住一个最核心的概念就行了, c l i anything 想做的,说白了就是给我们数字世界里的每一个软件都配上一把给 ai 用的专属遥控器,把所有复杂的按钮菜单都藏起来,让 ai 能直接简单地调用它们。 那么最后我也想留一个问题给大家来思考一下,你就大胆的想象一下,如果 ai 真的 拿到了这把万能钥匙,可以完美的使用我们电脑里所有的软件,那你 第一个想让他帮你做的事情是什么?你最希望他帮你创造一个什么前所未有的东西出来?这问题我想可能就是这项继父给我们带来的那个充满无限可能的未来吧。

想让 ai 去小红书、知乎上收集点资料,是不是被各种反爬虫机制折磨?别折腾了,来看这个堪称降维打击的开源项目, open c o i, 它把任何网站直接变成命令行工具,原生内置了对 b 站、小红书、知乎等平台的二十八种命令支持, 只需要在终端敲一行代码,就能瞬间把热榜和评论拉取下来,并转化为 ai 喜欢的 jason 或 markdown 格式。

兄弟们,最近港大开源了一个非常牛逼的项目, c l i anything, 可以 一键扫描软件源代码,生成一整套完整的 c l i 命令,从而把软件直接改造成 ai 可以 直接调用的工具。 开源不到三天就已经暴涨了近四。 k stars 只需运行这一行代码,原本只能给人用的软件就可以直接接受 ai 调用去完成任务。有了它,你的小龙虾就可以承担更多的任务, 包含图像编辑、视频剪辑、三维建模、视频会议等经过测试能百分之一百完成的任务。我相信,当人们常用的软件都能为 ai 所用时,那么人类离完全自动化的智能体时代也不远了。

我们的新建绘画的时候,我们这些如何去选择?我们的 ai 工作,也就是 ai provider, 然后有一些内置的啊,这里的话我们就呃 可以看到啊,这里就放了一个秘密,就是只要需要输入这个安装秘密,运行靠的,然后至于怎么登录这个我这个视频就不详细展开讲,是大概的安装教程, 大家可以自己去去去登录或者什么的,这个我们就不展开讲,大家可以自行去了解一下说怎么去 登录,下载的话比较简单的,然后我这里逐渐逐逐重讲一下这个爱洛,爱洛是我们的国产的一个 国产的一个模型,然后的话他是一个把一个免费,这里比较推荐大家新手上手的时候可以去使用这个平台, 这平台到时候我链接会放在这里,它的配置就很简单,就是说它这里有个 api 调用,然后啊我们登录之后,这里有个 api api t 管理,你只要点进去你就可以变成一个 api t, 然后调用的话也比较简单,就是说我们把这个 url 复制过来,然后把你的 api t 放进去,我们要分设个 oppi 的 一个 api t 放进去,然后把模型库选好, 比如说我们写代码用这个千万 pro 的 plus, 大家可以参考一下我这里的那个单独给他配了一个 g o i, 可以 看到我们选择最下面这个 oppo a i, 然后这里选千万扣的,然后选 ipl, 然后把 这些选进去,然后保存就可以继承进来了。这里就给大家展示一下继承进来的一个千万扣的一个情况,比如说分析一下 它的速度很快的,当然就是说啊,这个免费的有一个坏处就是它不支,不支持并发,就是你不能啊,同时骑很多个啊,这个 ipad 去调用 啊,我们只能目前的话支持,就是说单一并发,所以说用普通绘画来说,普通绘画你可以去使用它的一个绘画去完成一个功能,抓的是一个免费。回头这个链接我会放评论区 啊,然后就是说刚刚也讲了怎么去接中转,对吧?就接那个自定义的 a p i, 就 选择这个 open i 的 协议,然后把你的 u r l 填进去,记得有的要在这个杠 v e 的 啊,然后把 k 填进去,对应的模型名称填好,填好之后测试一下,没问题就可以了 啊。这就是本机的一个 api 提供者,我们说怎么去在我们系统里面去新增一些对接一些啊,五星啊,像我最开始视频讲到的 adobe 的 口袋里面这些比较通用的,这个大家就自行去了解,不管你是听音乐还是 ap 的 方式 啊。最后视频结尾,感谢大家对软件的支持,希望大家多多给我点点赞,点点推荐,后续我会继续为大家介绍软件的功能,谢谢大家。