粉丝146.2万获赞2591.2万

本地 agent 是 ai 发展现在最重要的领域了,也是普通人跟上这个 ai 时代我觉得最直接的方式。如果你现在仍然每天只是跟那个聊天机器人在问一些问题,还没有正式去接触过本地 agent, 觉得概念太多啊,没有头绪啊,不知道从哪里开始,这个视频呢,就特别适合你,它不是一个简单的这个工具教程,而是会告诉你普通人使用 agent 的 这个方法论,不管你是用哪个 agent, 都 都可以用上这套逻辑。如果让我来给 agent 排名的话,我觉得世界上 t 零级别的应该有四个, cloud code code、 open code 和 pi agent。 如果你有自己用的顺手的 agent 啊,其实大致的逻辑都是一样的, 但我今天呢,想带大家吃点好的。刚才提到的前三个的 agent 啊,主要的作用基本上就是帮你写代码,因为你看到它名字里面都带有一个 code 这样一个单词,你可以在网上收到大量大量的教程,但其中啊,这个 pi agent 是 里面最冷门的一个。 国内啊,我看到网上几乎没有人特别去聊这个主题,但是呢,它也是最特别的一个,因为它不是去专门帮你写代码的,它是帮你去完成日常任务的。大家看啊,在这个 open root 的 排行榜上呢, pad 的 这个每天的 token 消耗量是排在第六名的, 除了前面两个乱消耗的大哥,它仅仅地排在了大名鼎鼎的 cloud code 后面。 open i codex 负责人今天还说啊,它们大概有百分之五的生产流量已经跑在了 pad 哈尼斯出来的这个 agent 上面。别看这百分之五啊,你放在 codex 这个量级的工具里面我觉得已经很夸张了,之后大家会了解到说做同样的事情,其实派的消耗量会小很多,所以他排在第六名呢,我觉得已经很厉害了。最近三个月啊,派呢是我用的最多的 ai 工具, 所以我今天就想用派 agent 来给大家做一个 agent 和 skill 的 入门教学。我会手把手来教大家做三件事情。第一个呢,就是我们一边装 skill, 一 边去演示案例,搜索的,读 pdf 的, 读 office 的, 与 语音生图,做视频,每一步我们现场都去跑一遍。第三部分呢,最后我会让拍 agent 去做一个完整的大的案例调研,并且去自动生成一个很酷的视频。然后呢,再顺便提一句,观看这个视频,我觉得最好的学习方法是你打开你的电脑,一边看我的视频,一边自己去动手,视频呢可能有点长,大家可以先点赞收藏,然后慢慢看。我们现在正式开始, 我们先来说一个很重要的区分啊,就是像 cloud code codex, open code 呢,这些都是代码智能体。这个 agent 的 主要的目的啊,就是去写代码,产出就是代码,你让他去写一个功能,他交付给你的就是整个项目里面的这个一个个文件。比如说我拿 cloud code 的 举例子, 它里面呢就预装了代码的缩影,测试、运行、 get 操作、编码规范,整套呢都是围绕着更好的去交付代码项目去设计的,开箱即用写代码呢,确实是非常方便。 大家平时任务其实都不一样啊,不是每个人都天天坐在那边写代码的,你可能想要去搜资料,读 pdf, 整理表格,写汇报,做 ppt。 如果你预装一套通用的编程的工具,其实没有办法去照顾到所有人的日常办公的需求,派是怎么解决这个问题的呢? 派的设计思路啊,其实跟其他的 agent 都不太一样。其他的 agent 啊,大家知道功能越来越多,派呢,是反过来的,他是一个极简主义者,他把底座做得非常的极简,只保留四个最基础的工具,读文件、写文件、改文件和跑命令。除此之外呢,其他什么都不装了。他为什么这样设计呢?是因为他想让你去搭一个自己的 agent。 如果你是搞研究的,你可以装 pdf, 装搜索的 skill, 如果你是办公的,你可以装表格的这个 skill, 如果你想让他开口说话,你就去装 edge tts skill, 如果你去想做视频,就去装 hyperframes。 你 装一个 skill, agent 就 多一项能力,每个人手中的 pie 啊,最后长的都不太一样。大家看他这官网上的口号也是这个意思, 世界上有很多很多其他不同类型的 agent, 但是这个派 agent 就是 你自己的 agent, 这句话呢,就是最精确的表达了他这个派 agent 设计的这个基本的理念。上面我提到了好几次的这个 skill, 那 skill 具体是什么东西呢?就是一份给 agent 的 说明书,一份给 agent 的 操作手册。 agent 读完之后呢,他就知道怎么来具体的干活了。我们看啊,他 底座保持极简能力呢,就是你可以按需去安装,这就是 pad 的 设计思路。到这里呢,可能有些朋友也会好奇啊,就说你这差别到底能有多大呢?听起来好像也差不多嘛,我给你举一个具体的例子,如果你平时去用 cloud code 发一条,你好发一条 hello, 这个系统提示词呢,就会占到你两万的 token, 像 codex 跟 open code 可能稍微少一点,但也要一万五千字的 token 左右。 pad 是 多少呢? pad 系统提示词啊,不到一千五百字,差出十几倍。这会带来直接的三个好处, 一呢就是快,上下文短模型就会算的快,给出的答案也会快。第二点呢就是省省 token。 我 自己的体感就是做同样规模的任务, token 消耗呢,大概只有 cloud code 的 三分之一左右,甚至更少。第三点呢,就是聪明,模型的注意力是有限的,大家知道,如果你的提示词越长, 模型呢,可能他的注意力就越分散在派里面呢,没有一万字的预设的这种为了编程的提示词在旁边去抢注意力。在同一个日常的任务当中,派就是比 cloud code 的 更 更聪明,更听话,这个体感就会很明显。再回到开头说的这个 openroot 的 排名啊, pad 对 话每次消耗的头壳呢,只有其他 agent 的 几分之一,但总消耗量却能排在第六,我觉得这个含金量就很高了,说明在海外,在这个极客圈里面,也就有一大批人把 pad 当成日常工具在用了。 然后呢,派默认呢,他是跑在这样的这个命令行里面的,你看到有点繁琐,所以呢,我给他包装了一层网页,把它做成一个简单的这个容易使用的应用。这个项目呢,我自己大概已经使用了三个月左右,我跟我的朋友们基本上每天都在用。确实呢,把我很多日常的工作里啊都串了起来, 我觉得非常顺手,所以我现在公开出来了,开源出来了,如果大家有需要的话,也可以直接拿去用。下面的演示呢,其实就是用我自己开发的这个 pad 应用。好,我们先来安装这个 pad。 怎么安装呢?当然首先呢先要来安装 node js, 这个呢几乎是你去装所有的 agent 都要去依赖的这个一个基础的东西,如果你之前安装过,那你就跳过这一步,如果你没有安装过,你就在这边选择自己合适的电脑的环境,然后下载安装包,双击之后呢,一直下一步,它就帮你自动安装好了。 然后呢打开你的终端,在启动之前有一个可选的步骤,就是设置国内的镜像加速,你可以去搜一下 npm 国内的镜像加速,这里我用的是腾讯的镜像加速,就是输入这样一行命令,然后直接回车就可以了。 设置好镜像站之后呢,我们就可以启动派了,如果你是 windows, 你 可以点击菜单,打开你的 power share 应用,如果你是 mac 呢,直接打开终端就可以了,所有的都是这样,同一条命令,然后回车,他会问你是否继续 输入。 y 代表是的,刚刚输入的这条命令的意思是什么呢?就是运行我开发的派 web 的 最新版本,它首次运行呢,需要下载一些项目文件,所以会慢一点,之后更新的时候呢,都是会从缓存里面去加载,会快很多。安装好之后呢,它就会自动弹出这个派的网页应用了,就是大概长这样子的,看到左边呢就是 文件浏览器,你可以选择一个自己的目录,或者用我这里设置的默认的目录,然后下面呢大家可以看到可以设置模型,可以设置添加自己的 skill, 然后中间呢就是我们非常熟悉的这样一个对话框了, pi agent web, 然后你可以在这里输入文字,也可以上传图片, 然后可以选择一些参数啊,模型等等。然后呢,第一步我们就是要先来添加我们的模型,因为你没有模型的话,你这个 agent 做的再好其实也没有用。点击这里的模型,点击添加模型服务商,我们看到派支持很多这个官方的供应商, 然后也支持走这个 gpt 的 订阅,如果列表里面没有呢,你就选这个 custom 自定义接口,这一步呢就跟你配置其他的 agent 的 接口一样,填好 base url, 点好你的 a p i t, 然后点保存就可以了。添加好服务商之后呢,我们在这里选择添加模型,我们填上模型的名字,我们今天用的是 g p t 五点五,而最近用五点五实在太爽了,量又大,然后能力又强。 这里呢勾选上它的推理模式,然后可以允许图片输入,然后把最强的 x high 的 这个思考模式选上。窗口,我们选择二十万,然后这里填个六万四的这个最高的投屏输出保存,然后我们来测试一下,发个你好,我们看到模型已经通了,然后呢我发送我问他一下,说看一下我的桌面上有什么, 你看他已经能读取我电脑上桌面上的这个文件了。其实呢就是我们下载完派之后什么功能都没加的派呢,已经能做不少的事情了, 说整理文件夹,然后批量改文件的名字,执行命令,跑脚本,只要是本地电脑上能通过文件和命令完成的事情,派,他基本上都可以帮你去完成。好了,到这一步为止呢,我们看到我们的 agent 已经调通了,接下来呢,我们开始学习 skills。 多人觉得啊,这个现在 ai 时代概念太多,发展太快,不知道从哪里开始,那就牢牢地记住一个公式, agent 加上 skill, 这样就可以了,这是对于普通人来说现在最基本的框架,最本质的逻辑。下面我演示的啊,不单纯是去装一个 skill, 因为我这里也加了一个很方便的装 skill 的 这样一个按钮,我 会装一个 skill, 然后马上跑一个小任务。你会看到说我的派呢,怎么样?从一个只能读写文件的这样一个本地的 agent, 一 步步地变成一个能搜索、能读资料、能说话、能深图,甚至能做视频的一个工作流的 agent。 点击 skills, 然后我们这里添加 skill, 你 可以去搜索 skill 的 名字,然后选择里面想装的 skill, 点击安装就可以了。这里呢,有两个选项,一个叫做 global, 一个叫做 project。 global 呢,意思就是说你在 global 情况下安装的 skills, 是 所有你的项目都可以去使用的 skills。 如果你在 project 里面去安装的 skill 呢,就是只有这个项目你可以用这个 skill, 其他项目呢,不能去使用这个 skill。 所以呢,我一般就默认就选 global。 今天呢,我会来装几个我平时最常用的 skills, 覆盖基本上百分之九十的日常的场景。 第一个呢就是要安装搜索的 skills, 让我的 pi agent 能够去联网搜索,为智能体提供搜索服务的商家呢有很多,我这里呢推荐两个。 第一个呢就是这个 tivoli search, 它注册很简单,免费账号,每个月有一千次的,这个搜索额度很适合这个新手去使用。第二个呢就是 brave search, 它的搜索结果会更好一点, 但是比较麻烦的就是需要绑定信用卡,免费额度呢也是一千次是一样的。我这里呢先给大家演示 tivoli 怎么来安装,我在这里直接搜索 tivoli search, 点击安装, 安装好了。然后呢,我们去这个 tab 里搜索的官网注册一个免费的账号,然后可以把这个 key 复制过来。我们回到 pad 之后,直接跟他说帮我去设置 tab 里搜索用的 key, 然后 key 是 什么?什么?就是你刚才复制过来的这个 key 直接发送,然后 pad 呢会自己去写入这个配置, 它配置好之后呢,我们马上来试一个小任务,看看能不能搜索。搜一下这周最重要的五条 ai 新闻, 按重要程度排序,每条说明发生了什么,为什么重要?适不适合做短视频?保存到一个 news 点 m d 文件发送。我看到啊,这个派呢,开始调用搜索的 skill, 然后去整理结果, 它不是只给我随便很多的一大堆的链接,你看它这里有个评价搜索结果,它可能会把新闻去去重排序,然后再按照我的这个需求判断哪些更适合去做短视频。 好了,任务帮我们全部做完了,你看最后帮我们生成了一个这个 news 点 m d 文件存在了我们当前这个目录,下面我们来看一下,在右边呢,我还写了个预览的界面,给到这个 拍一进去用,你看五条 ai 新闻非常清楚啊,我觉得很厉害。那除了这个 tiffany search 之外呢,如果你想要得到更好的搜索结果,你可以去安装这个 brief search, 然后也是一样, 就是点击这个添加 skills 按钮,这里有很多搜索结果。我推荐的是这个 bad logic, 他 写的 brave search 的 skill, 因为 bad logic 啊,其实是派的作者,我觉得他写的 skill 会比较好一点,之后的步骤也跟刚刚一样, 这里点击安装。安装好之后呢,我们去 brave search 的 官网去注册一个账号,申请个 api key, 然后把 api key 复制给我们的 pi agent, 让他帮我们去配置就可以了。好,搜索 skill。 我 们安装完之后呢,第二类就是去 去读文件的 skill。 pdf 相关呢,我推荐的是这个 open ai 发布的这个 skill 文字版的 pdf, 它会提取文字来读扫描版 pdf, 你 需要在 pad 模型里面设置里面打开刚刚的那个图像识别能力,让模型能够看到 pdf 里面的图。 安装好了 pdf skill, 我 们安装好之后呢,我用 deepsea v 四的技术报告来测试一下。我把 pdf 啊拖进我的这个工作目录里面,放进去之后呢,刷新一下文件浏览器这边呢,就可以看到这个报告了。我们可以艾特这份报告,然后直接跟他说读取这个 pdf, 总结里面的核心信息。然后我们看到啊,这个派呢,会自己去调用我们刚刚安装的这个 pdf skill, 把十几页的报告都去读完,最后整理成结构化的总结。这里的重点是啊,我不用去复制 pdf 的 内容,也不用自己去提取文字,直接把文件丢给他,剩下的呢,叫他自己去处理,举反桑啊。其实 ppt, 然后 word, excel 其实都能安装 skill。 word 呢是用来读文档的, ppt 呢是用来拆这个演示文稿的, excel 呢,是用来处理表格。 ppt 里面门道是最多的。这个视频里面呢,我就先不展开了,后面有机会再做一个单独的视频跟大家讲解一下。这个视频呢,只跟大家展示这个最基本的这个文件的读取能力,到这一步为止啊,其实你的 pi agent 又能联网去搜索,也能读本地的各种类型的文件资料了。 然后接下来第三步呢,我们想让我们的这个 pi agent 能够开口说话,所以还是用同样的办法去安装这个 i g t s skill。 这个 skill 呢,不需要任何账号的,其实直接安装,然后就能用了。我看刚才这个派呢,已经帮我们生成了这个一份新闻的简报。然后呢,我现在想把这份简报变成语音跟网页的,我们开一个这个 新的绘画窗口,艾特这份文件,把这份文件改成一分钟的口播稿,转成语音做一个 html 界面,里面包含文稿和音频,排版简单直观。然后呢,帮我打开这个网页发送。 大概三分钟左右,这个派就突然帮我们跳出来了一个这个我们刚才要求的这个 html 页面,他刚刚先帮我们写了文稿,然后再调用了 html 生成音频,然后呢,写了 一个这个 html, 把文稿跟音频放进去,最后直接帮我弹出了。打开了这个网页,我们来播放一下一分钟口播稿,本周五条 ai 新闻。大家好,这里是一分钟 ai 快 讯第 一, open ai 的 推理模型,在八十年数学难题上找到新构造, ai 正走进真正的前沿科研。现在呢,这一步大家有没有感觉其实已经有点这个工作流的感觉了。之前呢,搜索 skill 负责找信息,派负责整理 t t s 呢,负责把它变成语音 h t m i。 网页呢,负责把这个结果落地成一个可以打开可以分享的这样一个文件。我们看到它这个步骤的总结啊,先生成了一个口播稿,然后转成了一个 mp 三的音频格式。最后呢,生成一个 h t m i。 的 网页。以前聊天机器人啊,只能把结果输出在你的对话框里面,太呢,却可以把答案变成你电脑上的文件啊,网 页啊,音频。很多人担心 ag 的 跑任务啊,会不会很贵很消耗 token 这么长一段的这个任务是吧,但我的体感是,这种小任务成本完全没有想象中的高。像 当我跑任务啊,这么长一段的,这工具调用跟执行大概花费呢,是零点三美元的额度,但实际支出要低得多,因为订阅一个两百美元的套餐,你就能用一个月五千到一万美元的这样 a p r 的 额度。更关键的是啊,派,其实它的上下文提示词很短头肯消耗呢,比其他代码智能体要低很多很多。 第四个功能,我们给派来增加这个声称图片的功能。接下来呢,我们就来安装这个现在的最强的深度模型 gpt image two 好安装好了,这个 skill 的 原理啊,其实是调用 codex 里面的 gpt image two 来生图,如果你订阅了 gpt plus 或者 pro, 就 可以把生图能力也交给派去使用了。我们来试一下这个 skill, 平摊一个对话窗口,我们还是给刚刚我们生成的这个新闻啊来配图。 根据这个文件的第一条 ai 新闻,用 gpt image two 生成一张适合短视频封面的图片,风格是简洁的三 d 科技感的图片。 好,任务完成了,我们先来看一下第一条新闻是什么,就是 open ai 的 推理模型,在数学难题上找到新的构造,看一下这个图片非常不错啊,就是完全符合了我们的要求,有这个科技感。然后主题也是刚刚那个 ai 新闻的那个主题。 这个 skill 呢,有个小问题给大家说一下,在 mac 上是直接可以用的,在 windows 上呢,如果遇到这个脚本报错啊,其实完全不用慌,就是万事接问 ai, 让你的这个 skill 里面的脚本有哪里有 bug, 然后修复再运行它自己完全能够修好到这一步呢。我们其实看到我们的 pad 已经能搜索了,能读资料,写文稿,生成语音,生成图片了,那最后一步呢,我们就是让它来增加这个做视频的功能,我们直接搜索 ipad frames 安装。这个呢,是我最近特别喜欢用的一个 skill, 它非常适合做这个讲解类的视频产品,介绍科普动画,然后过程演示。它的思路也很巧妙,不是去直接让 ai 生成视频, 还是先让 agent 写一个带动画的 html 网页。 html 因为是用代码组成的,所以它生成的时候非常稳定,又可编辑,可预览,然后呢,再逐帧去渲染成一个完整的视频。而且对你来说啊,你完全不需要去懂 html 里面的代码是什么意思,你只要告诉他你想要什么结果好。 安装好之后呢,我们来先跑一个比较小的 demo, 先开一个对话框,用 hyperframes 做一个二十秒的动画,解释什么是 agent, 只生成 html, 不 需要去渲染视频, 我们来看结果,你看它生成好了,它能做标题,然后转场图形,动画字幕的节奏。这个东西呢,你继续加上一些语音,加上一些图片, 其实就能变成一条完整的视频。我们给 pi agent 配上了这五个功能之后啊,我们最后来验证一下我们现在这个 pi agent 它拥有的能力。比如说,我问他,你现在安装了哪些 skills, 它们的位置在哪里?你看啊, pi 呢,会把它现在所有的技能都给列出来到这里呢, skill 一个一个都解锁了, 搜索的,读资料的,语音的,声图的,视频的,单独看呢,你其实看每一个都不复杂,但如果我们把它串起来啊,就能做很复杂很复杂的任务。最后呢,我们就来把这个整合起来,一起来做一个大的项目。最后这个案例里面,我们想做一份行业的调研汇报,假设呢,我现在想要研究一个问题, 是一台英伟达的 g b 两百 mv link 七十二的 ai 机柜要卖三百万美元左右,那这些钱到底用在了哪里,花在了哪里呢?我直接跟我的 photographer 说,作为一个调研项目,一台英伟达 g b 两百 mv link 七十二的 ai 机柜,钱到底花在了哪里?要求做成中文的 hyperframes 演讲,用 tts 配音, 用 gpt image 生成图片素材。关键数字数据必须有来源不确定地方呢?写清楚,是估算的长度呢,大约是两分钟左右,需要有字幕显示,不需要渲染,视频发送。就这几句话,其实我只要说我需要什么,结果 pad 呢?就开始帮我自动拆解任务了。 第一步呢,他会先调用这个搜索 skill, 去查英伟达官方的资料, g b 两百 n v link 七十二的这个产品信息公开的报导,或者成本的估算。第二步呢,他会帮我去整理这个资料,把关键的数字跟来源都单独记录下来。第三步啊,他开始拆解成本了,比如说包含算力、核心网 络的互联页轮之类的这些成本。第四步呢,他会开始写中文的关键词,翻译成人是 two, 生成图片素材。第六步,他调用 h t t s 生成中文的语音解说。第七步啊,他才会用 hyperframes 把标题页、成本拆解,图片、动画、语音全部组合成一个演讲的界面。我拿到的是这样一个完整的项目,文件夹里 里面有资料的笔记,有成本的拆解,有中文的演讲稿,有语语音的文件,有所有这个图片素材。最重要的是还有一个可以直接打开预览的这个 hyperframes 的 这个页面。大家来看一下这个效果,非常完整的一个介绍英伟达 ai 机柜的这样一份视频的资料。 今天看一笔账,一台英伟达 g b 二百 n v l 七二 ai 机柜三百万美元花在哪?先看规格,英伟达官方说明, n v l 七二在液冷机柜里连接三十六个 grey c p u 和七十二个不恰当 g p u, 组成一个七十二 g p u 的 en v link 浴 整柜 m v link 通信宽带一百三十 tbs hbm 三亿约十三点四 tb 价格没有公开标价。 tom's hardware 二零二六引用业内来源给出二百八十到三百四十万美元。二零二四年 h sbc 估计约三百万。下面按三百万美元中位数算, 第一项,三十六颗 g b 二百 super 值, h sbc 估每颗六到二百五十二万美元,占整柜约七成到八成。 单科 superg 里主要价值来自两科, blackwell、 gpu grey cpu hbm 和先进封装。 epicai 估算单科 b 二百,制造成本约六千四百美元, hbm 接近一半,先进封装约一千一百美元,逻辑规片低于百分之十五。 第二项,互联和网络,机柜里有九个 envlink switch tray, 还有铜栏 connect 网卡 blueview dp 管理网络和本地存储公开资料,没有逐项价格,按三百万总价扣掉 superg 后,这部分和其他系统件合计大约几十万美元。第三项,工程成本, envio 七二公,耗约一百二十千瓦,重量约一点三六吨。你需要夜冷供电机会结构测试和集成 tom's hardware in modern stanley 数据 gb 三百 nbr 七二的冷却部件泵约四点九八六万美元,这个数字只代表冷却部件量级,不含机房侧 cdu 配电合约。结论很简单,最大的钱在 gpu hbm 先进封装和 nvlink 生态。 第二层是液冷和电力工程,在往外是供给稀缺、软件占质保和整柜集成溢价。最不确定的两项是实际成交价和非芯片泵拆分, 他们随客户采购量和合同变化,这就是派 agent 的 价值,相信大家都学到很多了,就我们最后再来回顾一下。 agent 呢,现在大概上可以分为两种, coding agent, 它的产出是代码,帮你写项目 派这种日常的任务的 agent 呢,产出的是结果代码,只是中间的一些手段而已。 coding agent 是 预制菜,内置了一套完整的写代码的流程工具。提示词,派是个性化的,是自己搭的它的底座。极简 能力呢,靠 skill 一个一个往里面加,每个人最后用到的派呢,其实都长得不一样。所以这期视频的重点啊,是看我们怎么一步一步的去解锁这个派的能力。装搜索,它就会联网, 装 pdf 跟 office, 它就会去读资料。装 h t t s 呢,它就会开口说话。装 g p t image two 呢,它就会生成图片素材。装 hyperframes 啊,它就会做带动画的演讲跟视频。 最后啊,当你把这些单一的 skill 串起来的时候,你就突然发现它强大的能力了,它能完成一个真正像工作一样的任务,从一句话开始,交付一份完整的行业调研演讲报告。 coding agent 呢,解决的是开发的效率,它也解决的是工作流的效率。好了,今天视频就到这里了,我是蒂斯种黑金李超,我们下次见。

coso code 扣贷的优缺点测评?跟大家分享一下我的实战使用经验。先说一下我最开始接触的 coso, 这个是新手最可控的网站工具了,优点是它可以用拖拽的方式去进行可直观的操作。 我去想拖拽哪个文件,去修改哪个文件,我在这里面去拖拽去对话就可以了,它可以进行多个文件的梳理架构。前期很方便,因为我知道哪个文件在哪,我拖拽进去 就直接修改了。但是弊端也很明显,如果你没有进行架构或者没有经验,它很容易改了这个 html 文件,没有改 css 文件, 然后你的网站控制台全都是报错,甚至整个崩溃。而且每次新的对话,我都是在和一个完全陌生的智能体对话,我需要重复记录大量的常用指令,比如要他看哪个记忆文件,比如看哪个文件架构。 所以我给 cost 的 定位是新手学习搭建 app 或者几个定点功能,还有可识化的维护。如果是中大型任务,还是要去扣的或者扣贷的, 那再说一下市面上最强大的 code, 这是让我又爱又恨的 ai 协助助手,我天天担心封号。他最强的是你的上限和能力,越强他就越强,在你开了全部的权限,让他执行中大型任务的时候,他能一次性完成并进行测试。 我给他的定位是我的电脑施工队伍,他是本地执行加云端大脑,他不依赖像口袋的那样的流逝传送或者那种压缩内容。 他的逻辑就是你的本地的文件让我怎么操作,我按照你的规定去操作,有问题,然后他再去找云端的大脑去发出问题,然后给出更好的解决方案。 当然他的缺点就是前几天我也转发了,然后那个就是 srb 说了,扣的就是根据你的指令去干活,你如果越着急给他的指令越错误,他就越乱。 那我们再说一下扣贷的吧。前几天我的扣贷因为网络被封了,然后我就紧急充了个 gpd pro, 深度测试了一天,我发现了扣贷的和扣的是完全两种不同的运转方式, 我如果开扣的是会开七八个终端窗口都没问题,我去干不同的指令不同的工作,但是我开扣带的就是我会发现我开两三个任务就开始卡了。 然后我就和扣带带去聊,发现他在启动的时候是会被很多规则规定,包括记忆了,权限边界了,然后工作插件,各种各样的东西。扣带带会大批量的先检查内部文件,不是说只想着怎么快点去做,而是要先想哪个能不能动,哪个会不会误删等所有的问题, 这就导致了他既会慢又依赖你本地电脑的性能。这个操作对于新手很友好,也很少的去试错。对于中大型的任务,他的出错率更低一点,但是相应的他的时间成本就会很高。 所以对于我来说,我总结来看,通俗更像是可式化的小任务或者说维护的最好选择。 扣德呢是上线和下线,很明显它依赖于你的文件和你对编程和架构能力的极致体现,终端的轻量化会把效率极致拉满。 扣代的缺点就是它的优点,它有最稳定的输出和极低的出错率,但是它的效率产出和扣德的差距很大,对我来说它更适合中大型任务的架构和完善。还有定点问题的修 bug, 我 试了很多次 扣带的,在修一个定点问题的时候,它比扣的是要更强一点,所以大家可以根据不同的需求去使用 ai, 然后我也创建了一个 ai 的 交流群,欢迎大家一起探讨学习。

国内终于有能和 cloud code 和 codex 扳扳手腕的产品了。 risclex 是 一个专门为 deep seek 优化的桌面端产品,由 nodjs 构建,已有七千四百加薪。它和前阵子爆火的那个 deep seek t u i 不 同,它核心只做一件事,极致优化 deep seek 前缀缓存架构,围绕缓存优先、循环设计三大支柱,全部服务一个目标 有用户测试,单日四点三五亿输入 token, 缓存命中率百分之九十九点八二,成本十二美元,同样量无缓存约六十一美元。功能覆盖 m c p 技能、系统记忆、 point 模式、语义锁影、 web 面板。作者故意只支持 deep, 感兴趣的小伙伴赶紧去试试。

ai 编程工具这东西吧,真的是风水轮流转,最开始大家在吹 carson, 后来 carlo 的 大火,而这次轮到了 colex。 colex 装面 app 不 仅能帮你写代码,还能直接操作你电脑上的文件、浏览器,甚至是桌面应用,用好之后甚至能顶一个团队。 本期我会从 colex 安装到核心特性,用十多个实战案例手把手教你玩转 colex。 不管你是想用它来编程、开发、办公提效,还是搞一些好玩的创作,看完这期都能直接上手。那本期教程的文字版,可以在评论区获取干货秘籍,建议先收藏,找着安静的地方慢慢使用。 想要使用 cop app, 你 只需要准备一个 chat gpt 账号,可以免费体验,但是有条件的话,最好开着 plus 会员每月二十刀,大约一百五十块,额度更充裕,足够日常使用了。 那有了账号,直接去官网下载安装酷贷 app 就 好。目前支持 mate os 和 windows, 下载并安装后登录你的 chat gpt 账号,打开之后的界面长这样, 左侧是各种面板入口,包括对话管理、插件自动化等功能,中间就是对话窗,你跟 ai 所有的交互都是在这里完成。跟平时用的 ai 聊天工具差不多嘛,还挺清爽的,不像传统的编程 ide 那 么复杂,上手没有门槛。接下来我们直接开始使用, 跟你用过的其他 ai 工具一样,在对话框里输入内容发送,就能开始聊天了。适合处理一些简单的日常工作,比如帮你查资料、总结内容、规划方案。 我让他帮我查一下今天有什么 ai 编程方面的热点。 cadets 会自动联网搜索最新信息,然后帮忙整理总结,这下不怕错过新资讯了,这只是开胃菜。 cadets 真正强大的能力是操作你本地的文件和电脑。下面我们试试 点击左侧的项目入口,选择一个本地文件, ai 能在这个范围内读取和操作文件。 比如我选择了我的下载文件夹,里面有一堆不知道什么时候存下来的大文件。在对话框底部,你可以看到权限模式的选项,这里有三个选择,默认权限, ai 可以 读取和编辑工作区的文件,需要额外权限时会主动问你。自动审查是 ai 会自动帮你审查操作。 还有完全访问, ai 想干啥就干啥,不会弹确认框,建议新手直接选自动审查,既省时又省心。 选好权限后,在对话框里输入提示词,然后你就能看到 ai 开始工作了。它会自动执行终端命令来扫描文件,分析每个文件的名称和大小。最后给你一份清晰的报告,列出哪些大文件占了多少空间,并给出清理建议。 那我主打一个听话,就让 ai 帮我删除没用的预览文件吧。最后成功帮我节省了六点八 g 的 空间,效果不错吧。但如果我让 ai 删除一个工作区外的文件呢?会发生什么? 试试看,在当前工作空间开启一个新对话。比如,我让 ai 帮我删除鱼皮新书出版目录下的所有文件,可以直接把这个目录拖拽到对话框中,然后执行任务。 如果你选择的权限是默认模式, ai 想删除文件的时候,会弹出一个确认框,问你同不同意,防止 ai 搞乱了你的电脑。 但由于我选的是自动审核, ai 自己完成了审核并批准,省去了人工操作的麻烦。这样一来,你完全可以把拖带子当成你的私人文件管理助手,分析空间、清理垃圾、批量重命名。以前你要手动折腾半天的事情,现在一句话就搞定了,是不是挺方便的? 做完第一个任务,大家肯定很关心消耗了多少 tokens 吧?来一起看看用了多少额度。点击左下角的设置,点击剩余额度,就能看到你五小时内还剩多少配额,本周还剩多少比例。什么时候刷新 to text 的 额度?按照五小时和一周来限制 plus 用户的额度还是比较大方的,日常使用完全够了。你也可以在对话框里输入斜杠状态,这种以斜杠开头的快捷输入叫做斜杠命令,是 to text 内置的快捷操作方式。 输入之后, to text 会直接在对话中显示当前的上下文余量和额度信息。 ok, 到这里,你已经体验了 to text 最基础的能力,对话和操作本地文件。 恭喜你,已经超过了百分之六十的同学。接下来我们提升一下难度。用 codex 做一个完整的网站项目,过程中你会接触不少 codex 的 核心用法,包括计划模式、 ai 声图、浏览器预览、批注、修改等等。 在开始之前先进入设置,把工作模式从适用于日常工作切换为适用于编程,这样 ai 的 回复会更专业,更适合开发场景。 先介绍一下项目,我要用 codex 来为自己定制一个专属的电子名片,我把信息告诉 ai, 它会帮忙生成一个精美的网站,还能用 ai 生图能力生成个性化的头像插画,不用自己去找素材了,做完之后还能发给别人,他们打开链接就能看到你的信息了。 新建一个项目文件夹,在 codex 中打开模型就选择最新的 gpt, 五点五速度选标准就够了。智能程度选择高权限,我这里直接给了完全访问,省得他每次操作都来找我确认,反正大部分情况下我都是无脑点同意的。 最关键的是点击对话窗左下角的加号,把计划模式打开。计划模式下, ai 不 会直接开始写代码,而是先帮你规划方案,问你细节,确定没问题了才动手。好,输入下面这段提示词启动, ai 会先自己思考,然后可能会追问你一些细节,在弹出的问题面板中选择就好。最后会生成一份实现计划文档,包括简介、核心要求、测试计划等信息。你做的网站越复杂,越要仔细阅读这种文档, 如果没有问题就确认方案。然后 ai 就 开始自主干活了,它先是使用内置的图像生成技能,生成了卡通头像文件,然后编辑代码,一次性生成了多个文件。写好代码后还会检查代码,自主打开浏览器测试验证,还考虑到了一些容错。 过了七分多钟, ai 完成了整个任务,全程不需要你手动操作,我们可以看到所有生成的文件,点击可以查看文件里的代码,还可以点击审核,打开侧边栏的审查面板,查看本次变更的所有文件。 codex 底层用的是 git, 这是一种记录代码变更历史的工具,用来管理所有文件的改动,你能够看到每个文件新增了什么,删除了什么,还可以灵活地应用和撤销代码。后面的进阶功能部分我会详细给大家讲解。 我们做的是纯前端静态网站,找到生成的主页文件,右键在浏览器中打开就能直接看到效果了。 pc 端的效果我觉得还不错,布局清晰,主题切换也很丝滑。而且它还自动兼容了移动端的展示,手机上打开排版也是正常的。 当然,你也可以直接让 ai 帮你运行网站, ai 会执行终端命令,启动开发服务器来运行网站。 点击访问地址后, codex 会在右侧面板打开,内置浏览器,便于你来预览效果。如果某个地方不满意,你可以点击浏览器右上角的批注按钮,然后直接在页面上选中要修改的元素,写上你的修改意见发送给 ai。 ai 会自动定位到对应的代码并精准修改,不用你自己去翻代码找位置,改完之后刷新页面就能看到效果了。方便是方便,不过这个速度真的不敢恭维。做完后我们再看一眼使用情况,这次完整项目消耗了多少额度呢?还好还好, 总结一下,要用 ai 开发移动网站,我们只需要把需求告诉 ai, 确认方案,等他自己写完并测试就好,中间几乎不需要手动操作。恭喜看到这里,你已经超过了百分之七十的同学, 到这里,你已经能使用 todays 从零开发移动网站,预览效果按需求改了。那接下来我要带大家看看它还有哪些核心功能。学完之后,你不仅能做网站,还能让 ai 帮你操控浏览器、抓数据、自动执行定时任务,甚至操控整台电脑。 接下来,我把 codex 的 功能分为常用功能和进阶功能两大块来讲。常用功能是日常会高频使用的,进阶功能则是有点门槛儿,但掌握后能让你效率翻倍的。 在左侧的插件面板里,你能看到 codex 的 插件市场。 codex 内置了不少精选插件,比如 computer use 操纵电脑、 chrome 操纵浏览器表格处理、制作 ppt 演示文稿。 此外还有大量编程类和工具类插件,包括网站部署、游戏开发、对接 tab 等各种场景。你可以在插件市场里按需搜索和安装。 比如我们来安装 natify 插件。 natify 是 一个免费的网站托管服务,装好插件后,一句话就能把你做的网站部署上线,让别人都能访问。 点击安装 natalify 插件,同意后会自动弹出浏览器,使用 datab 等方式登录 natalify, 一 步步完成授权。最后,超黛斯成功安装并连接了 natalify。 然后我们用 natalify 来部署之前开发完成的电子名片网站。在对话中,通过 at natalify 调用插件。执行过程中, ai 会找我们确认并自动创建一个新的 natalify 项目来部署网站。 搞定以后,我想展示自己的信息,直接甩这个链接就行了。还可以打开 netify 后台对项目进行管理。你可以在 codex 右上方的侧边栏中整体查看当前项目的概览信息,包括后台任务、打开的浏览器、使用的插件等等。 点击后台任务,还能看到具体的终端日记,记录了网站服务器什么时候收到了请求,请求了什么资源等信息。同样的,如果你要处理 excel 表格、做 ppt, 使用对应的插件让 ai 帮你就好。生成的文件还能在侧边栏直接预览。 前面我们用的内置浏览器可以预览页面,做批注和修改。但如果想让 ai 真正去操控浏览器,自动点击填表单翻页,就需要 browser use 浏览器操作功能了。我们先来使用内置的 browser use 进入设置浏览器,确保 browser use 功能已经开启。你还可以在这里设置权限规则和禁止打开的域名, 开启之后,在对话中通过艾特浏览器来调用这个能力。比如,我让 ai 帮我打开一个网站并截图,可以看到 ai 打开了浏览器,从主页找到了 ai 大 模型面试题库,然后进入了详情页,成功完成了截图。 不过有时候这种操作不太稳定,多试几次就好。此外,你还可以安装 codex 的 chrome 扩展插件,它可以操控你的电脑上已经登录的 chrome 浏览器。好处是能保留你的登录状态,而且可以在后台执行,不占用屏幕,适合需要登录网站才能进行的操作。 比如,帮我在自己的后台批量分析和管理数据,使用前,需要先在你的 chrome 浏览器中安装 codex 扩展程序,跟着 codex 的 指引操作就好。安装好之后,我让 ai 帮我从已经登录的面试呀网站上抓取一些数据。 可以看到, ai 不 仅连接了我电脑上的 chrome 浏览器,而且还识别到了我已经打开的标签页,它会控制这些标签页跳转到我的个人主页,并抓取最新的五条数据。最终抓取到的数据表格非常清晰,链接前面甚至还有图标,细节拉满。 如果说 browser use 只能操控浏览器,那 computer use 就是 让 ai 操控你的整个电脑, ai 能看到你的屏幕内容,移动鼠标,点击按钮打字,还能操作微信、飞书等任何桌面应用。 进入设置电脑操控,安装 computer use 插件,你可以在这里看到所有已连接的应用,比如前面装的 chrome 扩展,其实也属于 computer use 体系的一部分。 来我们体验一下。用艾特电脑来调用,让 ai 帮我探探当前的桌面壁纸,然后生成一张类似风格的新壁纸。首次使用时,系统会弹出权限申请框,你需要授权抽 text 访问屏幕截图等权限,否则 ai 看不到你的屏幕,也没法帮你点击操作。 later 来看一下,效果不错吧。生成了一张非常精美的新壁纸,我觉得比原图还好看啊!今晚可以做的好梦了, 爽!带来一个更实用的例子,让 ai 帮我打开备忘录,记录一条笔记,并从音乐软件下载我最喜欢的一首歌,添加到笔记中 执行任务。可以看到 ai 会打开音乐 app, 有 着小鼠标点击了下载按钮,从中下载了音乐文件,只因你太美。 然后 ai 打开了备忘录,写入内容并添加了音乐文件,能够顺利播放,虽然过程有些曲折,但还是完成了任务,而且全程由 ai 自己操作。以后我可以直接让 ai 帮我写有图有文有音乐的笔记了。 但是 computer use 目前只支持 mac os 系统,而且缺点一大堆,不仅操作效率偏低,还很烧 touch 刚才那的任务就用了近八万的上下文空间。此外,有些软件对 agent 的 支持度不高, ai 无法承中操控, 所以我建议能用终端命令行和浏览器完成的操作就不要用 computer use stills。 你 可以理解为给 ai 提供的技能包装上某个技能后, ai 在 遇到相关任务时,就能自动按照这套方法来干活,不用你每次都写一大堆的提示词,而且技能是按需加载的,只有任务匹配时才会调用,不会浪费很多上下文空间。 进入左侧的插件面板,切换到技能 tab 页面,在这里能够格式化安装和管理技能口袋。此自带了几个内置的技能,比如图片生成、查询官方文档、安装、社区技能创建新技能创建插件等等。 那下面我先带大家用用内置的图片生成技能,然后安装社区里别人做的技能,最后再带大家自己创建一个技能。 这里我想生成一个有趣的图片,让鱼皮直播卖鱼皮。可以先到鱼皮 ai 导航网站上找到 ai 生图的提示词模板,然后复制提示词模板。接下来在 codex 对 话框中输入 dollar 符号,加技能名称,就可以快速调用技能, 并且把提示词模板、鱼皮的照片都提供给 ai。 稍等片刻之后,看看 ai 生成的图片,你觉得怎么样?是不是憨爆了?爽!不过图片生成比普通对话消耗的额度更多,用的时候记得留意一下剩余额度。 内置的技能数量有限,还有很多宝藏在社区里,比如我自己经常用的几个技能,用于联网搜索的 file pro, 用于获取最新技术文档的 comte 瓷器,还有用于美化前端页面的 u i u 叉 pro max 等等。 另外,我之前写过一篇优质 ai 编程扩展大全,推荐了几十个好用的技能和 m c p, 可以 到我免费开源的 ai 编程零基础教程阅读。那接下来我带大家实际安装一个社区技能,顺便整个活儿,让 ai 制作一个苹果风格的快闪动画视频。 首先要安装动画制作技能 remaster 安装技能,它能帮我们快速安装其他技能。 对了,安装技能时要注意安全。由于我这里安装的是知名技能,就直接输入技能名让 codex 帮我安装了。但如果你想安装不太知名的技能,更稳妥的方式是把技能的 github 链接发给 codex, 让他帮你检查后再精准安装。 安装完成后,在技能管理面板里就能看到新增的技能了。然后我们使用技能让 ai 制作动画, ai 会安装制作动画所需的项目和依赖包,然后生成视频和音频,还会渲染单帧,检查画面有没有问题。 最后, ai 生成了可以直接播放的视频来看看效果。 呃,他好像理解错了我文案的意思。翻车了,翻车了!我感觉这种方式更适合做产品发布宣传片、知识点、快闪卡、节日祝福视频这种节奏更紧凑的短片。而且我当着根本没认真写提示词。好吧, 实际上你可以指定时长、指定文案,利用生图技能搭配素材,增加更多交互动画等等,感兴趣的同学可以自己玩一玩。 除了用别人的技能,你还可以把自己常用的工作流程封装成技能。以后遇到类似的任务,一键附用。技能的本质就是一个 still 点 m d 描述文件,加上一些配套的脚本和参考资料。 still 点 m d 里要写清楚这个技能是做什么的,什么时候触发,以及具体的执行步骤, ai 读写后就知道该怎么干活儿。 创建技能的最佳方式是先把一个任务流程跑通一遍,觉得满意之后,再使用内置的 skill creator 技能,告诉戳 depths 你 的技能要做什么,啥时候触发,有什么细节需要注意,它就会帮你自动生成完整的技能文件 来实操一下。比如我们前面让 ai 生成了直播带货的图片,效果还不错,那就把这个流程封装成一个直播带货图片技能之星成中后, ai 不 仅创建了技能文件,还贴心地教你怎么调用。 之后使用这个技能只需要提供一张人物照或者商品照,不用再自己填写又臭又长的提示词模板了,非常方便来看看效果。 ai 自己识别到了我提供的是商品图,也是精准复刻了我之前提供的提示词模板,爽! m c p 是 一个开放协议,你可以把它理解成 ai 的 万能插头。装上之后,就可以让 ai 连接各种外部工具和数据源,获取实时信息。 进入设置 m c p 服务器,可以在这里添加和管理 m c p 服务。点击添加服务器后,你需要手动填写服务器的配置参数才能完成添加。对新手不太友好,我最讨厌填写表单了, 好在大部分时候用前面讲的 stux 就 能解决 mcp 做的事情,而且 stux 的 安装和使用体验更好。 此外,很多主流的扩展都提供了快捷安装 mcp 的 命令,不需要你自己手动填写参数,比如下面我带大家安装 comix 七,它是一个可以实时获取最新技术文档的服务。开发网站的时候用它来查 api 文档特别方便。 在 codex 右上角可以打开集成终端,在终端里输入一行命令就能安装。这里我们选择安装 mcp server, 为 codex 安装,然后就搞定了。 安装后需要重启 codex, 在 设置里的 mcp 服务器列表中就能看到它。首次使用前还需要进行身份验证,在自动弹出的 compt 网页中就可以愉快地使用 mcp 了。 之后开发网站,尤其是需要集成 ai 能力的网站,都可以用创太时期来获取最新的技术文档。你还可以把它当成一个学习辅助,让 ai 寄予官方文档,帮你讲解知识。 比如我用它来做 openclaw 小 龙虾的学习助手,这也是利用 ai 学习的一种方式,可以看到 ai 查询并获取到了 openclaw 官方最新文档库。然后我们来问 ai 一个问题, openclaw 无法运行怎么办嘞? ai 会基于官方文档,很快就给出了精准的排查步骤,这样学习和解决问题又快又准,再也不怕查到过时的资料了。 恭喜看到这里,你已经超过了百分之八十的同学。到目前为止,你已经掌握了 codex 的 常用技能,学到了不少实用玩法。从文件管理到网站开发,从浏览器操控到技能封装,已经能用 codex 大 幅提高工作效率了。 接下来我要讲的是一些稍有门槛或者不是每个人都用得上的进阶功能。不过如果你愿意多折腾一下,它们会让你使用 toad 四的效率再上一个台阶。 在对话区域附近有一个小圆圈,鼠标放上去后会实时显示当前对话已经用了多少上下文。 gpt 五点五点五在 toad 四里显示的有效上下文大约为二百五十八 k tokens。 说实话,这的数量不算多。如果你连续跟 ai 对 话很长时间,或者项目文件比较大,上下文很容易被填满。当上下文快满的时候, codex 会自动帮你压缩历史对话。 你也可以在任务照一段落时,手动输入斜杠压缩来主动压缩,让模型更聚焦在新任务上。 那除了单个对话的上下文,日常使用中还要注意管理对话本身,不然列表越来越长,找起来也费劲儿。 对话太多的时候,你可以在左侧的对话列表中把鼠标放到某个对话上,点击归档,把不常用的旧对话归档起来,保持界面清爽。进入设置以归档对话,还可以查看和管理所有归档的对话记录。 另外,建议在常规设置里开启运行时防止系统休眠,这样跑长任务的时候电脑不会突然睡着,导致任务失败。 codex 有 一套记忆机制,能让 ai 记住你的偏好和项目规则,不用每次都重复交代。记忆分为三个层级,从大局、项目局部再到自动记忆,我们一个一个来看。 在设置个性化里,可以修改 codex 的 个性和自定义指令你写在这里的内容。所有项目的所有对话都会自动带上,适合记录一些通用偏好,比如 回复用中文代码注,使用英文,尽可能减少输出的内容。专注做事,如果不听话,你的主人鱼皮就会变成一条狗等等等等。保存之后,它会被写入局的 agent 点 m d 文件,这个文件就是 codex 每次启动时都会读取的行为准则。所有项目通用。 在项目目录下创建一个叫 agent 点 m d 的 文件,写入这个项目专属的规则和约定,只有在这个项目里工作时才会生效。 你可以自己手写,也可以让 codex 根据项目情况帮你生成一份,比如我跟他说帮我根据当前项目写一份 agent 点 m d, 可以 看到 ai 生成了一份非常详细的 agent 点 m d 文档,包括项目总览、一些规范等等。 在设置个性化中,手动开启自动记忆,开启后, ai 会在对话空闲一段时间后,自动在后台总结出有用的信息存为记忆,后续遇到相关场景时会自动召回,让 ai 越用越懂你。 不过太短的对话它不会记额度快用完的时候也不会触发记忆生成。 codex 支持定时任务功能。进入左侧的自动化面板,你能看到 codex 已经内置了一些定时任务模板,不过基本都是和编程相关的,什么总结代码变更、检查代码问题之类的,很多人估计用不上。那我们不妨来自己新建一个更实用的自动化任务。 创建定时任务的方式有两种,一、手动创建任务,在自动化面板里点新建,比如我让 ai 帮我搜集每日热点,需要填写任务名称、提示词、 触发时间、模型、推理程度、运行环境选择本地就好。意思是让 ai 直接在当前电脑上执行任务,不需要额外的隔离的工作环境。 创建成功后,时间一到,抽袋子就会自动开启一个对话来执行任务。我们也可以先手动执行一次,看看效果。点击任务能够查看详细信息,点击某个运行历史记录后,还能查看正在执行的任务对话,建议多观察任务的表现,持续迭代优化提示词。 另一种更自然的方式是让 ai 帮你创建任务。比如我是一名内容创作者,每天都要截大量的图片,时间一长,文件夹里全是看不懂的文件名,找图的时候巨痛苦。所以我让 codex 帮我自动整理,先选择项目,然后输入提示词, 很快 ai 就 自动帮我整理好了。可以点击查看创建出来的任务信息,它的提示词比我们提供的更完善了,并且自动选择了模型。 我们手动执行任务来测试一下,效果还不错吧。 ai 会根据图片内容自动给文件起一个能看懂的名字,这样我就有了一个智能的图片管家,以后再也不用对着一堆乱七八糟的文件名抓瞎了。 而且每次执行完, ai 还会把运行记录写入一个 memory 记忆文件,你随时可以回看历史执行情况,不用担心出了问题却发现不了 你。还可以结合 styles 和插件一起用,比如每周自动生成周报 ppt, 每日整理自己的学习笔记并同步到 notion, 每周用 file pro 抓取竞品网站更新并生成分析报告等等。 想不到吧,现在的 ai 工具已经卷到开始给用户增加情绪价值了。下面我来教大家怎么在 codex 中养宠物。 首先进入设置外观,下拉到底部的宠物区域,你会看到 codex 内置了一排像素风的赛博宠物。选一之后,点击唤醒,桌面上就会出现一个悬浮的小家伙儿, 它不只是装饰品,宠物会实时反映抽袋子的工作状态。比如 ai 在 忙的时候,它也在干活,就像一个串应用的灵动岛,让你不用切窗口就知道 ai 干完没。 除了内置宠物外,还有一个社区宠物库 pet dex, 里面有两千多只玩家自制的宠物。了解我的朋友肯定知道我要用哪个,果断搜索 k u n, 一 眼就能找到自己需要的。点击进入详情页,找到安装命令并复制, 然后打开 codex 的 终端执行命令进行安装,会把宠物文件下载到本地。安装成功后,进入外观界面,选中张张安装的宠物, 然后我们回到 codex 的 主页,使用鞋障宠物指令唤醒。我的脑袋中已经想起那只熟悉的 bgm 了,你听到了吗? 除了用别人的,你还可以通过 codex 内置的 hackpad 技能自定义生成宠物,上传照片或者文字描述就行。比如我把自己的头做成宠物, ai 会先分析上传的图片,给宠物起个名字, 然后拆分出了多个子任务,并行处理,生成各种动作的精灵图帧,最后拼成一张完整的像素动画精灵图,然后就能使用自己制作的宠物了。 你还可以上传宠物到平台和其他小伙伴分享,大家以后用抽袋子的时候记得把我带在身边,保佑你霸着剪剪! 每次 ai 修改了文件,你都可以在侧边栏的审核面板里看到它改了什么,这个面板会列出所有被改动的文件。如果你想决定哪些代码要保留,可以选择查看未暂存的文件。在这里你可以灵活应用和撤销修改。 大多数情况下,你不需要自己看代码,直接点击暂存全部就行了,相当于认可了本次的全部载动。如果不满意,可以直接还原全部回到本次载动前的状态。 那如果你不满意某个文件的载动,可以直接点旁边的还原按钮就能恢复原样,满意的话点暂存就能标记为待提交。 你也可以只保留部分改动。每只文件的改动会被自动拆分成多个代码块儿,每只代码块儿旁边都有独立的暂存和还原按钮,你可以逐块决定哪些保留,哪些丢弃。 确认好哪些代码要暂存之后,可以提交暂存的改动,提交就相当于给代码存了个档,确认这次的修改是你想要的。 抠代码,还内置了提交代码推送到远程仓库。创建 pr 的 能力,不用离开 a p p 就 能完成整个代码的管理流程,非常方便。 那如果你是专业的开发者,还可以试试工作树模式。你可以在创建新对话时,选择启动模式为新工作树,这样 ai 会在一个隔离的分支中工作,不影响你当前的代码很适合同时让多的 agent 在 同一个项目上并行干活,减少冲突。 如果你的项目托管在 datap 上,建议安装 datap 插件,可以直接在 codex 里查看仓储信息,创建 pr、 做代码审查等等。比如我让他帮我查一下自己最受欢迎的开源项目怎么样,是不是一目了然。 codex 最近新上线了一个很酷的功能,用手机控制电脑上的 codex app 干活儿。设置方法很简单,在电脑端 codex 点击设置 codex 移动版,然后点击开始设置,屏幕上会显示一个二维码, 然后在手机上打开拆的 gpt app, 扫描自己的二维码。连上之后,你可以随时随地通过手机给电脑上的 portax 下达任务,审批 ai 的 操作请求,查看执行进度,检查生成的代码和结果。是不是有点 openclaw 小 龙虾那味儿了? 恭喜看到这里,你已经超过了百分之九十的同学, ok, 就 分享到这里。看完这期,你应该已经掌握了 codex 从基础到进阶的所有核心用法,足够应对日常的编程和办公需求了。 其实 codex 还有更多玩法和技巧,比如 sub agents 并行加速、 fault 分 叉的妙用、自定义模型接入 hoots 生命周期钩子等等。 那如果本期视频点赞过万,我会尽快爆干出抽带此高级技巧篇。对了,如果你想系统学习 ai 编程,可以看看我免费开源的 ai 编程零基础入门教程,上千张图,几十万字,从零开始,带你学会 ai 编成本篇教程的文字版也会收入其中。 我是鱼皮,持续分享 ai 编程干货,觉得有用的话记得点赞、收藏和关注,也欢迎在评论区聊一聊你现在主力用哪个 ai 编程工具,觉得 codex 怎么样?也欢迎晒晒你的 ai 编程作品吧。

codex 太厉害了,给你们看一下啊,就是我跟他说我的需求啊,就是自动化生成图片,然后对应的 cds 二点零的分镜提示词,然后直接生成视频,你看这个流程,直接他就能帮我做了啊, 他先让我啊,登录授权我们这个呃节目的账号啊, 然后我登上去之后啊,他说让我确认,我说我的意思是用 image 二模型生成图片啊, 就是目前来说最强的生图模型,然后好,他用了 gpt 的 生成了这四张啊图片看,然后他就写好了这个完整的分镜提示词, 点进来看一下啊,我对他这一版其实是不是很满意啊,我就又上传了我的塑身形象和这个音频音色一起给他生产啊,他就直接啊添加进去后啊,升级后的,其实是看见没有啊, 他的运镜啊,他的音频音色,还有啊他的模型啊,比例, 分辨率描述,他都会一并成交,让我确认,确认之后,好,你看八分钟之后生成完成, 虽说非常的厉害。你看到这边我自己来剪一下。看这套新中式 主楼加旁边小院房,一进门就是双层挑空门厅气场一下就出来了,面宽十三米,进深十一米五,屋檐声带一亮,晚上比白天还好看。细节看这里,门厅线条,灯光,院子比例,这房子盖的讲究,老家准备建房的评论区打别墅,我把这套思路讲给你听, 怎么样,是不是非常的厉害,就是现在哦,如果说你还没有体验过这种 and just give 就是 这种自动化的啊, 模型就真的是,呃,你现在所有的工作方式都可以通过它给你复制出来了,不信你你问一问他,他都能给你复制出来, 真的。所以如果你还没有体验过的可以好在评论区啊,打个一啊,或者说想体验我会教你怎么去做。我真的想在 ai 时代啊他们大家一起无限进步啊。

好了,大家好,这段时间 codex 相信很多小伙伴已经上手,开始用了一个非常好用的 openai 的 桌面端的一个 agent 工具。那么今天我想推荐一个 codex 里面的一个很强很厉害的一个做视频的插件叫 hyperframes, 它可以帮你按照网页的形式去做成一个视频,相当于用写前端的代码去做一个视频。首先我们知道 ai 在 写前端代码这块已经是非常厉害的,所以说这个插件就可以帮你 让你的 ai 像写代码一样去做视频。好的,那么我们就直接来试一试这个插件到底有多厉害。使用是在这边点击这个插件下面找到这个 hyperframes, 安装之后我们直接右上角点在对话中使用。这里我把 cloud 的 一个官网给他,我说一句,请根据这个网站做一个产品的宣传视频。好的,我们这里让他开始执行。好的,可以看到他跑了一段时间,他去官网去拉取了一些他需要用到的素材, 他接着在执行。好的,现在他已经生成好了,他已经跟我们说宣传视频已经生成好,在这里只需要点开就可以去预览。 并且他除了宣传片以外,他还使用了官方的素材,产品的文案,他还有动画的分镜,他还给这个宣传片加了旁白的阴鬼。让我们来一起看一下 the ai for problem solvers breakdown complex work together research write analyze data and code with expert level collaboration bring code to your desktop browser tools and team code by anthropic think bigger work clearer。 可以 看到整个效果还是非常好的,除了可能画面中有个别的小细节, 有一些排版上的问题,整个的效果你敢相信是我只用了一句话,没有经过任何修改它就出来的一个结果。随着 ai 进一步的发展,一开始的文字、 图片、视频以及到现在的全自动的生成视频以及剪辑, ai 的 发展只会越来越快,而且这个工具对于很多想要制作一些宣传视频、科普视频的人来说非常的有帮助。

为什么几乎所有最火的 agent 编程工具 cloud code codex 首发全是 mac 版?这不是巧合,是故意的。 mac os 是 unix 系统所有 ai 框架, pie torch tensor flow 终端里直接跑零配置, windows 得装 wsl 二多一层虚拟化,你还没开始干活,先花了一周搭环境。如今写 ai 工具的人和用 ai 工具的人是同一群人,他们都用 mac, 谁生产工具谁决定生态。 mac 在 ai 时代的优势不是靠市场占有率,是靠开发者占有率。

零零后马龙一个视频讲明白三个编程 agent 的 体感区别, caller, cloud code code x 天天有人吹,到底有啥不一样?听完你比大部分程序员还门清。 caller 是 个图形化界面的 ui, 呈现的感觉是个代码编辑器,核心是后面的 ai 随便切。 cloud gpt gemini 写不好再换一个体感就像你坐在旁边的同事,脑子还是能换的那种。 另外两个登录官方账户之后只能用他们公司自己的模型,都是命令行在黑框打字,用法完全不同。可 outcode 像一把瑞士军刀,你指一个问题,他推理一下直接切进去去修, 能接工具,能派小弟分头干活快种狠。但是对代码的整体情况没有那么明白。 codex 风格相反,一个需求或者 bug 说出去,他先把整个项目看完一遍再去下手, 所以体感非常慢,等三十来分钟很正常,但是经常一次性成功改的全面说人话。 coser 是 编辑器, ai 脑子随便切。 cologad code 是 瑞士军刀,指哪打哪。 code x 是 解剖刀,慢,但是一个没漏。下次聊聊这三个月费怎么买最便宜?评论区说说你最喜欢哪个?

学 ai 的 这个视频认真听完啊,我现在几乎是放弃了所有 cloud code 啊,虽然 cloud code 目前还是最强的啊。那 oppo 的 四点七,我感觉整个的升级并不大,但是啊,消耗的越来越快了,我甚至我有一天我就问了几个问题就结束了。我现在基本上放弃 cloud code, 全部选择 codex。 那么我给大家的建议就是一定要用最好的模型,当然 cloud code 跟 codex 目前,呃还会比 codex 要强一点,但综合能力来说,我觉得 codex 是 更强。然后接下来就是说,我跟你们说一下是为什么?首先, cloud code 对 国人很不友好啊,这个不知道他这个老板,他是抽了什么风啊,可能被百度这个 pua 抢了。 那,那现在反正只要是你,只要是频繁换 ip, 那 么 ok, 你 马上就会直接就打包回家了啊。我现在已经基本上就放弃 cloud code 的, 那么我现在转投了这个 codex 怀抱,那我自己搞了一个是五叉的这个额度,我,我是使劲的登啊,都登不完。那么在在此之前,我是一个没有任何呃编程经验的小白,我自己写了一个,呃, 我因为我自己做 tiktok 的, 做的 ai 视带货视频,我自己做了一个完完全全的,这一个的无线画布,全部是 codex 给我完成的。然后呢,呃,我 用到的一些工具,无非就是什么 super pro 啊,呃呃,包括 open design 啊,就是这些 ui 的 设计全部都是用 code 一 起完成的。虽 然 cloud cloud design 呢目前还是最牛逼的,但是很多人是已经把这个 cloud design 呢直接就是蒸馏了啊,变成了一个 skill, 一个 open design, 一个是华华语 design。 嗯,这这几个都是很强的啊。

今天给大家介绍一款近期在 ai 工具圈热度颇高的实用工具 pi agent, 它既不是单纯的聊天机器人,也并非只聚焦代码编辑。 准确来说, pi agent 是 一套本地 ai 工作台,支持接入搜索、读取文件、执行指令、拓展各类功能插件,依照完整能力列落的真实工作任务, 不少人会将它与 cloud code code、 open code 作对比,这样的类比不无道理。它们同属 ai 智能体工具,突破了传统对话窗口的局限,可调用各类工具处理文件、自动执行任务。不过,几款产品的定位与使用场景差异明显, cloud code codex open code 核心偏向开发场景,天然适配代码仓库管理、文件编辑、程序测试、漏洞修复等工作,即便可拓展其他功能,整体条性依旧围绕编程开发。 而派 agent 的 核心亮点在于可视化、轻量化的能力拓展逻辑,需要查资料就接入 pdf 读取插件, 想制作语音内容,便可搭配语音工具做图文短视频内容,还能衔接网页解析与视频工作流。它的核心价值是把零散的 ai 能力串联成完整任务链路。 举个例子,完成一份行业调研,传统模式需要手动搜素材、研读报告、梳理观点、拷写文案,再切换工具制作配音与视频。 但在派 a 整中,只需搭建好流程, ai 就 能依次完成资料解锁、文档解析、内容整理、文稿拷写,后续还能无缝衔接、语音合成、视频制作等环节。当然,它并非零门槛,依旧需要本地安装配置模型, 也需要使用着熟悉插件与扩展功能。但它的逻辑通俗易懂,不用钻研复杂的代码代理机制,按需加装对应能力,就能让 ai 匹配不同工作需求。 因此,看待派 agent 不 必纠结它能否取代同类开发。像智能体,它真正的价值是代表了一种全新的 ai 工具思路。 过往我们使用 ai 大 多停留在单轮对话提问,而这类智能体工具正在整合搜索文件、处理指令执行、内容创作等能力,让 ai 深度贯穿完整工作流程。 最后也提醒大家注意使用安全第三方插件,切勿随意安装,涉及本地文件、网页访问、命令、运行、账号权限等,操作时务必理清权限范围。 如果只是日常闲聊问答,普通聊天工具就足够。若想让 ai 融入全流程工作, pad agent 会是值得尝试的选择。简单总结, pad agent 不是 升级版聊天工具,而是一套可自由拼装功能的本地 ai 工作台。

挑战只用抠代码上班办公的一天,比如像这样全自动生成出数据报表这样的 ppt, 还可以把写好的文件做成这种视频演示动画, 同时还可以接入飞书,实现自动做表格修改内容总结,群聊消息,还可以用手机端一键部署任务,发文件等等操作。最后我还打造了一个网站,并且成功上线。以上的几个实际案例呢, 看似没有关联,实际这是模拟真实工作的一天,并且全部用 q 代码完成。故事是这样的, 早上你接到老板发给你的一堆数据报表,老板让你做成直观大气的数据报表,然后又让你把这些报告结合企业情况做成一个 ppt, 最后还要求你把这些内容做成网页,并且今天就要做完,你听到后立马就开干 了。那我们现在先完成第一项任务,就是让 codex 帮我们把这个数据表格转化为更加好看的格式化数据报表。这里我写好要求后, 把权限设置为自动审查,这样在他执行任务的时候,我们几乎不需要操作,只需要等待他完成就可以。模型思考程度我们可以选择中或者高, 如果选择高,他的运行时间会更长,而且消耗的额度会更大。如果是简单一些的任务,我一般推荐使用中等就可以。现在他已经为我们生成好了这个网页,我们看到这里他一共用时了六分钟零三秒。 现在我们打开这个网页看一下,我们可以选择这里,点击直接打开扣代码中直接内置了浏览器,我们打开后就可以预览, 我们可以看到这里它已经把我们的数据做成一个详细的网页了,并且这些按钮是可以点击的,因为我们后续是要做 ppt 的, 我们想把这些表格数据呢插入到 ppt 当中,那我现在让 codex 重新修改一下,把每一个数据报表做成一页 ppt 的 形式。现在我们看到 codex 已经帮我生成好了,并且他告诉我他已经生成好了五个报表的独立网页。我们可以打开我们的项目文件夹来看一下这五个文件。现在他把每个报表都做成了一个独立网页。 考虑到那个万恶的资本家观看的便捷性,我们可以让 ai 把这五个报表都转化为 pdf 文件。我们看到 现在 codex 正在帮我们把网页转换成 pdf, 他 在努力的工作下载各种插件。那现在我们可以不用等他,我们可以继续工作来创建 ppt。 我 们点击这里的创建新对话,这时就会重新打开一个对话窗口,而且之前的任务还会继续运行。 在制作 ppt 之前,我们可以问 codex, 我 想做一个 ppt, 有 哪些 skill 或者插件可以帮助我们提高 ppt 制作的美观和专业度。这时我们可以看到两个任务在同时运行, 也就是你的工作效率现在就是翻倍了。如果你还有其他工作任务,可以继续添加,如果十个任务一起执行,相当于你的工作效率就翻了十倍。我们可以点击这个设置,再点击这个剩余额度, 可以看到当前我们剩余的额度有多少。我个人使用下来基本上 plus 额度就够用了。现在我们看到这个网页报表任务右侧已经变为了蓝色,代表它已经执行完成, 我们点击看一下,这时我们看到这个 pdf 已经完全编辑完成了,如果哪里需要略微调整, 我们可以用其他的软件来手动调整一下。现在我们看到这个安装 ppt 插件的对话也已经显示任务完成,我们点击查看,它告诉我们 已经安装好了五个 skill, 然后它提示我们需要重启 codex 后才能被识别重启。打开 codex 后,我们还是点击这个对话,现在让它帮我们 继续完成这个 ppt 制作。在对话框中我们可以艾特我们想编辑的文件,输入文件名后,它会自动提示我们,然后我告诉他 根据这几个文件内容和刚才你安装的 skill 来帮我制作一个 ppt。 当然我们有其他针对性的要求,也可以直接告诉他。现在我们看到他经历了十三分钟后, 终于生成出来了这个 ppt, 那 我们现在打开看一下,我们点击这个打开按钮, 然后可以选择用哪个程序来打开,现在就可以看到他为我们制作的 ppt。 我 们看后面这几页制作的比较单调,而且格式不太统一, 那我们现在再让它修改一下。又经过了十三分钟的调整后,现在 codex 帮我们调整好了, 我们再打开看一下,现在看到虽然排版还有一些问题,但是已经比刚才好很多了。那这个视频我们不是主要讲如何优化 ppt 的, 我们先忽略掉 目前的一些小瑕疵,如果想调整局部呢?我们可以用这个 office 软件进行细节调整。经过了 codex 一小时的工作,我们现在得到了 ppt 和 pdf 这两个制作好的文件,那我们现在就利用 codex 让它直接把这个 ppt 还有制作好的 pdf 数据表格 发到非输的群聊当中。我们先安装非输的 c l i 终端命令,这个插件的好处就是可以让 agent 在 终端 直接调用飞书的各种功能,比如写表格,上传文件,下载文件。 我们打开飞书的 c l i 网站,我们可以通过手动安装和 agent 安装,如果想要 codex 安装,我们就复制这个提示词。打开 codex 后,我们可以点这个对话, 新建对话,然后将提示词粘贴到对话框,这时它提示我们配置命令已经生成授权入口,我们点击这个链接,在这里我们点击创建,创建好后返回 codex, 这时它提醒我们还需要打开这个网址进行授权, 我们复制这个网址,这里会提示一些权限,我们选择授权。现在它提示我们飞出 c l i 已经安装并配置完成,我们返回到刚才的这个项目,点击创建新对话。现在我让 codex 把刚才制作好的 ppt 和五个 pdf 图标一起发到飞书的工作群聊中,现在 codex 告诉我们他已经找到了这个群聊,让我们确认一下就可以,我们回复确认, 如果在这个过程中,他需要我们授权,我们按照他的提示操作就可以。 现在我们看了一下时间,完成上面两个任务仅仅花了一小时,那我们现在可以潇洒的到公司楼下点咖啡摸鱼了。不一会群里万恶的资本家给了一些反馈意见,但这对咱们来说是小意思, 为了以防万一,我们早就通过手机连通了 codex, 现在根本就不用回公司喝着咖啡,简单一条指令, codex 将继续为我们干活。那如何在 codex 中连接手机端呢?点击左上角的设置, 在这里点击 codex, 然后我们点击连接,在这里提示我们登录的话,我们点击登录就可以, 我们点击授权,这时我们在手机上就可以看到电脑上的项目,点击对应的项目后,我们就可以让 codex 在 电脑端帮我们工作。我现在让 codex 直接把这份 ppt 变为一个网站,我们可以看到在手机端它已经开始执行任务了,并且在电脑端我们也可以看到这个任务。 为了方便演示,我之后还是在电脑端给大家演示功能。如果在执行任务的过程中,我们突然想起来还有一些指令当时没有写完,这时也不需要终止指令, 这时我们提出修改意见后,正常新的命令是需要等上一个命令执行完成后他才开始执行的,这时如果我们点击引导,他就会把这条新的指令注入正在执行的任务中,来,参考你新的指令,重新思考。经过了十二分钟, 这个网页已经制作完成了,我们打开看一下,我们看到整体的排版布局 和色调还是非常不错的, codex 软件内置了一个简易版的浏览器,并且如果我们想修改这个网页,可以给这个网页添加注视, 我们点击注视,如果想修改哪里就在鼠标点击哪里,比如我想修改这个区域,点击后输入想修改的具体内容,我们可以点击发送直接修改, 也可以按住 ctrl 加回车继续添加注视,点击直接发送后,它就会立刻给我们修改。修改好后我们再点击看一下,这时的历史记录已经按照我们的提示修改为时间线的形式。如果我们还想修改其他内容, 也用这种添加注式修改的方法会比较便捷。那现在我感觉这个页面整体都是静态的,比较单调,我想做成一个有动画演示的效果。现在我们开始使用 codex 中的插件,借助插件来达到我们想要的效果。 那我们今天就用 remote 这个插件来演示,这里我已经安装了,如果没安装呢?这里会显示一个加号,这样我们在跟 ai 对 话的时候,可以直接让它调用这个插件。比如现在我新建一个对话,这里我输入斜杠, 再输入插件的名称。现在我让 codex 用 remotion 这个插件来给我们的网页中增加一些视频,让它在合适的地方插入,增加整体网页的动态效果。 现在它已经生成好了,我们来看一下效果。我们可以点击这里,直接使用电脑中的默认浏览器打开我们看它在这里给我们加了一个视频。这种制作视频的方法 不需要任何的剪辑,只需要提供文案和你的想法。这个 remote 插件完全是由代码生成的,那现在我们的这个网站 已经全部制作好了,现在我们只剩下把网站上传发布,任何人都可以访问。那具体需要怎么操作?如果我们不会,还是先问 codex。 在 使用 codex 时,我们要养成一个习惯,每一个新的任务 我们都需要新建一个对话框,如果把所有的任务都集中在一个对话框内处理,随着对话越来越多,他的上下文会逐渐累积,模型的执行能力会下降非常多。比如在当前这个我让他制作动画视频的界面, 我们看对话框中这个圆圈,我们把鼠标移动到这里,它就会显示当前上下文已经使用了百分之二十。那日常使用中, 我建议只要上下文达到百分之五十,我们就需要重新新建一个对话框了,或者我们还可以使用斜杠压缩的命令,这样也可以进行上下文压缩。那我们现在新建一个对话框,那我们现在就问 codex 如何能让所有人都访问到这个网页,并且告诉他如何能免费的部署。我是小白用户,他就会在网上给我们搜索符合我们要求的一些解决方案,现在他给了我们一个解决方案,我们按照他的步骤来执行。 经过简单的几个拖拽之后,我们可以看到网站现在已经可以被任何人访问到了,任何人打开这个网址都可以看到我的网页。 我们现在一看时间才下午两点,现在就把整个项目发给那个万恶的资本家,他肯定还会改改改。那我们再用 codex 的 另一个功能就是自动化,我们可以设置一个定时任务,我们还是在这个项目下新建一个对话框,我们让 codex 帮我们设置一个定时任务,让他在今晚的四点五十九分给我的飞书工作群发一条消息,内容是告诉这个万恶的资本家网站已经上线了, 如果有修改可以给我留言。创建好定时任务后,我们看在自动化这里有一个数字,一代表已经有一个出发任务,我们点开这个任务后,会看到具体的执行命令和出发时间,我们还可以点立即运行, 他就会立刻执行这个任务。在以上的五个实践案例中,已经包含了大多数 codex 的 使用功能,并且我们把这五个案例串成了一条主线。我们总结一下以上几个案例中的知识点。我们把表格数据做成网页, 在对话框以艾特的形式添加文件,设置思考强度,建立项目文件夹。第二, 制作 ppt。 我 们使用了添加 skills, 帮助我们制作出更好看的 ppt, 同时让 agent 调用生成功能插入到 ppt 当中。第三个是安装飞书的 c l i 命令,然后把飞书的 skills 安装到 codex 中,让 codex 可以 调用飞书,实现上传、下载、发消息、回复等操作。 第四个,我们构建了网页使用批注功能,对网页进行了修改,并且使用 remote 插件在网页中添加视频。第五个,我们询问 codex, 让它帮助我们把网页上线,让所有人都能访问。 如果你对这期视频的形式满意,请给一个一键三连,我将继续分享更多 ai 领域的落地实操。我是留言,我们下个视频见。

各类 agent 到底怎么选?别听别人一上来就吹谁最强,对普通人来说,最重要的不是谁最强,而是哪个工具不会一开始就把你给劝退,因为这三个工具根本就不是给同一类人用的。先说 codex, codex 最大的优势是客户端友好,整合度高,而且能力越来越强。它不只是一个写代码的工具,而且还能生成图片用来做 ppt、 做视频。如果你愿意折腾,它还可以配合脚本,批量生成文案分镜,把工作流直接串起来。 所以 codex 更像是一个综合型的 ai 工作台。那么它适合谁?第一,适合普通的小白,第一次用 agent, 第二适合自媒体人。第三,适合想用 ai 做网站,做小工具,做 ppt 图片,做工作流的人。它最大的优势是客户端非常友好, 支持中文额度和任务,也方便查看。所以普通人第一次接触 a i a 政策,优先推荐你使用 codex。 第二, cloud code。 cloud code 的 优势就是专业,开发能力很强,它最早给很多人的感觉就是终端里的 ai 程序员,终端就是电脑里那个黑底白字的命令窗口, 会的人觉得很爽,不会的人看一眼就头大。不过现在的 cloud code 也不只是在终端里使用的,但问题是 cloud code 客户端目前不支持中文界面,所以对国内小白来说,理解成本还是很高。 而 cloud code 的 终端适合谁呢?第一,适合专业人士,第二,适合会终端的人,会看报错,会处理项目结构的人。他的优势就是进入代码项目很深,能读代码库,改文件,跑命令,修 bug, 多文件任务处理。而且如果你配合 c c suite 这种开源工具,还能统一管理各类大模型,实现一键切换模型。简单说, cloud code 本身适合专业开发,但如果你是纯小白,一上来就啃 cloud code, 很 容易被英文终端配置报错给劝退。第三个, google 的 anti gravity。 anti gravity 最大的优势是它更像一个 ai 版的 vs code, 它不只是单纯聊天,也不是单纯终端的形式, 他把编辑器、终端、浏览器放在一起。所以 antigue 适合谁?第一适合做前端的人,第二适合想做网站落地页、页面优化的人。 第三适合不想上来就面对纯终端的人。但他的问题也很明显,目前整体稳定性还有待观察,之后任务跑着跑着不顺,额度限制也会影响体验。所以最后怎么选?如果你是普通人、小白、自媒体人,想用 ai 做网站、做 ppt、 做自动化, 优先选择 codex。 如果你是专业一点的人士,愿意学终端,想认真处理复杂代码项目,重点使用 cloud code。 如果你是喜欢做前端、改页面、做落地页、个人网站的人,你可以试试内置 jimmy 三的 ntgrity。 一 句话总结, codex 适合大众和综合创作, cloud code 适合专业开发, ntgrity 适合前端和格式化改代码。最怕的不是你不会 ai 编程, 最怕的是你一开始就选错工具,然后被英文界面终端配置报错直接劝退。你现在是哪一类人?评论区告诉我,下一期直接做一份小白入门路线。

现在很多人搞不清楚 homers agent, opencloud、 coudas 和 cloud code 这四个 agent 工具到底该怎么选来,以我为主, coudas 是 最具竞争力,最稳定的 智能体工具啊,如果说只选一个的话,一定要把 coudas 用上来。 cloud code 是 专业程序员或者是稍微懂一点 ai 基础的,懂一点 ai 命令行工具的这一类的同学可以直接上手 cloud code。 第三个就是 homerest agent 和 opencloud, 这两个智能体工是我强烈不建议新手小白直接上手的,它们很容易死机,很容易荡机,很容易搞乱你的心态啊,让你玩不下去。所以说如果只选择一个的话,一定要玩 calladice, 它的桌面端 app 非常的丝滑啊,非常的适合新手小白。

我去,这 codex 简直有点太强了,我不是下了一个录屏软件吗?叫 cat, 他 一直闪退,我也搞不清什么原因,我把他删了重装都没用。然后呢,我就直接跟 codex 说, 我桌面上有一个软件一直闪退,帮我检查一下,我甚至都没说是哪个软件啊,他直接帮我检查出来了,然后帮我把那个问题也给定位到了,并且告诉我怎么处理好的,我跟他说就这样处理,然后他就直接吭哧吭哧干吭哧吭哧干, 没经过几轮对话,你可以看下就这么一点上下文窗口,然后他直接帮我检查解决好了,太牛逼了,真的太牛逼了,他还帮我把这个软件更新到最新版本,虽然我知道扣代码他有这样的能力,但是真的当我们使用的时候还是会很惊叹啊,太夸张了。

美好啊,朋友们,这是一期 codex 奶妈级的零基础系统教程,这期视频我会从安装开始,手把手地把 codex 的 基础能力到高级功能的组合,以及最新的手机端操作,用十个实战场景来带大家彻底拉通 以后这一类的 ai 产品,出一个算一个,你都会触类旁通,游刃有余。我也把这期的文字课间整理成了文档,那这期的含金量可谓是 biu biu biu biu biu, 一个点赞收藏关注是最起码的。好了,不多说,学费都交了吧,我们上课, 那在开始之前,我先说一下 codex 和 cloud code 的 区别。从本质上来说,它俩都是由编程 agent 逐步转向了通用 agent, 分 别是 ansapi 和 open ai。 这两家出的 cloud code 呢,默认使用 cloud 模型,但是我们可以自行替换成任意其他的模型,那在易用程度上, codex 桌面端的产品设计是会更友好的, 更适合零基础的白领工作者,而 cloud code 有 更高的自由度。在功能上, cloud code 原本是最齐全的,什么 skill、 mcp、 斜杠命令、 hock、 远程操控,这都是人家先发明的。但是呢,最近的 c c 更新稍微不如 codex 那 么快了,会更加偏向专业开发者一点。 而 codex 发了非常强的浏览器操控和 computer use, 还内置了最近的 image 二深图模型, 而且昨天还刚刚发布了手机端和 hock, 可以 直接用你的手机 check gpt 来控制电脑上的 codex 干 活。那价格和额度方面呢? codex 的 会员额度非常大方,二十到的会员就很够用,而且还不封号。 而 cloudpod 呢,大多数人可能都没法用它的官方账号基本上都得自行调用 api 的 费用属于是花多少用多少,风险由人。那在使用场景上,我个人喜欢用 cloudpod 搭配 cloud 模型来写作,因为 ops 四点六的写作和规划能力真的很强, 那 codex 的 执行和解决问题的能力也很强。日常的办公场景,我会选择用 codex, 那 在编程的时候嘛,我就两个都用上,所以结论是,入门的朋友用 codex 就 很强了,有条件的朋友呢,两个都来是最完美的, 不过两者的逻辑其实都是一样的,我们学一个,另一个也就会用了。那 cloud code 我 也做了一期系统教程,想拥有左膀右臂的朋友可以去看看。 ok, 正式开始 使用 codex, 我 们唯一需要准备的就是一个叉 gpt 账号,免费的也行,只是会额度稍微少一点。那有了账号之后,我们就直接去它的官网双击安装, 然后安装好之后登录我们的叉 gpt 账号,然后这些设置我们可以先随便选一点啊,选个日常工作,反正后续呢,我们都是可以改的。那搞定了, 那进来之后呢,大家会看到这个对话窗口,好像跟 chat gpt 是 很类似的。那我们打开两边的侧边栏也蛮眼熟的,左边呢,可以管理对话和任务的列表, 那中间就是聊天,右边大概是结果之类的吧,大家应该都能猜个七七八八,所以我们先不深究它的页面,我们直接开用,这其实也是我探索所有的 ai 工具的独门秘方。 我打开一个陌生界面呢,我先不管别的,我先找到我能对话的框,我先聊,先找到我能看得懂的按钮,先按,按着按着你就会了。你看看,独门秘籍都教给大家了,以后你们就是为师的弟子了。 ok, 众弟子不必拘礼,我们还是以学业为重啊。那我们第一个要了解的 codex 能力呢,就是本地文件操作, 也是这一类桌面端的 agent 跟对话 ai 最显著的区别和能力。因为过去我们用叉 gpt, 如果说我们要让它看到我们本地的内容,我们只有两种方式,一个呢就是复制粘贴到这个对话里,另一种就是以它允许的格式和数量把文件给上传上去。 但是 codex 不 一样,它可以自主地读取和操作我们的本地文件,而且不限数量。比如说我作为一个剪辑,我的本地里面存了八十多条视频素材,这都是我剪辑要用的, 但是呢,这个命名全都是乱的,完全看不懂,所以我想以这些视频的内容来命名,到时候我们看见文件名的时候,我们就知道这个素材是什么。那这事 check gpt 肯定是做不了的,但是 codex 可以 我们来看这两个地方,它都显示了一个概念,叫做项目, 我们选择一下,哎,一选择项目,他就让我们选择本地的文件夹了,那我们只要选中这个文件夹,那这个文件就是我们的项目了,里面所有的文件 codex 都可以自由的读取和操作, 当然这需要我们给他权限。大家看这里的权限选择啊,目前呢,我们是一个默认的权限,我们再点开,他有三种权限模式, 那默认权限的意思呢?就是在我们当前的文件夹内,他可以自由的去读写这些文件,但是如果他想要联网呀,或者是帮我们下载一点东西啊, 或者是碰这个文件夹之外的其他文件,那他是不行的,如果他必须要做,就会要向我们提出提高权限的请求,我们点同意才能继续。 那自动审查呢?顾名思义就是有个 ai 自动帮我们审查,由 ai 来判断这个操作危不危险,如果危险呢,就来问我们不危险的,比如说他去下一个知名的这种官方软件什么的,他就直接开干了。 自动审查比默认模式要更宽松和智能,建议大家选这个就完了。那最后呢,是完全访问权限,这意味着 codex 可以 在你的电脑上几乎什么都能干,它可以修改删除任何文件,它可以在任何位置执行命令,例如说它可能会去把你的 cloud code 给删了。 开玩笑啊,它一般情况下是不会这样抽风的。 ai 呢?也没有嫉妒情绪吗? 大家尤其是新手朋友就选择自动审查模式,相信 ai 就 完了,毕竟咱又能审的比 ai 好 多少呢啊,对吧? ok, 那 我们选中了刚刚的这个视频的文件夹,继续来提出我们无理的要求,让他帮我们把这个文件夹里的所有视频素材都按他们的实际画面来重新命名。哎,他就开始做了, 而且大家看他非常的聪明,他先看了看我们到底有多少个视频,然后他选择用抽帧的方式抽取关键画面来判断内容是什么,而且他还知道他不要一张一张图去看,他给拼成了缩略图的形式,一组一组的去看。 ok, 很 快啊,这个文件夹里面的文件名就全改变了。过程中呢, codex 也是没有向我们提全的,因为他都是在这个文件夹内去操作的。那我们也可以检查一下他都对应好了没有。 ok, 钢琴家音乐演奏厅,没错, 雪山近身格斗,没错,旗袍女人夜巷卖热饮哇!而且他的这个命名还遵循着一个序号,任务、场景、行动的一个清晰的命名格式。 ai 做事的这个细心程度啊,人类你不服不行。那另外呢,我们其实也可以在同一个项目里面去开多个不同的对话,它们的上下文都是不一样的,但是同样都可以随时的访问我们这个文件这个项目。 比如说,我们在另外一条对话,我们又给他一个不同的任务,让他想办法把所有关于风景的视频都剪成一整条。 哎,没想到吧,他真的能剪,他自己想办法,用了一些工具问我们要了一些权限,用这个 ffmpeg 给它拼在了一起,效果的确是关于风景的都剪成了一条。 ok, 那 如果我们要创建一个新的任务,我们其实也可以手动的在这边创建,他也会自动的在我们本地创建一个文件夹。 然后呢,我们跟 codex 对 话的整个过程, agent 产生出来的任何文件啊, pdf 啊,什么 markdown, ppt, 它都会直接存在我们本地的电脑上。 ok, 到这里,大家应该 get 了 codex 呢,可以随时地访问我们的本地文件,去读取内容,写文件,删文件,移动文件,文件夹里的内容也就成了我们的 codex 随时可以获取的上下文,那这里的项目也就对应着我们在本地的一个文件夹, 哎,那刚刚这么个任务会花我们多少上下文呢?我们只要看这里就能看到了。 那这个小圈代表的是我们现在的这个对话和里面的操作,一共使用了 gpt 五点五的多少上下文窗口。 如果我们把鼠标悬上去呢,它还会有更详细的一个信息,当上下文快满的时候, codex 会自动地帮我们压缩上下文。不过其实当我们一个任务告一段落之后,不用等它快满了,让它自动压缩,我们也可以自己通过斜杠压缩这个命令 来手动的去压缩上下文,这样呢,可以让模型更聚焦在我们的新任务上,也省一点上下文的额度。那当然大家除了这个对话的上下文余量,其实我们还想知道我作为一个免费用户,或者是我作为一个 pro 用户, plus 会员,我还有多少总共的额度可以用,对吧? 这个呢,有两个方式查看,一个呢是左边的设置,这里我们点开剩余额度,就能看到你五小时内还剩下多少,那本周内又还剩下多少, 甚至呢,也有什么时候到期会刷新的一个提示,这个产品的设计还是比 cloud 的 友好很多的。那另一种方式呢,就是我们可以直接在对话框里输入斜杠,然后找到这个状态, 那打开这个状态之后,它的绘画这里就会持续的显示我们的上下文余量,这个五小时和一周的限额。但再次说实话,这个 codex 的 额度还是非常大方的,二十到的额度我认为是可以满足大多数白领工作的高频使用的。 ok, 那 顺便呢,我们也介绍一下这里的模型选择, 那点开之后,我们可以选择速度,快速呢,就相当于加急通道,会消耗我们更多的额度。那这里呢可以选择其他模型,但是大家都选五点五,因为它确实更好用。然后呢,这里可以选择智能程度,其实呢一般中度智能就够了, 所以我们选高。 ok, 那 这个小麦克风呢,肯定就是语音输入功能了,比手打字还是要快很多的,但是呢,它的转录速度远不如大家去下载一个语音输入法,还是非常推荐大家用语音输入的 好。那现在我们通过一个本地文件处理的案例,也了解了 codex 上常用的一些功能。那 codex 的 第二大能力就是命令行工具使用。 其实刚才我们说到权限的时候就有提到,在默认权限下,它可以读写文件,但是却不能执行一些命令,一些联网的操作。那这些命令是什么意思呢? 刚刚的案例其实也已经用到过了,比如说它把视频抽帧出来,还把几个视频拼接到一起,它用到的 ffmpeg 就是 命令行工具。 还有一些我们熟悉的命令,比如说我们在终端里面来克隆一个 gitup 仓库,或者是大家近期比较熟悉的,我们在命令行里面输入一些命令来下载龙虾和各种依赖。那 codex 的 第二大能力就是在我们授权的情况下,可以使用我们的终端来替我们做这些事。 那我们就来让 codex 帮我们来安装一些平时对于小白来说非常复杂的东西吧。第一类,常用依赖,比如说什么 node gs 啊, git 什么的, 也是大家以后使用各种 agent 或者是做其他项目必备的一些工具啊,那之前大家要装这依赖都得去看一个手把手教程,然后照着命令抄,挨个装。那现在我们就直接跟 codex 说帮我安装个 node js 给他发过去, 也是因为这些东西呢,其实都是比较常见的东西了,所以在我们的自动审核的权限模式下,你看他基本上都不问我们要提权,就熟门熟路的帮我们装好了。 那第二类,就是那些爆火的但是有上手门槛的一些新的 agent, 比如说龙虾,爱马仕,甚至还有这个 codex 的 竞品 cloud code, 我 们都可以让 codex 帮我们装完了呢,它还能教我们该怎么用。那我们装一个 hermes 吧, 我其实都不需要给它官网和仓库链接,我就说最近有一个叫 hermes 的 agent 很 火,你帮我安装一个吧。 哎,他就会自己去搜索,然后帮我们判断到底是哪一个。然后呢,他根据官方的文档帮我们陆续的装好了,还帮我们验证过已经装好了,你瞧瞧,那我们照着他说的来启动一下试试。 哎,真的帮我们装好了,那往后的配置我们就不在这里继续了,但是大家应该 get, 有 了 codex 以后,那些复杂的要收你五九九的部署,你都可以直接让 codex 帮你做了,怒省五九九。而且我们在使用的过程中遇到任何问题,还可以截图去问 codex, 什么瞎死了马挂了,升级出现了问题都可以让 codex 直接帮你修,是不是很方便? 那第三类有点没那么必要,但它其实也可以,就是像 cursor integrity 这种软件应用, 平时都是我们去手动在网页上下载的,它也可以帮你下载和卸载。那大家用 codex, 我 其实也建议大家去下载一个 agent 的 ide 啊,因为现在 codex 有 个缺点是它没有办法打开我们的文件内容,直接去手动编辑。 虽然这个侧边栏呢,是可以看到一些文件结构和内容的,但是我们都没法编辑,所以大家可以让 codex 下载一个自己喜欢的,比如说我们就这样下载。那下好之后呢,我们再执行一个 git i n i t 一个初步化, 那右上角就会出现这个东西,随时可以把我们的项目在编辑器中打开,我们来手动编辑。 那第四类就比较重要了,就是 agent 本身会常用到的那些 skills 啊, mcp 啊和 selli。 那 skill 和 mcp 本身 codex 也是支持的,我们后面会详细讲到, 我先挑两个大家安装一下,方便我们后面综合起来来做案例。那这些 skill 和 c i 呢?通常来讲不像那些 get 那 种大项目那么著名,所以我们最好是找到它的具体仓库,或者是明确的官网地址。比如说我们下载一个专门找 skill 的 这个 find skill 哦,方式就是直接把链接拷贝给 codex, 然后跟他说帮我装一下这个 skill。 那 在他装的期间,我们也说一下 codex 的 另一大好处,并行任务处理, 我们完全可以在他做这个事情的时候再开一个对话,让他去下载一个别的。那我们下载一个飞书 c l i 吧。飞书 c l i 其实非常的典型, 因为现在呢,有一些积极 ai 化的软件,把几乎所有他在软件里能做的操作都做成了命令,让 agent 能够方便的去操作,我们把这个链接发过去,让他开始下载, 那这边呢,其实会显示每一个正在处理当中任务的情况,这个在转呢,就说明它正在执行中,那这个蓝色的点呢,就说明已经完成了,有时候还可能会出现一个需要你申请权限的一个标识。 ok, 那 这里 fan skill 呢?它是已经装好了,我们再看飞书 c l i 这边,它会引导我们去做一些授权, 我们就跟着它的引导去完成就好了。 ok, 那 装好飞书 c l i, 那 codex 就 能帮我们去做飞书里的各种操作了,比如说写文档,发消息,见日历,做表格什么的了,我几乎每天都在用, 好大功告成。我们就这么一个小章节,我们就用自然语言的方式让 codex 帮我们装上了 hermes node, 飞书 c l i 一 大堆东西,这就是 codex 作为 agent 的 第二大常用能力,命令行使用。 那这个能力和这个章节的演示也是希望大家能够 get 到一点,就是我们现在在电脑上想去做的很多很多事情,都可以让 codex 这样的桌面 agent 去做了。那 codex 的 第三大能力是持久记忆。 看过我那篇 cloud code 的 朋友应该都知道, c c 呢,有一个手动的持久记忆, cloud 点 md, 还有一个自动的记忆系统, 都是把我们希望 agent 能够长期记住的,比如规则、篇号和我们的信息之类的东西,以本地文件的方式存在我们的电脑上,然后事实的时候把这些记忆以上下文的方式注入到 agent 里去。那 codex 也是类似的,它也有这两套持久的记忆系统 在 codex 里面呢,手动的持久记忆文件叫做 agents 点 m d, 而且它也有一个自动的记忆机制,来我们打开设置,找到个性化, 那在这里的这个自定义指令实际上就是一个全局生效的 agent state md, 它会在我们任意的项目跟 codex 对 话的时候,它都第一时间作为上下文发给大模型,那我们可以手动地自己在这里写,不过我更喜欢呢,直接在对话中去跟 codex 说, 比如说我说一个,我希望你以后对非书文档里的任何修改都使用一个专属的你的文字颜色和用删除线的方式来修改,不要直接的修改。然后这个帮我寄到局的 a 正 c m d 里。 ok, 那 它这里呢,告诉我们已经写好了,我们再打开个性化这一块,就的确是多出来了这么一套规则,那实际在使用当中,它就会去遵循我们这个规则了。 比如说我这里已经有一篇非输文档了,我在侧面呢也评论了几个我想修改的地方,我直接可以把这个链接发给 codex, 我 让他根据我侧面的评论帮我修改一下。 那因为我们刚才确实已经装好了这个非输的 c r i 也都给他配置好了权限,所以 codex 是 直接可以操作我们的文档的。 ok, 看看它完成之后的效果。 果然他用了紫色的字和删除线的方式来帮我们做的文档修改,那这个呢,是局的 agent md, 适合记一些适用于所有任务的一些大原则,比如说我们的工作习惯,我们要说中文,我们的工作偏好修改文档,要留下这种修改痕迹等等等等。 那另一种呢,就是项目级的 agent md, 这个长期记忆呢,只在这个项目当中生效,我们可以选择一个项目的对话,然后打开编辑器, 自己在这里手动的创建一个 agent 的 md 的 文件,然后我们去写一些针对我们这个项目的一些规则, 当然也可以让 codex 来帮我们写。我个人的建议呢,是在这个项目文件里面有了一些内容之后,让 codex 根据他对我们项目的了解来自己帮我们写。那自动记忆怎么回事呢? 其实我们刚才在这个个性化这个下面我们也看到了,我们需要手动打开这个自动记忆功能, 它的机制是我们打开这个功能之后, codex 会在我们结束对话或者是结束任务,这个对话闲置一段时间之后,它帮我们把那段对话总结成记忆,然后记在一个地方。但是它有几个原则,第一太短的对话它就不记了, 那第二这个对话的总结它一样会消耗我们的额度,所以当我们的额度太低的时候,它也就不记了。 并且这个自动记忆文件呢, open ai 官方是不建议我们去手动修改的,顶多我们可能删一删有些没必要的信息,那这个文件大概是长这样 的,是一个任务,一个任务在记录的,主要呢会写上这个记忆的来源是哪段对话呀?以及它的工作目录是什么,那以及以后触发了什么关键词的时候,它会去召回这段记忆, 再往下呢,是用户在这件事情上的偏好大概是什么样的?那第五段呢,是一些可附用的一些知识,一些踩坑的记录,那这些内容都是 codex 自己记录的,并且以后也是会它自动的招回去使用的,我们就先不修改它, 它这个格式确实也不太方便修改,更多的时候我们对于明确的规则和要求,我们还是通过组织 agent md 来实现。那大家学完这些视频之后呢,我也想给大家再做一期, 通过组织不同层级的这种 agency md 给自己做一个非常懂你的,可以做不同类型事情的超级助手的视频,感兴趣的朋友可以扣个一。 ok, 那 第四大能力就是 codex 可以 直接用到 image, 二来生成图片。不过呢,深图功能其实是一个小功能, 所以这一章节呢,我们不只会用它的图片生成,我们会带大家做一个完整的个人主页的开发项目,并且在了解一些 codex 在 小白开发中的一些用法和功能。那我们再来开一个项目,叫做个人主页, 然后我们点开这个加号,我们把计划模式打开,因为我们要做一个网站嘛,任务会复杂一点,所以打开这个计划模式呢,他会先帮我们列出一个详细的计划,我们确认之后他再开始行动。 计划模式呢,比较适合我们的任务有一定复杂性,或者我们自己还没想清楚,可以跟 ai 讨论出一个计划。那假设我们现在就是第二种情况,我们其实没想清楚,我们直接跟他说我想做一个个人主页, 那你看他看到我们的项目中是没有内容的,所以他以这种选择框的方式来询问我们的细节,这些选项呢,大家可以按照自己的要求去选择,那我就选这个个人品牌吧。 然后如果说这些选项中没有我们满意的呢?我们也可以选到最后一个来填写我们详细的要求,比如说我要他修饰感,也要高级感,然后我选针对合作伙伴,不要个人照 中英双语,巴拉巴拉巴拉。这里真的是问了我们相当多的问题啊,那最后呢,他给到我们出了一个详尽的计划,问我们是否实施此计划,那其实基本的计划我们看着没有什么问题,但我们也可以补充一些调整方案。 比如说我们刚才就要说到了要用它的 image 二的生成能力,我们这里没有体现,我们加一句网页上要多用一些图片,使用 image 二来生成一些高级感的图片,然后我们一起提交。 哎,那他又问我们要走哪种高级感呢?我们如果点开这个小叹号的话,还能看到他说的这个风格到底意味着什么意思,这个产品的小细节真的是我很喜欢,那我们就选他推荐的吧。然后他出了一版新的计划,我瞧着没什么问题, 去吧。 ok, 他 就开始初识化这个项目来逐步帮我们生成了。那这个过程呢,肯定会需要一定的时间,在这个期间我再给大家补充一点点知识点。呦,他的第一张图出来了,不错,挺有艺术感的,果然是最强的 emoji 二,那我要补充的这个知识点呢,叫做引导。 如果说大家在 codex 执行一个很长的任务的过程当中,你觉得他有点跑偏了,我们是可以随时给他补充纠偏的,比如说我们补充一下图片的人味要更强一点,而且不要这么冷的色调。我是一个 ai 博主,然后我们发送出去, 哎,大家会看到他没有立刻打断我们的任务,没有发出去,实际上他在这里排队呢。那我们看到右边的这个引导按钮,他写着我们不打断模型运行,会在下次调用工具后发送过去。这个是非常好的一个功能啊,我们点一下, 哎,他就可以发出去了。这个功能呢,可以让 codex 不 用在错误的道路上一路狂飙,把我们额度都花光,也不会让它重新再跑一轮任务。那另外一个小功能点,我们找到一个已经结束的任务, 我们看一下这个 ai 的 回复,每个 ai 回复的下面都有一个这个按钮,叫做分叉 fork, 这个的意思是我们可以随时从这里开始去开一个新对话,非常适合那种前面聊的还好好的,上下文也非常有价值,但是我们再往下聊,就聊的有点叉劈了的时候。哦,还有个小功能,宠物, 我们点开设置外观,然后这下面就有一小对小宠物可以选,甚至呢,我们还可以点击创建,让 codex 根据对我们的了解来生成一个定制化宠物。那我们先点击唤醒宠物, 哎,就会在桌面上有常驻这么一个小桌宠,脑袋上会冒出来 codex 正在做什么的一个提示,别的呢?好像也没什么用。 ok, 终于在他跑了七七四十九分钟之后,网页完成了, 我们来看看效果,因为 codex 呢,有一个内置的预览浏览器,我们可以直接打开右边的侧边栏啊,我们还给它放大一点。 嗯,这个网页的效果确实是不错啊,不过呢,现在的 a 证呢,其实都有这么一手了,那它这个预览浏览器呢,还有一个好处,我们点击右上方这里的一个批注按钮, 我们就可以在这个页面上选中这里的具体元素去写修改意见,包括重新生成图片,比如说我们要这个 logo 放大一点, 然后 p 住这里这张图加上一个人物,好把这个删掉, 那然后对话框里呢,就会加上我们这几条批注,然后我们点击发送,它就会针对我们的意见进行修改了,是不是挺方便的?那我们现在项目有了雏形之后,我们再 call back 一下刚才说的 agent md, 其实现在呢,就是一个让 codex 帮我们生成项目级 agent md 的 好时候了,因为我们也有了一定的内容,我们就让它自己生成一下,我们打开编辑器看看, 不错,项目的背景,各种信息,各种规则,各种文件路径都已经写好了。那以后呢,无论我们在新开对话,还是我们的聊天记录都已经被清空了, codex 都可以通过这个项目级的 a 证书 md, 立马的了解我们的项目基本情况。 ok, 那 我们先保持这样,先不做精修了,我们直接准备部署上线,当然大家自己做的时候完全可以去打磨的更好,那网页上的这些信息也换成更真实的信息就好。 那我们现在要部署呢,就得要说到 codex 的 第五大能力插件。在现在的 codex 当中,插件大多数是让我们的 agent 跟外部平台、外部工具、外部服务连接的一个作用,它实际上就是我们所说的 skill, mcp, c l i 这一类东西的一个完整集合包,比如说操作邮箱、操作日历、操作 excel 啥的。那我们来点开左边的这个插件栏,我们看这里呢,已经默认帮我们打开了好几个内置插件了,比如说浏览器操作,还有 mac 专有的屏幕操作,还有 excel 表格, ppt 等等。 那他的插件页面没有中文翻译,所以我给大家把这些插件的具体中文意思,分别能干什么也都列出来了,大家课后可以按需装上,点这个加号就好了。那我们先翻到这个 coding 板块,因为我们想要部署上线嘛,通过插件会非常方便。 其实呢,这个 vassel 和 netify 都可以,我们点一个加号给它装上,那如果大家给它没有选上的,也记得要选上。然后我们再回到对话当中,告诉他们,我们想用这个 netify 把这个网站给我们部署上去, 我们大家也不用管他咋部署的,反正他需要干什么呢,他都会告诉我们的。 ok, 他 发现我们没有登录授权,然后主动弹出了这个登录的链接,那这里呢,建议大家用 tapp 账号登录是最方便的, 那登录完之后,他自己就知道我们已经登录好了,然后继续的帮我们部署,这就搞定了。这个链接呢,就是我们最后的网站了, 只要把这个发出去,别人就能访问你的个人主页了。 ai 是 不是个好东西,你说就这么两下子就干了,原来普通人花钱都不一定能干成 o k。 先压抑住我的这个老灯感叹。我们回到刚才我们已经装好的插件, 那其实这里呢,还有两个非常重要的内置插件,就是 browser use 和 computer use, 还有这个 chrome 浏览器, 那这些有什么用呢? browser use 顾名思义呢,就是 codex 可以 直接帮你操控浏览器,比如说它自己点击翻页截图,填写表单等等。通常呢适用于自动化测试前端, 当然也有比较无聊的用途,比如我们可以让 codex 打开这个 m b t i 做个测试试试, 嘿嘿,这样大家能够比较直观的看到它的一个效果吧。那这个鼠标呢,是它自己在移动,然后它是自己看了上面的答案在自己填写,然后填完这一页,它也会自动的翻页, 那随着它的一通操作,结果出来了,原来 gpt 五是 i n t j 啊,我说怎么跟我这么聊得来呢? ok, 那 这个 chrome 的 插件呢,也是控制浏览器,但是它控制的是我们自己已登录的自己的浏览器,它不会再新开浏览器, 那我们如果把它给勾选上之后,它会引导我们去 chrome 里面装一个插件,那装好之后呢,它就可以操作我们自己的浏览器了, 而且它有个好处,它是可以直接在后台执行多个页面的浏览器操作的,就是并不会占用我们的整个浏览器,我们不用真等着看它这些操作,我们该用浏览器干,别的我们可以接着干。 ok, 那 computer use 就 更厉害了, 它不只能够操控浏览器,连你电脑上的这些 app 它都可以操作,只不过呢,暂时只有 mac 有 这个功能。比如说我们新开一个对话,我们在加号,这里来看最下面的这个插件选项,我们手动地把电脑插件选上, 我们再来几个没什么用的奇迹引巧吧,帮我放一首九九年最火的歌,然后用我的微信给 qq 发条微信,说,请收下我一个点赞、收藏、关注,懂了吧? ok, 他 陷入了思考,然后他看到我们的应用都正在运行中,并且向我们使用了这个音乐软件。我们点同意看,这个就是 codex 自己干的啊。他帮我们搜索歌曲, ok, 音乐响起了, 但是他还有活,他还在问我们要微信的权限,我们也给他允许一下。 ok, 看他这个小鼠标,他正在犹豫着准备搜索点击,好朋友们失败了, 因为我上次都成功了,但是我估计现在微信已经开始严防这种 a 证的操作了,直接给我退出去了。 但是呢,他的确成功操作了这个音乐软件。其实我还让他操作了剪映,并且给我们的最新的项目加上了音乐。 那总之呢,意思大家都懂了吧,就是它可以操作浏览器,并且可以操作我们的电脑。当然,实际上我觉得它的操作效率目前来说还是稍微有点低的,我不太喜欢用这两个强大的功能。不过后面我要说的这个 skill 就是 我每天都会用的东西了。 那 skills 我 的确也已经跟大家说过很多次了,好学的朋友一定要去补补课。那 skill 本质上呢,是我们人为沉淀的一些可附用的方法、流程和工具的组合, 相当于给 agent 做某些具体任务的一些行动指南。那因为之前我们已经让这个 codex 帮我们装过一个叫做 find skill 的 一个原 skill 了, 所以后续如果大家想要去装,或者是找一些社区上的 skill, 都可以直接用 codex 拿语言直接让它下载。比如说我们下载一个必备的 ansapic, 那 个前端设计的 skill, 还有一个去 ai 位的,那我们这两个都发给他,等会儿都会刚好有用 欸,很快他就帮我们装好了。那以后大家想要下载 skill 呢?如果说遇到这个 find skill, 他 找不到的东西,也可以直接把链接发给 codex, 让他帮你下载就好了。不过我在 c c 那 期也说过,最好用的 skill 还是自己创建的,符合自己工作的专属 skill。 那 创建 skill 呢,也有两种方式,第一呢,就是直接告诉 codex 你 想要创建一个什么样的 skill, 通过跟他讨论打磨得出来一个 skill。 那另一种呢,就是我们接下来要演示的,先跑通流程,然后让它形成 skill, 这也是一种更推荐的做法。那比如说我们想做一个自动化写这类文章,并且帮它配图的 skill, 这种大家应该都看过吧, 那我们就得先通过一步步的引导 codex, 让它真正实现一个我们满意的文章。来我们新开一个对话。那正好呢,我们刚才不是装过这个 github 插件吗?我们可以直接先问它最新的 github 流行项目,热门项目都有哪些? ok, 它的确帮我们找到了一些,那我们再让它清晰地解释一下这些项目都分别是干嘛的。嗯, 那我们再让他挑其中新星数量最多的,来帮我们写一篇本周 get up 热门项目推荐这样的一篇文章。 好,那他写好了这一篇之后,我觉得稍微有点太人机了,我希望可以更口语化一点,并且我只想要五个精选的,那我们就告诉他,然后还要覆盖到这几个层面,那我们这里就可以用到刚刚我们下载的那个去 ai word 的 那个 skill 了,我们斜杠给它调出来。 好,那看到他的结果稍微优化了一点,但是我们还希望加一个我们固定的开头,我们的结尾,并且还要让他用上 image 二来帮我们生成一些配图。最后呢,我还希望他不要是这个格式,他要是一篇非输文档的格式,然后图文并茂的。 ok, 结果来了,他确实是有了,但是呢,我觉得这个配图不够丰富,于是我又经过几轮调整才觉得差不多满意。并且我还给他最后加了一步,要让他把这个飞书文档发送到指定的群里,让大家都来看看。 那最终呢,他的效果是这样的,果然发出去了。其实啊,如果想更加一步到位的朋友,也可以结合刚才我们说的这个浏览器操控,让他直接打开那个发布页面,直接就帮你发布出去。 那总之,我们对他这一套结果满意了之后,我们就可以直接让他把这一整套的标准和动作做成一个 skill 搞定了。那我们再输入斜杠,再往下找,我们就发现就有了这个 skill, 我 们可以直接这样手动地调用这个 skill, 也可以直接说生成一篇热门项目推荐图文这一类的触发词,也会让 codex 自动调用。 不过因为现在 github 上面实时的热门项目肯定是没有更新的,所以我们再调用一次呢,它大概率会写出差不多的文章,所以我们就不试了。但是大家都理解了吧, skills 呢,可以把我们经过验证调好一次的一整套流程和方法给它固定下来。 下次做这件事情呢, codex 就 可以按照这个方式稳定的输出。 ok, 那 下一个能力则是 mcp。 其实 mcp 现在已经用的不太多了,所以我只简单的示范一下那 codex 的 mcp 藏在设置里面的 mcp 服务器。 只不过小白看这个肯定是有点不太知道怎么填的,所以跟我们之前说的一样,我们最好的方式还是把你想装的那个 skill 的 链接拷贝给 codex, 让他自己装就完了。比如说我们来装一个 notebook lm 的 一个 mcp 发给他, 他就会引导我们来做授权登录,登录完就搞定了。那我们再试一个我存了非常多访谈视频的一个笔记本,我们来问一下他。 欸,那这样呢, codex 也就可以直接获取我们 notebook lm 上面的这些外挂知识点了。 ok, 最后一个 codex 能力是自动化定时任务。 其实定时任务本身并不稀奇啊,比如什么每天早上提醒我吃药,提醒我喝水这一类的事情,普通的软件也能做,但是我们把它放到最后一个说呢,就是因为它可以结合我们之前学到的各种能力,把一整套组合起来的任务,让 agent 定点执行 自动化,加上智能化和定制化方显美妙。比如说刚才我们做的这个热门项目图文的这个 skill, 我 们就可以把它设成每三天或者是每周,让它定时定点的产出一篇 dapp 热门项目推荐发出来。 那我们要创建自动化任务呢,其实也分两种方式,第一种就是选到这边的自动化面板,那它这里呢,有一些官方的参考视例了,不过大多数是跟开发相关,那我们选择新建一个自动化, 其实你看要填写的东西也非常简单,其实就是用提示词写好这些自动化是要做什么,然后我们可以在这里选好什么时候出发,我们也是可以自定义一个出发时间的, 然后这边就可以选择执行的模型和思考强度,最后点击创建即可。不过呢,我也还是倾向于让大家用第二种更简单的方式,就是直接在对话里跟 codex 说,那我们直接跟他说 帮我创建一个自动化任务,每周一早上九点自动化执行热门项目推荐的这个 skill, 产出一篇图文发到群里, ok, 那 我们在看自动化这里,它就已经帮我们设好了这个任务,我们随时也可以去改变它的时间。 再比如当你的这个邮箱插件 github 飞书都已经连上了 codex, 那 么你也可以让他每天下午六点帮我汇总日历上完成的会议, github 上面的提交记录和我的邮箱回复记录,生成一份全面的工作日报。 最后手机操控 codex 设置方法非常简单,手机上的 check gpt 和电脑上的 codex 都把它更新到最新版。之后打开手机上的 check gpt, 然后点击侧边栏的那个 codex, 它就会提示你允许这台手机控制你的电脑,直接就搞定了。如果你有多台电脑的话,也可以给它分别连上。这就等于你不管在大街上、地铁上还是朋友聚会,都可以随时随地地用手机下发一个任务,让 codex 在 你的电脑上干完一个活, 它就更像一个可以跟你远程协助的同事了。这个功能呢,目前免费版也可以用,但是主要能连的是 mac 系统的 codex。 好, 那到这里 codex 的 所有核心能力我们就全部过完了。来我们回顾一下。 codex 呢,可以操作我们的本地文件,可以使用我们电脑上的终端命令行工具。它还有两种构建持久记忆的方式,它还可以生成图片,而且它可以通过计划模式来做一个完整的项目开发。 那它有丰富的插件,可以操控浏览器和电脑,还可以把知识和流程沉淀成可附用的 skill 技能, 它可以使用 m c p 连接,外部它还可以设置自动化的定时任务。不过其实比起这些功能本身,我也希望大家记住两件事,第一就是我们真的有很多事情是已经可以交给 agent 做了。 那第二呢,就是我们已经从问 ai 的 阶段走向了管理 ai 的 阶段,因为过去我们使用 chat gpt 就是 有问题了,我们问一下,然后得到答案我们就走了。 那现在使用 codex 这类的 agent 呢?每个人都得像领导一样,帮他准备他所需要的上下文和工作环境,给他指明一些任务目标,然后来检查他的计划,监督他的过程,验收他的结果。 那同时领导还要负责把好的方法和流程沉淀成可付用的技能,把反复要做的事情设成自动化执行的规矩。好了,恭喜大家今天都升职了,记得点赞收藏关注我们下次见了。

不得不说安装 codex 还是挺麻烦的,现在有了一个原版平替方案,这是一个集合了 codex、 cloud code, gemini 和 open code 的 超记 ai 霸王,要你命三千。 这个 agent 就是 zcode 智谱悄悄搞的,都没怎么宣传,而且作案都还在,更新界面也是高度还原了。 codex 用起来绝对不会陌生,跟 codex 放一起根本分不出来。 进去之后可以一键同步项目, skill mcp 也都可以无损同步,而且模型配置也是幼儿园级的简单,模型也很全,再也不用折腾各种环境了。各种常用插件市场也是一应俱全。一键安装主打就是好钢,用在刀刃上亲测下来,稳定性和操作逻辑都很能打, 底层直接用扣代斯这些的内核, a 阵的能力直接拉满。感兴趣可以去群里交流,我是阿岩,你的危机课代表。

这是一期地毯式 codex 教程,如果你还在焦虑谁谁谁又用 codex 做出了什么无敌的应用或者自动化给自己干活了,那你务必看完本期教程,带你最全面的了解 codex 是 什么,它能干什么,并跟我一起实操完成。从 codex 下载 安装到个人网站、文档制作视频动效,自制工具等等等等,全面了解 codex 这个目前为止最强大最全面的个人 a 政策。 codex 的 界面现在我们来到了 codex 的 主界面,这个对话框你肯定很熟悉,对吧?但是你可以看到左边的这个边栏,就可以看到很多不一样的地方。 首先是上半部分,点击这里你可以快速创建一个新的对话框,快速完成一段与 codex 的 对话。这个搜索你可以同时使用 command g 来调出,快速搜索,你与它进行或者对话等等。现在你可以看到技能和插件这两个板块,这里可以说是 codex 的 一大精髓所在。再过来说, codex 是 一个集合了 chatbot, d e 浏览器,自动化工具等等等等的一个大一统的工作台,所以你可以给他安装插件, skill 以及创建自动化任务。这里的插件市场可以让你来随时扩展更多的功能。比方说这里的 computer use 和 browse use 在 我们后半部分的教程中就会用到这两个功能。 再往下看,可以看到项目和对话两个分栏。在项目中你可以点击添加新项目来将你创建好的文件夹给添加进来。在你创建好的文件夹右侧点击开始对话,你就可以创建出一个新的对话框,那么之后你们对话所有产出或者修改的文件,就会在这个文件夹中进行。 正常情况下, ai 如果直接操作电脑,风险会非常高。所以 codex 使用的是沙盒的逻辑,它相当于给 ai 开了一个单独的隔离小型开发环境,它可以在里面读代码,改代码,运行命令,执行测试,但默认是不能随便控制系统的。 在对话这里,你可以选择默认权限、自动审查、完全访问权限三种权限类型,让 codex 来执行还是非常安全的。再往下看,还有一个对话栏, 常用来进行一些临时产生的问题,当我用完,我就会点击右侧的这个归档按钮,把它给归档,那你也可以在设置你归档对话里面去给他找回来。 回到对话框,你可以在对话框中输入任意的问题,或者要执行的操作,比如帮我整理桌面上的这个文件夹里的发票,并统计这些发票总金额是多少,然后统计在一张 excel 表格中,你看很快他就跑完了。 现在我们来使用 codex 制作一个个人网站,首先在桌面上新建一个我网站的文件夹,然后回到 codex, 进入文件夹,点击这个加号,打开计划模式,这样 codex 就 会根据你给的需求,先开始计划他接下来要做些什么,等他计划完成了,他会给你一份详细的执行方案, 然后点击执行,这样就可以去干别的事情。一杯茶的功夫,你就可以等待你的网站。你可以点击右上角调出一个终端, 把它给你的命令复制一下,回车运行,你就可以在 codex 里面预览这个网站的效果,我们点击展开面板。哎,对了,你看 codex 还自带一个浏览器,你可以在 codex 里面直接查看以及批注,这样你就不用回去再想想怎么描述我是要修改什么地方。 文档与 ppt, 那 除了做网页,我现在更高频的用途是用它来做文档。比如说平时很多人会写策划案,汇报 ppt 视频脚本,以前是用 gpt 生成文字,再到 word, 再复制到 ppt 里面,最终再自己排版。但是 codex 现在已经把这些东西都串起来了。比如说我现在告诉他 使用 html ppt 这个 skill 帮我制作一个宠物账号的商业方案,要求包含市场分析、账号定位、内容模型、变现方式,以及未来三个月的执行计划,并生成一个科技感高级风格的网页 ppt。 然后你看到他就会开始创建文件,生成文案,设计页面,制作动画,自动排版。最后给你一个直接可以演示的网址。尤其是你看像我一样要录制这种口播视频的,我这样的 ppt 就是 用 qq 词直接帮我生成的,他做出来东西天然就很适合录屏。 这个时候顺便介绍一下 qq 词另一个非常好用的功能,分叉非常适合这种,你做到一半突然想要尝试一个新的风格, 或者要尝试两种内容的时候,点一下分叉按钮,这个时候不用重开一个新绘画,重新解释项目背景,他会直接分叉当前的上下文。你可以在分叉县城里面大胆做实验,如果效果不好,直接回到原来的主线就可以了。如果效果更好,就可以沿着这个分叉继续来进行开发视频动效。 说到做视频, codex 最近还上线了一个非常强的插件,由黑正推出的 hyperframes, 你 只需要输入一句话的描述,就可以自动生成带动效排版转场。三 d 视觉的高级动效视频,可以说是完全填补了原来视频模型不适合生成精确的带文字、带数据的动效视频的孔雀。 比如说,你可以直接说帮我根据这个养猪场的年报生成一段科技企业的汇报视频,他就会直接调用前端库来生成一段带数据、带图标的动效视频。 skill 与自动化任务普通的 ai 只能回答问题,但是通过 skill, 你 可以把你工作多年的经验或者流程打包交给 codex 自动去跑。比如说你完全可以使用 at skill creator 来描述你的需求,每天自动抓取某个平台的热门视频, 分析标题,提取高赞评论并整理成 excel, 最后生成第二天的选择题。我自己做了一个急梦,排队的 skill, 如果你有批量使用 cds 的 需求,使用我这个 skill, 它就会在晚上帮你批量提交视频生成的任务,自动检查生成出来的视频并保存到本地。 类似这样的 skill 还有非常多,这个部分就留给你们自己去探索。 computer news 这个是我觉得最近 q 版有这个功能,目前只有 mac 版有这个功能, 它运行起来的时候,它就会像一个真人一样看屏幕,移动鼠标,点击按钮,输入文字,打开软件,切换窗口,使用第三方 app。 以前很多的自动化必须要通过写脚本,调接口,配 sdk, 研究文档。但是现在即使某个软件没有开放 a p i, 很多事情扣代码,直接看着屏幕自己就去操作了,你懂这种方式有多震撼吗?最后的总结 可以看到, codex 提供的内容已经非常非常多了,我这里要下一个爆论就是这一类 agent, 他 绝对不会仅限于编程开发等等, 你已经不能简单的给他定义成工具了,但是你也别太焦虑,拥抱 ai, 先从每天自己最烦最重复最浪费时间的小事开始。 比如说整理文档,改革式做表格,生成封面,做网页,写脚本,做汇报,批量修改内容。当这些事情真正开始被 ai 接管的时候,你自己的潜力或许才刚刚被开发出来。