粉丝6714获赞4.2万


open code 是 近期热度最高的 ai 编程工具,它的最大优势是有开箱即用的免费模型,通过简单配置,还能免费接入 gemine 三 pro、 cloud、 四点五、 opus 等顶级编程模型。 open code 可以 看作是一个开原版的 cloud code, 几乎具备了 cloud code 的 一切功能,而且对中国用户友好,不 会遇到 cloud code 里面限速、封号等一系列麻烦的事情。在 open code 里面有几个可以免费使用的主流模型,非常适合小白上手, ai 编程可以随便造随便玩,还可以用它练习 agent, skills, mcp, sub agent 等高级特性。本期视频是一个 open code 的 完整教程, 主要介绍 open code 的 四种形态,对比其他 ai 编程工具的亮点,还有我们要重点介绍欧买 open code 的 这个超强插件,还有等等的一系列高级用法。 open code 的 有四种形态,分别是命令行、桌面、客户端插件,最后是云端运行环境。我们先来看命令行,这里我准备用第二种方式,也就是 note j s 的 方式来安装。 我们先来到 note g s 的 首页,在这里根据自己的操作系统下载对应的安装包,把 note g s 安装一下。接下来我们复制 n p m 的 安装命令,我们打开一个终端窗口,把安装命令粘贴进来回车,这样就安装完成。输入命令, open code 就 可以直接启动了,进入这个页面打个招呼, 这样就完全配置成功了,非常简单。接下来我们来看客户端版的安装,在这个页面点击下载客户端,然后一路点击下一步完成安装。打开以后选择一个文件夹作为项目文件夹就可以直接开始使用了。 open code 的 客户端并不是一个完整的 ide, 它只有基础的对话框功能,而 而且目前处于贝塔测试版,我试用下来 bug 还是比较多的。所以本期视频我们主要还是以命令行版本为例进行操作。接下来我们来看插件版的安装。使用插件版的 open code 的 前提是需要先把命令行版的安装好,这里我以 vs code 为例,我们打开 vs code, 在 左侧的 extensions 搜索 open code, 然后我们找到这个 open code 插件,点击安装。安装好了以后,我们按快捷键 ctrl shift 加 p, 打开命令面板,敲这个命令, open open code 回车,这样就以插件的形式打开了 open code, 它可以自动关联左侧窗口打开的代码文件。然后我们还可以选中一些代码,点击快捷键, ctrl alt 加 k, 把这些代码直接快捷地粘贴到 open code 的 聊天窗口里面, 这就是插件的全部功能了。最后一个云端运行环境,我们放到视频的最后面再看 open code 最棒的是内置了一些免费的模型,我们敲命令来到软件进来以后,输入命令斜杠 models, 后面带 free 标记的都是一些可以免费使用的模型,特别是 g l m 四点七,还有下面的 mini max 二点一, 编程能力都非常的不错,零配置开箱即用,输入需求就可以直接编程了,很适合新手用它们来练习 ai 编程。接下来我要推荐一个插件叫 open code 的 anti gravity os。 anti gravity 是 谷歌推出的一个 ai 编程的 ide, 它里面十分慷慨地提供了 jimi、 nike 三 pro 还有 cloud opus 四点五这两个顶级的 ai 编程模型,我们可以借助这个插件把这两个顶级模型免费地接入 open code 里面使用,在它的 get up 首页有安装方式, 最简单的就是把这一句提示词复制下来,然后我们来到 open code 粘贴进来开始,这样 ai 就 能自动帮我们完成安装,这里耐心等待一会,这样插件就安装完成了。接下来我们复制这个命令,然后我们打开一个新的命令行窗口,执行这个登录命令。 这里的模型供应商选择谷歌,选这个 anti gravity 的 登录方式 project id, 这里直接回车,这里登录一下自己的谷歌账户, 点击登录,然后把生成的这个 u r l 粘贴进命令行回车,选择 n 回车,这样就配置完成了。我们重启一下 open code 的 斜杠 models, 在 模型选择里面我们就可以选到 jimmy nine 三 pro 还有 cloud opus。 四点五这样打个招呼成功给到了输出就配置完成了。接下来我们把另外一个好用的编程模型 gbt code 也接入到 open code 的 里面。就在前几天, open a i 跟 open code 的 官宣进行了合作, 我们可以直接在 open code 里面使用 chad gpt codex 的 编程套餐。首先我们需要在 chad gpt 的 官网获取一个至少是 plus 以上级别的套餐,在这期视频里面详细的介绍了订阅方法。我们来到 open code 输入这个命令斜杠 connect 回车,这里选到 open ai, 选择 gbt pro, 在 浏览器里打开这个链接,选择继续,这样就登录完成了。然后我们回到 open code 输入命令斜杠 models, 这样就可以选到 chat gbt 的 几个模型了,除了上面这几种接入 ai 的 方式,输入斜杠 connect 命令,可以查找到七十五种 ai 的 接入方式, 几乎囊括了所有的模型供应商。比如我们可以找到 open root, 这里需要我们填写一个 open root 的 api key, 我 们来到 open root 的 官网,点击 get api key 创建一个, 把这个可以复制一下,填写到 open code 的 里面,回车一个 open root 就 能接入市面上几乎所有类型的大模型,而且国内用户也可以很方便的获取额度,可以说我们只要接入了 open root, 就 可以使用几乎一切的大模型。 我找了一个之前常用的经典测试案例来测试一下这里 open code 的 表现有几个亮点。首先在开始之前,他会反向询问我一些问题,比如说只是要代码样例,还是一个完整可以运行的程序,有哪些功能是必须实现的,调用哪个 jimmy 模型,然后环境变量是怎么保存的, 在动手之前他会把所有的需求细节询问清楚,这点非常的不错。然后他列出了一个详细的开发计划,并且分步骤完成,每完成一步都会标记出完成。 第二个亮点就是命令行版的代码比对界面,我觉得是所有命令行类的编程工具里面做的最好的,整个编程过程没有出现错误,也没有出现过需要代码返工的场景,一次性就完成了这个需求的开发。这里我使用的编程模型是 gpt 五点二 codex, 我是通过登录我的 chat gbt plus 订阅的账号把 codex 模型接入进来的,我觉得它在 open code 里面的表现跟使用原生的 codex c l i 的 表现几乎是一致的。 open code 在 底层对各种编程模型都进行了很多工程上的优化,还是很不错的。 喷扣的里面重点突出了一个叫做 session 的 概念。我们每次跟 ai 开启的一个新的对话,就是一个全新的 session, session 可以 后台运行,而且可以多个 session 并行运行,比如这是我们刚才生成的你画我猜的游戏网站,这里我想增加两个功能, 首先我想让画笔可以调整颜色。第二个功能我想增加一个计时器,如果作画超过二十秒,游戏就失败了。我们先输入第一个需求,增加一个计时器,在第一次落笔的时候进行计时,如果超过二十秒,游戏就失败了。开始 在这个任务的执行过程中,我们可以输入 new 命令,创建一个新的 section, 然后开始我们的第二个需求,第二个需求是画笔可以调节颜色。我们输入命令斜杠 sections, 就可以看到我们触发的 session 前面一个打转的符号,表示它正在后台运行。这样我们就创建了两个 session, 让两个需求并行开发,还可以在两个 session 之间互相切换,查看它们的执行状态。好,这样就完成了, 我们可以调整画笔颜色,然后我们开始作画的时候,右上角也出现了一个倒计时,我们成功利用了 session 功能,并行地完成了两个需求的开发。输入斜杠 share 命令, 可以把这个 session 的 对话记录分享成一个网页,网页的地址已经复制进了粘贴版,我们把地址粘贴进浏览器, 就可以看到这个 session 里面跟 ai 的 对话记录,包括它是怎么进行文件修改的?有了这个历史记录以后,我们就可以很方便的把我们的编程过程跟其他的用户进行分享。输入命令 on share 就 可以取消分享, 之前的链接也就变得不可用了。输入命令斜杠 export 就 可以把对话记录导出成一个文件。刚才我又进行了两次对话,先让它把画笔默认改成红色,然后把这个提示删除。 open code 还有一个亮点功能,就是它的时间线,或者说是检查点。我们输入命令斜杠 time line 回车可以看到这个 session 里面的跟 ai 的 对话记录,我们可以选择任意一次的对话记录,选择这个 reward 功能, 把代码跟聊天内容一起回退到这次对话之前的状态,我们可以回到这个时间点再重新进行修改。 在上期视频里面,我们介绍了 agent skills 的 基础概念以及其目录结构,我们可以把 skill 理解成带目录的说明书。每个文件夹都对应一个 skill, 也就是一个技能包。 把一个 cloud code 中的 skill 迁移到 open code 里面非常的简单,我们只需要把目录里面的点 cloud 替换成点 open code 就 可以了。 在上期视频里面,我们一共创建了三个 skills 文件夹,把这三个 skills 迁移到 opencode 里面也非常的简单。我们来到 opencode 的 项目文件夹,新建一个叫做点 opencode 的 文件夹, 进来以后再新建一个 skills 文件夹,然后就可以把这三个技能直接复制进来,这样我们的项目就拥有了那三个技能。我们右键在终端打开,输入 opencode, 启动起来。我问他你有哪些 skills? 这里给出了完整回答,当我们有需要的时候,它就会调用这些 skills 进行工作。接下来我们来看 m c p。 的 配置方法。 open code 里面有两种 m c p, 我 们在文档里面可以找到一个是 local 的 方式, 也就是通过本地命令来执行。还有一个 remote 的 方式,也就是远程调用。我们先以这个 set cn 为例来把它配置一下。我们先来到 open code 的 配置文件夹,用户你的用户名 点 configure, 然后 open code 找到这个配置文件。 open code 点 jason, 来到文档站,这里把 m c p 的 这一段复制一下,粘贴过来。我先把这些多余的逗号去掉,这里填写上 m c p 的 名字,这里我就叫做 set c n 类型的话是本地,然 然后 command 这里填写命令 n p x, 后面是 shift c n, 把这一段复制过来。最后这里还有一个 m c p, 我 们打个逗号,添加上 enable, 表示启动下面没有环境变量,这样一个本地的 m c p 就 配置完成了。接下来我们再看一个远程调用的案例, 我们就以这个 context 七 m c p server 为例。我们回到 opencode 的 文档站,在下面找到这个远程调用的案例,把这一段复制一下,打个逗号,粘贴到配置文件里面来。这里类型是 remote 远程调用 url, 我 们把 context 七的 url 复制一下,粘贴过来。 在 hide 里面我们填上 context 七的这一串粘贴过来,这里它需要一个 apikey, 我 们可以来到 context 七的官网创建 apikey, 把这个可以复制一下,填写到配置文件里面, 把这个 m c p 的 名字改成 contact。 四七,我们重启一下 open code, 输入命令斜线 m c p, 就 可以看到我们刚才配置的两个 m c p, 这就是本地,还有远程调用两种 m c p 的 配置方式。 oh my open code 是 open code 上一个最火的编程插件,它本质上就是一系列的工具加 m c p 加编程 agent 的 组合捆绑包。比如在工具方面,它集成了 l s p 高级版,可以通过编程语言的语法和语义,帮助 ai 快 速理解和定位代码。 a s t 工具可以通过代码的语法术进行关联搜索。 open 工具借助多模态大模型的视觉能力,帮助理解图片还有 pdf 等信息,还有像 delegate task, background task 这些 agent 任务分配和后台调度工具。插件还内置了三个 mcp server web search 用于网络搜索, context 用于获取最新的文档。 group app 用来在 github 仓库快速搜索代码。 插件还内置了七大编程智能体,分别是希奇福斯,它是主智能体,用来规划和调度任务,先知用来做架构设计、代码评审等等。图书管理员用来查阅文献,探索者用来进行网络搜索。还有前端工程师、 文档编辑者,还有多模态等等。插件给每个智能体都分配了一个最适合他工作的大模型,比如前端工程师使用前端能力最强的 jimmy 三 pro 模型,主 agent 使用的是 cloud opus 四点五,据说这是作者花了两万四千美元的 token, 找到最适合的 ai 编程团队。 好,我们把这个插件安装一下,在它的 github 首页,这里有一段提示词,就是 install 开头的这一段,我们把它整个复制下来,我们回到 open code, 把这段提示词粘贴过来。开始安装的时候,插件会询问我几个问题, 他先问我有没有可洛的订阅,这个我是没有的,我有 gbt plus 订阅,用 gbt 去替代可洛的模型,然后问我有没有拆的 gbt 订阅,这里我选择 yes jimmy 订阅,有, 最后选择确认。过了一会,插件成功完成了安装。安装完成以后,我们来到 c 盘用户你的用户名点 config, 然后 open code 的 这个文件夹,在这里面有一个欧买 open code 的 配置文件,这里定义的是欧买 open code 的 七大智能体所用的模型,我们可以根据自己的需要来进行调节。 这里我把希希福斯的模型换成 g b t 五点二,剩下几个的模型都是作者的推荐配置了。然后我们重启一下 open code 的, 我们进来以后看到它显示的默认智能体就是希希福斯。 这个插件主要有几种用法,首先我们可以敲 at, 然后挑选一个智能体给我们干活。还有一个用法就是输入这个魔法词 u l w, 也就是 ultra work。 输入这个魔法词以后,不买 open code 就 会尽可能地调用它的一切潜能,把任务分配给几个智能体,并且并行运行, 由这个主智能体西西福斯进行居中调度。这里他询问我要什么样的网页,我们大体填一下需求,然后开始 我们看到他把任务拆分成了一个 to do list, 然后同时开启了三个后台任务并行执行,然后他对这些后台任务进行疯狂的调度。我们耐心的等待一会,等了几分钟, auto work 模式运行完毕,我们来启动起来看一下效果。一个宠物商店的应用看起来还真是不错, 界面看起来就很清新,它在没有图片素材的情况下,还尽量地用 emoji 给我们配了一些图,整个网站的交互还有动画逻辑看起来都是不错的。如果你有 gbt、 cloud 等几个顶尖模型的订阅,不妨来试一试。这个插件可以综合地调度各个领域最强的模型,完成一个很不错的编程任务。 购买 open 扣的还有一个重要玩法就是我们输入这个命令斜杠 raf 路虎就是拉尔夫循环,这个模式可以强制 ai 长时间的循环,对一个非常难的任务进行持续工作。 比如我可以要求它使用 springboard 四的最新标准重构整个项目,然后直到所有的测试用力都通过,它可以循环连续运行好几个小时,直到最终的任务完成。 刚才我们介绍了命令行、桌面板还有插件等运行环境。接下来我们看云端运行环境,这里我以 github 举例, 它的主要功能是当我们在 github 上面输入斜杠 open code, open code 就 可以在 github 云端进行工作,比如可以为我们解释问题,自动修复问题,并且创建 pr 等等。这里有一个安装方式,我们来试一下。首先第一步,先把项目上传到 github 上面, 这里还是刚才那个宠物商店的应用,点击这里的 south control public 是 branch, 这里我选择 public, 把这个项目变成一个 gitap 上面的公开仓库,点击右下角的 open on gitap, 这样我们的代码就成功上传过来了。接下来我们来到代码文件夹,把这个安装命令复制一下,粘贴过来执行。点击 install, 选择一个模型替工商,这里只能用 api 选择一个模型。然后还有两步需要操作,首先要把项目里这个文件提交到 gitap 上面,它已经准备好了这个配置文件, 我们先把它提交上去,接下来它需要把这两个环境变量填到项目里面,我们来到项目的 sightings, 然后下面的 secret and variables 这里找到 actions, 在 这里的 repository secrets, 我 们把第一个 key 的 名字复制一下,粘贴过来,对应的密钥可以在谷歌的 as studio 创建一个,这样填写过来保存。 接下来第二个 key 复制过来,还是填写相同的密钥,这样填写好了两个密钥。比如某个用户可能会在一处里提一个 bug, 说顶部导航栏 find ipad 跟 adopt null 功能重复, 应该去掉这个 find ipad 就是 这两个功能重复。在这个项目里面就可以直接斜杠 open code, 调出 open code 的 功能, 让 opencode 把这个 bug 修复一下,我们提交这个评论。然后我们来到项目的 actions 里面,可以看到这里有一个 action 就 正在执行了,这个就是 opencode 的 工作流,它现在正在 gitlab 的 云端运行,帮我们来修复这个问题。任务运行完成,我们来到 pullrequest 这里 就可以看到一个代码合并请求。在 file changes 这里可以看到它对代码成功进行了修改,我们只需要点击这个默认设置按钮,就把 open code 这次修改合并到了我们的代码仓库,这样这个一束就成功完成,并且关闭了。 接下来我们再介绍 open code 的 几个其他的重要功能,这些功能其实在之前的 cloud code 还有 codex 的 视频里面已经进行过介绍了,这里我们再快速的过一下。 首先第一个命令斜杠 inate, 这个命令可以让 ai 通读整个项目文件夹,然后把它学到的关于整个项目的知识生成一个 agents 点 m d 文件,这个文件就作为整个项目的系统提示词,可以帮助 ai 快 速地了解项目下一个重要命令。斜杠 compact 用来压缩之前对话的上下文,把之前的对话提炼成一个简洁的摘药来释放模型的上下文窗口。除了这些内置的斜线命令以外,我们也可以创建自己的命令。我们来到 opencode 的 配置文件夹,在这里面可以新建一个 com 的 文件夹,在 这里面就可以以 markdown 文件的形式来定义自定义命令。比如这里我创建一个自定义命令,叫做运行测试,我把官网上这一段样例复制过来粘贴进来,我们可以指定它是 build 或者 play 模式下面的命令,在下面的描述里面写清楚这个命令是做什么用的。 配置完自定义命令,我们可以在 open code 里面斜线,然后是命令的名字,这样就可以运行我们的自定义命令。下一个功能可以定制智能体, opencode 里面预设了 plan 跟 build 两种智能体,我们也可以创建新的。我们来到 opencode 的 配置文件夹,在这里面可以新建一个 agent 文件夹,比如这里我想新建一个 code review 的 智能体,让我新建一个 markdown 文件,在这个智能体的文件里面填上描述类型,它是一个主智能体还是 sub agent? sub agent 的 意思就是它可以由主智能体调度在后台执行,然后填上一个模型,后面是它的描述,就是这个智能体主要做什么事情。 定义好了以后,如果以后 ai 可能需要 review 代码的时候,它就会自动调用起这个 sub agent, 并且在后台运行,帮我们自动完成工作。 我们除了可以把一个智能体定义为 sub agent, 也可以定义为 primary, 也就是主智能体。定义成主智能体以后,我们可以按 tab 键直接显示地切换到这个智能体进行工作,而 sub agent 只能在后台由 ai 自动调度执行。好,这就是本期视频的全部内容了,感谢大家点赞支持,我们下期再见!

open code 这个开源项目最近很多人都在聊,说是 cloud code 的 平替功能呢,和 cloud code 也是一模一样的,所有模型都能用,但是对于我们普通人来说,我们要怎么用? 网上评测我看了不少,但是我还没有看到有人用它完整的演示一遍开发流程,所以今天我来做这个事情。 我会用一套平时我在 cloud code 上使用的开发流程,结合 open code 从零开始开发一个服装电商的模特换衣应用,带你走一遍完整的流程,顺便也测试一下它和 cloud code 到底有什么区别。那我们现在开始 这套方法我之前已经分享过两次了,就是这一期和这一期。现在呢,我把它迭代到了三点零版本。整体流程是这样的,首先用毒蛇产品经理技能收集需求,他会通过追问来完善细节, 然后生成产品文档。接着用 ui 提示词,设计师技能根据文档生成原形图的提示词,然后把提示词丢给 nano banana 生成原形图,再用 google ai studio builder 来开发前端,最后用全站开发工程师技能完成后端的开发和后续迭代。 整个流程是由一个主控的项目规则文件 agent 点 md 来进行统一的调度。这个场景包含了需求收集、原型设计、前端开发、后端改造、功能迭代,基本囊括了日常开发的主要环节, 所以用它来测试,基本可以很好地展示 opencode 的 完整的开发流程。打开 opencode 官网,点进下载页面, opencode 有 四种使用方式,在终端里使用,客户端使用、安装 ide 插件或者集成到 github 这类平台。 我们今天讲的是第一种直接在终端里使用, mac 用户建议安装第一条命令, windows 用户建议用第二条。那我是 mac, 所以 复制第一条命令,按 command 加空格,输入 terminal, 打开终端,把命令贴进去,回车直行, 然后等待它安装完成就行了。这里可能会有一点慢,那就看你网速了。好, open code 我 们已经安装完成了,接下来我知道很多新手看不惯终端的命令行,所以我们就在 cursor 里面启动 open code, 应该会对你友好一些。打开 cursor, 在 terminal 里输入 open code 启动, 启动之后有个快捷键,你一定要记住 ctrl 加 p, 按下去会列出所有的命令。大部分命令可以在之后慢慢熟悉,但有一个现在你就要知道,就是 a 键下面的 switch model 切换模型使用后你会发现有很多模型可以选, 像 chatgbt, 五点二, gmail 三 pro, mini max 这些都有,带有 free 标记的,是免费的。其他那些常用的模型需要你自己去配 api, 想用别家的服务,可以按 ctrl 加 a 添加供应商那支持的还是挺多的。配置也很简单, 比如你想用 google 的 api, 那 就选 google, 然后把 gmail 的 api key 贴进去就可以了。接下来我们来开始配置,这个逻辑和 cloud code 是 一样的, cloud code 的 系统文件夹是点 cloud, 那 open code 这边就是点 open code, 然后这是我提前准备的技能文件, ctrl c 复制,回到 open code, 在 点 open code 的 这个系统文件夹下, ctrl v 粘贴,这样就一次性导入成功了。一共三个技能, 独设产品经理、 ui 提示词设计师,还有全站开发技能。接下来是导入项目规则,在 cloud code 里,顶层的项目规则文件叫 cloud 点 md, 那 我们这次用的是 open code, 它的项目规则文件要写成 agents 点 md 文件名不同,但思路是一样的,都是顶层的项目规则。 回到 open code, 把点 open code 的 这个文件夹收起来,然后 ctrl v 粘贴,这样项目规则就导入了。 注意看 agents 点 md 这个文件和点 open code 这个文件是在同一层级的,这点跟 cloud code 不 太一样。 在 cloud code 里, cloud 点 md 是 放在点 cloud 的 这个系统文件夹里面的,这个很重要,放错的话顶层规则就不会被加载。再来看一下文件结构,这是整套开发流程用到的技能文件,是我平时开发应用和小工具时用到的,当时用的是 cloud code, 所以 cloud 点 md 这个名字没改。 不过没关系, open code 完全兼容,能自动识别好技能和项目规则我们都已经导入完成了,接下来我们来走一遍完整的开发流程,用 open code 来开发辅助电商用的模特换装应用,启动主 agent。 这套开发流程分为几个阶段,每个阶段都有对应的指令 输入 slash help, open code 会列出所有的指令,包含从需求收集、生成原型图、提示词到开发和本地运行的全过程。 接下来我告诉他开发一个网页应用,帮助服装电商生成模特图,支持更换模特的姿势动作,调整服装的配色,还能更换新的搭配方案。声控模型用 gemma 三 pro image preview, 也就是 nano banana pro。 收到需求后,毒蛇产品经理的技能被自动调用了,然后开始针对需求进行追问,上来就说,别给我废话,让我选一个核心,那毒蛇味已经出来了, gbt 五点二骂起人来也是不留情面。 我告诉他,目标用户是独立设计师,功能范围需要支持声图姿势调整、配色搭配和编辑功能。确认没问题后让他继续。 那进入到第二轮追问,他问参考图是什么形态,这是个多选项。那我的设想是,上传的参考图可以是模特的人像照服装平铺图,或者是搭配平铺图, 控制方式可以用 prompt 文字指令,也可以从姿势预选库里面进行挑选,同时还要支持配色面板调色。确认没问题的话我们继续。 好。现在进入到第三轮的追问,问的是账号和付费模式,这个工具是我个人用的,所以不需要付费功能。那存储方面,现在是 mvp 阶段,主要是为了快速演示,暂时不考虑保存,先跳过 确认没问题的话让他继续。好。接下来是第四轮的追问,人脸一致性怎么处理?我的想法是核心需求是保留参考模特的脸部特征,成片的标准是多选, 一个是白底电商主图,一个是澎湃的质感效果。确认继续后,这个时候他已经收集到了足够的信息,开始直接编辑产品需求文档了。 好!运行结束后,他帮我们创建了两个文件,产品需求文档, product spec, 还有变更记录 product spec change log。 先看产品需求文档,因为我们的需求比较简单,生图工具和布局交互也都比较常规,所以他没有问太多交互和布局的细节。 那再看一下圈子 log, 现在是项目的初试阶段,变更记录里也只有一条初试记录,接下来我们有两个选择,直接开始开发,或者根据产品需求文档去生成 ui 原形图的提示词。 原形图提示词是可选的,但我觉得这一步能大大的提升最终效果。正好给大家演示一下输入指令 ui, 让它使用 ui 提示词设计师技能,生成圆形图提示词 好,完成了,提示词保存在了 ui prompt 这个文件里。那我们打开看一下,这就是生成的页面原形图。提示词用法也很简单,直接把提示词复制发给 nano banana pro, 生成产品原型就可以。 目前一共生成了三个页面,主页面、图片预览页面,还有报错页面。接下来我还要做一件事情,这套流程有两种用法, 第一种呢,是生成好原型图后,直接把图发给他,让他在 open code 里面进行开发。那第二种呢,是用 google a s studio 里面的 build 来开发,本期我就会演示第二种,这种方法对新手或者是刚刚接触外部抠钉的人来说,更容易上手,效果也更好。 我告诉他,你先别管 apikey 的 事,我会用 google a s studio 开发前端,开发好了之后,我会把代码发给你,你再帮我改造成前后端分离的项目。 他已经明白接下来要做什么,怎么配合我们,而且还直接给了建议,比如用 google a s studio 开发的话,回来时需要教给他哪些内容,或者开发好了之后让 open code 继续迭代,需要提供哪些信息和资料好。原型图我已经提前生成好了, 现在这个页面是 google a s studio 模型,选的是 nano banana pro。 我 做的事情很简单,把刚才生成的三个页面的提示词完整的贴进去, 顶部加一句话,帮我生成一个三宫格竖向排列的长图,这是一套电商模特试装的网页应用,然后他就开始帮我生成原形图了。 那我们放大看一下,这三张图基本上是按照我们的需求文档里的布局和功能描述生成的,当然后面开发的时候, ai 会拿这个图作为参考,并不会完全的百分百复刻,所以这一点你要注意。为什么要用 ui 提示词来生成原形图?主要呢有几点核心考虑, 第一是速度快,外部口令不需要一开始就追求完美,先把架构快速的搭起来,然后后面再慢慢的迭代 ui 和交互。 第二呢是为了好看,如果你不给 ai 参考图,光靠文字描述让它开发出来的页面通常都很丑,不管你提示词写的多好,在我看来都丑的要命。 所以用 nano banana pro 直接生成原形图设计其实很好,再结合我们这套方式,页面好看,功能呢也符合我们的产品需求,一箭双雕。这就是为什么我觉得这一步非常重要,想要给大家看一下。 好,那原形图已经有了,接下来我们打开 google a s studio, 先开发前端,我们先完整的复制一下 prods bike 里面的产品需求,然后回到 google a s studio builder 告诉他,让他帮我开发一个模特换装的应用, 先把 products back 整个贴给他,然后把刚才生成的 nano banana pro 的 原型图也贴上去。 ai 能力选择这边我们选择 nano banana powered app 和 generate images with nano banana pro, 因为我们的应用需要生图能力,必须调用 nano banana 检查没问题,点击 build 开始。接下来它会自动读取文档和我们发过去的截图进行开发。所以我们稍微等待一下 好,开发完成了。有几个注意事项,第一,记得右上角选择一下你的 gemna api key, 否则无法使用 gemna 三 pro 或者是 nano banana pro 这些付费模型。第二,我们来看一下界面的还原度, 那开发出来的界面和原型图已经有九层相似了,布局,色盘选择,模特姿势这些功能都有。好,我们来测试一下。先上传一张模特图, 再上传一张 gucci 的 最新的女装,一条红色的裙子,风格选择澎湃风格,输出四张模特姿势,选动态走路提示词就先空着,先不填,我们点击生成 好,生成完成了。放大看看,模特的真实感几乎无可挑剔,澎湃的风格,无影墙,走路姿势,人物和衣服的还原度都很好。接下来看一下代码,点击 code, 这就是他开发的所有的前端代码。把代码打包下载,然后找到刚刚我们下载的代码, ctrl c 复制,回到 open code, ctrl v 粘贴代码就导入了,然后告诉 open code 前端已经开发好了,代码放在了这个文件夹里, 这个时候他会问原型图有没有,你需要提醒一下他前端已经开发好了,直接看代码就行。后端部分他建议用 node 加 express, 但我决定选 next, 点 j s 看看他怎么处理, 确认没有问题,让他继续执行。等待开发的时候,顺便说一下,为什么我们要前后端分离。 google a s studio builder 开发出来的是存前端代码, api key 是 直接写在前端里的,那这样部署上线 api 就 会暴露,任何人都能看到。所以我们需要把 api 调用挪到后端,前端只负责界面和交互, 而且后端除了负责调用 api 以外,我们后面迭代的时候,比如要加全线连数据库,或者是业务逻辑,这些也都需要放在后端的 好开发完成了。不过它提醒我们,我们发给他的前端代码的基础是 vt, 不是 next 点 gs, 所以 这一版它用了 express 做后段,因为这是最小的成本,最小的改造方案。但如果我们坚持要移到 next 点 gs, 它也是可以帮我们执行的, 那到这里项目基本就快速完成了。所以接下来我直接输入指令 slash run, 让它在本地跑起来。 ok, 我 们可以看到项目它说启动了,但是显示的状态不正常, 不过没关系,他说他可以帮我们定位和修复好。修复完成了,原来是三千,这个端口被我另一个项目占用了,那他帮我们改成了三零零一端口启动, 如果你想随时停止,可以输入 slash stop, 就 会停掉后台的所有的服务。 ok, 项目启动了,界面功能布局都保持了原样,没有什么问题。 项目虽然跑下来了,但是我们不可能一步到位,所以接下来我们来测试一下迭代功能,我要给他加一个新的需求,我告诉他我想增加一个在页面上配置 api, 并且进行校验的功能。那针对这个功能,他开始追问,首先问我 api 怎么保存,那我选择肯定是存在后端, 然后问我校验的方式,这里我选择的是真校验,需要他发个请求,看看 api 能不能跑通, 确认没有问题,开始开发。顺便说一下我使用的这套开发流程,产品经理和全站开发这两个技能会循环配合,每次新增或修改功能,主 a 阵的会先调用产品经理技能,进入到迭代模式,通过追问补充并且更新产品需求文档和更新日期, 然后才调用全站开发技能去实现代码。这样做的好处是文档始终和代码保持同步,不管是日后自己回顾还是重新开窗口让 ai 接手,都能快速的了解项目的全貌。好,完成了,他说已经更新了产品需求文档和更新日期,那我们看一下更新的内容。 产品需求文档这边第四十九行辅助功能下面插入了 gmail api 保存交换的需求。再看圈趣 log 这边新增的 v 一 点一版本,内容是配置 api key 和交换功能。我们回到网页,应用,左下角已经出现了配置 api key 的 功能,我把我申请的 gmail api key 贴进去, ok, 交换成功,没有问题。好到这里,我们整个的开发流程差不多就走完了。最后我来聊聊我用下来的感受。 先说优点,第一,模型自由度非常的高,这是 open code 的 最大的优势。 cloud code 您只能用 cloud, 对 于使用其他的模型,它基本是严防死守。 open code 呢,你可以随便切换,想省钱就用免费的模型,想要效果更好就换 cloud 或者是 gbt 五点二,灵活很多。 第二呢,是整体的体验和 cloud code 非常的接近,指令逻辑既能加载开发流程,基本和 cloud code 是 同一个思路。 如果你用过 cloud code, 那 上手 open code 几乎没有任何学习成本,不过缺点也是有的, open code 是 开源项目,在使用 agent 或者 skill 的 时候稳定性就会差一些, 特别是多 agent 协助主 agent 调用 sub agent, 或者是主 agent 调用 sub agent 在 调用 skill 的 时候,这类场景复杂的话, cloud code 的 表现依然是最稳定的。 但总的来说,如果你预算有限,或者是想尝试其他的模型, open code 目前是最接近 cloud code 的 开源替代方案。而且说到底,工具本身作用其实有限,真正起到决定性作用的是你在用的那个模型,这才是最重要的。 好,以上就是本期的全部内容,如果对你有所帮助,别忘了点赞以及加入废台俱乐部,这对我们频道真的非常重要,那我们下期见。

codex 跟 c c 到底哪个好?我想大家各自都有自己的判断。在我个人为二者都充了二百刀的 pro max 会员以后,我个人的体感是 二者的模型能力之间并没有本质的差异,甚至都足够惊艳,让人心喜。但它们其实代表了两种完全不同的人。与 ai 合作的费洛索费 本质上,我们不是选择两个工具,而是选择两种与 ai 交互的模式。你习惯使用哪种模式,你的工作场景是哪种模式,你就应该选择支持哪种哲学的普顶工具。通常来说,抽象的讲, 软件工程开发的模式可以粗略地分为两大类,首先一类是那些探索性不确定的 idea。 在这种场景下,我们自己可能对需求要做什么,最终的一个中态是什么,甚至过程中该如何实现,它都没有一个明确的定义,它更多是我们一个拍脑袋的灵机一动的想法。当我们解决这类问题时,我们期待的一个 partner, 无论是不是 ai, 它应该都要能 快速的与我们进行交互,通过一些他主动的提问甚至判断给我们更多的信息输入,通过一系列的沟通,最终确定出一个相对更结构化,信息密度更高的思维原型来指引我们后续的执行。 而另一种常见的工作模式则是一个更明确的需求,比如说产品已经给我们了相对明确的 p r d, 那 我们剩下要做的只是说把这个项目 真正转移为一个可以被执行的代码而已。对于绝大多数的研发而言,这种场景下想要做的事情是基本完全确定的,我们在此时要做的无非只是一些 dirty work, 把那个 p r d 转化为真正写出来可用的代码而已。 而结合我自己的使用经历来看, c c 更适用于前者者的工作模式。它会在你输出一些观点之后快速地给你响应,并且高频地向你发出提问,以确定它后续的一些方向执行思路。但 codex 则完全相反,它会在你给完需求以后, 非常认真且可靠地将你的需求描述执行完。这个过程会花很长的时间,但是 结果往往是令我们满意的。想要更明确的拆分这两种工作模式的分野,我们不如从三个维度上来进行拆分,首先是任务商,也就是目标的清晰程度以及约束条件的多少。其次则是以我们预期的交互结构, 我们到底期待着与其他 partner 是 同步的沟通,还是说是一些异步的沟通模式?另外则是一个人类所占主动性的比例, 我们到底期望 ai 占据多少责任?他们是只是执行任务,还是说给我们也有一些他自己的认识建议?其实这三者并非是一个非常正交的关系。一个很明显的结论是,如果一个 目标的本身并不清晰,只是我们拍出的粗糙 idea, 那 我们显然就需要我们的协作者能快速的发问,帮我们把 自己大脑中一些比较模糊的观念导出出来,并且通过一些沟通确定哪些思考是我们需要的,哪一些是可以被删除的。通过这种 快速的同步沟通,得出来一些更结构化的结果,那在这个流程中, ai 需要介入的部分以及引导的主动性就会占比更多,但如果这个需求本身就像我们之前讲的已经相对来说明晰,是一个低伤的场景,那我们就不太 需要。它是一个很同步,事无巨细都要向我们发问的流程,它完全可以在我们把事情说清楚之后,一步的完成这个工作,从而解放我们人类自己的时间。我们也不需要给他太多主动发挥的空间,他只需要忠实的执行我们给他的需求就可以。我觉着对未来工具的使用以及工作流的设计,也都是从这三个维度去进行判断,动 态的选择。我们到底适用于哪种工具,应该主要采用哪一种工作流的思路?如果要打一个比方的话, c c 更像是坐在你隔壁工位的好蜂蜜, 会在有了一些 idea 之后立马的打断你现在的所作所为,跟你去探讨它的一些碎片化想法。而 codex 则更像是一个你忠实可靠的下属,在你交代完任务需求以后,忠实的可靠的帮你把事情完整的办完再通知你。我已经做好了。 每个模型都有它们自己的性格,我们也可以顺应的这种性格,在不同的工作场景中选择不同的工具以及模型。 以上是二零二六年二月我对这两个投影工具的一些使用场景总结,但我相信这个领域是日新月异的,二者工具之间 大概率在未来也会发生一些融合。不会说一个工具只是一种工作流场景,那就需要我们未来本身人类自己有一些对需求使用场景的预判,从而能告诉模型它应该采用哪些工作流模式。软件工程永远没有银弹, 不可能说我们用着一种模式,一条道走到黑,就可以得到一个很完美的结果。如果你在错误的场景使用了错误的工作模式,那模型给你提供的支持也就会非常有限。 结合自己的需求,场景动态切换自己的工作流模式才是一个更高效率开发的必经之途。以上是本视频的全部内容,如果你有一些想法或者建议,期待评论区讨论,谢谢大家!

为什么我说现在就是你开始 vaping 的 最佳时机?因为现在开始的成本真的很低。 openai 的 创始人 sam ottoman 在 推向上宣布,他家旗下的 codex 能免费用了,而且免费的不是什么渣渣模型,而是 openai 最新的 gpt 五点三。 codex 速度更快,逻辑更强,完全不输隔壁添加了 cloud ops 四点六,那我已经深度使用一个月了,并且已经手搓上线了自己的产品。那么这期视频我们一起来学习一下如何正确使用 codex, 开启你的 web coding 旅程。 给还不了解 codex 的 同学简单介绍一下, codex 是 open ai 旗下的编程智能体,而隔壁 cloud code 是 同一种产品,有了 codex, 再加上 gpt 五点三的模型,就可以愉快的编程了。 一般人看到黑底白字的命令行界面估计就被劝退了。别担心, codex 不是 硬核的即刻工具,它有正儿八经的图形界面,官网下载、安装、登录一气呵成,没有什么要你做的复杂配置, 接下来的内容很关键,你要搞清楚两个概念,工作区和 thread 工作区。你可以理解为你的项目文件夹,比如你想做一个网站, 先建立好文件夹之后,所有的代码文件都会保存在这里。而 thread 就是 一个个的聊天窗,这些聊天窗就是 一个个的任务线。这里有个黄金法则,大家一定要记住,不同的任务要开不同的 thread, 千万别在一个窗口,一会让它改 bug, 一 会让它写新功能。另外你也不用傻,等任务完成,你可以同时开多个 thread, 同时处理多个任务,效率直接起飞。前段时间爆火的 skills 在 codex 里直接格式化了,内置了几十种的 skills, 鼠标点点就能安装了。这些 skills 能让你的 agent 如虎添翼,关键省去了繁琐的搜索和安装过程。 最后分享一点个人使用心得。上一个视频里我推荐了谷歌的 anti gravity, 其实这两个产品你可以一起用,把 codex 的 插件装在了 anti gravity 里面,这样你可以同 同时要用多个模型,比如让 g p t 五点三改 back, 让 jammer 做前端,让 cloud 出方案,不用切屏,不用复制粘贴,一个界面汇集世界上最好的三种模型帮你干活。这套 web coding 的 形态, 你值得拥有。以上就是本期视频的所有内容,欢迎关注艾伦,二零二六年,我会持续创作更多 web coding 和 ai 工作流的相关内容,我们下期再见。

零零后马龙一个视频讲明白三个编程 agent 的 体感区别, caller, cloud code code x 天天有人吹,到底有啥不一样?听完你比大部分程序员还门清。 caller 是 个图形化界面的 ui, 呈现的感觉是个代码编辑器,核心是后面的 ai 随便切。 cloud gpt gemini 写不好再换一个体感就像你坐在旁边的同事,脑子还是能换的那种。 另外两个登录官方账户之后只能用他们公司自己的模型,都是命令行在黑框打字,用法完全不同。可 outcode 像一把瑞士军刀,你指一个问题,他推理一下直接切进去去修, 能接工具,能派小弟分头干活快种狠。但是对代码的整体情况没有那么明白。 codex 风格相反,一个需求或者 bug 说出去,他先把整个项目看完一遍再去下手, 所以体感非常慢,等三十来分钟很正常,但是经常一次性成功改的全面说人话。 coser 是 编辑器, ai 脑子随便切。 cologad code 是 瑞士军刀,指哪打哪。 code x 是 解剖刀,慢,但是一个没漏。下次聊聊这三个月费怎么买最便宜?评论区说说你最喜欢哪个?

codex 是 我过去几个月高频使用的 ai 助手之一,我用它做研究,写文档、做 ppt, 整理内容灵感,做网页原型。上个视频讲了 codex 基础,这期视频讲一个今年很值得先搞懂的 ai 概念 skill, 因为它决定了 codex 到底只是陪你聊天,还是能按你的工作方式反复干活。简单理解一份可以重复使用的工作说明书, 你可以把某类任务的流程规则、检查标准提前写进去,下次再让 codex 做类似的事,他就不用每次重新听你解释一遍。比如你经常让 codex 做网页,你不想每次都重复说页面不要太 ai 味,不要蓝紫配色, 这些都可以写进一个设计类 skill 里。以后你只要让 codex 用这个 skill 检查页面,他就会按那套规则去看代码、改样式,再告诉你改了哪里。 这就是 skill 最实用的地方。把你反复说的要求变成一套固定流程,那么在哪里看和怎么用 skill, 可以 去 codex 的 侧边栏这个入口里看,里面会有一个 skill 子页面, 已经添加或创建过的 skill 会出现在这个列表里。使用的时候,通常可以在聊天里输入 skill 名称,或者用斜杠跳出来。比如你有一个 find skill, 就 可以直接斜杠选中,帮我找一个适合做 ppt 的 skill, codex 就 会按 skill 里的流程去跑。那怎么创建 skill? 有 两种方法, 第一种最简单直接这样说,请创建一个 skill 以后,我给你一个网页项目时,你要先检查移动端排版按钮样式、文字层级、颜色是否太乱,最后输出修改文件和检查结果。这种叫 prompt skill, 但我更推荐第二种,先把流程跑通,再把流程固化成 skill。 举个我刚实测的例子,我想做一种白板手绘风讲解图,我先给他一个参考图,让 codex 按我的要求生成讲解图 第一版如果不满意我就继续改,比如少一点黄色纸张质感画面更像课堂白板。等到有一版我觉得可以附用,我再说。把它固化成一个 skill, 这时候 codex 会反推刚才的流程,它会把这次反复调整出来的规则写进一个 skill。 md, 这样下次我再用白板手绘讲解图, 就不用重新解释一遍审美和结构,直接调用这个 skill 就 行。如果你想让 codex 使用 skill creator, 它会按更标准的格式帮你生成可附用 skill。 我是 ai 知识派,我们下期见。

open ide 是 真补妆了, codex 直接开始龙虾化了,如果你还以为它只是个写代码的工具,那么你已经被落后一大截了。 open ide 这波是把 codex 正式进化为超级应用,这次 codex 加入了 computer use 这功能, 现在可以独立的使用键盘鼠标,可以在你的 mac 上看点输入,而且它是在后台,你该刷网页刷网页,该聊天聊天不打扰。更绝的是多个 a 智能还能同时开播,一个在前端接待,一个在跑测试它内置的浏览器,你还可以直接去圈选网页的批注,然后像指挥助理一样精准的下达命令。 apple id 一 口气给它装了九十多个插件,微软工具、 slack, 连开挖机,再加上 ssh、 google drive 这一类生态都在帮你打,毕竟不是帮你写代码,而是在慢慢变成帮你推进整个项目。但我更看重的是,它是有记忆能力,而且还有自动跟进的能力,还会基于历史的上下文,主动建议你下一步 干什么,他会记住你的偏好,你纠正过他的问题。而自动化任务甚至可以去定时唤醒,去追进赌精对话,跟进长期的任务。 openai 这波更新啊,基本上就是冲着 counterclock 的 优势区,以前 counterclock 的 跳的红利就是靠墙的落地执行力, 现在酷狗 x 疯狂补齐它,桌面控件、自动化插件操作,这些短板摆明了就是要给你们用。所以我的判断是,未来桌面版的酷狗 x 一定会拿到一定的份额。而且受影响的不只是程序员,因为一旦看得见点的动能,记忆会跟进整一套能力的成熟,它其实在降低很多岗位在使用 ai 的 门槛。 产品运营设计、项目管理动力确实是真正变化的,不是多了一个代码工具,而是更多普通岗位都能够驾驭 ai 助手。

曾经我对 cloud code 的 终端爱不释手,但现在我只能说一句, codex 真香啊,真香! 大家好,我是布鲁。随着 codex 近期频繁的更新,我自己的工作站也已经全面的切换过来了。今天就来分享一下我自己的完整使用经验,怎么用 codex 打造一套不打断心流的生产力闭环。 本期视频我把它分成了七个章节,每一张都是我自己实际在用的技巧,希望能对你有所帮助。那我们话不多说,直接开始 第一张,先来介绍一下我的工作站是怎么布局的。左上方是 codex 的 对话框,下方是 terminal 终端。 你可能会问,已经有 codex 的, 为什么还要开一个 terminal 跑 c c? 因为我发现对于一些需要探索、需要设计的任务, c c 的 表现要更出色一些。所以我的习惯是用 c c 来做方案设计,配合 planning with files 这个 skill, 把设计思路直接落成文件, 然后再让 codex 读这份计划,接手后续的具体实施。这样一来, cloud code 负责想, codex 负责做,两者可以各司其职。 右上方这个区域我用来做任务完成后的查看和审阅,比如代码的 review, 文件的浏览,还有浏览器都在这里。虽然现在浏览器还不支持多标签页,但对于日常的任务来说完全够用。这边我就分享一个实际的案例, 我让 c c 参考了最近很火的这篇卡巴西提出的知识库的文章,让他借鉴里面的思路,出一份设计稿和完整的实施计划。目的呢是做一套前端的页面,方便我日常的维护文档使用。 接着 c c 就 会调用 planning with file 这个技能啊,将所有的计划落成文档,然后我就会回到 colex 这边,让 colex 去阅读当前项目内的这份计划文件,然后基于这份计划文件让他进行开发。开发完结果之后,我会在这边 内置的浏览器里面去进行结果的 review, 包括代码的一个审查,整个过程从设计到开发再到 review, 全都在这一个工作站里面完成,不需要切换任何的窗口,这就是我前面所说的,心流不会被打破。 第二章,批注功能。这个功能是我觉得 codex 真正强大的原因之一,也是最能体现沉浸式开发的地方。 以前我们改代码的方式是找到文件定位到哪一行,描述问题,让 ai 修改,整个过程中你的注意力是在代码上的,但现在 codex 的 批注功能让这件事情变了,你可以直接在文件上进行批注,告诉他哪里怎么改,需要怎么改。 更厉害的是,现在这个批注功能不止限于代码文件,你可以直接在前端页面上进行批注,看到哪个按钮位置不对,哪块布局不满意,直接在页面上标出来, codex 就 能理解你的意图,并帮你进行调整。这件事的意义在于,正好对应了 webcodd 的 核心理念, 开发者的重心不在于怎么写,而在于写出来的东西对不对。批注功能把这个理念落地了。 第三章,上下文管理 codex 项目里可以同时开多个县城,每个县城对应一个任务,互相独立,不干扰。对比 cloud code 需要开多个对话窗口, codex 把所有县城都收在了一个项目下,管理起来会清晰很多, 然后是项目的记忆核心就是 a 键的点 md, 这个文件你可以类比为 cloud md, 把项目的背景、开发规范都写进去, ai 每次进来都会读取,不用反复的交代。 还有一点, codex 的 上下文管理非常省心,它会自动帮你压缩上下文,它也没有提供像 cloud code 中 compact 的 那样的命令,这种事情让 ai 自己处理就好了,你专注于任务本身就行。 第四张,自动化这块是我觉得 codex 比其他 agent 做得更好的地方,几个原因,第一,用起来非常的方便,直接在 gui 里面新建自动化任务,还内置了很多模板可以选择, 大到项目管理技术、眼镜,小到个人的生活习惯,都可以交给它来定期的处理。第二,自动化可以调用 codex 自身的能力,比如插件、 skill、 mcp、 浏览器操作、电脑操作等全都能用进来,这就是为什么我说 codex 在 逐步形成自己的生态。 第三,我们可以根据不同的场景来灵活的选择模型和推理强度,简单的任务用轻量模型,复杂的任务上强推理,这样的话头肯可以用的更加的合理。第四,稳定性,我实测下来, codex 相较于其他的 agent, 定时任务的准确性已经能达到生产级别,相当的靠谱。 第五张插件和技能, codex 有 相当丰富的官方插件和 skill 生态。先说说两者的区别, skill 就是 纯文档,本质是给一份 ai 的 说明书,告诉他在特定场景下应该怎么做事。比如说我前面提到的 planning with files, 就是 一个 skill 插件的概念会更大一些,你可以把它理解为 codex 打补丁,里面可以包含 skill, 也可以带上 mcp 配置,甚至集成其他的 app。 一个插件装下去, codex 就 多一套能力。 另外, codex 在 插件和 skill 的 管理体验上面要比 cloud code 的 友好太多了。 cloud codex 需要改配置文件,而在 codex 里直接在界面上点击安装,或者自己创建,整个过程非常的直观。 第六章浏览器和电脑操作 codex 可以 直接操控浏览器,你可以让它自动填表,抓取数据,验证 ui 效果。 比如我需要批量收集一些网页上的信息,直接告诉 codex 去哪个页面拿什么数据,它就能自己打开浏览器去完成操作,整个过程中都不需要你的介入。除了浏览器, codex 还能直接操作你的电脑文件的整理,应用的打开都可以交给它来处理,相当于有一个助手在帮你操作桌面。 不过这里要说明一点,随着 ai 自动化越来越普及,现在已经有不少软件开始加强安全控制,对自动化操作做了限制,所以实际能操作的范围会因软件而异,遇到限制情况也很正常,大家用的时候留意一下。 第七章通用功能这些功能不是 codex 独有的,很多 agent 都支持,但作为一个完整的工作站,这些基础能力 codex 当然也不会缺少。先说 play mode, 在 执行一个比较复杂的任务之前,先让 codex 把完整的计划列出来,你过一遍觉得方向对了再让他动手, 这个习惯能帮你省掉很多返工的时间,大任务尤其推荐开 play mode。 再说 m c p, 也就是模型上下文协议,通过 m c p 可以 把各种外部的工具和服务接进来,让 q d x 能力边界大幅扩展,无论是连接数据库,调用第三方的 api, 还是接入自己家的服务,配置好之后, q d x 就 能可以直接调用。 另外还有一点, q d x 相较于 logot code 的, 有一个非常关键但很容易被忽视的小功能,语音识别。目前我的任务几乎都是语音发起的,连打字都很少了。 ok 以上就是我在使用扣袋子过程中总结的一些技巧,如果对你有帮助的话,希望能得到你的点赞和关注。 最后我想说一句, ai 发展太快了,各家 a 键的功能越来越趋同,但工具再多,适合自己的才是最好的。有时候做做加法,找到真正需要的,做做减法,去掉用不上的,慢慢摸索出一套自己的工作范式才是最重要的。我是布鲁,我们就下一期再见。

我真的觉得全站工程师今年可能都不要,今年吧,就会被大面积的全部淘汰。为什么呢?你看我这个 codex session 已经运行了将近一个天了,二十三,二十三个小时, 我让他干什么呢?我让他去处理一个事情,就是让他自己去提出 issues, 然后自己来规划代码,然后自己来总结。期间我没有用任何的 harness deal, 就 只是让它去看 review, 如果没来的话就等等 了,然后再修,修了,没问题再下一个 issues。 然后呢,期间它会用 codex review 继续来,不停地 review 它改好的代码,直到没有任何问题为止。然后就这样,它一直可以运行,运行,运行 就一直在改,然后改好了之后做 stage 测试,测完了之后继续改。然后呢,现在就一个什么样的情况呢?就是它已经提交了将近一百多个, 一百多个 p r s, 然后就这么一天的时间内,然后能够修好 大部分的问题,并且它的问题呢,经过 cloud code 来改来 review, 也会发现基本上没有啥问题, 它的 code 一 直在改,然后它会自动 add codex review, 然后 review 会出现问题,出现问题了之后它继续 add codex review, 然后一直这样循环往复,直到 codex 没有发现任何的问题。 有的呢,我会直接让 cloud 去用大长角度去来批判他的这个代码,即使他 codex 没有发现问题,然后他就会说出一些 问题,然后他就会又去改,然后改完了之后又可以让 codex review, 但大部分问题,大部分 code code 也不会发现有太多的问题。所以说 codex 能够在这个基础上改到非常非常成功的一版代码, 看这里都基本上是 approve, 所以 说程序员有没有点慌?

一定要,一定要,一定要想尽一切办法去用上 codex, 至少我不允许我的粉丝还没有用上 codex 或者是 open color。 这 codex 这玩意儿,那黄仁勋逼着英伟达的全体员工都在用,你想想,全球市值最高的公司 老板亲自下场去逼着员工用一个工具,那你觉得这玩意会没有用吗?百分之九十人啊,到现在还不知道这东西到底是啥,还在那研究怎么用 excel 写文案呢。那我先说结论啊,就 codex 不是 什么编程工具啊,他是现在最适合普通人上手的 ai 工具,没有之一。你以为啊,他只能帮你写写代码?那你太小看他了啊, 他能做的事情就是让一个完全不懂技术的人用自然语言去描述需求,就能搞出一个自动化的一个流程, 甚至是一个小产品。那你看一下,这周六我还跟我朋友在聊啊,他烟草的就他已经在用 codex 去分析数据,你想这意味着什么?就是技术门槛的四个字正在慢慢消失。那你再看看最近新闻,纳斯达克什么再创新高,还有那个什么芯片股涨疯了, 然后存储芯片又断货了,一堆人在那分析来分析去。那其实就一句话, ai 正在重新洗牌,那 codex 就是 普通人能够得着那张牌。那两个月之前如果说你问我,那我会让你先观望观望。 现在啊,他几乎天天更新,就能力已经跌到一个离谱的程度了。你要是现在刚刚二三十岁啊,或者是刚刚毕业,那你听好了,现在 一定要去开始用 codex。 你 现在开始用,你就是在插队了啊,别人在排队,你已经跑到别人的前面去了。大部分人还在等,还在观望啊,等成熟了再说。那等你反应过来啊,那窗口真的早就关了。看完这条视频,我真的希望你马上去研究一下。

最近有个说法挺刺激, codex 更新之后,有些能力已经超过 cloud code 了。真的假的?我觉得这个问题不能直接回答, 因为你先得问清楚,你比的是谁更会写代码,还是谁更像一个工程团队的操作台。接下来几分钟,我们不站队,拆开看,看完你大概就知道为什么这次 codex 的 变化不只是模型变强了。 以前聊 ai 编程,很多人默认 cloud code 是 标杆。它在终端里很顺,能读代码库,能改文件、能跑测试,开发者的心智负担很小,你让它修一个 bug, 它真的像坐在你旁边的工程师。 但最近 cloud code 新后,社区里开始冒出另一种声音,怎么感觉 cloud code 某些地方更爽了?有人拿它和 cloud code 对 比,有人说自己被 cloud code 搞崩后换了工具。先别急着下结论。 这个争议真正有意思的地方,不是 cloud code 赢没赢,而是大家发现 ai 编程工具已经不是一个命令行聊天框了。 如果只拿一个 bug、 一个重构、一个 delete code 题去比,你很容易比错,因为那是在比底层模型的局部能力。这个当然重要,但它不是全部。 现在的 coding agent 更像一个小型工程流程,它要理解需求,要改代码,要跑命令,要看浏览器,要处理 pr, 还要知道什么时候该停下来让人确认。你看,问题一下就变了,不是谁补全的更准,而是谁能把一件工程任务从头推到尾。 这也是为什么很多人会觉得 codex 这次不一样,它不是只在代码框里变强,而是在代码框外面长出了手脚。 codex 最近最关键的变化是产品形态变大了, openai 官方把它讲成一个可以委派真实工作的 agent, 它不只是改文件,还强调多 agent 工作流,内置 worktree、 skills、 automations、 pr review、 多文件、多终端、远程 devbox, 内置浏览器,甚至电脑操作。 注意这些功能单看都不神奇,但放在一起,味道就变了。以前你让 ai 写代码,更像叫一个人坐到你的电脑前。 现在你可以把任务拆成几路,让不同 agent 同时跑,一个修 bug, 一个写测试,一个看前端页面,一个整理发布。说明,这就不是代码助手了,它更像一个工程指挥台。这个词有点大,但很贴切啊。克拉多瑞弱了吗?不是,克拉多瑞的基本盘还是很硬, 它的优势是终端原声跟开发者每天用的工具贴得很近。你在项目里打开它,它读代码,跑命令,用 git 接 m c p, 很多动作都在你熟悉的命令流里发生。它还有一个很重要的,气质,谨慎, 默认,会问你哪些命令能跑,哪些文件能改。这对真实项目很关键,尤其是老项目、大代码库、线上事故这种场景,你不一定想要一个到处乱点的全能 agent, 你想要的是一个懂代码、懂命令,还愿意听你刹车的人。 cloud 会有,在这块儿还是很舒服。 codex 更容易赢的地方是任务开始变宽的时候。 比如你不是只要修一个函数,而是要做一整个小功能,先看需求,再开分支,再改前端,再跑测试,再打开浏览器确认视觉,再写 p r 描述。这里 codex 的 优势就出来了,它可以把文件、终端、浏览器、工作区放在一个工作台里,还能让多个 agent 并行。更关键的是, 它不止服务程序员,文档、表格演示、自动化检查,这些原本不算写代码的东西,也能被放进同一个流程。说白了, codex 强的不是某一权特别重,而是它开始会组织一套组合权。 这是很多人突然觉得它反超的原因。但如果你的工作方式很终端很连续很工程师, cloud code 还是会让人上头。 你在一个复杂仓库里追依赖,看日制、改测试、处理 c i, 它的节奏很自然,它不像一个大平台,而像一个强力命令行同伴。还有一点容易被忽略, cloud code 的 简单反而是优势,入口少,心智清楚。很多时候,你不用管理一堆 agent, 也不用想工作台怎么摆, 你只要说帮我把这个问题修掉,它就顺着代码库往下钻。所以我不认为 codex 全面超过 cloud code。 更准确的说法是, codex 在 工程流程组织上开始领先,而 cloud code 在 终端深度开发上仍然很强。所以这次真正值得关注的不是 codex 有 没有把 cloud code 打趴下,这个说法太粗糙了。 真正的变化是, ai 编程工具正在换赛道,第一代比谁更会补代码,第二代比谁更懂代码酷。现在开始比谁能组织工作,谁能并行,谁能跨工具,谁能长期跑,谁能在关键时刻把权限交还给人。 以后程序员可能不只是写代码的人,而是调度一组 ai 工程师的人。听起来有点夸张,但说实话,这一天来的比我想象中快。

大家中午好,我想了想,我还是要跟大家录一下,因为最近 codex 跟 anthropic 的 cloud code 真的 太火了,昨天晚上 openai 也发布了 codex, 现在已经可以直接支持谷歌的 chrome 以及 windows, 就是 chrome 在 macos 和 windows 情况下,呃,可以直接调用 codex 的。 我快速录一个视频,教一下大家怎么把这个功能激活。首先呢, 我们要打开最新版本的 codex, 如果不是最新版本的,可以在这里去检查 update, 就是 要确保更新到最新版本的 codex。 更新完之后,打开这个插件 plug ins, 打开这个插件, plug ins, chrome 的 这个选项就会出现了,点击这个 chrome 点击吧,因为刚才我已经点击了啊,可以直接点打开, 打开它会直接跳到你默认浏览器的这个 codex 的 激活界面啊,如果你默认的是 chrome, 就 会正常蹦到这个 chrome 的 界面 crom 蹦到之后直接点击艾特 crom 就 ok 了啊,因为我认为接下来会很精彩的。其实 cloud 大家能看到我的 cloud 已经支持了,就当我点开这个 cloud 的 时候, cloud 的 无论他调用自己大模型也好,还是还是 cloud code 也好,他可以直接操纵我的 crom。 那 现在呢,就是我把 code 也加入到 crom 之后, open up code 也可以直接调用我的 crom 吧。因为今天我想录这个视频的原因就是我认为接下来整个电商的搜索逻辑都会因为世界头部的几个大模型公司会带来天翻地覆的变化。 比如我现在自己日常的使用已经不用去打字了,我调用的是 tapis 会比较多,所以现在目前,哦,现在才五月份,我觉得其实 ai 的 风向已经调了好几次了。比如年初的 open code 火了一阵子, openclaw 就是 龙虾。 那其实我认为到现在为止了, open opencloud 的 风风口或者说营销热度已经完全消退了。那接下来就是 webcoding。 那 目前最主流的就是 codex 和 android 的 cloud code。 就是 cloud 的 code 啊。好吧,今天就跟大家快速录一下。我估计可能很多伙伴不知道怎么在 codex 里面去添加 chrome, 在 chrome 里面去激活 codex。 好 吧,那今天先这样,拜拜。

openai 这次把 codex 更新成了一个能操作整台电脑的 ai, 它不只是会写代码,现在还能自己打开网页、点按钮、改界面,甚至你睡觉的时候,它都能接着往下看。这里是 coo 科技日记,带你看懂 ai。 今天我们来了解 codex 最新更新内容。 我花了一上午把 codex 新版过了一遍,发现这次更新最值得你知道的有三件事。第一, codex 已经不是单纯的写代码工具了,以前你理解它可能就是一个帮你补代码、改 bug、 写函数的助手。但现在, open ai 想把它做成的是一个能在电脑上直接执行任务的 ai。 比如它能打开网页、看页面、点界面、做批注,还能配合文档、图片、浏览器这些东西一起工作。 说白了,他开始从帮你写代码,往帮你把一整段事情做完那个方向走了。第二,他开始更像一个能接着上次继续干活的人。以前很多 ai 的 问题是什么?今天你跟他说了一堆,明天再回来,他像重开了一样。但这次 codex 新增了 memory 和自动化能力, 他能记住你之前聊过的内容,还能把没做完的任务继续跑下去。这就意味着他不再只是你问一句,他答一句,而更像是你交代一件事,他能自己往下推进。第三,他真正的变化 是功能变多了,而是身份变了。 openai 现在已经不想让你把 codex 只当成一个代码聊天框,他们更像是在把它做成一个能在电脑上持续干活的数字同事。这也是为什么这次更新不只是程序员会关注,做前端、做产品、做自动化、做文档流程的人 其实都能感受到变化。当然,这里也有一个很现实的问题,它更能干活了,但你用的越多,成本上的也越快。现在 qdax 很多计划已经开始按 token 计费, openai 自己给出的口径大概是每个开发者每月一百到两百美元。所以它不是那种无脑更强就立刻全换的工 具,而是一个值得你先试再决定要不要重度接入的东西。这里我直接帮你做个判断,这段建议你截图保存。如果你是做前端网页 ui 调整的, 这次很值得关注,因为它能看页面,点按钮改界面。如果你是做脚本自动化流程,串联长期任务的 memory 和自动化能力,值得你花一周试一下。如果你平时只是拿 ai 补几行业务代码, 改改小 bug, 但这次不用太着急,先观望也没问题。如果你只是个人,偶尔用一下,更建议先等等,看看价格稳定性和生态再说。所以这次 codex 最值得注意的不是他又多会写一点代码,而是 openai 正在把他从工具往能干活的人那个方向推。 以前大家比的是哪个 ai 更聪明,现在慢慢变成了哪个 ai, 你 敢真的把任务交给他?如果现在让你把一段真实工作交给 ai, 你 会先选 codex 还是 color code? 评论区告诉我。