ai 自动完成 access front 飞行器外部流畅仿真分析,今天一个视频教会你。 hello, 大家好,今天给大家讲解一下我是如何使用 codex 进行 ai 驱动的一个 access front 飞行器外部流畅仿真的。今天的讲解主要分为以下五个部分, 首先就是前期准备,呃,我们需要配置以下东西,首先第一点,我们需要保证你的 access print 的 最低版本要求是在二零二四 r 二以上的版本,我本人使用的是二零二六 r 一 这个版本。 第二点我们需要有对应的一个 python 环境,主要是两类的个 python 环境,第一个就是 access 自带的 python 环境,还有一个就是 项目和 m c p 所需要的一个专用的虚拟环境。第三点的话就是我们所需要的一个软件环境。首先第一点我们肯定是需要一个 codex 桌面端软件的,当然这里不一定是 codex, 也可以是 cloud, code, cursor 等桌面端软件,或者是 c r 终端 agent 都可以的。 第二点的话就是 access print 我 们需要安装到你的电脑中。第三点的话就是我们需要 pi print 这个工具,这个是十分重要,它是必须要使用的啊。 pi print 它主要是控制 print 的 一个核心接口, 它可以连接到我们的 access print, 然后并使用 python 的 api 进行 print 的 一个编程交互,它支持对仿真的设置执行监控和结果的一个提取, 这个是必须要去安装配置的。第四点的话就是我们需要安装 front mcp。 第五点的话就是我们需要去安装对应的一个 skill, 呃,就是我开发了一个叫 front aircraft cfd 这个 skill 来约束我们的 ai 进行更好的一个飞行器外部流畅仿生的一个工作。第六点的话,我我们需要对应的 python 的 虚拟环境,然后帮我们隔离 pyflint, fast mcp 的 零一代,然后避免污染系统的一个 python 环境。 还有其他的像 node js 和 npm 的 安装也是必须的,在此我就不多介绍了,这些软件必须有 codex, ansis print 和 py print, 这几个是必须要去安装配置的。第二点我想讲解的就是 codex 进行 ai print 仿真的一个提示词的结构啊,提示词在这个仿真过程中的作用是十分重要的, 我不建议你直接写一句帮我做一个 friend 仿真,这样的话我们需要一个完整的一个提示结构,帮你更好地进行这个 ai 驱动的一个 friend 仿真的工作。我这里就是推荐大家的提示结构是这样的,首先就是决策的一个定义, 第二个就是我们需要完成项目的一个目标。还有就是你要告诉所仿真的一个工作环境,这里的路径大家都替换成你自己的一个电脑里面的路径,如果你不知道对应的路径,你可以让 codex 告诉你这些东西的路径是在哪里。 还有就是我们的输入文件,几何文件,网格文件材料的情况,仿真的一些要求,还有约束,还有验收的一个标准等, 这就是这个提示的一个结构。第三点的话,我们就看看我是如何在 codex 中进行的一个 ai 驱动的 iso 仿真的一个工作的。首先我现在这边的话是先调用了一个我自己开发的呃 flint aircraft cfd 的 一个 skill, 安装完成之后我们输入斜杠命令,然后搜索 flint 就 会弹出一个 flint aircraft cfd 的 一个 skill, 你 直接调用这个 skill 就 可以了, 你再把这个呃对应的提示词分享给 codex 这边的话,就可以进行一个 ai 驱动的 assignprint 仿真工作了,在这个过程中就是你可以不必提前打开 assignprint 这个软件界面就是 codex, 它会自动帮你去打开对应的 assignprint 这个软件, 然后也会做一个对应的流式输出,你可以在 codex 运行过程中可以看到这个它是怎么进行一个仿真工作的。我来补充讲解一下这些工具之间的一个关系。 codex 它的话就是理解拆解和下达任务的一个中疏 scale 的 话就可以帮助我们约束这个 ai 仿真的一个工作流。 m c p 的 话,它就是提供的本机的工具的一个调用,让 codex 和 access print 有 个连接, py print 它就是控制这个 print 的 编程,下达指令还有结果的一个提取,然后这就是本期视频的一个全部内容,呃,谢谢大家。
粉丝1.1万获赞5.9万

ai 编程工具这东西吧,真的是风水轮流转,最开始大家在吹 carson, 后来 carlo 的 大火,而这次轮到了 colex。 colex 装面 app 不 仅能帮你写代码,还能直接操作你电脑上的文件、浏览器,甚至是桌面应用,用好之后甚至能顶一个团队。 本期我会从 colex 安装到核心特性,用十多个实战案例手把手教你玩转 colex。 不管你是想用它来编程、开发、办公提效,还是搞一些好玩的创作,看完这期都能直接上手。那本期教程的文字版,可以在评论区获取干货秘籍,建议先收藏,找着安静的地方慢慢使用。 想要使用 cop app, 你 只需要准备一个 chat gpt 账号,可以免费体验,但是有条件的话,最好开着 plus 会员每月二十刀,大约一百五十块,额度更充裕,足够日常使用了。 那有了账号,直接去官网下载安装酷贷 app 就 好。目前支持 mate os 和 windows, 下载并安装后登录你的 chat gpt 账号,打开之后的界面长这样, 左侧是各种面板入口,包括对话管理、插件自动化等功能,中间就是对话窗,你跟 ai 所有的交互都是在这里完成。跟平时用的 ai 聊天工具差不多嘛,还挺清爽的,不像传统的编程 ide 那 么复杂,上手没有门槛。接下来我们直接开始使用, 跟你用过的其他 ai 工具一样,在对话框里输入内容发送,就能开始聊天了。适合处理一些简单的日常工作,比如帮你查资料、总结内容、规划方案。 我让他帮我查一下今天有什么 ai 编程方面的热点。 cadets 会自动联网搜索最新信息,然后帮忙整理总结,这下不怕错过新资讯了,这只是开胃菜。 cadets 真正强大的能力是操作你本地的文件和电脑。下面我们试试 点击左侧的项目入口,选择一个本地文件, ai 能在这个范围内读取和操作文件。 比如我选择了我的下载文件夹,里面有一堆不知道什么时候存下来的大文件。在对话框底部,你可以看到权限模式的选项,这里有三个选择,默认权限, ai 可以 读取和编辑工作区的文件,需要额外权限时会主动问你。自动审查是 ai 会自动帮你审查操作。 还有完全访问, ai 想干啥就干啥,不会弹确认框,建议新手直接选自动审查,既省时又省心。 选好权限后,在对话框里输入提示词,然后你就能看到 ai 开始工作了。它会自动执行终端命令来扫描文件,分析每个文件的名称和大小。最后给你一份清晰的报告,列出哪些大文件占了多少空间,并给出清理建议。 那我主打一个听话,就让 ai 帮我删除没用的预览文件吧。最后成功帮我节省了六点八 g 的 空间,效果不错吧。但如果我让 ai 删除一个工作区外的文件呢?会发生什么? 试试看,在当前工作空间开启一个新对话。比如,我让 ai 帮我删除鱼皮新书出版目录下的所有文件,可以直接把这个目录拖拽到对话框中,然后执行任务。 如果你选择的权限是默认模式, ai 想删除文件的时候,会弹出一个确认框,问你同不同意,防止 ai 搞乱了你的电脑。 但由于我选的是自动审核, ai 自己完成了审核并批准,省去了人工操作的麻烦。这样一来,你完全可以把拖带子当成你的私人文件管理助手,分析空间、清理垃圾、批量重命名。以前你要手动折腾半天的事情,现在一句话就搞定了,是不是挺方便的? 做完第一个任务,大家肯定很关心消耗了多少 tokens 吧?来一起看看用了多少额度。点击左下角的设置,点击剩余额度,就能看到你五小时内还剩多少配额,本周还剩多少比例。什么时候刷新 to text 的 额度?按照五小时和一周来限制 plus 用户的额度还是比较大方的,日常使用完全够了。你也可以在对话框里输入斜杠状态,这种以斜杠开头的快捷输入叫做斜杠命令,是 to text 内置的快捷操作方式。 输入之后, to text 会直接在对话中显示当前的上下文余量和额度信息。 ok, 到这里,你已经体验了 to text 最基础的能力,对话和操作本地文件。 恭喜你,已经超过了百分之六十的同学。接下来我们提升一下难度。用 codex 做一个完整的网站项目,过程中你会接触不少 codex 的 核心用法,包括计划模式、 ai 声图、浏览器预览、批注、修改等等。 在开始之前先进入设置,把工作模式从适用于日常工作切换为适用于编程,这样 ai 的 回复会更专业,更适合开发场景。 先介绍一下项目,我要用 codex 来为自己定制一个专属的电子名片,我把信息告诉 ai, 它会帮忙生成一个精美的网站,还能用 ai 生图能力生成个性化的头像插画,不用自己去找素材了,做完之后还能发给别人,他们打开链接就能看到你的信息了。 新建一个项目文件夹,在 codex 中打开模型就选择最新的 gpt, 五点五速度选标准就够了。智能程度选择高权限,我这里直接给了完全访问,省得他每次操作都来找我确认,反正大部分情况下我都是无脑点同意的。 最关键的是点击对话窗左下角的加号,把计划模式打开。计划模式下, ai 不 会直接开始写代码,而是先帮你规划方案,问你细节,确定没问题了才动手。好,输入下面这段提示词启动, ai 会先自己思考,然后可能会追问你一些细节,在弹出的问题面板中选择就好。最后会生成一份实现计划文档,包括简介、核心要求、测试计划等信息。你做的网站越复杂,越要仔细阅读这种文档, 如果没有问题就确认方案。然后 ai 就 开始自主干活了,它先是使用内置的图像生成技能,生成了卡通头像文件,然后编辑代码,一次性生成了多个文件。写好代码后还会检查代码,自主打开浏览器测试验证,还考虑到了一些容错。 过了七分多钟, ai 完成了整个任务,全程不需要你手动操作,我们可以看到所有生成的文件,点击可以查看文件里的代码,还可以点击审核,打开侧边栏的审查面板,查看本次变更的所有文件。 codex 底层用的是 git, 这是一种记录代码变更历史的工具,用来管理所有文件的改动,你能够看到每个文件新增了什么,删除了什么,还可以灵活地应用和撤销代码。后面的进阶功能部分我会详细给大家讲解。 我们做的是纯前端静态网站,找到生成的主页文件,右键在浏览器中打开就能直接看到效果了。 pc 端的效果我觉得还不错,布局清晰,主题切换也很丝滑。而且它还自动兼容了移动端的展示,手机上打开排版也是正常的。 当然,你也可以直接让 ai 帮你运行网站, ai 会执行终端命令,启动开发服务器来运行网站。 点击访问地址后, codex 会在右侧面板打开,内置浏览器,便于你来预览效果。如果某个地方不满意,你可以点击浏览器右上角的批注按钮,然后直接在页面上选中要修改的元素,写上你的修改意见发送给 ai。 ai 会自动定位到对应的代码并精准修改,不用你自己去翻代码找位置,改完之后刷新页面就能看到效果了。方便是方便,不过这个速度真的不敢恭维。做完后我们再看一眼使用情况,这次完整项目消耗了多少额度呢?还好还好, 总结一下,要用 ai 开发移动网站,我们只需要把需求告诉 ai, 确认方案,等他自己写完并测试就好,中间几乎不需要手动操作。恭喜看到这里,你已经超过了百分之七十的同学, 到这里,你已经能使用 todays 从零开发移动网站,预览效果按需求改了。那接下来我要带大家看看它还有哪些核心功能。学完之后,你不仅能做网站,还能让 ai 帮你操控浏览器、抓数据、自动执行定时任务,甚至操控整台电脑。 接下来,我把 codex 的 功能分为常用功能和进阶功能两大块来讲。常用功能是日常会高频使用的,进阶功能则是有点门槛儿,但掌握后能让你效率翻倍的。 在左侧的插件面板里,你能看到 codex 的 插件市场。 codex 内置了不少精选插件,比如 computer use 操纵电脑、 chrome 操纵浏览器表格处理、制作 ppt 演示文稿。 此外还有大量编程类和工具类插件,包括网站部署、游戏开发、对接 tab 等各种场景。你可以在插件市场里按需搜索和安装。 比如我们来安装 natify 插件。 natify 是 一个免费的网站托管服务,装好插件后,一句话就能把你做的网站部署上线,让别人都能访问。 点击安装 natalify 插件,同意后会自动弹出浏览器,使用 datab 等方式登录 natalify, 一 步步完成授权。最后,超黛斯成功安装并连接了 natalify。 然后我们用 natalify 来部署之前开发完成的电子名片网站。在对话中,通过 at natalify 调用插件。执行过程中, ai 会找我们确认并自动创建一个新的 natalify 项目来部署网站。 搞定以后,我想展示自己的信息,直接甩这个链接就行了。还可以打开 netify 后台对项目进行管理。你可以在 codex 右上方的侧边栏中整体查看当前项目的概览信息,包括后台任务、打开的浏览器、使用的插件等等。 点击后台任务,还能看到具体的终端日记,记录了网站服务器什么时候收到了请求,请求了什么资源等信息。同样的,如果你要处理 excel 表格、做 ppt, 使用对应的插件让 ai 帮你就好。生成的文件还能在侧边栏直接预览。 前面我们用的内置浏览器可以预览页面,做批注和修改。但如果想让 ai 真正去操控浏览器,自动点击填表单翻页,就需要 browser use 浏览器操作功能了。我们先来使用内置的 browser use 进入设置浏览器,确保 browser use 功能已经开启。你还可以在这里设置权限规则和禁止打开的域名, 开启之后,在对话中通过艾特浏览器来调用这个能力。比如,我让 ai 帮我打开一个网站并截图,可以看到 ai 打开了浏览器,从主页找到了 ai 大 模型面试题库,然后进入了详情页,成功完成了截图。 不过有时候这种操作不太稳定,多试几次就好。此外,你还可以安装 codex 的 chrome 扩展插件,它可以操控你的电脑上已经登录的 chrome 浏览器。好处是能保留你的登录状态,而且可以在后台执行,不占用屏幕,适合需要登录网站才能进行的操作。 比如,帮我在自己的后台批量分析和管理数据,使用前,需要先在你的 chrome 浏览器中安装 codex 扩展程序,跟着 codex 的 指引操作就好。安装好之后,我让 ai 帮我从已经登录的面试呀网站上抓取一些数据。 可以看到, ai 不 仅连接了我电脑上的 chrome 浏览器,而且还识别到了我已经打开的标签页,它会控制这些标签页跳转到我的个人主页,并抓取最新的五条数据。最终抓取到的数据表格非常清晰,链接前面甚至还有图标,细节拉满。 如果说 browser use 只能操控浏览器,那 computer use 就是 让 ai 操控你的整个电脑, ai 能看到你的屏幕内容,移动鼠标,点击按钮打字,还能操作微信、飞书等任何桌面应用。 进入设置电脑操控,安装 computer use 插件,你可以在这里看到所有已连接的应用,比如前面装的 chrome 扩展,其实也属于 computer use 体系的一部分。 来我们体验一下。用艾特电脑来调用,让 ai 帮我探探当前的桌面壁纸,然后生成一张类似风格的新壁纸。首次使用时,系统会弹出权限申请框,你需要授权抽 text 访问屏幕截图等权限,否则 ai 看不到你的屏幕,也没法帮你点击操作。 later 来看一下,效果不错吧。生成了一张非常精美的新壁纸,我觉得比原图还好看啊!今晚可以做的好梦了, 爽!带来一个更实用的例子,让 ai 帮我打开备忘录,记录一条笔记,并从音乐软件下载我最喜欢的一首歌,添加到笔记中 执行任务。可以看到 ai 会打开音乐 app, 有 着小鼠标点击了下载按钮,从中下载了音乐文件,只因你太美。 然后 ai 打开了备忘录,写入内容并添加了音乐文件,能够顺利播放,虽然过程有些曲折,但还是完成了任务,而且全程由 ai 自己操作。以后我可以直接让 ai 帮我写有图有文有音乐的笔记了。 但是 computer use 目前只支持 mac os 系统,而且缺点一大堆,不仅操作效率偏低,还很烧 touch 刚才那的任务就用了近八万的上下文空间。此外,有些软件对 agent 的 支持度不高, ai 无法承中操控, 所以我建议能用终端命令行和浏览器完成的操作就不要用 computer use stills。 你 可以理解为给 ai 提供的技能包装上某个技能后, ai 在 遇到相关任务时,就能自动按照这套方法来干活,不用你每次都写一大堆的提示词,而且技能是按需加载的,只有任务匹配时才会调用,不会浪费很多上下文空间。 进入左侧的插件面板,切换到技能 tab 页面,在这里能够格式化安装和管理技能口袋。此自带了几个内置的技能,比如图片生成、查询官方文档、安装、社区技能创建新技能创建插件等等。 那下面我先带大家用用内置的图片生成技能,然后安装社区里别人做的技能,最后再带大家自己创建一个技能。 这里我想生成一个有趣的图片,让鱼皮直播卖鱼皮。可以先到鱼皮 ai 导航网站上找到 ai 生图的提示词模板,然后复制提示词模板。接下来在 codex 对 话框中输入 dollar 符号,加技能名称,就可以快速调用技能, 并且把提示词模板、鱼皮的照片都提供给 ai。 稍等片刻之后,看看 ai 生成的图片,你觉得怎么样?是不是憨爆了?爽!不过图片生成比普通对话消耗的额度更多,用的时候记得留意一下剩余额度。 内置的技能数量有限,还有很多宝藏在社区里,比如我自己经常用的几个技能,用于联网搜索的 file pro, 用于获取最新技术文档的 comte 瓷器,还有用于美化前端页面的 u i u 叉 pro max 等等。 另外,我之前写过一篇优质 ai 编程扩展大全,推荐了几十个好用的技能和 m c p, 可以 到我免费开源的 ai 编程零基础教程阅读。那接下来我带大家实际安装一个社区技能,顺便整个活儿,让 ai 制作一个苹果风格的快闪动画视频。 首先要安装动画制作技能 remaster 安装技能,它能帮我们快速安装其他技能。 对了,安装技能时要注意安全。由于我这里安装的是知名技能,就直接输入技能名让 codex 帮我安装了。但如果你想安装不太知名的技能,更稳妥的方式是把技能的 github 链接发给 codex, 让他帮你检查后再精准安装。 安装完成后,在技能管理面板里就能看到新增的技能了。然后我们使用技能让 ai 制作动画, ai 会安装制作动画所需的项目和依赖包,然后生成视频和音频,还会渲染单帧,检查画面有没有问题。 最后, ai 生成了可以直接播放的视频来看看效果。 呃,他好像理解错了我文案的意思。翻车了,翻车了!我感觉这种方式更适合做产品发布宣传片、知识点、快闪卡、节日祝福视频这种节奏更紧凑的短片。而且我当着根本没认真写提示词。好吧, 实际上你可以指定时长、指定文案,利用生图技能搭配素材,增加更多交互动画等等,感兴趣的同学可以自己玩一玩。 除了用别人的技能,你还可以把自己常用的工作流程封装成技能。以后遇到类似的任务,一键附用。技能的本质就是一个 still 点 m d 描述文件,加上一些配套的脚本和参考资料。 still 点 m d 里要写清楚这个技能是做什么的,什么时候触发,以及具体的执行步骤, ai 读写后就知道该怎么干活儿。 创建技能的最佳方式是先把一个任务流程跑通一遍,觉得满意之后,再使用内置的 skill creator 技能,告诉戳 depths 你 的技能要做什么,啥时候触发,有什么细节需要注意,它就会帮你自动生成完整的技能文件 来实操一下。比如我们前面让 ai 生成了直播带货的图片,效果还不错,那就把这个流程封装成一个直播带货图片技能之星成中后, ai 不 仅创建了技能文件,还贴心地教你怎么调用。 之后使用这个技能只需要提供一张人物照或者商品照,不用再自己填写又臭又长的提示词模板了,非常方便来看看效果。 ai 自己识别到了我提供的是商品图,也是精准复刻了我之前提供的提示词模板,爽! m c p 是 一个开放协议,你可以把它理解成 ai 的 万能插头。装上之后,就可以让 ai 连接各种外部工具和数据源,获取实时信息。 进入设置 m c p 服务器,可以在这里添加和管理 m c p 服务。点击添加服务器后,你需要手动填写服务器的配置参数才能完成添加。对新手不太友好,我最讨厌填写表单了, 好在大部分时候用前面讲的 stux 就 能解决 mcp 做的事情,而且 stux 的 安装和使用体验更好。 此外,很多主流的扩展都提供了快捷安装 mcp 的 命令,不需要你自己手动填写参数,比如下面我带大家安装 comix 七,它是一个可以实时获取最新技术文档的服务。开发网站的时候用它来查 api 文档特别方便。 在 codex 右上角可以打开集成终端,在终端里输入一行命令就能安装。这里我们选择安装 mcp server, 为 codex 安装,然后就搞定了。 安装后需要重启 codex, 在 设置里的 mcp 服务器列表中就能看到它。首次使用前还需要进行身份验证,在自动弹出的 compt 网页中就可以愉快地使用 mcp 了。 之后开发网站,尤其是需要集成 ai 能力的网站,都可以用创太时期来获取最新的技术文档。你还可以把它当成一个学习辅助,让 ai 寄予官方文档,帮你讲解知识。 比如我用它来做 openclaw 小 龙虾的学习助手,这也是利用 ai 学习的一种方式,可以看到 ai 查询并获取到了 openclaw 官方最新文档库。然后我们来问 ai 一个问题, openclaw 无法运行怎么办嘞? ai 会基于官方文档,很快就给出了精准的排查步骤,这样学习和解决问题又快又准,再也不怕查到过时的资料了。 恭喜看到这里,你已经超过了百分之八十的同学。到目前为止,你已经掌握了 codex 的 常用技能,学到了不少实用玩法。从文件管理到网站开发,从浏览器操控到技能封装,已经能用 codex 大 幅提高工作效率了。 接下来我要讲的是一些稍有门槛或者不是每个人都用得上的进阶功能。不过如果你愿意多折腾一下,它们会让你使用 toad 四的效率再上一个台阶。 在对话区域附近有一个小圆圈,鼠标放上去后会实时显示当前对话已经用了多少上下文。 gpt 五点五点五在 toad 四里显示的有效上下文大约为二百五十八 k tokens。 说实话,这的数量不算多。如果你连续跟 ai 对 话很长时间,或者项目文件比较大,上下文很容易被填满。当上下文快满的时候, codex 会自动帮你压缩历史对话。 你也可以在任务照一段落时,手动输入斜杠压缩来主动压缩,让模型更聚焦在新任务上。 那除了单个对话的上下文,日常使用中还要注意管理对话本身,不然列表越来越长,找起来也费劲儿。 对话太多的时候,你可以在左侧的对话列表中把鼠标放到某个对话上,点击归档,把不常用的旧对话归档起来,保持界面清爽。进入设置以归档对话,还可以查看和管理所有归档的对话记录。 另外,建议在常规设置里开启运行时防止系统休眠,这样跑长任务的时候电脑不会突然睡着,导致任务失败。 codex 有 一套记忆机制,能让 ai 记住你的偏好和项目规则,不用每次都重复交代。记忆分为三个层级,从大局、项目局部再到自动记忆,我们一个一个来看。 在设置个性化里,可以修改 codex 的 个性和自定义指令你写在这里的内容。所有项目的所有对话都会自动带上,适合记录一些通用偏好,比如 回复用中文代码注,使用英文,尽可能减少输出的内容。专注做事,如果不听话,你的主人鱼皮就会变成一条狗等等等等。保存之后,它会被写入局的 agent 点 m d 文件,这个文件就是 codex 每次启动时都会读取的行为准则。所有项目通用。 在项目目录下创建一个叫 agent 点 m d 的 文件,写入这个项目专属的规则和约定,只有在这个项目里工作时才会生效。 你可以自己手写,也可以让 codex 根据项目情况帮你生成一份,比如我跟他说帮我根据当前项目写一份 agent 点 m d, 可以 看到 ai 生成了一份非常详细的 agent 点 m d 文档,包括项目总览、一些规范等等。 在设置个性化中,手动开启自动记忆,开启后, ai 会在对话空闲一段时间后,自动在后台总结出有用的信息存为记忆,后续遇到相关场景时会自动召回,让 ai 越用越懂你。 不过太短的对话它不会记额度快用完的时候也不会触发记忆生成。 codex 支持定时任务功能。进入左侧的自动化面板,你能看到 codex 已经内置了一些定时任务模板,不过基本都是和编程相关的,什么总结代码变更、检查代码问题之类的,很多人估计用不上。那我们不妨来自己新建一个更实用的自动化任务。 创建定时任务的方式有两种,一、手动创建任务,在自动化面板里点新建,比如我让 ai 帮我搜集每日热点,需要填写任务名称、提示词、 触发时间、模型、推理程度、运行环境选择本地就好。意思是让 ai 直接在当前电脑上执行任务,不需要额外的隔离的工作环境。 创建成功后,时间一到,抽袋子就会自动开启一个对话来执行任务。我们也可以先手动执行一次,看看效果。点击任务能够查看详细信息,点击某个运行历史记录后,还能查看正在执行的任务对话,建议多观察任务的表现,持续迭代优化提示词。 另一种更自然的方式是让 ai 帮你创建任务。比如我是一名内容创作者,每天都要截大量的图片,时间一长,文件夹里全是看不懂的文件名,找图的时候巨痛苦。所以我让 codex 帮我自动整理,先选择项目,然后输入提示词, 很快 ai 就 自动帮我整理好了。可以点击查看创建出来的任务信息,它的提示词比我们提供的更完善了,并且自动选择了模型。 我们手动执行任务来测试一下,效果还不错吧。 ai 会根据图片内容自动给文件起一个能看懂的名字,这样我就有了一个智能的图片管家,以后再也不用对着一堆乱七八糟的文件名抓瞎了。 而且每次执行完, ai 还会把运行记录写入一个 memory 记忆文件,你随时可以回看历史执行情况,不用担心出了问题却发现不了 你。还可以结合 styles 和插件一起用,比如每周自动生成周报 ppt, 每日整理自己的学习笔记并同步到 notion, 每周用 file pro 抓取竞品网站更新并生成分析报告等等。 想不到吧,现在的 ai 工具已经卷到开始给用户增加情绪价值了。下面我来教大家怎么在 codex 中养宠物。 首先进入设置外观,下拉到底部的宠物区域,你会看到 codex 内置了一排像素风的赛博宠物。选一之后,点击唤醒,桌面上就会出现一个悬浮的小家伙儿, 它不只是装饰品,宠物会实时反映抽袋子的工作状态。比如 ai 在 忙的时候,它也在干活,就像一个串应用的灵动岛,让你不用切窗口就知道 ai 干完没。 除了内置宠物外,还有一个社区宠物库 pet dex, 里面有两千多只玩家自制的宠物。了解我的朋友肯定知道我要用哪个,果断搜索 k u n, 一 眼就能找到自己需要的。点击进入详情页,找到安装命令并复制, 然后打开 codex 的 终端执行命令进行安装,会把宠物文件下载到本地。安装成功后,进入外观界面,选中张张安装的宠物, 然后我们回到 codex 的 主页,使用鞋障宠物指令唤醒。我的脑袋中已经想起那只熟悉的 bgm 了,你听到了吗? 除了用别人的,你还可以通过 codex 内置的 hackpad 技能自定义生成宠物,上传照片或者文字描述就行。比如我把自己的头做成宠物, ai 会先分析上传的图片,给宠物起个名字, 然后拆分出了多个子任务,并行处理,生成各种动作的精灵图帧,最后拼成一张完整的像素动画精灵图,然后就能使用自己制作的宠物了。 你还可以上传宠物到平台和其他小伙伴分享,大家以后用抽袋子的时候记得把我带在身边,保佑你霸着剪剪! 每次 ai 修改了文件,你都可以在侧边栏的审核面板里看到它改了什么,这个面板会列出所有被改动的文件。如果你想决定哪些代码要保留,可以选择查看未暂存的文件。在这里你可以灵活应用和撤销修改。 大多数情况下,你不需要自己看代码,直接点击暂存全部就行了,相当于认可了本次的全部载动。如果不满意,可以直接还原全部回到本次载动前的状态。 那如果你不满意某个文件的载动,可以直接点旁边的还原按钮就能恢复原样,满意的话点暂存就能标记为待提交。 你也可以只保留部分改动。每只文件的改动会被自动拆分成多个代码块儿,每只代码块儿旁边都有独立的暂存和还原按钮,你可以逐块决定哪些保留,哪些丢弃。 确认好哪些代码要暂存之后,可以提交暂存的改动,提交就相当于给代码存了个档,确认这次的修改是你想要的。 抠代码,还内置了提交代码推送到远程仓库。创建 pr 的 能力,不用离开 a p p 就 能完成整个代码的管理流程,非常方便。 那如果你是专业的开发者,还可以试试工作树模式。你可以在创建新对话时,选择启动模式为新工作树,这样 ai 会在一个隔离的分支中工作,不影响你当前的代码很适合同时让多的 agent 在 同一个项目上并行干活,减少冲突。 如果你的项目托管在 datap 上,建议安装 datap 插件,可以直接在 codex 里查看仓储信息,创建 pr、 做代码审查等等。比如我让他帮我查一下自己最受欢迎的开源项目怎么样,是不是一目了然。 codex 最近新上线了一个很酷的功能,用手机控制电脑上的 codex app 干活儿。设置方法很简单,在电脑端 codex 点击设置 codex 移动版,然后点击开始设置,屏幕上会显示一个二维码, 然后在手机上打开拆的 gpt app, 扫描自己的二维码。连上之后,你可以随时随地通过手机给电脑上的 portax 下达任务,审批 ai 的 操作请求,查看执行进度,检查生成的代码和结果。是不是有点 openclaw 小 龙虾那味儿了? 恭喜看到这里,你已经超过了百分之九十的同学, ok, 就 分享到这里。看完这期,你应该已经掌握了 codex 从基础到进阶的所有核心用法,足够应对日常的编程和办公需求了。 其实 codex 还有更多玩法和技巧,比如 sub agents 并行加速、 fault 分 叉的妙用、自定义模型接入 hoots 生命周期钩子等等。 那如果本期视频点赞过万,我会尽快爆干出抽带此高级技巧篇。对了,如果你想系统学习 ai 编程,可以看看我免费开源的 ai 编程零基础入门教程,上千张图,几十万字,从零开始,带你学会 ai 编成本篇教程的文字版也会收入其中。 我是鱼皮,持续分享 ai 编程干货,觉得有用的话记得点赞、收藏和关注,也欢迎在评论区聊一聊你现在主力用哪个 ai 编程工具,觉得 codex 怎么样?也欢迎晒晒你的 ai 编程作品吧。

美好啊,朋友们,这是一期 codex 奶妈级的零基础系统教程,这期视频我会从安装开始,手把手地把 codex 的 基础能力到高级功能的组合,以及最新的手机端操作,用十个实战场景来带大家彻底拉通 以后这一类的 ai 产品,出一个算一个,你都会触类旁通,游刃有余。我也把这期的文字课间整理成了文档,那这期的含金量可谓是 biu biu biu biu biu, 一个点赞收藏关注是最起码的。好了,不多说,学费都交了吧,我们上课, 那在开始之前,我先说一下 codex 和 cloud code 的 区别。从本质上来说,它俩都是由编程 agent 逐步转向了通用 agent, 分 别是 ansapi 和 open ai。 这两家出的 cloud code 呢,默认使用 cloud 模型,但是我们可以自行替换成任意其他的模型,那在易用程度上, codex 桌面端的产品设计是会更友好的, 更适合零基础的白领工作者,而 cloud code 有 更高的自由度。在功能上, cloud code 原本是最齐全的,什么 skill、 mcp、 斜杠命令、 hock、 远程操控,这都是人家先发明的。但是呢,最近的 c c 更新稍微不如 codex 那 么快了,会更加偏向专业开发者一点。 而 codex 发了非常强的浏览器操控和 computer use, 还内置了最近的 image 二深图模型, 而且昨天还刚刚发布了手机端和 hock, 可以 直接用你的手机 check gpt 来控制电脑上的 codex 干 活。那价格和额度方面呢? codex 的 会员额度非常大方,二十到的会员就很够用,而且还不封号。 而 cloudpod 呢,大多数人可能都没法用它的官方账号基本上都得自行调用 api 的 费用属于是花多少用多少,风险由人。那在使用场景上,我个人喜欢用 cloudpod 搭配 cloud 模型来写作,因为 ops 四点六的写作和规划能力真的很强, 那 codex 的 执行和解决问题的能力也很强。日常的办公场景,我会选择用 codex, 那 在编程的时候嘛,我就两个都用上,所以结论是,入门的朋友用 codex 就 很强了,有条件的朋友呢,两个都来是最完美的, 不过两者的逻辑其实都是一样的,我们学一个,另一个也就会用了。那 cloud code 我 也做了一期系统教程,想拥有左膀右臂的朋友可以去看看。 ok, 正式开始 使用 codex, 我 们唯一需要准备的就是一个叉 gpt 账号,免费的也行,只是会额度稍微少一点。那有了账号之后,我们就直接去它的官网双击安装, 然后安装好之后登录我们的叉 gpt 账号,然后这些设置我们可以先随便选一点啊,选个日常工作,反正后续呢,我们都是可以改的。那搞定了, 那进来之后呢,大家会看到这个对话窗口,好像跟 chat gpt 是 很类似的。那我们打开两边的侧边栏也蛮眼熟的,左边呢,可以管理对话和任务的列表, 那中间就是聊天,右边大概是结果之类的吧,大家应该都能猜个七七八八,所以我们先不深究它的页面,我们直接开用,这其实也是我探索所有的 ai 工具的独门秘方。 我打开一个陌生界面呢,我先不管别的,我先找到我能对话的框,我先聊,先找到我能看得懂的按钮,先按,按着按着你就会了。你看看,独门秘籍都教给大家了,以后你们就是为师的弟子了。 ok, 众弟子不必拘礼,我们还是以学业为重啊。那我们第一个要了解的 codex 能力呢,就是本地文件操作, 也是这一类桌面端的 agent 跟对话 ai 最显著的区别和能力。因为过去我们用叉 gpt, 如果说我们要让它看到我们本地的内容,我们只有两种方式,一个呢就是复制粘贴到这个对话里,另一种就是以它允许的格式和数量把文件给上传上去。 但是 codex 不 一样,它可以自主地读取和操作我们的本地文件,而且不限数量。比如说我作为一个剪辑,我的本地里面存了八十多条视频素材,这都是我剪辑要用的, 但是呢,这个命名全都是乱的,完全看不懂,所以我想以这些视频的内容来命名,到时候我们看见文件名的时候,我们就知道这个素材是什么。那这事 check gpt 肯定是做不了的,但是 codex 可以 我们来看这两个地方,它都显示了一个概念,叫做项目, 我们选择一下,哎,一选择项目,他就让我们选择本地的文件夹了,那我们只要选中这个文件夹,那这个文件就是我们的项目了,里面所有的文件 codex 都可以自由的读取和操作, 当然这需要我们给他权限。大家看这里的权限选择啊,目前呢,我们是一个默认的权限,我们再点开,他有三种权限模式, 那默认权限的意思呢?就是在我们当前的文件夹内,他可以自由的去读写这些文件,但是如果他想要联网呀,或者是帮我们下载一点东西啊, 或者是碰这个文件夹之外的其他文件,那他是不行的,如果他必须要做,就会要向我们提出提高权限的请求,我们点同意才能继续。 那自动审查呢?顾名思义就是有个 ai 自动帮我们审查,由 ai 来判断这个操作危不危险,如果危险呢,就来问我们不危险的,比如说他去下一个知名的这种官方软件什么的,他就直接开干了。 自动审查比默认模式要更宽松和智能,建议大家选这个就完了。那最后呢,是完全访问权限,这意味着 codex 可以 在你的电脑上几乎什么都能干,它可以修改删除任何文件,它可以在任何位置执行命令,例如说它可能会去把你的 cloud code 给删了。 开玩笑啊,它一般情况下是不会这样抽风的。 ai 呢?也没有嫉妒情绪吗? 大家尤其是新手朋友就选择自动审查模式,相信 ai 就 完了,毕竟咱又能审的比 ai 好 多少呢啊,对吧? ok, 那 我们选中了刚刚的这个视频的文件夹,继续来提出我们无理的要求,让他帮我们把这个文件夹里的所有视频素材都按他们的实际画面来重新命名。哎,他就开始做了, 而且大家看他非常的聪明,他先看了看我们到底有多少个视频,然后他选择用抽帧的方式抽取关键画面来判断内容是什么,而且他还知道他不要一张一张图去看,他给拼成了缩略图的形式,一组一组的去看。 ok, 很 快啊,这个文件夹里面的文件名就全改变了。过程中呢, codex 也是没有向我们提全的,因为他都是在这个文件夹内去操作的。那我们也可以检查一下他都对应好了没有。 ok, 钢琴家音乐演奏厅,没错, 雪山近身格斗,没错,旗袍女人夜巷卖热饮哇!而且他的这个命名还遵循着一个序号,任务、场景、行动的一个清晰的命名格式。 ai 做事的这个细心程度啊,人类你不服不行。那另外呢,我们其实也可以在同一个项目里面去开多个不同的对话,它们的上下文都是不一样的,但是同样都可以随时的访问我们这个文件这个项目。 比如说,我们在另外一条对话,我们又给他一个不同的任务,让他想办法把所有关于风景的视频都剪成一整条。 哎,没想到吧,他真的能剪,他自己想办法,用了一些工具问我们要了一些权限,用这个 ffmpeg 给它拼在了一起,效果的确是关于风景的都剪成了一条。 ok, 那 如果我们要创建一个新的任务,我们其实也可以手动的在这边创建,他也会自动的在我们本地创建一个文件夹。 然后呢,我们跟 codex 对 话的整个过程, agent 产生出来的任何文件啊, pdf 啊,什么 markdown, ppt, 它都会直接存在我们本地的电脑上。 ok, 到这里,大家应该 get 了 codex 呢,可以随时地访问我们的本地文件,去读取内容,写文件,删文件,移动文件,文件夹里的内容也就成了我们的 codex 随时可以获取的上下文,那这里的项目也就对应着我们在本地的一个文件夹, 哎,那刚刚这么个任务会花我们多少上下文呢?我们只要看这里就能看到了。 那这个小圈代表的是我们现在的这个对话和里面的操作,一共使用了 gpt 五点五的多少上下文窗口。 如果我们把鼠标悬上去呢,它还会有更详细的一个信息,当上下文快满的时候, codex 会自动地帮我们压缩上下文。不过其实当我们一个任务告一段落之后,不用等它快满了,让它自动压缩,我们也可以自己通过斜杠压缩这个命令 来手动的去压缩上下文,这样呢,可以让模型更聚焦在我们的新任务上,也省一点上下文的额度。那当然大家除了这个对话的上下文余量,其实我们还想知道我作为一个免费用户,或者是我作为一个 pro 用户, plus 会员,我还有多少总共的额度可以用,对吧? 这个呢,有两个方式查看,一个呢是左边的设置,这里我们点开剩余额度,就能看到你五小时内还剩下多少,那本周内又还剩下多少, 甚至呢,也有什么时候到期会刷新的一个提示,这个产品的设计还是比 cloud 的 友好很多的。那另一种方式呢,就是我们可以直接在对话框里输入斜杠,然后找到这个状态, 那打开这个状态之后,它的绘画这里就会持续的显示我们的上下文余量,这个五小时和一周的限额。但再次说实话,这个 codex 的 额度还是非常大方的,二十到的额度我认为是可以满足大多数白领工作的高频使用的。 ok, 那 顺便呢,我们也介绍一下这里的模型选择, 那点开之后,我们可以选择速度,快速呢,就相当于加急通道,会消耗我们更多的额度。那这里呢可以选择其他模型,但是大家都选五点五,因为它确实更好用。然后呢,这里可以选择智能程度,其实呢一般中度智能就够了, 所以我们选高。 ok, 那 这个小麦克风呢,肯定就是语音输入功能了,比手打字还是要快很多的,但是呢,它的转录速度远不如大家去下载一个语音输入法,还是非常推荐大家用语音输入的 好。那现在我们通过一个本地文件处理的案例,也了解了 codex 上常用的一些功能。那 codex 的 第二大能力就是命令行工具使用。 其实刚才我们说到权限的时候就有提到,在默认权限下,它可以读写文件,但是却不能执行一些命令,一些联网的操作。那这些命令是什么意思呢? 刚刚的案例其实也已经用到过了,比如说它把视频抽帧出来,还把几个视频拼接到一起,它用到的 ffmpeg 就是 命令行工具。 还有一些我们熟悉的命令,比如说我们在终端里面来克隆一个 gitup 仓库,或者是大家近期比较熟悉的,我们在命令行里面输入一些命令来下载龙虾和各种依赖。那 codex 的 第二大能力就是在我们授权的情况下,可以使用我们的终端来替我们做这些事。 那我们就来让 codex 帮我们来安装一些平时对于小白来说非常复杂的东西吧。第一类,常用依赖,比如说什么 node gs 啊, git 什么的, 也是大家以后使用各种 agent 或者是做其他项目必备的一些工具啊,那之前大家要装这依赖都得去看一个手把手教程,然后照着命令抄,挨个装。那现在我们就直接跟 codex 说帮我安装个 node js 给他发过去, 也是因为这些东西呢,其实都是比较常见的东西了,所以在我们的自动审核的权限模式下,你看他基本上都不问我们要提权,就熟门熟路的帮我们装好了。 那第二类,就是那些爆火的但是有上手门槛的一些新的 agent, 比如说龙虾,爱马仕,甚至还有这个 codex 的 竞品 cloud code, 我 们都可以让 codex 帮我们装完了呢,它还能教我们该怎么用。那我们装一个 hermes 吧, 我其实都不需要给它官网和仓库链接,我就说最近有一个叫 hermes 的 agent 很 火,你帮我安装一个吧。 哎,他就会自己去搜索,然后帮我们判断到底是哪一个。然后呢,他根据官方的文档帮我们陆续的装好了,还帮我们验证过已经装好了,你瞧瞧,那我们照着他说的来启动一下试试。 哎,真的帮我们装好了,那往后的配置我们就不在这里继续了,但是大家应该 get, 有 了 codex 以后,那些复杂的要收你五九九的部署,你都可以直接让 codex 帮你做了,怒省五九九。而且我们在使用的过程中遇到任何问题,还可以截图去问 codex, 什么瞎死了马挂了,升级出现了问题都可以让 codex 直接帮你修,是不是很方便? 那第三类有点没那么必要,但它其实也可以,就是像 cursor integrity 这种软件应用, 平时都是我们去手动在网页上下载的,它也可以帮你下载和卸载。那大家用 codex, 我 其实也建议大家去下载一个 agent 的 ide 啊,因为现在 codex 有 个缺点是它没有办法打开我们的文件内容,直接去手动编辑。 虽然这个侧边栏呢,是可以看到一些文件结构和内容的,但是我们都没法编辑,所以大家可以让 codex 下载一个自己喜欢的,比如说我们就这样下载。那下好之后呢,我们再执行一个 git i n i t 一个初步化, 那右上角就会出现这个东西,随时可以把我们的项目在编辑器中打开,我们来手动编辑。 那第四类就比较重要了,就是 agent 本身会常用到的那些 skills 啊, mcp 啊和 selli。 那 skill 和 mcp 本身 codex 也是支持的,我们后面会详细讲到, 我先挑两个大家安装一下,方便我们后面综合起来来做案例。那这些 skill 和 c i 呢?通常来讲不像那些 get 那 种大项目那么著名,所以我们最好是找到它的具体仓库,或者是明确的官网地址。比如说我们下载一个专门找 skill 的 这个 find skill 哦,方式就是直接把链接拷贝给 codex, 然后跟他说帮我装一下这个 skill。 那 在他装的期间,我们也说一下 codex 的 另一大好处,并行任务处理, 我们完全可以在他做这个事情的时候再开一个对话,让他去下载一个别的。那我们下载一个飞书 c l i 吧。飞书 c l i 其实非常的典型, 因为现在呢,有一些积极 ai 化的软件,把几乎所有他在软件里能做的操作都做成了命令,让 agent 能够方便的去操作,我们把这个链接发过去,让他开始下载, 那这边呢,其实会显示每一个正在处理当中任务的情况,这个在转呢,就说明它正在执行中,那这个蓝色的点呢,就说明已经完成了,有时候还可能会出现一个需要你申请权限的一个标识。 ok, 那 这里 fan skill 呢?它是已经装好了,我们再看飞书 c l i 这边,它会引导我们去做一些授权, 我们就跟着它的引导去完成就好了。 ok, 那 装好飞书 c l i, 那 codex 就 能帮我们去做飞书里的各种操作了,比如说写文档,发消息,见日历,做表格什么的了,我几乎每天都在用, 好大功告成。我们就这么一个小章节,我们就用自然语言的方式让 codex 帮我们装上了 hermes node, 飞书 c l i 一 大堆东西,这就是 codex 作为 agent 的 第二大常用能力,命令行使用。 那这个能力和这个章节的演示也是希望大家能够 get 到一点,就是我们现在在电脑上想去做的很多很多事情,都可以让 codex 这样的桌面 agent 去做了。那 codex 的 第三大能力是持久记忆。 看过我那篇 cloud code 的 朋友应该都知道, c c 呢,有一个手动的持久记忆, cloud 点 md, 还有一个自动的记忆系统, 都是把我们希望 agent 能够长期记住的,比如规则、篇号和我们的信息之类的东西,以本地文件的方式存在我们的电脑上,然后事实的时候把这些记忆以上下文的方式注入到 agent 里去。那 codex 也是类似的,它也有这两套持久的记忆系统 在 codex 里面呢,手动的持久记忆文件叫做 agents 点 m d, 而且它也有一个自动的记忆机制,来我们打开设置,找到个性化, 那在这里的这个自定义指令实际上就是一个全局生效的 agent state md, 它会在我们任意的项目跟 codex 对 话的时候,它都第一时间作为上下文发给大模型,那我们可以手动地自己在这里写,不过我更喜欢呢,直接在对话中去跟 codex 说, 比如说我说一个,我希望你以后对非书文档里的任何修改都使用一个专属的你的文字颜色和用删除线的方式来修改,不要直接的修改。然后这个帮我寄到局的 a 正 c m d 里。 ok, 那 它这里呢,告诉我们已经写好了,我们再打开个性化这一块,就的确是多出来了这么一套规则,那实际在使用当中,它就会去遵循我们这个规则了。 比如说我这里已经有一篇非输文档了,我在侧面呢也评论了几个我想修改的地方,我直接可以把这个链接发给 codex, 我 让他根据我侧面的评论帮我修改一下。 那因为我们刚才确实已经装好了这个非输的 c r i 也都给他配置好了权限,所以 codex 是 直接可以操作我们的文档的。 ok, 看看它完成之后的效果。 果然他用了紫色的字和删除线的方式来帮我们做的文档修改,那这个呢,是局的 agent md, 适合记一些适用于所有任务的一些大原则,比如说我们的工作习惯,我们要说中文,我们的工作偏好修改文档,要留下这种修改痕迹等等等等。 那另一种呢,就是项目级的 agent md, 这个长期记忆呢,只在这个项目当中生效,我们可以选择一个项目的对话,然后打开编辑器, 自己在这里手动的创建一个 agent 的 md 的 文件,然后我们去写一些针对我们这个项目的一些规则, 当然也可以让 codex 来帮我们写。我个人的建议呢,是在这个项目文件里面有了一些内容之后,让 codex 根据他对我们项目的了解来自己帮我们写。那自动记忆怎么回事呢? 其实我们刚才在这个个性化这个下面我们也看到了,我们需要手动打开这个自动记忆功能, 它的机制是我们打开这个功能之后, codex 会在我们结束对话或者是结束任务,这个对话闲置一段时间之后,它帮我们把那段对话总结成记忆,然后记在一个地方。但是它有几个原则,第一太短的对话它就不记了, 那第二这个对话的总结它一样会消耗我们的额度,所以当我们的额度太低的时候,它也就不记了。 并且这个自动记忆文件呢, open ai 官方是不建议我们去手动修改的,顶多我们可能删一删有些没必要的信息,那这个文件大概是长这样 的,是一个任务,一个任务在记录的,主要呢会写上这个记忆的来源是哪段对话呀?以及它的工作目录是什么,那以及以后触发了什么关键词的时候,它会去召回这段记忆, 再往下呢,是用户在这件事情上的偏好大概是什么样的?那第五段呢,是一些可附用的一些知识,一些踩坑的记录,那这些内容都是 codex 自己记录的,并且以后也是会它自动的招回去使用的,我们就先不修改它, 它这个格式确实也不太方便修改,更多的时候我们对于明确的规则和要求,我们还是通过组织 agent md 来实现。那大家学完这些视频之后呢,我也想给大家再做一期, 通过组织不同层级的这种 agency md 给自己做一个非常懂你的,可以做不同类型事情的超级助手的视频,感兴趣的朋友可以扣个一。 ok, 那 第四大能力就是 codex 可以 直接用到 image, 二来生成图片。不过呢,深图功能其实是一个小功能, 所以这一章节呢,我们不只会用它的图片生成,我们会带大家做一个完整的个人主页的开发项目,并且在了解一些 codex 在 小白开发中的一些用法和功能。那我们再来开一个项目,叫做个人主页, 然后我们点开这个加号,我们把计划模式打开,因为我们要做一个网站嘛,任务会复杂一点,所以打开这个计划模式呢,他会先帮我们列出一个详细的计划,我们确认之后他再开始行动。 计划模式呢,比较适合我们的任务有一定复杂性,或者我们自己还没想清楚,可以跟 ai 讨论出一个计划。那假设我们现在就是第二种情况,我们其实没想清楚,我们直接跟他说我想做一个个人主页, 那你看他看到我们的项目中是没有内容的,所以他以这种选择框的方式来询问我们的细节,这些选项呢,大家可以按照自己的要求去选择,那我就选这个个人品牌吧。 然后如果说这些选项中没有我们满意的呢?我们也可以选到最后一个来填写我们详细的要求,比如说我要他修饰感,也要高级感,然后我选针对合作伙伴,不要个人照 中英双语,巴拉巴拉巴拉。这里真的是问了我们相当多的问题啊,那最后呢,他给到我们出了一个详尽的计划,问我们是否实施此计划,那其实基本的计划我们看着没有什么问题,但我们也可以补充一些调整方案。 比如说我们刚才就要说到了要用它的 image 二的生成能力,我们这里没有体现,我们加一句网页上要多用一些图片,使用 image 二来生成一些高级感的图片,然后我们一起提交。 哎,那他又问我们要走哪种高级感呢?我们如果点开这个小叹号的话,还能看到他说的这个风格到底意味着什么意思,这个产品的小细节真的是我很喜欢,那我们就选他推荐的吧。然后他出了一版新的计划,我瞧着没什么问题, 去吧。 ok, 他 就开始初识化这个项目来逐步帮我们生成了。那这个过程呢,肯定会需要一定的时间,在这个期间我再给大家补充一点点知识点。呦,他的第一张图出来了,不错,挺有艺术感的,果然是最强的 emoji 二,那我要补充的这个知识点呢,叫做引导。 如果说大家在 codex 执行一个很长的任务的过程当中,你觉得他有点跑偏了,我们是可以随时给他补充纠偏的,比如说我们补充一下图片的人味要更强一点,而且不要这么冷的色调。我是一个 ai 博主,然后我们发送出去, 哎,大家会看到他没有立刻打断我们的任务,没有发出去,实际上他在这里排队呢。那我们看到右边的这个引导按钮,他写着我们不打断模型运行,会在下次调用工具后发送过去。这个是非常好的一个功能啊,我们点一下, 哎,他就可以发出去了。这个功能呢,可以让 codex 不 用在错误的道路上一路狂飙,把我们额度都花光,也不会让它重新再跑一轮任务。那另外一个小功能点,我们找到一个已经结束的任务, 我们看一下这个 ai 的 回复,每个 ai 回复的下面都有一个这个按钮,叫做分叉 fork, 这个的意思是我们可以随时从这里开始去开一个新对话,非常适合那种前面聊的还好好的,上下文也非常有价值,但是我们再往下聊,就聊的有点叉劈了的时候。哦,还有个小功能,宠物, 我们点开设置外观,然后这下面就有一小对小宠物可以选,甚至呢,我们还可以点击创建,让 codex 根据对我们的了解来生成一个定制化宠物。那我们先点击唤醒宠物, 哎,就会在桌面上有常驻这么一个小桌宠,脑袋上会冒出来 codex 正在做什么的一个提示,别的呢?好像也没什么用。 ok, 终于在他跑了七七四十九分钟之后,网页完成了, 我们来看看效果,因为 codex 呢,有一个内置的预览浏览器,我们可以直接打开右边的侧边栏啊,我们还给它放大一点。 嗯,这个网页的效果确实是不错啊,不过呢,现在的 a 证呢,其实都有这么一手了,那它这个预览浏览器呢,还有一个好处,我们点击右上方这里的一个批注按钮, 我们就可以在这个页面上选中这里的具体元素去写修改意见,包括重新生成图片,比如说我们要这个 logo 放大一点, 然后 p 住这里这张图加上一个人物,好把这个删掉, 那然后对话框里呢,就会加上我们这几条批注,然后我们点击发送,它就会针对我们的意见进行修改了,是不是挺方便的?那我们现在项目有了雏形之后,我们再 call back 一下刚才说的 agent md, 其实现在呢,就是一个让 codex 帮我们生成项目级 agent md 的 好时候了,因为我们也有了一定的内容,我们就让它自己生成一下,我们打开编辑器看看, 不错,项目的背景,各种信息,各种规则,各种文件路径都已经写好了。那以后呢,无论我们在新开对话,还是我们的聊天记录都已经被清空了, codex 都可以通过这个项目级的 a 证书 md, 立马的了解我们的项目基本情况。 ok, 那 我们先保持这样,先不做精修了,我们直接准备部署上线,当然大家自己做的时候完全可以去打磨的更好,那网页上的这些信息也换成更真实的信息就好。 那我们现在要部署呢,就得要说到 codex 的 第五大能力插件。在现在的 codex 当中,插件大多数是让我们的 agent 跟外部平台、外部工具、外部服务连接的一个作用,它实际上就是我们所说的 skill, mcp, c l i 这一类东西的一个完整集合包,比如说操作邮箱、操作日历、操作 excel 啥的。那我们来点开左边的这个插件栏,我们看这里呢,已经默认帮我们打开了好几个内置插件了,比如说浏览器操作,还有 mac 专有的屏幕操作,还有 excel 表格, ppt 等等。 那他的插件页面没有中文翻译,所以我给大家把这些插件的具体中文意思,分别能干什么也都列出来了,大家课后可以按需装上,点这个加号就好了。那我们先翻到这个 coding 板块,因为我们想要部署上线嘛,通过插件会非常方便。 其实呢,这个 vassel 和 netify 都可以,我们点一个加号给它装上,那如果大家给它没有选上的,也记得要选上。然后我们再回到对话当中,告诉他们,我们想用这个 netify 把这个网站给我们部署上去, 我们大家也不用管他咋部署的,反正他需要干什么呢,他都会告诉我们的。 ok, 他 发现我们没有登录授权,然后主动弹出了这个登录的链接,那这里呢,建议大家用 tapp 账号登录是最方便的, 那登录完之后,他自己就知道我们已经登录好了,然后继续的帮我们部署,这就搞定了。这个链接呢,就是我们最后的网站了, 只要把这个发出去,别人就能访问你的个人主页了。 ai 是 不是个好东西,你说就这么两下子就干了,原来普通人花钱都不一定能干成 o k。 先压抑住我的这个老灯感叹。我们回到刚才我们已经装好的插件, 那其实这里呢,还有两个非常重要的内置插件,就是 browser use 和 computer use, 还有这个 chrome 浏览器, 那这些有什么用呢? browser use 顾名思义呢,就是 codex 可以 直接帮你操控浏览器,比如说它自己点击翻页截图,填写表单等等。通常呢适用于自动化测试前端, 当然也有比较无聊的用途,比如我们可以让 codex 打开这个 m b t i 做个测试试试, 嘿嘿,这样大家能够比较直观的看到它的一个效果吧。那这个鼠标呢,是它自己在移动,然后它是自己看了上面的答案在自己填写,然后填完这一页,它也会自动的翻页, 那随着它的一通操作,结果出来了,原来 gpt 五是 i n t j 啊,我说怎么跟我这么聊得来呢? ok, 那 这个 chrome 的 插件呢,也是控制浏览器,但是它控制的是我们自己已登录的自己的浏览器,它不会再新开浏览器, 那我们如果把它给勾选上之后,它会引导我们去 chrome 里面装一个插件,那装好之后呢,它就可以操作我们自己的浏览器了, 而且它有个好处,它是可以直接在后台执行多个页面的浏览器操作的,就是并不会占用我们的整个浏览器,我们不用真等着看它这些操作,我们该用浏览器干,别的我们可以接着干。 ok, 那 computer use 就 更厉害了, 它不只能够操控浏览器,连你电脑上的这些 app 它都可以操作,只不过呢,暂时只有 mac 有 这个功能。比如说我们新开一个对话,我们在加号,这里来看最下面的这个插件选项,我们手动地把电脑插件选上, 我们再来几个没什么用的奇迹引巧吧,帮我放一首九九年最火的歌,然后用我的微信给 qq 发条微信,说,请收下我一个点赞、收藏、关注,懂了吧? ok, 他 陷入了思考,然后他看到我们的应用都正在运行中,并且向我们使用了这个音乐软件。我们点同意看,这个就是 codex 自己干的啊。他帮我们搜索歌曲, ok, 音乐响起了, 但是他还有活,他还在问我们要微信的权限,我们也给他允许一下。 ok, 看他这个小鼠标,他正在犹豫着准备搜索点击,好朋友们失败了, 因为我上次都成功了,但是我估计现在微信已经开始严防这种 a 证的操作了,直接给我退出去了。 但是呢,他的确成功操作了这个音乐软件。其实我还让他操作了剪映,并且给我们的最新的项目加上了音乐。 那总之呢,意思大家都懂了吧,就是它可以操作浏览器,并且可以操作我们的电脑。当然,实际上我觉得它的操作效率目前来说还是稍微有点低的,我不太喜欢用这两个强大的功能。不过后面我要说的这个 skill 就是 我每天都会用的东西了。 那 skills 我 的确也已经跟大家说过很多次了,好学的朋友一定要去补补课。那 skill 本质上呢,是我们人为沉淀的一些可附用的方法、流程和工具的组合, 相当于给 agent 做某些具体任务的一些行动指南。那因为之前我们已经让这个 codex 帮我们装过一个叫做 find skill 的 一个原 skill 了, 所以后续如果大家想要去装,或者是找一些社区上的 skill, 都可以直接用 codex 拿语言直接让它下载。比如说我们下载一个必备的 ansapic, 那 个前端设计的 skill, 还有一个去 ai 位的,那我们这两个都发给他,等会儿都会刚好有用 欸,很快他就帮我们装好了。那以后大家想要下载 skill 呢?如果说遇到这个 find skill, 他 找不到的东西,也可以直接把链接发给 codex, 让他帮你下载就好了。不过我在 c c 那 期也说过,最好用的 skill 还是自己创建的,符合自己工作的专属 skill。 那 创建 skill 呢,也有两种方式,第一呢,就是直接告诉 codex 你 想要创建一个什么样的 skill, 通过跟他讨论打磨得出来一个 skill。 那另一种呢,就是我们接下来要演示的,先跑通流程,然后让它形成 skill, 这也是一种更推荐的做法。那比如说我们想做一个自动化写这类文章,并且帮它配图的 skill, 这种大家应该都看过吧, 那我们就得先通过一步步的引导 codex, 让它真正实现一个我们满意的文章。来我们新开一个对话。那正好呢,我们刚才不是装过这个 github 插件吗?我们可以直接先问它最新的 github 流行项目,热门项目都有哪些? ok, 它的确帮我们找到了一些,那我们再让它清晰地解释一下这些项目都分别是干嘛的。嗯, 那我们再让他挑其中新星数量最多的,来帮我们写一篇本周 get up 热门项目推荐这样的一篇文章。 好,那他写好了这一篇之后,我觉得稍微有点太人机了,我希望可以更口语化一点,并且我只想要五个精选的,那我们就告诉他,然后还要覆盖到这几个层面,那我们这里就可以用到刚刚我们下载的那个去 ai word 的 那个 skill 了,我们斜杠给它调出来。 好,那看到他的结果稍微优化了一点,但是我们还希望加一个我们固定的开头,我们的结尾,并且还要让他用上 image 二来帮我们生成一些配图。最后呢,我还希望他不要是这个格式,他要是一篇非输文档的格式,然后图文并茂的。 ok, 结果来了,他确实是有了,但是呢,我觉得这个配图不够丰富,于是我又经过几轮调整才觉得差不多满意。并且我还给他最后加了一步,要让他把这个飞书文档发送到指定的群里,让大家都来看看。 那最终呢,他的效果是这样的,果然发出去了。其实啊,如果想更加一步到位的朋友,也可以结合刚才我们说的这个浏览器操控,让他直接打开那个发布页面,直接就帮你发布出去。 那总之,我们对他这一套结果满意了之后,我们就可以直接让他把这一整套的标准和动作做成一个 skill 搞定了。那我们再输入斜杠,再往下找,我们就发现就有了这个 skill, 我 们可以直接这样手动地调用这个 skill, 也可以直接说生成一篇热门项目推荐图文这一类的触发词,也会让 codex 自动调用。 不过因为现在 github 上面实时的热门项目肯定是没有更新的,所以我们再调用一次呢,它大概率会写出差不多的文章,所以我们就不试了。但是大家都理解了吧, skills 呢,可以把我们经过验证调好一次的一整套流程和方法给它固定下来。 下次做这件事情呢, codex 就 可以按照这个方式稳定的输出。 ok, 那 下一个能力则是 mcp。 其实 mcp 现在已经用的不太多了,所以我只简单的示范一下那 codex 的 mcp 藏在设置里面的 mcp 服务器。 只不过小白看这个肯定是有点不太知道怎么填的,所以跟我们之前说的一样,我们最好的方式还是把你想装的那个 skill 的 链接拷贝给 codex, 让他自己装就完了。比如说我们来装一个 notebook lm 的 一个 mcp 发给他, 他就会引导我们来做授权登录,登录完就搞定了。那我们再试一个我存了非常多访谈视频的一个笔记本,我们来问一下他。 欸,那这样呢, codex 也就可以直接获取我们 notebook lm 上面的这些外挂知识点了。 ok, 最后一个 codex 能力是自动化定时任务。 其实定时任务本身并不稀奇啊,比如什么每天早上提醒我吃药,提醒我喝水这一类的事情,普通的软件也能做,但是我们把它放到最后一个说呢,就是因为它可以结合我们之前学到的各种能力,把一整套组合起来的任务,让 agent 定点执行 自动化,加上智能化和定制化方显美妙。比如说刚才我们做的这个热门项目图文的这个 skill, 我 们就可以把它设成每三天或者是每周,让它定时定点的产出一篇 dapp 热门项目推荐发出来。 那我们要创建自动化任务呢,其实也分两种方式,第一种就是选到这边的自动化面板,那它这里呢,有一些官方的参考视例了,不过大多数是跟开发相关,那我们选择新建一个自动化, 其实你看要填写的东西也非常简单,其实就是用提示词写好这些自动化是要做什么,然后我们可以在这里选好什么时候出发,我们也是可以自定义一个出发时间的, 然后这边就可以选择执行的模型和思考强度,最后点击创建即可。不过呢,我也还是倾向于让大家用第二种更简单的方式,就是直接在对话里跟 codex 说,那我们直接跟他说 帮我创建一个自动化任务,每周一早上九点自动化执行热门项目推荐的这个 skill, 产出一篇图文发到群里, ok, 那 我们在看自动化这里,它就已经帮我们设好了这个任务,我们随时也可以去改变它的时间。 再比如当你的这个邮箱插件 github 飞书都已经连上了 codex, 那 么你也可以让他每天下午六点帮我汇总日历上完成的会议, github 上面的提交记录和我的邮箱回复记录,生成一份全面的工作日报。 最后手机操控 codex 设置方法非常简单,手机上的 check gpt 和电脑上的 codex 都把它更新到最新版。之后打开手机上的 check gpt, 然后点击侧边栏的那个 codex, 它就会提示你允许这台手机控制你的电脑,直接就搞定了。如果你有多台电脑的话,也可以给它分别连上。这就等于你不管在大街上、地铁上还是朋友聚会,都可以随时随地地用手机下发一个任务,让 codex 在 你的电脑上干完一个活, 它就更像一个可以跟你远程协助的同事了。这个功能呢,目前免费版也可以用,但是主要能连的是 mac 系统的 codex。 好, 那到这里 codex 的 所有核心能力我们就全部过完了。来我们回顾一下。 codex 呢,可以操作我们的本地文件,可以使用我们电脑上的终端命令行工具。它还有两种构建持久记忆的方式,它还可以生成图片,而且它可以通过计划模式来做一个完整的项目开发。 那它有丰富的插件,可以操控浏览器和电脑,还可以把知识和流程沉淀成可附用的 skill 技能, 它可以使用 m c p 连接,外部它还可以设置自动化的定时任务。不过其实比起这些功能本身,我也希望大家记住两件事,第一就是我们真的有很多事情是已经可以交给 agent 做了。 那第二呢,就是我们已经从问 ai 的 阶段走向了管理 ai 的 阶段,因为过去我们使用 chat gpt 就是 有问题了,我们问一下,然后得到答案我们就走了。 那现在使用 codex 这类的 agent 呢?每个人都得像领导一样,帮他准备他所需要的上下文和工作环境,给他指明一些任务目标,然后来检查他的计划,监督他的过程,验收他的结果。 那同时领导还要负责把好的方法和流程沉淀成可付用的技能,把反复要做的事情设成自动化执行的规矩。好了,恭喜大家今天都升职了,记得点赞收藏关注我们下次见了。

这是一期地毯式 codex 教程,如果你还在焦虑谁谁谁又用 codex 做出了什么无敌的应用或者自动化给自己干活了,那你务必看完本期教程,带你最全面的了解 codex 是 什么,它能干什么,并跟我一起实操完成。从 codex 下载 安装到个人网站、文档制作视频动效,自制工具等等等等,全面了解 codex 这个目前为止最强大最全面的个人 a 政策。 codex 的 界面现在我们来到了 codex 的 主界面,这个对话框你肯定很熟悉,对吧?但是你可以看到左边的这个边栏,就可以看到很多不一样的地方。 首先是上半部分,点击这里你可以快速创建一个新的对话框,快速完成一段与 codex 的 对话。这个搜索你可以同时使用 command g 来调出,快速搜索,你与它进行或者对话等等。现在你可以看到技能和插件这两个板块,这里可以说是 codex 的 一大精髓所在。再过来说, codex 是 一个集合了 chatbot, d e 浏览器,自动化工具等等等等的一个大一统的工作台,所以你可以给他安装插件, skill 以及创建自动化任务。这里的插件市场可以让你来随时扩展更多的功能。比方说这里的 computer use 和 browse use 在 我们后半部分的教程中就会用到这两个功能。 再往下看,可以看到项目和对话两个分栏。在项目中你可以点击添加新项目来将你创建好的文件夹给添加进来。在你创建好的文件夹右侧点击开始对话,你就可以创建出一个新的对话框,那么之后你们对话所有产出或者修改的文件,就会在这个文件夹中进行。 正常情况下, ai 如果直接操作电脑,风险会非常高。所以 codex 使用的是沙盒的逻辑,它相当于给 ai 开了一个单独的隔离小型开发环境,它可以在里面读代码,改代码,运行命令,执行测试,但默认是不能随便控制系统的。 在对话这里,你可以选择默认权限、自动审查、完全访问权限三种权限类型,让 codex 来执行还是非常安全的。再往下看,还有一个对话栏, 常用来进行一些临时产生的问题,当我用完,我就会点击右侧的这个归档按钮,把它给归档,那你也可以在设置你归档对话里面去给他找回来。 回到对话框,你可以在对话框中输入任意的问题,或者要执行的操作,比如帮我整理桌面上的这个文件夹里的发票,并统计这些发票总金额是多少,然后统计在一张 excel 表格中,你看很快他就跑完了。 现在我们来使用 codex 制作一个个人网站,首先在桌面上新建一个我网站的文件夹,然后回到 codex, 进入文件夹,点击这个加号,打开计划模式,这样 codex 就 会根据你给的需求,先开始计划他接下来要做些什么,等他计划完成了,他会给你一份详细的执行方案, 然后点击执行,这样就可以去干别的事情。一杯茶的功夫,你就可以等待你的网站。你可以点击右上角调出一个终端, 把它给你的命令复制一下,回车运行,你就可以在 codex 里面预览这个网站的效果,我们点击展开面板。哎,对了,你看 codex 还自带一个浏览器,你可以在 codex 里面直接查看以及批注,这样你就不用回去再想想怎么描述我是要修改什么地方。 文档与 ppt, 那 除了做网页,我现在更高频的用途是用它来做文档。比如说平时很多人会写策划案,汇报 ppt 视频脚本,以前是用 gpt 生成文字,再到 word, 再复制到 ppt 里面,最终再自己排版。但是 codex 现在已经把这些东西都串起来了。比如说我现在告诉他 使用 html ppt 这个 skill 帮我制作一个宠物账号的商业方案,要求包含市场分析、账号定位、内容模型、变现方式,以及未来三个月的执行计划,并生成一个科技感高级风格的网页 ppt。 然后你看到他就会开始创建文件,生成文案,设计页面,制作动画,自动排版。最后给你一个直接可以演示的网址。尤其是你看像我一样要录制这种口播视频的,我这样的 ppt 就是 用 qq 词直接帮我生成的,他做出来东西天然就很适合录屏。 这个时候顺便介绍一下 qq 词另一个非常好用的功能,分叉非常适合这种,你做到一半突然想要尝试一个新的风格, 或者要尝试两种内容的时候,点一下分叉按钮,这个时候不用重开一个新绘画,重新解释项目背景,他会直接分叉当前的上下文。你可以在分叉县城里面大胆做实验,如果效果不好,直接回到原来的主线就可以了。如果效果更好,就可以沿着这个分叉继续来进行开发视频动效。 说到做视频, codex 最近还上线了一个非常强的插件,由黑正推出的 hyperframes, 你 只需要输入一句话的描述,就可以自动生成带动效排版转场。三 d 视觉的高级动效视频,可以说是完全填补了原来视频模型不适合生成精确的带文字、带数据的动效视频的孔雀。 比如说,你可以直接说帮我根据这个养猪场的年报生成一段科技企业的汇报视频,他就会直接调用前端库来生成一段带数据、带图标的动效视频。 skill 与自动化任务普通的 ai 只能回答问题,但是通过 skill, 你 可以把你工作多年的经验或者流程打包交给 codex 自动去跑。比如说你完全可以使用 at skill creator 来描述你的需求,每天自动抓取某个平台的热门视频, 分析标题,提取高赞评论并整理成 excel, 最后生成第二天的选择题。我自己做了一个急梦,排队的 skill, 如果你有批量使用 cds 的 需求,使用我这个 skill, 它就会在晚上帮你批量提交视频生成的任务,自动检查生成出来的视频并保存到本地。 类似这样的 skill 还有非常多,这个部分就留给你们自己去探索。 computer news 这个是我觉得最近 q 版有这个功能,目前只有 mac 版有这个功能, 它运行起来的时候,它就会像一个真人一样看屏幕,移动鼠标,点击按钮,输入文字,打开软件,切换窗口,使用第三方 app。 以前很多的自动化必须要通过写脚本,调接口,配 sdk, 研究文档。但是现在即使某个软件没有开放 a p i, 很多事情扣代码,直接看着屏幕自己就去操作了,你懂这种方式有多震撼吗?最后的总结 可以看到, codex 提供的内容已经非常非常多了,我这里要下一个爆论就是这一类 agent, 他 绝对不会仅限于编程开发等等, 你已经不能简单的给他定义成工具了,但是你也别太焦虑,拥抱 ai, 先从每天自己最烦最重复最浪费时间的小事开始。 比如说整理文档,改革式做表格,生成封面,做网页,写脚本,做汇报,批量修改内容。当这些事情真正开始被 ai 接管的时候,你自己的潜力或许才刚刚被开发出来。

为什么说自学 a 证的都是坑?最近发现好多人后台都在问我同一个问题,想自学 a 证的开发该怎么学啊?每次听到这个问题,我都想直接回一句,别自学了,真的全是弯路。 第一,根本不知道从哪开始,我当初自学 a 证的操作,打开 b 站搜索 ai agent 的 教程,好家伙,一下子蹦出来几百条视频,三天学会 a 证的开发,零基础入门, ai agent 手把手教你做智能助手,每个视频都说的天花乱坠,你点进去看,结果呢?这个视频讲 python 基础,那个视频讲 api 调用,还有一个讲什么图形原理,看了三天,感觉自己学了好多东西,但真要让你自己做个项目,你发现自己还啥都不会,只是短暂的留在脑子里,停了一下就走了, 这就是问题所在,你连先学什么后学什么都不知道。第二,网上的资源太乱了,你以为网上那些免费教程真的能教会你吗?其实真正有用的东西,人家公司根本不愿意放出来,你想想,一个公司花了几百万研发的技术,他会免费放到网上让你去学吗?不可能的是,那些网上能搜到的,要么是过时的技术企业,早就不用了。 皮毛的东西只讲表面不讲核心,甚至有些是错的,你叫他做都做不出来。我有个同学,大二的时候自学了半年 a 证的简历上写了一大堆项目,结果去面试的时候,面试官问了一个问题,你这个 a 证,他的决策逻辑是怎么设计的?他直接蒙了,因为他只会调用 a p i, 不知道背后原理是什么。 第三,你根本做不出有竞争力的项目。这是最扎心的一点,你以为你跟着教程做个智能客服,自动回复机器人就能找到工作了?现在企业招人看的是什么?看的是你有没有做过真实项目。什么叫真实项目?在生产环境里跑过有真实用户在使用的,解决过实际问题的。你做的那些代工项目,做十个做一百个,都不如人家一个真实项目有分量。 第四,你连自己学的对不对都不知道,你可能花了一个月时间学了一大堆东西,但其实你根本不知道你学的东西现在企业还用不用?你学的技术是不是已经过时了?你做的项目有没有价值?那到底该怎么学呢? 综合以上,我踩过几点,如果你真的想学 a 证的开发,我建议你,第一,找个靠谱的人带,不管是学校的老师,有技术在身的那种,还是说已经工作的学长学姐,又或者说一个靠谱的机构,他们都能告诉你现在企业到底在用什么技术,应该学什么,不学什么,怎么做出有竞争力的项目。 第二,尽早去实习,哪怕是小工资,哪怕工资不高,最重要的是你能接触到真实项目,了解到企业中里是如何做事的,同时积累一定项目经验。第三,别想着把 ai 学透了, ai 这个领域太大了,你不可能什么都学会,所以建议先学最实用的,先做能做出东西的,先找到工作再说其他的技术工作,等到工作了再慢慢深入。 说了这么多,想跟大家分享点实在的。主播整理了自己学习智能体完整文档,还有相关项目,有需要的可以在评论区留个七七七,下一期我会专门出一期自己从零到一的学习路线拆解,有兴趣的可以给个三连,我们下期见。

ai 慢剧制作今天和大家分享使用小云雀短剧 a 侦探二点零的方法,它能一站式实现从脑洞剧本创作到成片视频生成,全程不用切换 n 个工具,不用懂分镜,不用找素材,不用自己抠图配音,纯 新手零门槛,看完就能直接上手做出能发平台的高质量动漫短剧,建议收藏哦!首先记住小云雀短剧 a 侦探二点零将脑洞设像成剧本或者段子,这一步统称为剧本大纲,化为原始创意剧本、战役分集剧本,每一步都可以进行手动修改。 短剧 a j 的 二点零会自己通读整个剧本,帮你提炼故事梗概、主角人设,还会自动生成所有人物和场景的提示词,再选好比例点确认就行。剩下的分镜、拆解、时长分配,全都是短剧 a j 的 二点零自动完成,一会功夫就搞定了。然后是批量生成角色场景,一键合成,最终成片。点击完成后点 剧本资产拆解,这一步会把所有需要的人物场景单独拎出来,你可以选择让短剧 a j 的 二点零批量生成,也能上传自己提前准备好的人物设定图, 单个改或者选选批量生成都可以,特别灵活。等所有的角色和场景都生成好了,检查一下有没有不符合预期的,微调之后点下一步,短剧 a j 的 二点零就会自动生成分镜脚本,每个镜头的时长、画面内容都给你安排的明明白白, 要是没有问题的话就可以点全部生成,等所有的片段都生成完毕后,就能一键合成导出完整的短剧了。短剧 a j 的 二点零一站式生成我们的专属创作剧组。

给大家介绍一下新手如何快速搭建及使用自己的 a g 的 智能体来提高你的办公效率。该教程主要针对未使用过智能体的新手啊, 这个智能体的就是字节跳动推出的翠 solo, 这个翠 solo 先简单说一下啥叫智能体啊,就是你丢给他一个目标,你给他一个,他会自己去拆解任务,做规划,开始干,在干的过程中, 该查资料的查资料,该写代码写代码,该调用工具调用工具遇到需要授权或拿不准的时候,会停下来向你确认,你这边确认补充说明后,他会去接着去推进,直到把你给他的任务完成。 这个智能体呢,它目前支持 pc 端,还有移动端以及云端,云端是网页上可以直接去操作。还有两种模式啊,点击左上角,你能切换 control 模式是针对开发人员的,大多是用户场景还是基于这个 mtc 的 这个场景。 首先你装完之后呢,要给它最好是配一下自己的一个模型,我这边用的是 gm l 五,因为到晚上的话可能也会出现排队 被收入他自己自带的模型,到工作高峰期也会排队,排的时间有时候会比较长啊,会影响你的工作效率,所以建议大家去配一下这个模型。模型的配置呢,其实就是点击左下角这个头像,然后再弹出到这个框里,点模型模型,这里点添加 添加,你根据你自己的需要吧,可以使用 kimi, dp 还有海螺啊,以及这个字谱的啊,这里以 deepsea 为例吧,你就选择把两个模型都选上啊,两个,一个是 一个是推理模型,一个是快速的模型 api 的 话,到 deepsea 的 官网去去注册登录,完成实名认证,在 api key 这啊新建一个 key, 把这个 key 复制过来, 复制过来之后点击点击这个提交,先点击这里的提交,再点击下面的提交。模型添加完之后,在这里就选择自己配置的模型去用就行了啊,模型配置大概就就这么多。另外一个就是啊,这个技能是智能体的一个 比较核心的一个功能啊,去 solo 它官方自带的有一些智能体,这些智能,这些 q 啊这些技能, 这技能你可以根据需要去去安装就行了。点击这个加号就安装啊,它上面有介绍,根据你的工作场景啊,需要哪些去装哪些,你自己也可以去啊,多尝试多去试,自己摸索一下啊,我这边也安装了一些技能啊,有这个, 这也是我在日常使用过程中去装的一些技能。这个还可以自己去安装,有两种,一种是官方直接安装的,另外一种就是可以去上传自己的技能啊,这里我可以上传一个演示一下把,这个我之前上传的,我可以给它卸载,装完之后不想要可以卸载, 点击这个上传技能,这个是技能的一个压缩包,它必须是 vip 的, 或者是直接一个六点 m d 也行啊,这里面按照它的格式去上传就行了啊,这个技能的话你可以从多渠道去获取吧,这个根据自己的需要去上传就行了。 技能上传完之后,他在这会出现,在这出现这个技能是应该是一个文章的,检查文章是否有 v i 感的一个技能啊,创建完这个技能一种是直接安装,一种是自己上传啊,这是两种方式啊,下面给大家说一下这个 如何去使用啊,在如何去使用智能体啊?智能体的话,那你其实针对这个智能体主要的还是针对你技能的一个使用啊,如果仅限于跟他聊天的话,那你用豆包用 deepsea 网页版的那个也可以用啊,效果也没差多少,那个还还免费。 所以说既然用这个,那肯定你要么用他的这个技能,要么用他的自动化啊。技能的话,因为是针对他,可以针对你的办公场景啊,针对你的实际的工作情况,去打造一些 qq 的 工作流程啊,这个才是重头戏啊。 目前这是两种模式嘛,一种云端,云端的话你可以在本地操作云端,也可以在网页上直接用啊,其实这个看个人需求啊,最我这边主要用的最多的还是基于本地模式。 本地模式呢,给大家演示一下这个技能如何用,有两种方式,一种是自动触发,一种你啊手动。比方说你可以指定一下这个是通过浏览器,他能去打开浏览器去登录账户了,去操作各种网页啊,这边可以去尝试一下啊,比方说我们让他搜索一下, 打开百度搜索今日热点吧,热点汇总汇总成文档,这个你说完以后他就开干了。他这边因为他工作的是智能米,智能体不同于网页啊,他这边如果去调用技能的话, 他右边会展示调用了哪些技能。这边他还有一个 ppt 啊,这边我也试过,他做的 ppt 也还行, 它这个智能体你看不到,它是内置的,你给比方说咱把这个新闻的文章它做成文档之后,搜集完之后,你可以接着让它去做啊,帮我做成 ppt 啊,它会已经寄予一个文档,它会帮你做成一个 ppt 啊,这个可以自行去尝试。 你看这个,这边他调用智能体之后,他右边会有一个代办任务,他他需要规划几步去做啊?这边他规划了三步,下面他这个技能就是 skill, 他 调用了哪些技能,他会列出来啊?这是产物,这最后的结果会放在这, 调用他内置的技能,咱让他去,让他去干。咱们这边还有再再建一个任务,可以有多个任务再给大家演示一下。基于本地工作的话,其实如果咱真是要用这种智能体的话,肯定要解决咱们自己 一个办公场景的一个重复性,重复性的工作可以教给他打造成 skill 啊,让他去帮你去做啊, 其实这个才刚才说了,这个就是自定义技能啊,这的话基于本地工作,这个才是 真正能帮助企业 ai 落地的一个核心的一个功能啊,因为你可以基于 skill skill 的是啥?它就是一个工作的一个指导啊,你这个建完之后,你指定你只要说你当前要干啥,它会判断出你当前要使用哪个技能去做哪件事啊, 针对你企业的,因为每个企业的场景都不一样啊,可能每个企业使用的这个落地的 skill 可能也都不一样,这里没有一个什么共性的一个东西啊, 这个当然你打造这个,打造这个 skill 的 话,可能需要你对 ai 有 一定的认知啊,你可能说我,我知道 skill 怎么建啊?我知道,但是你要是对这个 ai 认知达不到的情况下,那你可能 就是做出来的技能,包括日常使用中,它可能也不会那么理想啊,你可能说啊, ai 也就这样, 其实你要想把它用好,可能需要你提升,去持续地去对 ai 的 一个学习吧。嗯,我这边反正是已经有两年的一个 ai 的 企,就是落地经验了,在我们企业也是一直在做这个 ai 落地的应用啊,如果 如果有这方面需要沟通的话,可以就是找我单独去沟通啊,我这边可以给你简单指导一下,让你少走弯路吧,少花,少花一些冤枉钱啊,能快速的帮你企业去落地啊。 然后这个这个工作目录啊,就是就是这个可以就是这样的一个目录啊, 它它其实你要是真正去落地的话,你肯定需要去打造一些 skill, 其实你可以把它理解成是一个工作流程啊,就是一个目录可以可以把它作为一个员工啊,这个员工他能干哪些事儿? 那你就这是对它的一个整,它首先这个是 agent 的 这个 md 呢?它是一个整体的一个工作指导啊,就是我这个员工能干哪些事儿啊?大概给 ai 说一下, ai 每次, 每次比方说他基于这个目录去工作的时候,他首先会先读这个这个文件的规则啊,这个这个文件的规则说明之后,那然后他才会去去下面才会去 去根据你的工作需求啊,根据你的任务去调用不同的技能去进行一个工作啊。我这里有一个比较长的一个流程,就是一个写作流程吧, 他是每一步干啥,每一步干啥,就是这样的一个工作,其实你每个人,其实每个人的工作啊,都可以去给他增流成这个技能啊,他让 ai 来 来辅助你去工作,其实 ai 并不会替代每个人的工作,他只能说让你去做更重要的事。一些重复性的工作啊,完全可以让 ai 去做啊,你把你释放出来,可以去做一些更重要的事。当然 ai 呢,它也不是完全自动的啊,它还需要你去确认, 你还要去对你这个 skill 的 工作结果去负责啊,最终的结果肯定不是 ai 来承担这个结果,谁用啊?谁来承担?对这个结果进行确认来你承担这个最后的一个工作的一个检查,去审核啊,它是否合适,不合适的话你就接着让他去做啊, 这个应该已经完成了啊,调用 d o c 啊,它是它把它它做成,做成一个 word 了,做成一个 word 文档了,这边任务它应该已经拿到内容了,它需要下一步去 去创建一个 word 文档。下面我再建一个任务,给大家演示一下,我这个基于我这个工作目录,我我打造的这个 个人的一个,相当于我办公,我日常办公的一个 skill, 他 是如何工作的啊?首先我这边里面有个 skill 呢,就是有个技能,他就是能帮我收集一些素材,帮我打造持续更新和完善我的知识库, 那就是比方说我,我给他两个链接啊,帮我把这些链接内容加入知识库, 这里它可以多个任务并行处理啊,可以同时处理多个任务,然后移动端的话也可以去看到我手机可以录一下屏。操作移动端的前提是你要在设置里头把这个给打开,把这个 solo 移动端,然后点允许操控你的电脑啊,保持电脑唤醒状态, 可以去查看这个当前任务的一个完成情况,也可以远程,远程的话去操作自己的一个 办公电脑,办公就是你的办公电脑,他可以帮你去操作。这边看打开这个翠 app 啊,这边能看到,打开之后他能看到我这两个任务,哎,一个是把内容加到知识库,一个是百度热点的一个汇总啊,这边可以看到他的工作当前完成情况。 这边比方说你中午去吃饭了,你这个 ai 还在工作,你可以看他工作的,检查他工作的完成情况啊,可以给他下达新的指令,让他继续去工作啊。比方说你去 见客户干啥了,这边 ai 该让他去工作,去工作。这边就是在打开手机也能看到你的这个 ai 工作完成的一个情况啊,这边可以输入下达新的指令,这里大家可以去尝试,我这里不过多演示了。 看这边它也是有规划的,它有几步规划?这是调用了两个 skill 啊,这个是知识库的一个打造的一个 skill, 这个是获取素材的一个 skill, 它调用了两,它自己去,它自己会去调用啊,就是它很智能,就是它该调用哪个 skill, 它自己去去调用。 其实他这个 skill 他的怎么去调用呢?其实这个的话是像这个知识库,这里面有脚本啊,有这个参考的知识,然后主要还是靠他啊,这个 skill 的 话 名称是必须要有的啊,这个简介他是根据这个简介来判断的,就是你这个 skill 能干啥,你只要这个概描述描述清楚啊,他就会自动的能判断到。如果, 如果你的任务模糊不清,或者是这个 sql 描述的不清,那这个 sql 可能调用不到啊。如果调用不到的话,你也可以在这手动去去斜杠啊,可以用斜杠命令 或者是点这个点这啊,然后去去去触发某个 sql 啊,因为你自己做的 sql 你 肯定清楚,然后这边手动触发,这边也不用 ai 去判断了,它效率可能会更高一些。这边它已经收集到了啊, 这个是一个 word 啊,他已经把这个资讯去收集到了,收集到他会放在这啊,做的还不错。这里你可以接着让他做,比方说接着让他去帮你做 ppt 啊, 这里都不再演示了,做 ppt 的 话比较慢,可能需要一二十分钟。然后另外这有一个自动化啊,自动化的话也是比方说你每天都要去做的某些事,比方说我这边会每天定,每天会去, 就是定期的去收集一些 ai 的 一些资讯,因为我要学习 ai 嘛,所以,所以它是一个持续的学习,我每天都要去看,所以说我会让他每天帮我去, 去定时的去收集一些我想要的资讯啊,这个资讯也不是啥都啥都收集的,我就是有学习有分享价值的,然后他帮我保存到文件,然后 他每天都会去执行。这个其实创建的话有两种创建方式,一种手动创建,你直接输入任务名称,然后你这里希望他去干啥?跟爱沟通一样,就是自然语言描述就行了 啊,这个云端的话一般用云端,云端的话因为因为你电脑关机他也能去执行,除非那你用本地的话,那你每天保持你的到这个点,你的电脑在开机,你这个软件在打开他才能执行, 或者他执行不了。绘画中创建也是一样的啊,通过绘画创建都是一样,其实跟恩爱沟通都是通过自然语言描述啊,他会帮你去创建核心功能,基本就这两个,另外一个就是这个, 还有一个 m c p m c p。 现在如果有需要的话可以用,比方说你公司有系统啊,你公司有一个系统,它提供一些接口啊,你可以把这加上去啊,把公司的系统可以出一些报表数据啥的啊,你可以加到这,如果你公司有这个 m c p 接口的话,你把它加上, 加上的话,那你就在这能直接用了。你做方案了。做啥了啊?能直接能直接调用那个数据啊,更方便一些。其实 skill 都是一些标准化的,不是那个 mcp 都是调用一些标准化的接口啊,现在大多数场景的话,那可能用的更多的是这个技能啊,就是这个 skill 这个任务让他去执行吧,大概整整体呢,这个 aint 的 功能大概就这么多啊,大家可以去尝试啊,下载下来先去摸索, 如果有什么问题的话可以给我留言,或者给我私信或者评论区留言都可以啊。这个是这个已经完成了,收集好了,已经交付了啊,行,那就这事就说这么多。

你有没有过这样的经历,就是想换一部手机,有很多备选需要对比参数,如果手动对比需要我们去查找信息,然后一个一个去记录,然后再去对比,半个小时过去了,还没有决定选择哪个, 像这些事情就是跑腿的活,不需要动脑子,但是非常耗时间。本期内容第五课,我们就用一个案例一起来看一下如何让 agent 帮我们去做这些事情。 本期涉及内容,第一个就是大白话指定输入,第二个就是 agent 工具调用,第三个就是文件生成,我们本期分享的这个案例,它的应用场景也有很多,比如类似的竞品产品信息对比,然后可以整理直接创建文档文件, 或者还有就是某产品的参数对比等等,都是可以使用这个方法的。下面我打开这个 agent 应用,我们一起来看一下这个案例。 在这里我们给他的就是一个大白话的任务需求,就是十六和十七有什么不同,帮我把详细的参数整理到表格, 然后对比数据,并给出分析结果,这时候我们就直接发送,他就开始执行,自己去搜索获取内容, 在这里我们可以看一下有一个工具调用显示,二,在这里它就是调用的搜索工具,然后去网页上获取一些内容,稍等片刻就可以以表格形式清晰的展现出来了,一个对比参数 还是比较直观的,然后下面的内容还有核心升级分析,然后最后还有一个选购建议,我们可以直接去参考,最后他还生成了表格文件,关于这个表格文件中的内容,我们可以在提示词中指定哪些内容生成到表格文件中,在这里我没有写,他默认的 只生成了参数内容。 agent 它有一项非常重要的能力,就是自动规划,自动执行,也就是说它可以像我们自己一样,网络搜索阅读文字,提取数据,然后把结果整理好之后,直接就返回给我们,就不用再手动去做这些事情了, 只要几分钟的时间就可以把参数对比信息整理好,最后给出我们选购建议,剩下的时间就可以去做更有价值的事情。今天这节课的核心,我们来总结一下,也就是凡是需要我们去打开网页搜索,复制粘贴对比的事情, 都可以变成一句话去派给 agent。 在 我们使用的过程中,也不需要学习爬虫编程,也不需要写任何代码,把我们想知道的问题我们一句话给到 agent, 它就会自动地 去执行任务。我们今天的一个课后作业就是一个非常小的任务,找一个你平时会手动去查的信息,然后试着去把它派给 agent 做一次, 然后体验一下它的完整流程。关于 agent 的 使用,现在有很多伙伴反馈都已经找到了自己的应用场景,让多分享一些使用时候的一些注意要点, 所以下一节我们会直接到第七课,内容的分享就是 agent 使用人工干预的三个关键点,帮助大家使用 agent 体验更好一些。好了,我们本期内容分享就到这里了,我们下节再见。

哈喽,大家好,我是石子,今天给大家带来一个数字巨经的开源教程啊,从零开始构建智能体,石子大概的看了一下子,这个的话是比较全面的, 然后也是国内的,然后基于国内的一些环境啊,包括他的一个学习方法都是比较细致的啊,从前沿智能体 语言模型基础开始讲解,然后构建你的第一个大语言模型,智能体包括高级知识的一个扩展, 然后综合案例的一个进阶等等等等啊,最近几天也是进行了一个更新,就在两天以前啊,然后目前也是达到了五点一万,新收藏的人还是比较多的啊,然后我们可以直接去他的官网看一下,这就是一个教程网页啊。项目介绍, 如果说二零二四年是百魔大战元年,那么二零二五年无疑就开启了 agent 的 元年,对吧?二零二五年的话是 cloud code, 然后包括 openai 的 codeys 叉,然后包括 qoser, 包括一些开源的 open code, 对 吧? 然后再就是 vs code 里面的各种各样的一个插件。然后如果你学完这节课,你可以理解 a 键的一个核心原理,并且亲手实现你自己的一个智能,包括掌握一些高级技能,包括对模型的一个训练, 然后结合实际情况去制作你自己的一个真实案例。你实质其实是仔细的研究了一天的智能体的一个定义,类型、范式与应用,最简单一句话去概括的话就是搭建一个 ai 的 工作流,就比如你招了一个运营, 对吧?你需要运营每天帮你发一些朋友圈、文案,或者是自媒体平台的一些视频,整个流程都是由人去执行的,但是如果你的工作流是固定的的话,你完全可以写一个智能体出来,然后把你每天准备好的材料交给他去帮你发送 生成,然后发展史这个我们就不说了,大语言的话就是告诉你什么是 transformer, 然后包括提子值,主流的一些大模型,包括它的一个局限性啊,如果你要了解它是如何进行一个生成,就是通过你的一个提子值 转换出来你想要的一个答案。这个东西就可能涉及到一些模型微调的一些底层操作了啊, 你如果学会这些的话,你可以自己到时候去微调一个大模型,更符合你个人的一个需求。然后包括智能体的一个经典范式,就是你接一个 api, 然后把中间的一些流程给它梳理清楚,然后你之后每一次操作的话,你只需要进行一个输入,然后中间的所有流程都是固定的,它会给到你一个你需要的一个答案。第一代码平台的话,就是拖拉拽的一个智能体构建平台啊,包括扣子、带飞、 n 八 n 这些是不需要你去进行一个代码编辑的。但是目前有 cloud code, 包括 openid code、 叉,还有 q server open code 这些东西的话,这个平台现在基本上用的人会稍微比较少一点的, 因为你现在完全就可以通过你的一个自然语言,让这些现成的一个智能体平台去帮你把你所需要的代码给在本地上进行一个构建,然后有问题的话,可以直接从自然语言去让 ai 帮你进行一个修复调整,甚至连拖拉拽的动作都节省下来了, 包括构建你的一个 a 卷框架啊,记忆解锁这些。现在其实有小龙虾、爱马仕这些东西的话,基本上也不需要去学习了,你可以去做一个简单的了解, 就什么是记忆系统,什么是 r a g, 什么是存储,包括上下文工程也是一样的,智能体通信的话, m c p 这个东西大概了解一下子就行。然后现在基本上大部分都是有一个 skill, m c p 的 话,其实也是可以集成到 ai 里面去的,除非是一些不对外开放的闭源的。这个 m c p 工具啊,包括它给到的一个案例,对吧? 自己去进行一个研究和一个构建。如果你能把这个赛博小镇给搭建出来的话,我觉得你对 a a 建的理解应该来说已经是 b a 了。好吧,其他也有一些社区贡献的一个精选,我觉得这个开源的教程它的价值还是挺大的。好吧, 适合所有入门的初学者去进行一个学习与了解,而且里面的案例啊,包括讲解都非常的详细,实质也希望大家能够早日掌握这个 a 键的这么一个技术。好吧,那么感谢您的观看,我们下期再见!拜拜!

啊, ai 说了,那你给我加个任务,那你就加呗,反正消耗也是你的头根,我是无所谓的。大家好,我是破旺。 那另一边呢,我们把整个的 demo 完成了之后,就交给了 ai 去让他直接去实施了啊,也没有什么好说的,就是,哎,你去实施吧,就完事了。 那与此同时呢,那对应的 demo 它会我也让它产生了相关的一个交接文档,就是介绍,哎,我们这个新的这个呃引擎就是豆包 t t s。 二点零啊,它是一个什么样的一个能力?那有了这样的一个能力呢,那我接下来要做的一个事情 啊,就是把之前的标注位置呢去做一个调整。为什么?是啊,先调标注位置呢?因为这个东西呢,它是合成语音的一个前置任务 啊,是啊,这个语音合成的里面所需要的所有的参数都是由这个 agent 去完成的所有的编辑和编转。那之前呢,他是直接对标对接的这个阿里,那现在呢是要对接这个豆包, 那所以呢就有了本期的一个内容,那我们要对他进行一个彻彻底底的足够,就是标注 agent 的 足够。那首先我第一步呢,我是让他去阅读一下,哎, 啊,因为阿里那边呢,进行合成的时候是用这个 ssml 这样的一个语言进行合成的啊,那我在这里面呢,我们新的啊,豆瓣二点零就不需要了。既然豆瓣二点零,豆瓣二点零是不需要的,那我们在这里面啊,就是让他定位这个相关的一个代码 啊,然后呢,定位到了这些的信息之后啊,让他对于我们要调整的部分啊,心里有个数,那接下来呢?我让他去阅读,哎, 啊,我们的新的这个啊引擎它都有哪些的一个能力啊?就是阅读这个编辑文档都有哪些能力?然后呢我提出了我的要求啊,不再产出这个 s s m l 这样的一个标记的一个文本了啊,这样的一个文本了,而是需要产出它对应的一个指导的一个指令啊,表演指导的一个指令。 那同时呢也要去理解啊,整个的一个 c c i d 啊,就是我们的一个剧本的一个 c c i d 啊,它是如何进行一个处理的? 那整体的这里面呢?就是啊,我给他的第二轮的一个指令,那在这里面呢?还不是啊,还不是让他去做动作,也只是说,哎,你把整体的情况理解一下,我看看对不对?然后呢啊,把这个整体的这个啊,新的啊 啊,升级后的这个他的提示词 problem 和对应的结构化输出,哎,给梳理出来,然后他完成了梳理之后,接下来我跟他说,哎,这里面有一个东西啊,他是让这个 agent 啊去生成相关的这个 啊,塞塞 id, 但是这个塞塞 id 呢,他应该是有系统的,比如说哪些是一个剧本,哪些是,呃一个剧本的一个范围,这个不是 agent 去做相关的处理的,而是我们自己啊,这就是他就是一个项目嘛,一个项目就是一个塞塞 id 啊, 啊,这个还是由系统去处理的,这个也是我们之前所说的,能用系统和代码去做的事情,就不要让这个大冒险去做的啊,就不让让用大冒险去做,然后做了一个这样的一个调整,然后接下来,然后第四轮这个也是一个比较关键的一个调整。 为什么说他是关键?因为我发现啊,他之前为了兼容老的这个阿里的这样的一个体系,所以呢他把这个啊之前的那一套核心的一套变成了两个独立的任务啊,变成了两个独立的任务。但是呢我在这里面对他进行一个纠正 啊,我说是这个样子的,首先呢就是我们标注剧本产出的物只有两个啊,第一个是给人看的,就是这个标注剧本,那他的原来的剧本呢,是这个样子的 啊,就这一句话嘛,就这一句话。然后呢如果给人看的啊剧本是这个样子的,这个有就是我们根据这个一些的语言,这些都是重点,然后语气语调这些东西是给这个看的啊,给人看的。这首先第一个是标剧剧本,第二个呢是给 ai 看的啊,第二个是给语音合成 ai 看的,它的一个整体的一个表演指导。 那这两个呢,不要把这两个任务当做独立的任务,而是要当做是同一个任务,只不过呢他是同一个任务翻译成了两套不同的一个语言, 翻译成了两套不同的语言,不过一个是给人看的,一个是给豆包看的啊,这里面我就反复的去强调,就怕他理解不对,就是有的时候我们的表达可能不是很精准,但是呢你啊翻过来调过去就跟他说,哎,就能够提升啊,这个大模型对于我们的啊描述的一些的理解, 然后他啊整体就理解了一下,理解了一下之后发现没有什么太大的问题,这是这个,然后呢我又看到了一个啊,他在对话的上下文里面 啊,对话的上下文里面,在这里面啊,就完全排除了上文的引用啊,在这里面我又给他去做了一个相关的一个纠正, 就是说你在表演的指导的时候,你也要跟用户去说,哎,他的一个语境是什么样的?也就是说上一句呢,是谁对他说了什么的话,这一句呢是回应还是在开启一段新的一个啊,新的一个的剧情? 那在这里面呢,也不要去做一些机械的一个内嵌的这些东西,而是你要一定要把这个东西说清楚,就相当于是啊表演的这个声音的导演再给这个啊 ai 啊,再再给这个豆包去做啊,相当于在讲戏啊,相当于讲戏去做一些相关的一个讲解啊,把这个东西给加进去啊, 这些东西加进去之后,哎,就是可以去做相关的一个啊处理了,就可以去做一个相关的处理了。 好了,这就是我们这一期啊去做的啊一个内容,也就是说我们对于整个的剧本分析的啊 啊剧啊剧本标注的这个 agent 去做了一个整体的一个升级,那升级呢是两个方面,一方面呢一定要剔除原来的老的任务,不要让老任务去干扰我们, 这是第一个,第二个就是哪怕是新的任务,新的任务呢,就是也是一定要看他对于新的任务的一个理解啊,比如说他 这个最开始啊,把这个当做两个独立的任务,那又有可能是两边是完全对不上,两边对不上,那就有可能后续会有大概率有一些翻车的地方,那在这里面就跟他说啊,是同一个任务的两种表达。这就还好,好了,本期就到这里面,拜拜。

首先来猜一猜下面哪些是 cds 做不了的事?是从这个像素运动到这个像素,沿着能画好的路径,是时光飞逝,恰好停在六点十五分,是地图上一个真实的坐标,一段精准的海岸线,是可以听见的声音,是一字不差的文字, 是用代码下一场雨,是用复历页函数画出的樱花,是一百万条数据涌入,每一条都找到自己该去的位置。答案是 以上所有啊, cds 做不了这些。 cds 可令这些 diffusion 模型确实很强,它能伸展你脑子里想不出的那些画面,但是它无法精确地控制每个细节。而 remote 加 ai 可以。 过去的一个月,我都在用 remote 加各种 ai 平台,包括 cloud code 来做产品演示,数据格式,三 d 场景,地图、动画等等。 我发现越来越多的博主也在用 web 神,比如这个主播,七个视频,十三万粉,全程 web 神制作。现在我把一个月的踩坑经历凝练成十分钟的教程,里面有大量的实战技巧以及完整的工作流。手把手从零到一,带你告别 a。 一, 实现逗笑自由。建议点赞、关注、收藏,我们开始吧。 以前做动画视频,首先你要打开 after effects 或者 fusion 学图层,关键帧曲线编辑器,光学软件就要几个月。而现在,你只需要跟 ai 说,帮我做个中日韩三国生育率随时间变化的动画。啪的一下,很快啊,视频就做出来了,这就是 ymotion。 一 句话,凭感觉做视频, 什么实现 remote, 这 cloud 就是 一种玩法,当然你可以换成悟空, codex 都可以。这么说,你们容易理解, remote 就是 那个全自动的厨房, a cloud 就是 那个厨师,而你就是负责点菜的,想要什么视频,动嘴就行。 在我的另一只视频里已经详细讲过怎么样借助 cloud 安装 remote, 悟空啊, codex 这些平台的安装方法也都是一样的。我也贴在评论区了, 我们把悟空的官网链接丢给靠,让他根据这个网页做一个产品动画。注意啊,我加了一句,不要做像 ppt, 先跟我讨论你打算怎么做。我习惯先和他讨论方案,这样返工就会比较少。方案 ok, 继续,然后他就会开始干活了。注意看,每做完一个镜头,他自己会检查一下。 ok, 让他打开预览。这个界面看着很吓人啊,但是别慌,你什么都不用学。当然了,你可以点这边手动渲染,但咱们有靠的是吧,让他干活就行。给我渲染一个视频到本地,看视频就躺在文件夹了。 顺着刚才那个案例聊啊,与 motion 最适合做的其实就是软件动画和 ui 演示,因为它本身就是 ui, 很多画面不是画出来的,而是搭出来的。像打字机啊,中端风啊,界面飞来飞去啊这些它特别擅长。来看这个案例啊,怎么表达打碎机 ui, 让它彻底 c l i 画。你看整体效果 这里我把每个镜头要什么直接拆给他了,然后反过来问他,你觉得怎么样才能做到极致的酷炫?接着 ai 会给出他建议的工具,让 ai 自己选武器,因为他懂得比你多。 数据格式化是与 motion 的 绝对主场,像 g p t 近速图啊,手机销量图啊,份额变化图啊,华语乐坛人物关系图啊这些只要有数据,它就能变成视频。 你当然可以让 ai 自己上网去找数据,也可以让 ai 读取你自己本地的 excel 表格、建层数据集等等。图表画的好不好看,关键不在于 motion, 而在于你选了什么样的前端图库。 别慌啊,你不用真的懂这些库,只需要告诉他,我想要财经媒体那种丝滑的竞速图,或者直接扔一张参考图给他,他就知道该怎么配。这些是一些常用的图标库,供你参考。 地图动画当然也是预谋选的舒适区啦,这就没有不舒适的吧,旅游路线、地理大发现的航线病毒扩散热力图都能做。我之前的地图动画教程有六千多人收藏,但你可能会发现啊,同样的提示词,你做出来的可能就是这样。核心的诀窍是,你需要一个地图外挂。想做正经的地图动画,你光靠模型去脑补可不行,要接真实的地图底图。 国内直接用高德稳一点,海外码你可以用 macbox, 免费额度完全够用。你只需要去高德的开发者后台申请一个 api key, 剩下的码交给 cloud 去配。提示词里加上地图外挂,质感完全不一样。 那直接复刻别人 ae 效果可以吗?可以的同学,可以的。有博主直接用它复刻了小林说的动效,而我则用它复刻了代码宇的动效。秘密就是让 ai 直接读视频, 我们只需要安装一个 f f n pack 技能,把视频放在本地文件夹, ai 就 能读出这只视频的每一帧,更好的还原你想要的效果。哎,这比用嘴描述可高效太多了。 先看这个效果怎么做的,这是春节档电影票房三 d 排行动画。首先呢,让 cloud 收集电影票房的数据,把电影海报和导演的照片下载到本地,然后把这段提示词 发给他,他会自己去调用 r 三 f 来做。注意啊,这个时候柱子是三 d 的, 但场景还不是。我们去这个网站随便下载一个免费的。点击 l b 的 三 d 场景,放在本地的文件夹,让 ai 去读取,你还可以让它改成黄昏的氛围,或者任何你想要的氛围。 注意啊,三 d 场景的远近大小角度,用嘴来跟 ai 沟通,效率非常低。这是我从推特上一个大佬学的,让 ai 把这些数值作为属性暴露出来,在自己的预览里直接改数字,实时看效果,这样速度会快十倍。 唇釉 remo 选做完整的视频当然可以,但是把它和实拍进行结合,表现力会更加的丰富。比如这个效果以及这个效果背后的秘密是,透明序列针,把序列针拖进剪辑软件,就能做出别人做不到的效果。我自己视频里的很多过程以及包装,现在都是用 remo 选做的。怎么样?还挺酷吧, 再快速过几个啊。 remote 加 ocr, 写一段提示词,就能做出这种重点标注马克笔的效果,指哪打哪。把字母文件给 remote 写一段提示词,就能做出这种逐字高亮的效果。把音频文件给到 remote, 就 能做出音频和释 怀。还有一个必杀技啊,自适应尺寸,做好一个横版视频,一个指令瞬间得到一个自动适配的竖版视频,同时发 b 站和抖音,不用做两遍。 ok, 复习下今天的技巧。一、先讨论方案再动手。二、让 ai 自己选武器。三、搭配前端图标库,做出更酷炫的图标。四、地图要酷炫得加外挂。五、 整段视频都可以为 ai 参考。六、沟通不清楚的参数可以让 ai 变成属性,自己来填。七、导出透明矩阵帧和剪辑软件进行配合。 再说一下我的完整的工作流,我通常不会用 remote 来做一整段视频,而是会让它去做一个个小的片段,因为动效是辅助讲解的,而不是替代讲解的。当然,如果要做长视频,具体的流程是,一、先让 ai 来设计分镜,来规划每一帧的内容 以及节奏。二、让 ai 来搭整个时间线的框架,把骨架先搭起来。第三步,建议一个镜头一个镜头的去做,这样你调整起来就不会太麻烦。 四步,一个个单镜头做好之后就可以整体进行调优,节奏啊,风格啊,转场等等。再补充一个进阶的小建议,可以写一个 call 点 md 放在项目的根目录,告诉 ai 你 常用的分辨率、帧率、动画风格以及偏好。每次开新的项目, ai 一 上来就会知道你的审美,不用从头再说一遍。 最后再聊一个重要的话题,就是 remotion 适合做什么以及不适合做什么。上面的三项是主场随便打,中间是过渡区,能做,但是需要搭配外部的裤。下面两项别 影作有更好的工具。我自己就是 remault, 做动画剪辑我还是会交给剪映和达芬奇,遇到一些实拍的素材我还是会用 cds 和可林。 remaulting 不 会取代任何的工具,但如果你是知识博主,或者你想给自己的产品做演示的视频,而你又不想花几个月的时间去学, a e remault 加 ai 就是 最快的那条路。 ok, 如果你觉得这期视频对你有一点点帮助的话,就就给个一箭三连。在评论区我想看到诸位的作品,我们下期见。

下班回家无聊搭建了一个 a 阵智能体,好用到哭。我早就想搭建一个属于自己的 ai 智能体,不过一直没抽出时间,今天下班早直接开干,很多朋友觉得全是代码很复杂,别担心,我搭建的时候也顺便把搭建过程整理出来了,保姆级教程, 哪怕是新手的小白也能够看懂。想自己搭建智能体的保子评论区扣 ai 就 可以抱回家上手练习了。

假如你从二零二六年五月二十七号开始学习 ai, a 阵多久才能学会?只要你年龄在四十五岁以下,不是三分钟热度,请疯狂按照这条学习路线走,三个月,足够让你从小白变成企业抢着要的 ai 人才。第一阶段,把基础打牢,搞懂大模型的底层工作逻辑, 同时掌握提示词工程与 api 调用。第二阶段,专攻 agent 核心范式,从 react 到 call, 理解 agent 的 思考、行动、观察、循环,并熟练使用主流框架。第三阶段,读懂记忆机制,让 agent 拥有短期记忆、长期记忆和使用真实世界工具的能力,试着做一个带记忆的客服。第四阶段,深入了解多智能体,协助 学习并掌握凹凸帧或 curie 框架,理解管理者、执行者、辩论等常见的写作模式,完成两到三个小项目,比如 a 阵、智能客服等,跟着走下来,足以让你胜任百分之九十的 ai 岗位。我已经把完整的 a 阵及大模型学习路线、配套教程、实战项目整理好了,留下学习直接抱走。

各位教员们晚上好,这个视频我会向大家介绍一个 ai 接入 training view 的 操作教程。这个教程最初被发现于一个叫 louise jackson 的 youtube 频道上,如果各位有兴趣的话,可以直接收看原博主的详细介绍。 这个流程非常简单,你只需要去 github 上找到他留下的提示词。虽然介绍里写的是 cloud 的 部署方式,但实际上所有的 agent 部署方式都是一样的,你只需要把这里 cloud 替换成你所使用的 ai 名字即可。 实际上即使不替换也没有什么关系。在这个过程中,你可能会遇到一些报错。报错的主要原因是 ai 无法寻找到你电脑本地中 trading view 的 位置,你需要主动给他一个位置。就像我在这个 ppt 所展示的这样, 当他完成部署之后,你可以输入这个命令,向他确认是否可以正确的连接上确定 view。 他的操作方式非常简单,你完全可以使用自然语言的方式和 ai 对 话,你也可以让他分析图标。但我的建议是提前设置您的 rose 文件。 如果你不设置的话, ai 获取信息的唯一方式可能就是原始数据库的积累或者联网搜索,这样是比较消耗 token 的, 并且获取的信息质量可能会很差, 并且抓不到要点。所以我个人的做法是自己总结知识点。就像我在这个视频中的例子,我将 airbooks 的 二百五十九节教学视频,以及所有的文稿,所有的 ppt 的 内容 ai 识别成图片, 并将图片总结成 ai 可以 阅读的文字。如果有计算机语言相关知识的话,你也可以使用向量的功能去更高效的解锁信息文档。在总结之后, 所有 airbooks 的 作单方式就被写进这个两百多 kb 的 rules 文件里。这是一个比较麻烦的过程,很消耗时间和 token。 如果各位感兴趣的话,我也会单独出一期视频,讲解如何整理 你所感兴趣的博主的知识库。我大概体验下来, ai 做单方式都是非常保守的,再加上网络的一些原因, 可能 ai 要不断的重连,不断的思考,才可以返回一次识别的答案。等到这个时候,可能行情都已经变了,或者已经走出四五个 k 线了, 所以我更倾向的方式是直接将它写成量化来使用。 python script 是 由 trading view 开发的一种编程语言,用于编写可以增加到图标中,并用于技术分析的专属指标和策略。 这里有一个小小的需要注意的点是,在写量化的过程中,要尽量的避免 ai 看图说话, 也就是直接去查看已有的 k 线,来总结所有 k 线之间的规律。你需要做的是直接对着策略来调整,一遍遍地将调整好的策略在 trying view 中回测复线。这里我们也可以看到 ai 会直接打开这个 pine 编辑器, 将代码写到这个地方,并且添加到图标上。这个时候 trading view 自带的回测功能就可以看到自己策略的有效性以及它的涨跌幅。最大回测盈利交易比例以及它的盈利因子。 在这个页面中,你也看到 a i 所下的每一笔订单,它是在什么地方止损,什么地方止盈的以及下单的位置。我建议当你写完一个策略之后, 如果你不放心的话,你可以点开其他的品种去检测这个 ai 是 否策略上过瘾,也就是过于贴合某一个商品的交易方式,也需要提前了解。不同品种之间的一手标准合约的价值是不一样的。 将这个策略使用在个股上,如果你不及时调整的话,最后得出的成绩可能会很差,因为个股和 m e s 在一手标准合约的定价上是不一样的,如果直接不调整运用到个股上的话,可能直走几分钟甚至几秒钟就已经触发止损规则了。 在完成交易策略的编辑之后,你也可以询问 ai 最后写成的策略规则是什么样的, 或者他所选举的 set up 是 否符合自己的交易策略,这些都是作为交易员应该去注意的事情。以上就是本期视频的大概内容,感谢收看,再见!

今天我们的任务就是要搞懂 agent 到底是什么, agent 一 般会翻译成智能体或者代理,那我们今天主要分享两个问题, 第一个是 lm、 workflow 和 agent, 它们到底有什么区别?第二是 agent 到底有什么构成?那第一部分我们在讲 agent 之前,先从 lm 开始,像 deepsea 和 gpt, 它们本质上都是基于 lm 的 聊天 机器人,它们的工作流程其实非常简单,就是输入,输, 输入经过单元模型,然后输出。比如说我们在这里输入给我一份会议纪要模板,经过模型处理之后,他就会输出一份会议纪要模板,就像我们和 deepsea 对 话一样。但如果我接着问我上一次会议是什么时候,比如说你问 deepsea, 他 知道吗?他不知道,因为他没有你的个人信息, 所以这时候我们就需要给他接工具,比如接一个日历工具,这样当我问我上一次会议是什么时候,他就可以先去查日历,查完日历之后给我输出答案。那如果我再进一步说,帮我上一次会议纪要总结一下,发到我的邮箱,这时候发现 原来的这个流程又不够用了,所以这个流程它可能会变成,首先要总结上一次会议基要,那就要先拿到上一次的会议记录。拿到上一次会议记录之后,紧接着是要用 l m 去做招标,做完招标之后需要接入邮箱,最后将总结的招标发送邮件。它是由多个步骤串起来的, 那这个就叫做 workflow, 也就是工作流。那这里有一个很重要的点,就是哪怕它中间的节点,它也不叫 agent, 因为整个这个执行过程是人提前设计好的, a i 只是按照这个既定的路线去走。那 agent 呢? agent 更像这样输入,然后经过一个黑盒,然后输出。区别就在于这个黑盒里边怎么执行不是我们决定的,而是 agent 自己决 定的。比如我还是问刚刚同样的问题,帮我把上一次会议纪要总结一下,发到我的邮箱,那 agent 会怎么做呢?他会先自己思考,他怎么思考。要拿到会议纪要,我得先知道上一次会议什么时候,他就去尝试连接日历, 是获取我的行程。但是后来发现他连接了日历之后,找不到上一次会议是什么时候,他又继续想,那我试试连接腾讯会议呢?找到会议记录之后,他就继续想,接下来我要总结内容,因为我告诉他,我想要总结后的内容嘛。于是他就调用大模型去总结内容。 总结完之后,他又会继续想,用户刚刚说要发邮箱,但是他没告诉我是哪个邮箱,我要不要先问一下再执行。所以在整个过程中,他一直在思考,决定自己下一步要做什么。这就是 a 人那用一句话总结 workflow, 它就是执行人规定好的步骤, agent 它就是自己决定要执行什么步骤,那这是两者最大的区别。接下来我们分享一下 agent 的 构成。可以把 agent 想象成一个数字员工去理解,会比较简单,那就像一个公司,它会有不同的岗位职责,比如说有运营,有 财务, agent 也是一个岗位,只不过它是数字岗位。那 agent 它不用请假,二十四小时待命,成本也比真人低很多, 所以现在很多公司都对这种 agent 这个技能也正在成为一个非常重要的能力。那么接下来理解这个 agent 的 组织, 可以把它想象成在招聘一个实习生。那完整的 agent 大 概是有五个部分的。第一个就是 l l m 大 脑, 像拆 j p t d c 豆包这个大脑,它主要负责理解人话,分析任务,制定计划。没有大脑其他都没有意义。就像你在公司布置了完美的办公环境,但是没有人坐在那里是不可以的。第二个是 prompt, 就是 我们说的提示词是不是? 然后在这里我们可以把它理解成岗位说明书。比如说你现在招这个实习生,他的岗位是客服,你招客服的时候,你总不会只说一个,你去做客服吧?你会去告诉他他的职责是什么?他的职责是客服,他遇到问题怎么处理?比如说他不能殴打顾客,那 他回复的风格是什么?比如说作为客服,他应该礼貌地回复顾客,那 prompt 干的就是这个事,去规定 agent 的 职责、限制条件和回复的风格等等。第三个是 memory, 也就是记忆,如果你招的这个实习生,他每隔三十秒失忆一次,那肯定不行。 对 memory 的 作用就是记住上下文,跟踪任务,积累行业的经验。第四个 knowledge, 准确来说是 external knowledge 外部知识。你招的这个实习生,他有通用的知识,他在大学学了知识,但是他不一定知道公司的内部资料,所以你就需要将企业的知识库、产品文档、公司的规章制度等等给他。第五个 tools 工具,这是最关键的一部分,当然工具不是我们的那个扳手,它是你电脑手机里边所有你可以操作的东西,比如说像发邮件、下订单、制作 excel, ppt 等等所有。简而言之,你让 agent 拥有操作你电脑各个软件的权限,那它就能代替你操作你的电脑。之所以是一个很关键的一 步,是它让 ai 真正的从会聊天变成了会干活儿,那这些部分构成了 agent。 当然这里有一个比较容易误解的点,是不是有了这五个东西就一定叫 agent? 不一定,因为 agent 它最最重要的不是它有没有这些这五个零件,而是它有没有自主工作的能力。这里就要提一个概念, agent 的 loop 智能体循环。 agent 的 loop 最经典的一个框架是 react, 注意,这里的 react 不是 前端的那个 react, 这里的 react 是 reasoning 和 acting 的 缩写,也就是推理加行动。什么意思呢?比如说你现在跟 deepsea 说帮我做一个竞品分析,那 deepsea 只是能给你一段文字,对不? 那 agent 他 会做什么事情呢?首先 agent 他 会自己打开网页,然后他会搜索一下你的竞争对手是谁,紧接着他会自己整理数据,然后他会把这些数据会画一个图,形象的展示给你看。画完图之后,他自己会检查结果,检查这个给你生成的图里面的内容是不是符合要求,检查结果满意的话他就给你输出,不满意的话 他就继续修改,这个过程就叫做 agent loop。 智能体循环,本质上其实就是思考,思考这件事怎么做,然后 采取行动,行动完了自己检查一下结果,检查一下自己做的这个结果好不好,好了就输出,不好了就继续循环。很核心的点是,他会自己检查自己的结果,而不是无论结果好坏都给你输出。那我们最后再总结一下,我就把 agent 呢想象成数字,员工非常便于理解。然后 agent 呢,他首先就是要有 l m 是 他的大脑, tools 是 他的手脚, memory 呢是记忆, knowledge 是 资料库, prompt 就是 他的岗位说明书。但真正让他成为 agent 的 不是组建数量,而是他能不能围绕目标自主完成工作,会推理,会行动、会检查,不满意还能继续迭代、循环、 loop, 这才是 agent。 关于 agent 的 组成部分啊,你可能在网上会看到很多个版本,目前也是 agent 的 高速发展的一个阶段,目前没有一个全行业统一的官方盖章的一个标准答案。所以你可能看到很多版本不是因为谁对谁错,而是因为大家站的位置 不同,角度不同,且述解工程团队、产品公司和普通用户看待 agent 的 视角也都不同。