十秒教会你如何安装拍摄安排,首先搜索拍摄官网,点击进入下载最新版本的拍摄, 下载完成后双击打开,点击运行,勾选第二个选项,再点击自定义安装,点击下一步,勾选上面五项,最后点击下一步, 安装完成后,按住五加二,打开运行框,输入 cmd, 点击确定,然后输入指令拍三回车,这样就安装完成了。
粉丝371.6万获赞3452.4万

codex 大家应该都用上了吧,但是它的缺点就是额度太少了,完全不够用,而且它的头款实在是太贵了。那一种解决方式就是把咱们自己比较便宜的一些模型借进去,比如说 bitcoin, 咱们需要 c c 叉, c c switch 以及 bitcoin 的 api k。 首先我们在 bitcoin 点击 api 开放平台 api case, 创建 api k, 这个 k 一定要保存好。然后我们搜索 c c 叉, 点击这个,在下面找到适合自己的版本,我下载的是 windows 版本,然后搜索 cc switch, 点击下载,在这个界面一直往下翻,找到适合自己的版本,我仍然下载的是 windows 版本,然后安装 在 c c 叉文件夹下,我们新建一个 text 文件,命名为点 e n v, 把这些内容填进去。 k 就是 你设置的登录密码,我这里设置一二三四五六,然后重命名,把点 txt 删掉,运行 c c 叉,这个时候会弹出终端,复制这个 local host 地址,到浏览器打开点,点击 contacts, 选择添加渠道。在这里可以打开 delete 官网找到调用 api, 复制 c u r l, 把这一行改成 api k, 填写你自己的 delete 的 k, 选择详细配置。我们要选择 open ai chat 模式,继续往下翻,把这两个按钮打开,然后就可以了。现在我们在 c c switch 点击 codex 图标,再点击右上角的加号,供应商名称可以随便写。 api k 是 你在 c c x 的 点 e n v 文件里设置的登录密码,我的是一二三四五六 api 请求地址填写这个,点击获取模型列表,可以看到 deepsea 模型了,选择即可。然后我们点击测试模型,如果正常,说明已经配置好了, 我们重启 codex, 选择其他方式登录。这里的 k 也是你在点 e、 n、 v 文件里设置的登录密码,比如我的是一二三四五六,然后就可以了,现在 codex 里面的模型已经是 zip 了。

前两天发的 cloud 指挥 codex 干活的视频火了,评论区两级分化,有人说这套架构确实提效明显,也有人说纯玩具卵用没有。 今天我们就一步步把这套写作系统搭起来,建议先点个赞,关注加收藏。我的态度很简单,没有调查就没有发言权,跑一遍再下结论。 好,先说清楚这套架构到底有什么好处呢?第一,在复杂编码场景下,极大降低 cloud token 消耗。 cloud 最贵,但我们不让他写一行代码,只让他当甲方领导,当项目经理,分析需求、拆分任务、验收结果,最费钱的代码实现全部交给别人来做。第二,实现监工效果。 cloud 充当甲方领导和项目经理,负责规划和验收。 codex 是 后端开发,负责服务端代码编辑和单元测试。 gemini 是 前端工程师, 担任代码审查和安全审计。第三, codex 和 gemini 成本几乎为零,量大管保。结论就是 cloud 出脑子, codex 和 gemini 出力气,钱花在刀刃上, 真正花钱的只有 cloud 做决策那一小部分。在开始之前,你需要确保三样东西都装好了,分别是 cloud code、 codex client 和 gemini client, 执行视频中的三个查看版本的命令,如果都有版本号输出,那环境就没问题,没装好的先暂停视频去装一下。 第四,也是很多人漏掉的一步,理解整个工具链的使用顺序。这三层是有先后关系的。第一层 cloud md 是 规则层, cloud 启动时自动读取,里面定义了协助、规范和角色分工。 第二层, superpowers 是 能力层,提供标准化的规划、审查、调试流程。第三层, c、 c、 b 是 通信层,让 cloud 能通过 ask、 pen、 ping 指挥 codex 和 gemini。 第五,在 cloud md 里写好协作规范。接下来看我本地的文件。首先定义了 cloud 是 架构师、项目经理, codex 是 后端开发, gemini 是 前端开发,这是最基础的角色分工,简单明了 降级机制,明确了异常情况下的接管规则。接着明确了协助方式,使用 superpowers 进行任务设计,通过 c c b 相关命令指派任务。 同时还定义了 linus 三问以及 get 代码提交规范等。这些规则 cloud 启动时会自动读取,不需要每次手动告诉他。你只要把规则写好, cloud 就 会严格按照规则来执行 好。接下来我们进入 cloud 执行视频中的命令,进行 superpowers 插件安装,执行视频中的两条 plugin 命令就可以出现, successfully 就 证明安装成功。 安装完成后, cloud 就 具备了标准化的规划、审查、调试能力,这些能力后面实战中会用到,非常关键。接着要安装终端附用器。 ccb 是 依靠终端附用实现多个模型之间的通信, linux 和 mac 用户安装 tmax 即可, windows 用户需要安装 winterm 或者使用 wsl。 本教程以 tmax 为例,安装方法很简单,一条命令就搞定,执行命令后,我们进入新的终端环境。第八,安装 ccb, 全称 cloud code bridge, 这是让三个 ai 互相通信的桥接器。注意, ccb 是 社区开源项目。特别感谢 bfi 幺二三作者的贡献,它不是官方内置功能。 ccb 依赖 python 三点一零以上版本,安装前先确认你的 python 版本没问题。 python 版本确认无误后,我们执行 git clone 下载 ccb 项目,下载完成后 cd 到项目目录, linux 和 mac 用户执行 install h install 命令, windows 用户用 powershell 执行安装脚本,安装过程中 c c b 会自动配置通信组建,并在 cloud md 里注册 ask、 pinned、 ping 这些命令,等安装脚本跑完就可以使用了。你可以看到终端输出了安装成功的提示信息,整个安装过程非常顺畅,基本不会遇到什么问题。 好总结一下安装步骤,第一步,编辑局域, cloud md 定义协助规则。第二步,安装 superpowers, 提供标准化工作流程。第三步,下载安装 ccb, 打通多模型通信。三步走完,整套系统就搭好了。接下来我们进入实战环节,执行 ccb、 codex、 gemini、 cloud 命令,启动协助系统。 第二部分, cloud 是 项目经理,只动嘴不动手, codex 和 gemini 是 干活的,成本几乎为零,这就是省钱的核心逻辑。 cloud 现在开始下发任务,我们用一个真实案例实现用户注册功能需求如视频所示, cloud 调用 superpowers 开始收集用户需求,制定开发计划,可以看到它在分析需求,确认技术栈,设计系统架构,整个过程完全自动化,不需要人工干预。我们简单看一下 cloud 生成的计划, 规划的非常清晰, gemini 和 codex 的 分工非常明确,甚至还详细列出了项目的文件、架构、接口文档、验收标准等内容,这就是 superpowers 规划能力的价值,省去了大量的沟通成本。 cloud 把规划好的后端任务通过 ccb 发送给了 codex, 你 看画面上, codex 收到命令后,立刻开始疯狂扣顶,速度非常快,文件在不断滚动, 可以看到 cloud 已经获取到 codex 正在执行任务的状态。与此同时,他又通过 ccb 给 gemini 下达了前端开发任务, 两个模型现在是并行工作的,互不干扰,效率拉满。 gemini 收到了任务。你看,任务里面明确列出了前端开发功能、验收清单、注意事项等内容。任务描述非常详细, 这就是 cloud 作为项目经理的价值,把需求拆得清清楚楚。两个打工人正在努力完成需求,我们稍等一下,看看他们的执行结果。 cloud 为了更精确地掌握开发进度,建立了三个 task, 用于跟踪前后端开发及代码审查任务。你看,它自动创建了任务列表,标注了负责人和当前状态,这就是项目经理该干的事情,实时监控进度,确保项目按计划推进。 这时候, cloud 发现 gemini 只是确认了任务,而并没有真正开始执行。随后, cloud 重新将任务委派给 gemini, 催他赶紧开工,你看这个监工效果是不是很到位。另一边, cloud 跟踪到 codex 已经完成了开发和测试工作。接着 cloud 去查看 gemini 的 执行进度,结果发现 gemini 还是只确认了任务,没有动手, 这已经触发了降级规则。于是 cloud 果断让 codex 接管前端开发。这也是这套架构的另一个特色,无需让用户去处理这种特殊情况, 只需要把任务交给 cloud, cloud 就 会根据 cloud md 里定义的降级规则自行安排处理,直到完成项目要求。整个过程完全自动化。 codex 此时正在飞速编写前端代码,一个人干两个人的活。这里我们跳过执行过程,直接看最终结果。 完美 codex 已经完成了前端开发工作,但是由于我们在掩饰中故意让 gemini 不 可用,所以 cloud 只能亲自开展代码审查工作。他调用了 superpowers 的 审查能力, cloud 完成了代码审查,出具了详细的 review 报告。接下来他开始创建 git 提交。我们来看一下 cloud 做的 review 报告, 报告内容非常清晰,详细总结了前后端代码的完成度、安全审查结果是否存在潜在漏洞,以及整个写作过程的总结和验收标准的达成情况,质量相当高。 好,我们来做一个总结, c c b 加 superpowers 这套架构的核心特点是灵活高效,节省 token, 合理分工。 cloud 只做最关键的决策和验收,所有编码工作全部委派出去, 降级机制保证了系统的容错能力,任何一个模型出问题都不会影响项目的正常推进。多 ai 写作的关键不是模型数量,而是统一输出和统一验收。建议先用 cloud 加 codex, 两个模型跑通一个完整流程,稳了再加 gemini。 下一期我们讲 crcd 与自动化,把今天搭的这套工作流接入,持续集成流水线。点赞关注不迷路,我们下期见!

之前呢,我们分享了一期 cloud code 接入 deepseek, 但其实没过多久啊, cloud 就 有过一次版本更新,新版本的模型名称就会出现一些问题, 那这一次就正好我们把桌面版 codex 和 cloud code 都通过 c c switch 来接入 deepseek, 我 们出 three two one。 我 这里啊,把前置环境和 c c switch 都准备好了,同时呢也写了文字版的安装教程。呃,大家可以参考一下,我就不展开了,我们直接开始。 那先说 codex 吧。首先呢,我们需要做一个 cc switch deep seek 的 通道,这个呢,我已经准备好了。呃,文字版里面大家可以自己找一下。首先我们打开这个文件夹,找到这个文件, 复制一下再黏贴。然后呢重命名,文件名是点 env, 注意啊,这个点不能忘记。然后呢,这个文件呢,我已经有了,所以呢我就不确认了,我把这个删掉。 我现在打开这个点 env 给大家看一下,这里面啊就是一条 apikey, 你 们打开的话就把自己的 apikey 写上去就可以了。然后呢,我们双击一下这个 start 点 back 的 文件, 出现这样子的界面,这就算成功了。那如果中间哪里有报错啊,就要重新回去验证一下自己在前面的环境这里有没有什么没有安装好或者遗漏的地方。 好,那我们接着打开安装好的 cc switch, 这个是 codex 的 界面啊,它是 gpt 的 图标。 进来我们看到这个,我们点击右上角的加号,可以看到的是添加供应商,呃,我们下滑,这里填供应商名称, deepseek v 四 pro。 备注呢,我们就随便写写一个 test 官网的链接,这里是可以不填的, api key 就 填自己的 deep seek 的 api key 就 可以。 这里注意啊, api 请求地址填的不是 deep seek 的 接口,因为前面我们已经做过 cc switch 的 转接了,所以填的是本地的地址, 然后下面到模型名称这里就填 deepseek v 四 pro, 然后我们拉到最下面,这里直接就是点添加, 然后它会自动回到上页。这里啊,已经多了一条 v 四 pro。 看一下啊,这里我们直接点一下它就可以切换到使用中了。现在我们来打开 codex 看一下 这里,它其实已经绕开登录环节了,原本打开呢是需要 gpt 的 账号了,现在呢,呃,都是需要验证手机号的。那我们现在通过 cc switch 就 可以直接接入 dbic, 跳过登录直接进到 codex 的 界面了。 这里我们根据他的提示啊,先初步一下,然后这个 set up 好 快速就完成。现在我们发消息来问他一下,你当前使用的是什么模型,有回复了啊,他这里回复呢,他是 deepsea 了。好,我们现在再来验证一下 这里呢啊,使用之前他会向你申请一下电脑的权限。没关系啊,我的 codex 工作区也在桌面上面,我们现在直接打开看一下。 好的,这里呢,他是已经在工作区里面建立文件夹了,速度啊,我觉得是很快的,根本没什么毛病。那其实到这里为止呢, codex 接入 dbic 就 完成了 啊,如果没有账号没法注册或者说登录需要验证的朋友们啊,我们就先把 dbic 可以 这样耍起来了。 然后接下来呢,我们直接再来试一下 cloud code, 这里同时也是一样的啊,我们首先先要打开 cc switch, 我 先把我刚才的配置都删掉, 注意啊,这里是 cloud 的 配置页,也同样啊,直接点击加号进来,直接就是选择 deepsea, 这里的供应商链接,官方名称都已经直接有了备注。我们也先随便写一个测试 a p r key, 这里也同样是写 deep seek 的 key 请求地址,这里也不需要动了。 好,接下来我们就到了模型这里,模型这里呢,我们都填 deep seek v 四,然后这个 e m 呢?呃,之前的视频也说过,其实就是百万上下文使用的意思,如果不加的话呢,不用做大项目的话也是够用的。 然后这里其实还是可以换一个 flash 模式的,也不用全部都是 pro, 然后随便找一个改一下啊,这几个模型名字等会都有用的,是一个对应的关系。然后这里我们就直接先添加, 回到这里就有这个选项了,我们这里就直接点起用。之后呢,我们再开通一下本地路由,在这个设置路由本地路由里面,本地路由打开 cloud 打开, 然后同样这个本地的服务器地址是要记一下,后面要用的。好,我们返回上一集测试一下,看到他是正常运行的。接下来呢,就是打开 qq 的 第一次 打开登录界面,不用登录啊,左上角 help 这里啊,点击这个 troubleshooting, 然后进到这个 enable develop mode, 然后点击 enable, 然后这里其实就是进入它的开发者模式, 然后重启,重启之后你会发现这里多了一个 develop 的 入口,然后我们选择 configure party info, 然后进来。进来之后,首先第一个 provider, 我 们这里直接就选 getaway, 然后 getaway 这里的 base url 就 写刚才我们 cc switch 这里出现复制下来的地址,这一个 key, 这里呢,当然还是 deep seek 的 key, 然后 bear 这里是不用动的。好,到模型 list 这里怎么填啊?这里就是填我们前面在 c c switch 里面配置过的对应模型,前面呢,加一个 cloud。 好, 这里两个模型够了,直接我们拉到最下面 apply locally。 好, 然后直接重启。 看啊,这里就是直接不用登录,我们就进到 cloud 的 界面了,然后 solo party 的 模式到 code 这里试一下。首先呢,我们随便设置一个工作区,然后测试一下,帮我建个文件夹。好,我们看一下它的这个速度还是很快的啊。 ok, 那 到这里呢, codex 和 cloud 都已经接入完成了。我最后补充一点啊, mac 系统呢,相对比较稳定,但是 windows 的 话呢,会经常会出现这样子的报错, 但这种报错啊,其实没有什么关系,通常都是安装有问题。呃,因为网络原因,组建安装可能会有丢失,最好呢是可以调整一下自己的网络环境,重新安装一下就 ok 了。 顶级的 a g 呢,配上我们的国产大模型,就再也不用为无法登录烦恼了。好,那这次的内容就到这里,希望对你有所帮助。我是阿月,我们下期再见。

这是我用 codex 做的动态图标,这些也是像这样的效果,我们现在不需要 ae, 也不需要 p r, 用 codex 就 能实现。那今天我把这个教程分享给大家,用到的工具是 codex 和一个叫 hyperframes 的 插件,点击左边栏的插件,在这里搜 hyperframes, 然后你会看到这个插件的详细信息,点进去再点击,在对话中试用。这里大家记得先添加好项目文件夹,确定好模型,智能等级和速度,然后就可以把题词放进去。比如帮我做一个 codex 和 cloud code 的 功能对比的分析,视频时长十五秒, 尺寸是横版十六比九,视觉风格是苹果简约高级风,需要增加一些动态效果的展示。 这里写错了哈,因为我用的是 ai 语音工具,完全是口喷的,有些词语可能会识别错误,直接改一下就行, 然后点击发送,让他开始做。你看他先是查了一下官方资料,确保这两个工具的信息是最新的,然后他还会去看 hyperframes 的 要求是啥,确定下来视觉身份,然后再去写 html, 他会主动在我们看不到的地方用网页去搜索资料,那整个的思考过程跟我们人类是一样一样的。他还会单独创建一个文件夹,因为我这个目录里面啊,其实是有其他项目文件的,所以他知道不能碰到别的。我把左边的边栏隐藏掉,现在整个页面都是我们的视频制作过程 他很快就确定下来,主画面用冷白、石墨黑、微蓝和暖金做出高级感。我觉得如果大家有更具体的风格,也可以直接在刚才提示词里面告诉他,那整个过程他会自己产出内容,然后检查有没有问题,再自行更正。这些你都可以看到, 如果不想管,就让电脑开着,让扣贷自己干活。那做这样一个视频大概花了十来分钟,然后文件的位置,他参考了哪些资料,最后都会告诉我们。来,我们看一下它的效果。 大家注意看,这只是第一版哦,我觉得已经非常惊艳了,完全没有预先做任何模板,已经可以拿去用了。那不管是发布在社交媒体上,还是工作汇报,都很顶。 实际上呢,它不仅是可以做这种图表,还可以做产品介绍。比如这个辣条的产品视频,你丢给 codex 一个网页,让它做产品或者品牌的介绍,也可以做一个像 open ai 这样的业绩表,那放在 ppt 里面简直是开挂。 你甚至还能让它做这种 logo 散落的视频,或者是宋代山水风格的 ai 发展史, 你给他一段提示词,也不用特别复杂,让他开干就可以了。一般来说啊,十来分钟左右就能做出来,那如果对效果不满意,再沟通几轮, 那到这里大家可能会觉得,哎,这好像没有什么难度啊,很简单,每个人都可以做。那我再分享几招进阶的方法。 第一个呢,如果视频中涉及到图片类的素材,像 logo 啊,或者人像,建议自行上传。或者呢,可以先让 cloud code 整理出这些 logo, 然后再把这个文件夹打包到项目里,这样失误会更少。第二个是关于审美和风格,如果不指定风格,他做出来的大概率就会比较大众化, 像科技风很容易就做成那种已经用烂了的蓝紫色,所以最好是提前指定风格。那我这里也列了一些,大家可以直接拿去用。 最后是音乐和音效,可以让它生成简单的音效,但是背景音乐呢?大家可以用 solo 生成原创的背景音,或者直接在剪辑工具里面把音乐库的素材放进去,最后我再补录一个哈。很多时候我们做动效视频会需要信息的专业性和准确性。 那对于科研、生物科学、生命科学这些领域来说,我比较推荐 bell render 这个插件,它能够把这些领域的一些复杂概念进行可适化。那结合 paperframes 它们两个就能把一些科研领域专业绘色的信息用非常动态的形式表达出来。 比如说我让他做一个 an apple a day keeps the doctor away 这句谚语背后的一个科普回答, 他就会给到我这样一个视频,我们可以看一下效果。 那我们今天的分享就到这里,我们下期再见。

ok, 重头戏来了,这一期主要给大家讲一下怎么使用 codex 和其他工程软件连接,然后完成一些工作。首先的话是 thirdworks, 我 们可以看一下它的工作流,可以看出 thirdworks 不 需要接 mcp 的, 它是会调用 thirdworks com 口,然后通过 vbs 脚本进行建模。也就是说我们只需要给它工程图或者描述我们自己的需求就行, 它自己也能打开 thirdworks, 但是我们自己打开的话会省很多启动时间。第二个的话去 matelab, 我 们看一下它的工作流, matelive 也不需要接 m c p, 我 们也只需要描述自己的需求就行。第三个的话就是 ency, ency 是 需要接 m c p 的, 但是我们可以让他自己接好,就是我们给他说一下,给 ency 接一下 m c p 就 行, 他就会自己接好。接好 m c p 之后,我们就可以通过脚本仿真求解了。当然以上这些操作,包括想要达到我在视频中展示的一键全自动生成,都是给他开放的完全访问权限不, 如果开放这个完全访权限也有一定的风险,大家可以根据自己的需求选择开不开。呃,当然也可以开这个默认权限或者是自动审查,这样的话他会在一些关键操作的时候征求你的同意,就很安全了。或者我们让他在指定文件夹工作,这样的话也很安全。

面对全网热捧的 web coding 和 openclaw, 没编程经验的普通人到底能用 ai 编程做些什么?本期视频我会站在一个普通人的角度来聊聊这个问题,而且我还用 open ai 的 codex 做了一个试例,希望本期视频能帮大家打开一些思路。 我个人认为, ai 编程对普通人最有价值,也是最容易真正用起来的,就是提高工作效率。比如我平时会给游戏公司做广告素材提交出稿的时候,对我来说就是一个非常典型的重复劳动,单纯浪费时间。有这个时间我可以多写一个脚本,或者多做一个选择题。 刚开始我也想过在网上找现成工具,但很多这类工具都会压缩画质,完全达不到我的要求。我就想能不能直接用 ai 来帮我写一个批量加水印的工具呢?今天我主要使用的是 open ai 的 codex, codex 是 前段时间新推出的 ai 编程工具,目前 plus 会员和 pro 会员都可以免费使用。进入 excel 主页之后,点击这个 codex 就 会跳转到它的主页。我个人建议啊,最好把 codex 的 应用下载到本地,用起来更方便。打开应用之后,点击 add new project, 这时候就会弹出文件窗口,在电脑里找一个空间大的盘创建文件夹。比如我这儿新建了一个 test 一 之后, codex 写的代码文件都会保存在这里。因为我这个水印工具已经做好了,所以就直接带大家来看一下我前面是怎么一步一步把它做出来的。 一开始我只用大白话提了一个需求,我想做一个批量给图片增加水印的工具,水印位置可以设置,他思考后呢,给了一版初稿,我测试就发现了第一个 bug, 没办法选择本地文件,所有电脑里的图片不管什么格式都选不了。我又发现了第二个 bug, 选好原图和水印图之后呢,没有预览图, 这个是很重要的,因为没有预览图,我就不知道水印放的位置和效果怎么样,我直接就截图发给他。处理完之后,这个图片水印工具就可以用了。我们先来看一下成品,这里可以选择原图和水印图,选完之后,右边就会出现预览,这里可以调整水印的位置, 比如说什么右下角、左下角、中间等等,选项很多,这边呢还可以调整水印的大小,透明度也可以修改。而且 codex 还考虑到边距问题了,就是水印离图片边缘的距离也能调。最后再选择输出文件夹,点击开始批量处理,它就会直接把处理好的图片输出到你指定的位置。那如果我手动处理六张图,至少也得两三分钟吧, 现在有了这个工具,几秒钟就能搞定。有了这个图片水印工具之后,我就开始思考,在给游戏公司制作素材的时候,还有哪些步骤可以让 ai 编程帮我解决。 然后我就给 codex 补充了三个新的需求。第二个需求是批量处理图片尺寸和大小,因为很多广告平台对于图片尺寸和文件大小都有要求。第三个需求是把一张一比一的图片拆成九宫格,这种形式大家在平台上应该能经常看到。第四个需求是批量给视频增加水印, 连图片出稿都要加水印,那视频出稿肯定也是需要的。这三个新增的需求主要目的也都是为了帮我节省时间。我让 codex 把这四个需求整合成一个工具箱网页,首页要有四个按钮,点击就能跳转到对应功能。我测试后发现了一个共同的 bug, 四个工具都没有预览图, 而且都不能选择下载路径,我就截图反馈给他,他发现确实是同一个问题,然后就都修复了。我继续测试,发现视频水印工具还有一个问题,没有办法输出视频,接着反馈,接着修复,最后我就得到了一个完美符合我需求的工具箱网页,一起来看一下效果。首先可以看到首页有四个按钮,分别对应着我四个需求。这个页面排版其实挺好看的啊,整体是很简洁的风格,而且它还做了一些细节, 比如这个鼠标悬浮上去的时候,卡片会有轻微浮动的效果,这种小设计我觉得还是挺加分的。图片水印功能和刚才给大家演示的一样,就不重复演示了。接着看图片尺寸处理功能,我这里选了一张一比一的图和一张十六比九的图,页面里同样会有预览,还会告诉你输出规格和预估文件大小。选择输出文件夹之后,点击批量处理,它就会直接导出, 检查一下尺寸和文件大小都没有问题啊,非常不错。再来看九宫格功能,选一张一比一的图片之后,我们在预览区就能看到他已经把九宫格切好了,而且文件名也做了排序规则,方便后面发图的时候按顺序排版,这一点考虑的其实挺稀的,下载下来看一下 没有问题,每张图的尺寸和大小都符合要求,而且文件名都自带序号。最后来看一下视频水印功能,逻辑和图片水印差不多,也是选择原视频水印图,再调整水印参数。下载下来看一下。视频水印没问题,但视频没有声音,我在需求里是写了保留原视频音轨,我实际测下来,他目前还做不到完整保留音轨 判断,可能是浏览器本身对阴鬼捕获知识有限啊。不过作为出稿工具,我觉得问题不大,很多游戏推广内容的出稿重点是先让对方确认画面,所以这一点我个人是可以接受的。最后顺面对比一下 codex 和 jimmy 奈分别给我做的图片水印工具。在用 codex 之前,我也用 jimmy 奈写过同样的需求, jimmy 奈给的是原生的 html 代码,需要我自己把代码复制到文本文档里,再 另存为 html 文件功能。虽然没问题,但是从最终呈现来看,我觉得 codex 的 ui 确实更好,整体完成度更高。而且在制作的过程中,不需要我手动去处理代码,我只需要跟 codex 沟通就可以了。所以我觉得如果你没有编程基础,只是想解决一个自己真实存在的问题, codex 会更友好一些。而且最近 openai 更新了 g p t 五点四模型, codex 对 自然语言的理解能力更强了,大家真的都可以去试一试。 ai 编程对普通人来说,不一定是让你去做一个多么复杂的产品,也不一定是让你突然学会写代码,它更现实的意义可能是把你工作里的那些重复琐碎、浪费时间的环节想办法自动化,哪怕只是帮你省下半个小时, 长期来看价值都非常大。也许你做不出一个 app, 也未必要做一个什么很厉害的平台,但只要你能做出一个真正解决自己问题的小工具,那它就已经很有意义了。今天的视频就先到这里了,记得关注冲破新衣叉 ai 教学我是专业的,那我们下期再见。

你看啊,这张图不就全部帮你拆成 ppt 了吗? gpt 加酷 max 目前啊,是我认为最有效的 ai 工具组合了,不要总想着去订阅一堆工具,才能提高你的工作效率。欧本 ai 现在已经非常全能了, 做 ppt, 做插画,剪动画素材,做编程,还能养养电子宠物,基本上啊,还盖了你在工作中的大部分场景。那废话不多,先来看看做 ppt 到底有多简单。我们出发 ppt 这个东西啊,肯定是属于我们都市牛马的必备技能了。当我们需要做一个全新的 ppt 时,第一个难题就是要找个模板先参考一下,要不然啊,总感觉很难下手。好,那这个好解决啊,我们直接上手就用 ai 来搭建一个模板,一切问题啊,迎刃而解。 先到网上找一张自己觉得满意的风格图片,直接贴给扣带斯,让他根据图片的风格设计一个 ppt 模板,我们来看看他的分享, 深空星河、暖色地平线、山脉剪影、精细型典风格拆解啊,都很到位,要你自己来说啊,这话你可能还描述不出来,毕竟啊,现在 g p t 的 识图能力和作图能力已经是第一题对的了,绝大部分风格啊,都是手拿把枪。其实呢,现在也有很多 ai 工具啊,都可以做 ppt, 我 自己啊,也有试过一些,但是呢,总感觉差点意思。好的啊,这里啊,他已经完成了,我们来打开看一下怎么样, 这个风格啊,是不是比较简约?时间线啊,逻辑线啊,也都是比较清晰的,其中的任意元素如果有什么需要调整的,都可以手动来调。当然啊,如果通用的模板你还觉得不够用的话,我们就再给他升级一下难度, 把这个 ppt 模板改成更适合题案,而且适用于新品上市的投放计划。或者还有更简单粗暴的方法,直接跟他说出你的需求,要调研什么,达成什么目标。如果你没有思路的话,就跟他聊,聊出你想要的内容之后再让他生成 ppt, 一 气呵成。 好,我们来看一下成果,依旧是这个简洁的风格,注意看啊,投放计划的元素都有保留哦,包括人群、场景、节奏,必要的元素啊,全部都有了,怎么样?就这么两三句空话就搭出一个 ppt 模板,老板还满意吗? 那么接下来啊,我们来说一下做 ppt 的 第二大痛点,引用和借鉴。平时我们在做 ppt 的 时候啊,看到一个不错的内容,或者说啊,做的不错的模板,想引用借鉴一下的时候啊,却发现这是一个 jpg 或者 pdf 文件,没办法编辑,这个时候的心情啊,往往是崩溃的, 还我没事,现在我们来试着解决看看啊,先去网上找一个复杂的 ppt 样式,就拿这个图为例吧,我们使用一下这个 skill, 跟他说帮我拆成 ppt, 你看这不就搞定了吗?每个元素都是可以编辑的,这样是不是省事多了?当然啊,关于图片转 pdf 这件事啊,有很多工具都是可以办到的,并不算稀奇,但是呢,可能需要收费,或者就是要你看一段讨厌的广告。 那既然如此啊,还不如直接就用 codex, 因为叉 gpt 实在是太全能了。没想到除了编程能力以外,别的啊也是样样精通,不管任何需求,全部大白话跟他讲就可以了。 那总体来说啊,这个 ppt 功能就已经让你省心省力,提高工作效率了,基于提升生产力的消费投入都是智慧票价的。好,今天就分享到这里,大家还有什么想知道的评论区留言,我来帮大家试试。我是阿月,我们下期再见。

前两天我做过一期视频,用同样的 prompt, 同样的真实项目任务实测,对比了 cloud ops 四点六和 gpt 五点三 codex 那 期视频做完之后,评论区有人问 国产模型能不能也拉进来比一下,这次机会来了,这一期视频我要做两件事情,第一个,把上期那两道编程题原封不动的丢给 mini max m 二点五,看看它在同一张考卷上能拿多少分。 第二个的话,我有一个自己一直在用的自媒体 agent 的 项目,之前跑的是 mini max m 二点一,这一次直接升级到 mini max m 二点五,看看他在真实的一个生产电路里面升级到底带来了什么。看过我视频的人都知道哈,我做评测比较关注模型,他在一个真实任务里面的一个表现。 好,我们正式进入编程实测环节,我直接附用之前的两道题, prompt 一 字不改。第一道题的话,是把一个项目里面完整的一个认证用户体系 直接迁移到我有一个图片生成的一个 agent 的 项目里面去,同时再让它做一个落地页,需要考验它对于另外一个项目的一个代码理解能力,架构适配能力以及一些工程规范。 那第二个项目的话,我以本地有一个 skills agent, 之前是做的是终端 ui 的 一个部分,那这一次的话,我希望把它升级成外部 ui, 并且它要保留 string 工具调用流逝输出的一个完整链路,这个就考验它的一个全栈开发能力,以及它的 sse 流逝输出,还有 ui 方面的一些交互。 上期的成绩是 cloud op 四点六和 gpt 五点三勾代码各赢一局,那这一次我们把 mini max m 二点五加进来,看一看它的结果怎么样? 好,开始测试,两个一起弄,可以看到右边这个它识别到我们要做的是一个全单元 y, 它去加载的那个 front designer 这个 skill, 那左边这个项目的话,他发现他是需要去探索已有的项目,去找到那边是怎么做 get up 登录,怎么做谷歌邮箱登录的。先去探索嘛,先去开 saf 界面的探索, 可以看到他这边已经构建成功了,现在在进行一些后端跟前端的验证,整体这个过程测试下来的话,他会遇到一些变异问题,他也自己去修复了。待会等他测试完之后,我们来看一下他跟 cloud 四点六以及 gpt 五点三 codex 同样的代码,同样的提示词完成了一个效果怎么样? 那左边的话先让他一直跑,左边这个任务要重一些,可以看到这个地方他说项目已经启动了,然后他还专门创建了一个简单的启动脚本,来方便我后续去使用。之前我在测试 mini max m 二点一的时候, 有一些开发任务,前端后端写完之后,我需要手工让他去给我写一个 start 点 s h 的 脚本,这一次让你可以看到他在这个过程他自己去发现的这个行为,这一点点赞。现在他说已经完成了,我们现在开始去测试一下 这个就是他把那个终端 ui 变成了一个外部 ui 的 一个版本啊,可以看到左边他已经把我们已有的一些 skill 加载出来了,这个是没有问题的,下面我们来测试一下,给他一个任务,看他能不能去做到加载对应的 skill, 然后工具调用 simi 以及流逝输出都没有问题。好,我们开始 这个申请的过程,看起来没有问题,加载技能也还行,那看他执行命令 ok, 他 也调了对应的工具,只不过这里的这个图标他刚刚是有些问题的,这个状态是有些问题,有个小 bug。 那 整体的话,这一个过程其实已经把我们终端 u i 想要展示的东西已经展示出来,只不过有些小瑕疵。那之前那期视频的话, 也测了 cloud op 四点六跟 gpt 五点三 codex 嘛,左边是 cloud 的 模型,右边是 gpt, 当时我是把票投给了 gpt, 不 管它是从 ui 交互还是它整个功能交互上,明显 gpt 五点三 codex 要优要好一些。我们也可以来测试一下,直接给他一个链接吧,看他怎么怎么搞。 他也在申请,他也在加载技能,那明显能看到 gpt 五点三 codex, 他 做错做的要好一点,对不对? 好,下面我们开始去看他做的那个用户认证那个项目,那做用户认证迁移这个项目的话,其实比我们刚刚看到的任务其实要复杂一些,因为 他需要从另外一个项目去探索,找到想要的东西。其次他还得在这个项目里面去,在各种代码里面去找到他要在哪个地方去修改,前段是要修改哪些,后段是需要修改哪些,所以整体上他的复杂度要高一些。也可以看到他其实并没有一次性去完成这个任务,中间也报错了,我也跟他去沟通交流了, 那最终的话是跟他对话了三轮,他才把这个任务完成了。那这个任务在之前 op 四点六以及五点三 codex 测试的时候,他们是能一次性通过, 跑的时候没有问题,项目也能起起来。那 mini max m 二点五这边的话是有一些问题,我对话了三轮,然后把这个任务搞定了,我们来看一下他的一个表现。 好,我们先看左边,左边是之前 call 四点六写的落地页嘛, 光看 ui 其实没什么难度,因为这个项目主要是考察他去另外一个项目里面把后端代码找到,把对应的数据库找到,找到了之后再放到另外一个项目里面。所以说整体是需要看它的代码实现的功能,比如说这个 get up 登录可不可以,谷歌登录可不可以, 以及它的代码实现的怎么样,因为涉及到登录嘛,肯定安全性这些要考验。下面我们来看一下 mini max m 二点五它这个 ui 写的还可以的,比这两可能稍微会好一点, 那它的这一个谷歌登录跟 get up 登录的话也是 ok 的。 好,我们来试一下它这个谷歌登录 好,可以看到它,其实谷歌登录是 ok 的, 那我这个其实就是一个纹身图的一个 a 帧嘛,那它整体完成度啊,也还可以,但它不是一轮完成的,它中间有一些包的导入错误,还有些细节性的问题没有做的很到位。好,我们来一个整体的一个评分对比。 关于这个纹身图的 a 帧的项目的话, call 的 off 四点六表现优异一些,得分是八点二,那 gpt 五点三 codex 它因为漏了一些功能,所以说它评分要低一些,但是它的整个代码价格、工程规范是这三个模型里面完成的最好的。 那 mini max m 二点五这边它的得分就稍微要差一点,整个的功能完成度还 ok, ui 的 话会比它俩会好一点,但是它的代码架构跟工程规范会偏弱一些。好,下面我们开始做 agent 的 实测,把 mini max m 二点五放到 我已有的一个真实 agent 的 项目里面去,它是做自媒体视频拆解的,之前接的是 mini max m 二点一,这一次升级了, 我们重点看三件事情,第一个是速度,第二个是他的一个拆解深度,第三个的话是表达一个真实感。好,我们现在准备两个窗口,左边的话我准备用来测试 mini max m 二点一,右边的话我们测试 mini max m 二点五。 好,我这边找了一期我之前做 skill 原理讲解的视频,我们同时去点击看左边跟右边他的一个整体的一个速度以及拆解的深度,再看他的一个其他的表现。开始好,这边有点慢,但没关系,我们来看一下, 我们把这个展开,这个也展开,从这个可以看得到,它其实右边会稍微快一些哈,但是这个先不管,因为这个部分的话是跟 a 镜头没有关系,去做语音转,文字是本地的一些模型去转,等他把这些字幕内容提取到之后,我们再看他们的一个速度。 好,现在开始了,大家能明显感觉到吗? mini max m 二点五的是不是快的特别多? 这边已经做完了,这边就是还在,还在做, 那在速度这一块,他现在提升真的非常的明显,特别快,那他最终输出这个结果,我们要怎么去做评测呢?到底是左边的好还是右边的好? 我不能以我主观的去选择哦,右边好,左边好。所以说我找了两个模型去做评测,我们把任务给到它以及它的产出字幕内容全部给到两个模型,第一个是恰当的 gpt, 第二个是谷歌的界面,来去看这两个模型到底哪一个分析的这一个深度, 以及他的一个真实感更强,最终得出的结果。我们来讲一下,那整体的一个结果的话是 m 二点五肯定是提升的蛮多的,第一个是速度变快了,第二个是他拆解的更稀了,第三个的话是他的一个真实感更强了。好,下面我们来做一个总结。 一句话的话就是当前我们这个任务的评测的话,在编程这一块 codex 要领先一些,那 off 四点六要辞职, mini max m 二点五的话更适合做一些速度优先以及你追求性价比的快速落地的一个场景。好,这就是这期视频的全部内容了,熬了一个通宵做的,如果觉得这期视频做的不错了,记得给我一箭三连,大家拜拜。拜拜。

用 ai 剪视频,真正花时间的不是剪辑。过去半个月,我深入的研究了 hyperframes, 得出了一个结论,大多数人出片效果差,不是因为工具不行,而是因为跳过了最关键的前期准备工作,脚本怎么写,素材怎么准备,节奏怎么定,这些都是要提前想清楚的,不然后面全是反光。 所以这一期我把我的整套方案拆解一遍,从 ai 剪视频的原理到成片走一遍完整的流程,里面涉及到的所有的内容都已经开源了,你可以装上直接跟我一起操作。所以这一期又是一期非常干的视频,希望对你有所帮助。那我们现在开始 ai 剪辑到底在干什么? 其实就是让 ai 写代码, ai 用 html、 css 和 javascript 在 网页里面搭画面,动画、字幕、转场,全都靠代码, 然后浏览器一帧帧截图拼成 mp 四。所以你听到的 html 渲染成视频,说白了就是先在浏览器里把画面跑出来,再一帧帧录下来, 那代码能做到什么程度?网页上你见过的所有的交互效果、动效、转场、字幕、动画、三 d 适量图,它全都能做,但它也有做不到的,比如说实拍视频、图片这些它就不能实现,所以必须靠提前准备好素材,或者让它上网帮你来搜索。 hyperframes 就是 这种工作原理,从 html 渲染成视频,它能做的事情非常多, 画面可以分层叠加,视频文字图形往上垒就可以了。它内置了 coco 语音模型来帮你合成配音,还内置了 whisper 语音模型,帮你生成带时间戳的字幕,还能合成背景音乐和音效,甚至能一键扣掉人像背景。 功效方面,三 d、 a e 动画、 gpu 特效这些都支持生成完成后,它还会自动做一轮质量检查,扫代码结构、跑浏览器测试、抽关键帧截图,确保画面没有明显的问题。 hyperframes 的 完整的工作流大概就是这样的,先出使画一个项目,然后一个镜头一个镜头的去搭载画面,搭载完成后,检查和焦验 没有问题就预览,预览通过后输出渲染。我们在这个流程里其实就做两件事,告诉 ai 我 们需要什么样的视频,以及提供 ai 自己造不出来的素材,比如配音图片、视频设计文件等等。 但有个问题,你直接跟 hyperframes 说,帮我剪一条 spacex 的 视频,他大概率做不好,因为什么主线、什么风格、什么节奏、什么素材,他完全不知道,只能靠瞎猜。所以我写了 video spike builder, 加在了 hyperframes 前面,他专门干一件事情,通过追问,逼你动手之前,把所有的决策都想清楚。怎么追问呢?分五个阶段。 第一个阶段是锁定视频的基本盘,他会问你几个问题,包括视频的目的是什么,给谁看,发在什么平台,时常是多少核心,想传递什么信息,以及品牌的调性是什么样的。 第二个阶段是盘点素材,把你可能需要的素材分成六类,逐项跟你确认文案有没有配音,用真人还是 ai 有 没有实拍画面, logo 有 没有高清透明底,需不需要三 d 模型,还缺什么素材要去找等等这些事情。 第三个阶段是我觉得整个 skill 里最有意思的一步叫做激发表达手段,大多数人根本不知道自己想要什么效果,那他就会主动的告诉你 html 可以 实现哪些效果让你来选。 第四个阶段是定视觉主题,你可以从 hyperframes 里面预设的八个主题你选一个,也可以描述你想要的风格,让他来帮你生成一套。 第五个阶段是收集参考和返利,让 ai 有 一个具体的参考,或者明确说你不希望视频里出现什么内容,让 ai 知道哪些原则是不可以违反的。 五个阶段走完,所有的决策都会落到一份叫 video spike 的 markdown 文档里,等到 hyperframes 接手的时候,它只需要照着这份文档执行即可。 这个 skill 里还内置了六十九个预设的画面组建,包含了数据图表、流程图、思维导图、 ui 模拟、大字海报和各种场景,也不需要自己去想这一境用什么形式来表达,它会根据你的内容自动去匹配。 说白了, video spike builder 就 干一件事情逼你想清楚,你前期想得越透,后期出片的质量就会越高,返工就会越少。好,那知道了原理和流程之后,接下来我们来安装 hyperframes。 打开 codex, 点击左上角的 plugins, 在 搜索框里输入 hyperframes, 找到之后点一下右边的加号,弹出窗口后点击下方的安装就可以了。装好了之后,你可以再点进 hyperframes 的 插件页面,看看它的详细介绍。 这里有一点要注意, hyperframes 不是 一个单独的 skill, 它其实包含了十五个 skill, 但在这个页面里,你可以自由地管理这些 skill。 装好了怎么用呢?点击右上角的 tryinchat, 系统就会帮你新开一个聊天窗口, 里面已经预设了一段生成视频的提示词,示意跟着它就能快速上手。接下来我们还要装我专门为 hyperframes 写的一个 skill, 它的作用就是在生成视频之前,帮你先把脚本和分镜梳理清楚。在 github 上面搜索 video spike builder, 找到这个开源项目。 往下滑到安装部分,你会看到两条命令,第一条是安装 hyperframes, 我 们刚才已经装过了,所以跳过。第二条是安装 video spike builder, 复制这条命令, 然后回到 codex, 把命令贴进去。稍等片刻,它就会从 github 上面把项目拉下来进行安装。装好了之后,可以看到它默认安装到了 project level, 也就是项目级, 只在当前这个项目下才能使用。如果你希望在任何项目里都能调用这个 skill, 那 就需要把它装到大局。操作其实很简单,你只需要跟 codex 说一句,帮我把它装到 user level 就 可以了。 hyperframes 和 video spec builder 都已经装好了,不过在开始生成视频之前,我想先让你看一下 video spec builder 里面到底写了些什么。在 cursor 里打开项目左侧,可以看到 video spec builder 这个 skill 的 所有文档已经从 github 上面拉下来了。 我们先打开 skill 的 md 看一下介绍。当用户想制作视频、宣传片、产品演示或者动画的时候,这个 skill 就 会自动启动。它一共有两种模式,第一种是零到一模式,第二种是迭代模式, 启动的时候, skill 会自动检查项目文件,家里有没有现成的 video spike 文档,如果没有或者是空的,那就走零到一模式,如果已经有了,那就进入到迭代模式,让你通过对话反复的打磨视频脚本, 再往下看文档结构,整个 skill 的 文件组织一目了然。其中最重要的是 reference 文件夹里面我准备了几份核心文档, 包括沟通风格、零到一工作流、迭代工作流、视频组建的使用方式、节奏设计指南,以及最关键的一份 question bank, 也就是问题库。我们打开问题库看一下, codex 在 使用这个 skill 时,就是按照前面讲的五个阶段来追问你,一步步逼你把需求想清楚, 每个阶段该问什么,追问的逻辑是什么,什么样的回答可以接受,什么样的回答必须打回去重答,全部都写在了 question bank 里, 可以说 question bank 就是 整个 skill 的 灵魂。看完了 skill 的 内部结构,接下来我们就要开始做视频了,不过在正式开始之前,还有一步准备工作一定要做。 前面我们讲到 hyperframes 里面有八个主题,那如果你想用自己的自定义主题该怎么办?所以这次实操我就带你走一遍。比如我提前整理了 spacex 和 grog 的 设计语言, 纯黑白的硬科技风格,然后提炼成了地址按点 md 设计文档和 tokens 点 css 这样的样式代码,把它们一起复制到了项目文件夹里。 hyposhop 检查自定义主题的逻辑是,如果项目文件夹里已经有了 design, 点 m d 就 会问你要不要使用这份自定义的设计风格。准备工作做好了,接下来我们开始第一条视频。 在聊天框里面输入 slash video spike builder。 使用这个 skill, codex 做的第一件事就是扫描项目目录,他发现里面没有现成的 video spike, 于是就进入到了零到一模式,从零开始引导我们。 他先抛出来两个问题,这条视频讲什么?投放在哪个平台?横屏还是竖屏?那我告诉他,我想做一条关于 spacex 发展历程的视频, 时长大约是一分钟左右,横屏格式 codex 收到了之后,并没有急着往下走,而是上网搜索了一圈 spacex 的 资料,然后又追问了两个问题。第一个是时长,他觉得一分钟,这个回答太模糊了,因为七十五秒、九十秒、一百一十秒的视频节奏是不同的, 所以希望我给一个精确的。第二个呢,是受众,这个片子到底是给谁看的?这决定了内容的深度。那我回答他,时长就一分半左右。受众是普通的知识区观众,核心内容讲的是 spacex 如何通过复用来改变航天行业的发射成本。 拿到这些信息后, codex 给出了初步的方案,九十秒大约可以插入十二到十六个镜头。时长有限,所以没有办法做完整的传记,只能走一条主线,从早期的失败,到 fokken 九的实现复用,再到成本逻辑的改变。他问我这条主线行不行, 另外他还问我有没有竹子稿。那在这一步,我把自己提前准备好的但时间错的配音文件都一起发给了他。 codex 收到字幕和配音之后,先检查了两者在时长的节奏是否对齐,然后仔细的过了一遍字幕内容,帮我做了事实核查,看看这里面有没有表达的错误,或者是事实偏差或者不准确的地方。 查完之后,他问了我一个关键的问题,音频已经准备好了,要不要根据核查的结果重新做一版,把发现的问题都改掉?因为我想快点看一下效果,所以就告诉他不用改了,直接用现成的音频就好了。 紧接着 codex 问了两个关键的画面问题,比如说发射回收筷子夹火箭之类的真实视频或者照片,画面路线是走真实的摄影为主,还是走动态的图形为主?那我告诉他,我目前还没有任何的素材需要他来帮我搜集。 视频的风格以真实的摄影摄像为主,版权先不用担心,因为我们只是测试,不会真的去发出去。现在 codex 开始工作,从竹子稿里面分析出素材的需求,整理成清单,然后去搜索。 搜索完成后,他把视频划分成段落,每个段落该配哪些画面素材都一一对应好呢?给我确认没问题的话,他就会把素材清单写进 video spike 里,然后继续追问。我看了一下没有什么要改的,所以就确认通过。 接下来 callix 问我要不要背景音乐和音效镜头节奏,他给了我一个镜头的节奏建议, 我没有太多的反馈,就让他先按照这个建议去往下执行。那字幕他也问了,是像纪录片那样的整句长注,还是整句加关键词高亮,那我选择的是字幕,需要整句长注。在字体和主题方面, codex 看到我已经有了一套黑白工业风的自定义主题, 不过他还是告诉我, hyperframes 内置的八个预设主题里, data shift 和 shadowcut 这两个也很适合这条片子,但我决定还是不换了,就用我自定义的就好了。最 后 codex 问了装饰和组建的想法,问要不要加时间码,任务编码或者是线框十字定位这些元素, 有没有参考的案例或者是反例?那我确实没有什么特别的参考和反例,就让他按照他自己的建议来设计。以上就是 codex 追问的所有的问题,问题答完之后,他就已经有足够的信息来帮我写视频的脚本了, 那这里我们稍等一下。好,写完了。现在点击右上角的 video spike, 打开它帮我们生成的视频脚本。 这份脚本里面包含了视频的整体基本盘,视频的目的、受众、画面规格、语气基调、修饰结构、表达的手段,还有素材清单,十九个分镜以及每个镜头的具体内容,还有音频的时间轴以及参考范例。最后还有一些留给 codex 自己决定的开放性问题, 所有这些都已经完整的写进这份脚本里了。你刚才看到的这个过程包括内容的主线、受众定位、画风风格、镜头节奏、字幕样式、 bgm 的 氛围、素材清单。所有这些决策在前期全部敲定了,等到 hyperframes 接手的时候,它只需要做执行就行。 如果我跳过了这一步,那直接跟 hyperframes 说,帮我剪一条 spacex 的 片子,相信我,它出来的东西根本就没法用。这就是我开头说的那句,工作量要在前期准备好的意思。 ok, 那 脚本已经准备好了,接下来就是交给 hyperframes 开始干活。在聊天框里输入 slash hyperframes, 让 codex 调用 hyperframes skill。 这个时候 codex 会接上 hyperframes 的 制作流程,根据我们刚才写好的 video spike 开始生成视频。 它会按照我们的设计规范处理字幕、旁白和音频,按照素材清单上网搜索画面素材,还会帮我们合成背景音乐和音效, 这些几乎都不用我们再干预了。因为所有的决策在前期编辑 video spike 的 时候已经全部做完了。 hyperframes 只是在这个环节负责搜集素材、剪辑画面以及最后渲染成视频。 渲染完成后,他还会自动做一轮审核,通过抽取关键帧的方式来检查画面的布局以及素材是否合适。整个过程大概需要四十多分钟,所以这里我先跳过好视频渲染完了,我们来看一下成片效果。二零二四年十月十三号, 一枚七十米高的火箭从太空飞回来,被发射塔上两条机械臂在半空中夹住了。全世界都疯了,但二十二年前造它的这家公司连火箭都飞不起来。二零零二年,马斯克拿卖 paypal 的 钱创办了 spacex, 就 一个目标,让火箭能重复使用。所有人都觉得它疯了。 火箭这东西从来都是用一次就扔了。二零零六年,第一枚炸了。二零零七年,第二枚又炸了。二零零八年,第三枚还是炸了,钱烧完了,特斯拉也在崩盘边缘, 马斯克把最后的钱全压上去。第四枚飞进了轨道。接下来, spacex 做了一件从没人做过的事,让火箭自己飞回来。二零一五年, falcon 九的一级助推器稳稳落回地面。 二零一七年,一枚用过的火箭再次升空,发射成功,火箭不再是一次性的了。今天 spacex 一 年发射超过一百三十次,比全世界其他所有国家加起来还多。一枚助推器最多已经负用超过三十次,发射成本从过去每公斤上万美元降到了两千多。 而开头那一幕,筷子加火箭,就是在这条路上。再往前走一步,火箭连着陆腿都不需要了,直接飞回发射塔,被空中接住翻新再飞。 从什么都炸到徒手接住火箭,再到每一枚都能反复再飞。这条路 spacex 走了二十二年。 刚刚播放的就是一次成片的效果,我没有做任何的干预和调整,从完成度上来说其实还可以,但是你仔细看,里面有不少可以优化的地方。 比如说片子中提到了三次发射失败的场景,其实每一次都可以用一张当时真实的照片来替换,也可以加入更多的视频素材,比如说火箭返回到着陆的画面,但是可能 codex 在 上网搜索的时候就没有找到,那这个时候就需要你来提供了。 而且说到我们自己提供素材,其实主题风格也是一样的。前面这条视频我用的是一套自定义的黑白硬科技风格,那这套主题我是怎么设计的呢?接下来我来带你看一下, 其实很简单,你可以在 cloud design 里面进行设计,输入屏幕上这段提示词,他就会帮你生成一套主题,然后你再跟他多聊几轮,不断的调整细节,基本上各种需求就已经能搞定了。比如我这条 spacex 视频,用的黑白硬科技风格就是这么设计出来的, 它包含了一整套的设计语言,视觉的底座、中英文字体、装饰元素, a 肉出镜使用到的各种贴纸卡片,还有 b 肉讲解概念或流程时候需要用的图标、思维导图以及数据格式化,这些都已经帮你设计好了。 设计完成之后怎么导出呢?有两种方式,第一种是点右上角的 share, 然后选择 download project as a zip 下载成压缩包。那第二种是可以直接点 handoff to cloud code, 这样就可以在 cloud code 里面进行二次的开发和调整 好。实操部分就到这里,最后我来跟你聊一聊我用下来的心得,还有几个实操上的建议。 hyperframes 目前还不是很成熟,所以你千万不要指望它一次就能出成品,除非你的视频本身就很简单,只有字幕和简单的动效,不然你大概率是要调整几轮的。 问题在于,每一轮的调整其实时间成本都非常的高,赶完之后必须重新渲染,一轮就需要半个小时到一个小时的渲染时间,那大概三次也就是三个小时,这个时间成本非常的大。 所以你在使用它之前,一定要先判断一下你这条视频到底适不适合用它来做。像概念的讲解,流程演示、数据图标这类的视频, hyperframes 完全够用。 如果你的视频依赖大量的真实素材,复杂的剪辑节奏,那目前它还搞不定。还有一个问题就是它的效果不太稳定,有点像开盲盒。 虽然看起来它什么都能剪,但是实际体验下来,我觉得它的效果是时好时坏的。如果你真的想把它用起来,比如说批量的去做视频,或者是做讲解类的科普视频, 我建议你要固定一套视觉风格,几个转场和字幕样式以及贴片的动效,做成一条固定的工作流程,不然每次他都从零开始发挥这样的效果,非常不稳定。 然后是关于素材脚本里列的素材清单,不管是图片、视频、音效,我都建议你自己去准备,不要指望扣代斯可以上,我帮你搜索。找回来的素材经常和你的画面对不上,而且现在基本都有反爬 a 阵呢,是没有法下载的, 再加上搜索的过程又慢又耗 tokens, 算下来非常不划算。那我们应该去哪里找素材呢?接下来是我经常使用的素材网站,图片和视频我会常用 pixabay, 最综合 ansplash 和 paxos 的 图片资源,更多一些 bgm 和音效我推荐你用 solno ai 来合成,那这些工具都是支持 api 接入的。如果你有工程能力的话,完全可以自己搭一条自动的流水线, 配音也是一样的。 hyperframes 虽然内置了一个声音合成模型,但是它的效果其实非常的差,声音很机械,在正式的作品里根本没法用。如果你想快速的看效果,那没有问题,但是如果你想把它变成正式能用的视频, 我建议你去使用 mini max 的 speech 二点八 hd 这个模型,或者干脆自己去录好,那我的素材库差不多也就是这些了。那最后呢?我把 ai 剪辑视频这件事情拆成四层来做个收尾。最底层是大模型,模型的能力是地基, 分镜拆的好不好,素材理解的对不对,动效配的准不准全看模型。所以我这里首选 opus 四点七或者是 gpt 五点五。 第二层是脚手架 hyperframes remote, 或者你自己写的任何视频剪辑的 skill 都是脚手架,脚手架决定了你能实现什么样的效果。第三层是脚本书里怎么拆分镜,每个分镜的内容,文案转场以及整体的节奏的设计。 第四层是素材整理,你准备的素材的质量直接决定了最终画面的质量,这四层合在一起,共同决定了 ai 剪辑视频的最终效果。 以上就是本期的全部内容,如果你觉得对你有所帮助,别忘了点赞以及加入废材俱乐部,我们可以一起探索更多实操的玩法,那我们下期见了。

如果你最近也给你的 codex 或者 clockwork 装 skills, 很 容易掉进一个坑,就是你被推荐了几十个甚至上百个 skills, 但是真正开工的时候还是不知道该选哪一个。所以说这一期呢,我也不做大而全的清单,也不讲复杂的安装, 我只按普通小白最容易遇到的六类任务去挑六个 skills。 新手先认识这些就够用的一些 skills, 它们能够分别帮你去解决任务,先问清楚想法,先变方案,知识库能调用,重复流程能沉淀网页结果能验证和各种文件都能够转化成 ai 好 读的这种材料。 ok, 大家好,我是 fred, 专注从普通小白的视角去分享怎么从零开始用 ai 和 web coding 提升自己的生活和工作效率。 那第一个 skill 就是 大家已经耳熟能详的东西啊,就是 using superpowers, 就 它的核心作用是能够让 ai 在 开始做事之前先停下来,把任务问清楚。 就很多时候很多人用 ai 的 痛点不是说 ai 不 会写,而是它太快开始写了,就是你一句话发给他,他可能马上能够给到结果,结果做完了之后才发现说你的目标边界格式和验收的方式都不对。 那这个 skill 所做的事情就是让 ai 先理解任务再计划,最后再验证。所以说它特别适合那种长任务,包括你的需求模糊的时候,以及你经常让 ai 做完又返工的这种场景,那这个 skill 那 就非常适合。 第二个是我非常常用的 skill, 就是 brainstorming, 就 它解决的就是想法,当你还没有想清楚的时候,可能就着急开做的这种问题, 很多人找 ai 去做东西,一上来就说,哎,帮我做一个网页,哎,帮我写一个方案。但其实当你的目标用户,你的内容重点,你的功能边界都没有定的时候,那这就体现了 brainstorming 的 价值, 它会让 ai 先跟你把想法聊清楚,再给两到三个不同的方案,并说明每个方案的一个取舍。比如说你要做一个内容栏目,一个页面,一个工具,一个产品的 demo, 它会先问清楚做给谁看,解决什么问题,哪些功能要不要做, 然后再把你的模糊的想法整理成可执行的这种设计。所以说它适合新项目开头,包括内容策划的开头或者功能设计的开头。 第三个也是我经常会用的一个 skills, 就是 obsidian skills, 就 如果你在用 obsidian, 或者你有大量的笔记资料网页的这种摘要,那这个我觉得就非常值得去收录啊, 就它不是简单地帮你去多存一些笔记,而是让 obsidian 里面的这种 markdown 的 文本,这种 bases 或者 canvas, 或者你的网页资料能够变成 ai 可以 重新组织的这种工作材料 就很多人的知识库最大的问题就是资料一直在往往往里面堆啊,然后真正写文章的时候,做研究的时候,包括你复盘项目的时候,就很难够重新再调动出来用。 所以说这个是会更适合内容创作者、研究型的岗位和那种顾问啊,或者长期的学习者,他的价值能够帮你把长期积累的变成一个可持续输入的一个资产。 第四个我相信是一个所有人都一定会用到一个 skills 啊,就是 skill creator, 它的作用就是帮你去生产你的 skills, 那 它解决的是你的一些重复流程的问题,比如说呢,你每周都会让 ai 写周报,那每次都要重新去讲格式、口吻,保留字段,或者一些审核的一些标准, 或者你反复让 ai 去帮你整理资料,改一些发布的文案,或者检查网页,那这些事情如果我每次都重新解释,去写一些 prompt, 写一些提示词,那本质上就是没有把这些 流程给沉淀下来。那 skill creator 的 价值就是帮你把每一次的对话变成一个可附用的 skills, 它适合做一些固定的格式,然后重复的流程,以及你希望以后能够把自己和团队都能够稳定使用的任务沉淀下来。 第五个呢,是 pay write, 其实它不是一个 skills 啊,就它更像是一个呃,浏览器自动化的能力 就是它可以让 ai 真正地去打开网页,去读取里面的页面的状态,点击按钮,包括说填写表单,截图,检查做网页或者落地页这种后台表单产品 demo 的 时候呢,这个非常非常有用啊,就因为很多时候 你只看代码是看不出来的,比如说按钮点不了,或者文字溢出,或者移动端变形,对吧?或者表单提交失败,这些都是要真正打开浏览器才知道。所以说 playwrite 的 价值就是让 ai 不 只是生成结果,还能帮你验收结果。 最后一个呢,就是 mock it down, 它的作用是能够把各种文件转成 ai 更好读的 mock down 的 这种文本,比如说把 pdf, 你 的 word, ppt, excel, 甚至网页 html, 一 些 csv 或者 jason 图片甚至音频, 都可以转成结构化的文本。为什么这个重要呢?就因为很多时候 ai 总结不准,其实并不是它模型弱啊,而是输入的这种文件结构太乱。比如说文件里面有表格,有分页,有图片,有格式, 那 ai 直接读就很容易漏掉一些重点。所以先用 markdown 这个 skills 把材料变干净,再去总结提取和改写,那结果通常就会变得稳定很多。 所以说呢,这六个 skills, 你 可以把它们理解成 using superpowers, 帮你先问清楚。 brainstorming 帮你用好知识库。 skill creator 能够帮你沉淀重复的流程, 而 playwrite 能够帮你去验证网证网页的结果,或者帮你去爬取一些网页的数据。而 markdown 能够帮你把文件变成 ai 好 读的这种材料。所以说你也不用一口气全装啊,也可以一开始呃,慢慢的一个一个去选,先知道它们分别能帮你做什么,后面可能遇到一些 对应的问题,然后再去用一些对应的 skills。 ok, 我是 fred, 后面我会持续帮你去猜普通人怎么把这些能力用进自己的真实的工作流。 ok, 评论交流你现在最想解决的一个 ai 问题,我会在评论区里面去回复,我们下期再见。

这临近过年,我们的国产模型真的太猛了。前面我做过两期视频,用同样的 prom, 同样的真实项目任务实测,对比了 cloud office 四点六, gpt 五点三、 codex mini max 二点五。 那期视频做完之后,评论区就有人让我测试一下质朴新发布的模型 gom 五,咱也是加班加点的干出来了,而且据可靠消息,过两天还有 deepsea 微视版本的发布,到时候也给大家带来一期真实项目的一个编程实测。 求一个一箭三连不过分吧?在这里要插播一下,当我准备去测 gm 五的时候,我去官网去订阅它的 cooling plan, 直接受庆了,就我的套餐买不到。哇,那如果按 ipa 计费的,我目前也没有找到。他们可以用 insulate 的 一个协议来测试 gm 五, 所以我就用了 ppl 他 们家的去测试,他们是非官方首发部署的 gm 五,一个开源模型的一个权重,那兼容安斯罗比的一个协议接到可拉扣的里面也非常方便,因为我之前的评测的话,都是用可拉扣的去做的嘛。所以说为了保证公平公正,我们也是用同样的 工具方的编程任务去做实测。好,我们先去创建个 api k, 这里我就写 gm 五 确认,点击复制好,我们开始进入真实项目的一个编程实测环节,也是同样的 prompt。 哈,那第一个任务的话,是把 我们另外一个项目里面完整的一个用户认证体系,包括邮箱、谷歌认证登录、 github 登录迁移到我有一个新的图片生成 a 级的项目里面,同时让它去做一个落地页, 需要考验它的一个代码理解能力,架构适配能力,一个工程规范。这个任务还算比较复杂,之前用 mini max m 二点五去测的时候,它花了三轮对话才完成的,那 op 四点六跟 gpt 五点三 colex 的 话,它们一轮对话就完成了。 那第二个任务的话是我本地有一个 skills agent, 它是一个终端 ui 交互的,我们把它做成一个外部聊天页面,让它保留 syncing 工具,调用流逝输出。这个任务主要考验它全站开发, 流势输出以及 u i u x 的 一个交互能力。之前测试的话, off 四点六跟 g p d 五点三 codex 他 们一人赢了一局,那下面我们就开始做 g o m 五的一个测试。 这两个项目现在都是开启了一个沙杯进者的模式去探索已有的代码。那右边的话,它弹出来一个让我选择想用的框架以及 u i 主键库,我就按我一个常用的方式去选好,它提示已经成功了。 好,我们打开了他给我们写的这个 y y, 哈,他把这个 skills 是 放在右边的,就展示我已有的一些项目,来测试一下它可用吗? 好,我们开始让他去总结这篇文章,看一下他有没有去做到加载这个 skills, 然后加载完了之后去执行一些脚本去做爬虫,然后再去做总结。可以看到这边他已经加载到这一个 skills 了,下面去执行一些命令 总结出来了哈。整体的话完成度还可以的,就是他这个 ui 上稍微会差一点点,相较于那个 gbt 五点三 codex 的 话,这个完成的没有 gbt 的 好。 左边这个窗口就是 cloud off 四点六写的,这个 ui 上确实会差一些。右边的话是 gbt 五点三 codex 写的,当时我是把票投给了他,那么同时去可以看一下刚刚那个任务,他们俩其实都没什么太大问题,不是特别难,后端也就 thinking, 然后做工具调用, 可以看到都是 ok 的, 没有什么太大的问题。好,下面我们去看一下那一个纹身图 agent 用户认证体系那块它完成的怎么样了? 可以看到它这个已经完成了哈,可以看到这个代码它已经写完了,我们先看它能不能一次性去启动,之前 mini max m 二点五这一块是没有做到一次性启动,我们先开新开一个窗口去测一下。好,我们可以看到 g m 五的话,它目前启动是没有什么问题啊,我们再看一下它实际的一个表现, 我们看一下它整个 ui 表现哈, ui 还行,那我们看它的那个认证功能可不可以用。我们先试谷歌登录,谷歌登录的话,它这块放了一个小 bug 啊,它把那个毁掉的端口弄错了,我们改一下。好,我们继续。 好吧,登录失败了,这边还是有些问题,你看到它登录的时候认证失败了,应该是数据库的表结构那块有点问题,从这么看的话, gbt 五点三 codex 跟 op 四点六还是要猛一些哈,就是它们没有这些问题。 好,我们再来选择谷歌登录,刚让它修复了一下, 好,他终于可以了。哎,有个问题,他登录成功之后没有回,没有进到我们的那个主页面,登录成功之后没有进到我们 agent 里面, 这个算第二轮对话吧,看他第二轮对话能不能搞定好,我们点击登录选择谷歌, 他还是没有修复成功,他还是要再刷新一下,看没有再刷新一下,进来再给他描述一下吧。现在还有个小问题,当我们认证之后,他先跳转了到首页,我再刷新页面,他才进到了 a 镜的里面。 在他这是第三轮了,就证明他在这个方面其实跟 mini max m 二点五差不太多,他们俩再点登录。 我靠,跟这个问题杠上了,他还是修复不了啊,还是有问题,你能不能好好深入去修改一下,去思考一下。 这是我们第四次对话,让他去修改这一个小问题哈,这个表现呢,就有一点不是特别好了,我们再来,如果他再再进不去,我就不撤了,这个就默认他四轮吧。 好,我放弃了。这个问题我不测了,他修他,我跟他一直对话,他修不了。我们之前测 gbt 五点三跟 colorof 四都是一轮。 ok, 我 们下面来看一下评分,整体的一个打分标准是第一个,我人为的去检测他们的一个功能完整性以及 ui 的 一些情况。那代码架构,工程规范,我都是把他们所有的代码给到 gbt 五点三, codeof 四点六,让他们分别去 review, 然后去打分。 它现在结果是这样子的, off 四点六,在第一个项目用户认证里面,它是表现最好的,它在功能完整度以及 ui 落地上是表现的比较好,并且是一轮就完成任务了。但是它的代码架构跟工程规范会有一些小问题, gpt 五点三扣贷 x 的 话,它的代码架构以及工程规范会比它好,而且是这四个模型里面最好的。那它的功能完整度呢?因为它漏了一个谷歌登录的一个前端,所以说这个评分稍微低一点,那它 ui 落地页的话也会稍差一些。 上一期视频测试 mini max m 二点五这一边的话,他是花了三轮对话去完成了这个任务。那智普这边的话,刚刚你也看到了,其实四轮对话完下来之后,他还有一些小问题,所以说评分的话,他俩其实差不太多吧,我个人感觉哈, 我们来看第二个,把这个 skills agent 做成一个外部 ui, 那 这个项目的话就是 gpt 五点三 codex, 它在业务完成上逻辑错误控制以及 ui 代码质量工程实现都是最好的。那剩下这三个的话,大家表现的都差不多吧,大家有优势的地方也有他劣势的地方。 好,下面我们开始进入 agent 的 实测环节,把 gm 五模型接入到我这一个真实的一个 agent 的 项目里面去,它是做自媒体视频拆解的, 主要需要去看他的一个速度,拆解深度以及表达一个真实感。那整个 a 型的工作内容的话,就是先去下载视频,做音频提取,转文字,然后去做内容的结构化分析,爆款元素的提取,最终输出一个拆解报告。好,我们下面开始吧。好,右边也完了, 我们来简单看一下哈,他们两边格式上会有一些差异。在拆解上我们看他这个结构拆解这块,他这个时间出其实是有问题的,他做的不对,因为我这个是十二分钟的,他是做了 十四分钟到十五分钟,那 g m 五这边的话,它也有讲一个时间戳吧。啊对,你看它有二十分钟,还有三十到三十五分钟都来了,所以说我感觉它在整个 a 帧的表现里面不是特别好啊,它这个拆解的深度也不太够,我感觉相较于昨天我测那个 mini max m 二点五的话会稍微差一些。 好,我们下面总结一下。把 gm 五接到这一个自媒体视频拆解的 a 帧里面,它的一个表现情况哈,整体上的话速度偏慢,就响应速度不算快,可能跟当前用户量大有关系,因为都知道它这个套餐都卖的受庆了。第二个的话,它的拆解深度的话相较于 mini max m 二点五会有一些稍稍不足。 第三个的话,它的一个真实感稍微偏弱一些啊,这是整体的一个表现情况。好,下面我们进入整个的一个总结环节,在编程方面的话,一句话,在我的这一个测试项目里面, gbt 五点三 codex 表现最好,比 off 四点六会好一些。 glm 五跟 mini max 它们的体感接近,都是开源的嘛,并且它们的成本非常低,所以说 对于一个高性价比的一些开发任务的话,我觉得这两模型都非常不错。好,这就是这一期视频的所有内容了,如果你觉得这期视频做的不错,一定记得给我一键三连哦。那下一期视频的话大概率是做 deepsea 微四,有可能是在过年那一天发布,我猜测哈,据可靠消息。好,那视频就到这里了,大家拜拜拜拜拜拜拜拜。

朋友们,今天我们主要来讲解一下,当你已经写完一篇刊刊论文或者毕业论文的方法结果以及结论,而对于整体的背景以及小棕树却无从下手。 接下来我将使用拆了 gpt 五点四以及 codex 对 整体的步骤进行一个完整的讲解。 首先我们要把我们目前已经写好的方法、结果和结论整合成一个完整的 word 文档。这里我选择了上传一篇我已经发表的 其他论文,将其讨论以及背景部分都全部的删除,仅留下了方法、结果一、结论。这时候我们要打开柴的 gpt 五点四的深度研究功能, 输入我们第一个指令。第一个指令主要是利用深度思考,深度研究去对我们目前的方法、结果、结论进行一个整体的分析总结,然后搜寻大量的相关文献,对前期的引言以及相关工作以及小综述进行一个初步的量化。 最后在完成相应的工作之后,深度研究会反馈我们一个 pdf 以及 word 文档。这时候我们把相关的引言部分单独摘出来,复制到我们的论文当中, 再将我们的论文作为第二个附件。这时候我们要采取第二个指令,调动 china gpt 五点四 thinking 大 模型。 这一步的步骤主要是通过五点四 thinking 对 我们整体前期完成的一个引言,一个初步的评判工作,并且要系统解锁我们的真实文献,并且尽可能地下载可获得的 pdf 全书。 这时候我们可以对前期深度研究所给的相应的小综述进行一定的判断。然后在我们第二步的指令当中一定要补全我们的研究方向,例如到底是电力电子电力系统还是相关的控制等等, 补足我们的论文主题以及我们相应的目标刊刊,如果合适的话,我们也可以在这里上传几篇,我们觉得比较满意,可以仿照 参考他的格式以及整体的背景写的格式的论文作为参考。这时候我们需要对我们已经写好的前期的 word 文档进行进一步的修改,补足相应的文献。随后我们要将我们的所有的文献都下载下来, 这时候可以进行第三步。第三步就是我们相应的先找文献,但不马上重写, 有可能前两步他给的文献质量并不是很高,这时候我们就可以先不写正文,先只对我们的研究论文引言以及相关的工作部分所需要的文献检查进行一个整体的筛选以及下载工作。最后可以进一步的提炼我们所需要的参考文献。 这时候我们就已经完成了使用拆的 gpt 的 主要步骤,但是经过我大量的书写,发现其实拆的 gpt 五点四 thinking, 它给的相应的参考文献以及写的小宗数可能会存在文献错乱,就例如它 就例如我们会发现我们看这篇文档像这样的相应的句子,它会引用长达多篇甚至数十篇文献, 但我们经过仔细的发现,其实它这时候引用的文献与我们的实际内容并不相符。这时候我们就需要使用 codex 进行进一步的文献的修改以及追踪。 这时候我们需要在 codex 当中先新建一个任务,然后在任务文件夹当中把我们所有的参考文献按着一二三四五六七八的顺序按着 引用的顺序标好,然后这时候我们再次使用柴德 gpt 五点四去给 codex 写相应的指令, 这时候我们主要的作用是让 codex 去阅读我们文件夹当中的参考文献,然后一一相应地去侦查它给 在我们 word 当中它给的参考文献的顺序以及内容是否正确,然后再让我们的 codex 去一步步的替代。 这时候我们会使用我们的第四个指令,这个指令主要的作用是先让 先要把这个指令给拆了 gpt 五点四,然后同时之后让拆了 gpt 五点四,输出可以直接复制给 codex 的 相应指令,这时候我们使用 codex 直接改我们的相应的论文,让它直接替代我们的 已经标错的参考文献,并最后让它标出来。同时最后这一步 codex 也会 输出相应的表格,就如同我们所示,他会其实会对我们每一个参考文献进行非常详细的总结。这一步在前期的文献调研工作的时候也可以尝试使用,我们会发现他对我们每一篇参考文献都 针对于方法和结论都对了非常详细的改革,并且对可信度都有了一个非常 客观的评价,同时它也会对于我们哪一条要真正的使用修改也会进行标注, 最后它会反馈我们一个新的文档,这时候我们发现对比两者不同的部分,新的使用 codex 修改之后的 word 文档,其参考文献与真实的文献内容可以对应, 这时候我们的小棕树就可以采用并进行最后的润色修改并使用发表。

如果你最近开始用 ai 工具,一定会越来越常看见一个词,就是 getop, 就 别人给你发一个开源项目教程,让你去 getop 上面去下载 ai, 也经常让你看 readme, store issue。 很多时候很多人打开一开始就懵了,这不是程序员看代码的地方吗? 所以说这期我不会讲一些 getme, 也不会讲怎么写代码,我只想讲普通小白怎么用最简单方式去看懂 getop。 ok, 大家好,我是 fred, 专注从普通小白的视角分享怎么从零开始用 ai 和 web 口令提升自己的工作和生活的效率。 你会越来越常看到 github, 是 因为很多的 ai 工具插件,包括自动化脚本和开源的软件,都会把说明、下载、更新和问题反馈在这里。 对于普通小白而言,你可以把 github 理解为四件事,就是一个是找工具的入口啊,别人做好的工具 以及项目的说明书和使用前的这种判断的材料。所以说你要看的不是说哎这个项目代码写的有多厉害,而是这个东西有没有人维护,要不要账号,要不要权限,会不会碰到你自己的文件和数据。这样理解就比一个所谓的代码网站要好,理解非常多。 就很多人怕吉他,是因为他第一眼确实看起来很不友好,全英文的网站对吧?英文的文件名、按钮、标签、技术词就一下子全部堆在你面前。但是实际上你不用从代码开始看啊, 就更简单的方式,你把 github 当成一个工具的详情页,就像你看一个工具之前,你会先看它是干什么的,怎么用,别人有没有反馈,以及最近有没有更新, github 也是一样,所以说你不一定要会照这个工具, 但要会判断是它是不是你想要的,值不值,是,然后以及能不能让 ai 帮你先读懂。就如果用大白话来讲, github 就是 一个公开的一个项目主页,一个 github 的 仓库就是一个项目页面, 你要你先不用把它想成一堆代码,也不用着急去下载,而是把它当成一个工具和这一个项目的主页,它会告诉你这个项目叫什么,想解决什么问题,谁在维护,以及最近有没有更新, 所以说这一页只需要记记住这个理解就 ok 了。就仓库不是一个神秘的文件夹,它就是一个项目的页面, 而当你打开一个 excel 的 一个主页啊,其实就长这个样子,第一次打开这个项目,就你不用试图把所有的文件去读完啊,你就少这四个地方。第一个就是项目的名称 啊,然后一个一计划的简介,确认它到底在解决什么问题。第二,你可以看 readme 的 这个文件,它就是你的这个项目的使用的说明。 第三,你可以看它的 star, 就是 有多少人给他点赞啊, fork 就是 有多少人复制出来,以及最新的一些更新的时间,知道有没有人关注,以及最近是不是还在更新和改动。 然后第四个就是你可以看它的 issues, actions 和 release, 就是 看有没有问题的反馈,运行的记录和一些稳定的版本。就大家要注意的就是就 starts 很 高,只能说明它热度高,但不一定代表就它真的很安全,或者不一定代表它真的适合你, 然后呢?刚刚那一页解决的是看哪里?那我们这一页解决的就是要不要试的问题,你可以直接问三个问题,就是第一它到底有没有解决我的问题? 第二就这个项目到底有没有日常在更新一个二三年的项目,你可能完全不需要再去参考了。比如说第三,那就是我能不能先用一些测试的文件去小范围试一下, 如果前两个问题都解释不清楚,那就不用再花时间了。如果第三个问题也说不清,那就不要直接拿一些真实的文件,真实的账号或者一些重要的数据去跑, 这样你去看 guitar 的 时候就不是在去学一些技术的名堂,而是在做一个普通人的一个使用的一个判断, ok。 然后我觉得现在真正去降低 guitar 门槛的一个地方就是在于大家可以用 web coding, 因为你不用自己去硬读这种英英文的文档啊,你可以直接让 codex 去帮你把 guitar 翻译成你能够看得懂的一些话, 比如说你可以这样问,就是我不是程序员啊,就能帮我去 github 上面去找一些能够批量整理 pdf 表格的工具, 然后以及让它不要只给我链接,能够帮我去判断说它到底能做什么,怎么安装和使用它的 star 数,更新时间和依据,说明什么,然后会读取什么文件数据,有没有一些联网或者权限的风险,然后以及怎么去验证。 所以说这样子 ai 给到你的就不是一堆项目的链接,而是一个能不能用,怎么用,以及哪里需要小心的这样一个判断报告。 然后这里还有一个关键点就是你不要一开始就去搜很多的技术词,就很多小白会直接说,哎,帮我去找那种拍摄的爬虫,或者帮我去找一些什么项目,但实际上你完全不需要懂这些。更好的顺顺序是先说你想要批量整理 pdf 的 表格, 我要把视频转字幕,我要自动汇总一些公开的网页信息,然后让 ai 去找后选项目,然后让他去读懂 readme 和一些视例,然后再最终用一些测试的文件和脱敏的数据去跑一个小样,跑通之后再考虑自己要不要接入自己的工作流。 然后呢, github 也不只是可以放代码,就比如说之前我自己做了一个 store map 就是 门店信息的这种项目啊,就本质上就是把门店数据整理出来,再变成一个前端的看板。 那这种项目就可以在 github 上面去管理, pages 去发布页面, action 是 可以定期的更新, issue 是 去记录问题, release 去记录稳定的版本。所以说 github 也不是是程序员的一个代码仓库,它完全可以是我这样一个小白做这种清亮的项目的一个管理和发布的入口。 所以说最终总结一下,第一,把 gitap 当成一个项目的主页,不用先被这种代码啊去吓住。第二就是你可以看一些项目的名称, read me, 更新时间,然后再决定要不要试。 第三呢,就是你可以让 code 去帮你翻译成你能看懂的话,然后再用一些测试的文件和托米的数率数据去去验证。 最后呢,就是非常想强调一个点,就是免费开源就不等于它可以直接去运行,如果涉及到一些敏感的文件啊,账号啊,你的 api key 啊,或者一些权限啊,一定要让 codex 或者 cloud code 帮你解释清楚它会做什么,再决定要不要继续。 ok, 我是 fred, 后面我会持续用一些真实的案例告诉大家怎么把 ai 用到自己的工作流,我们下期再见。

codex 刚上线了一款神级插件 codex chrome, 让 ai 像人一样操作浏览器,先看效果。我给他安排的任务是帮我在某音和小某书上搜索关于 openclaw 的 作品,各平台各找五个点赞高的,每个作品收集五条热门评论,然后通过这些评论整理出大家对这个话题关心什么。他会先分析任务, 然后呢,开始调用 chrome, 这时候 chrome 就 会出现一个独立的标签页组,然后他就在这个标签页组里自己运行,我可以自己继续干别的事情,相互不打扰。他先打开某音,搜索关键词,然后找到相关视频, 并且按点赞进行排序,点进去之后看内容和评论,然后一个接一个。 之后呢,他再切换到小某书,用同样的方式找到相关的笔记和评论。最后他把不同平台的信息整合到一起, 然后给我整理出一份结果,这样就为我省去了大量的搜索提取。然后整理的这个时间用了几天。我认为 codex chrome 最适合的事情是,你本来可以人工完成,但是非常重复,非常耗时间的网页查询、整理对比和初步分析。 或者如果你们公司有一些内部系统,比如 o a 啊 e r p 财务软件,你平时要经常去填一些表单,日报报销什么的,你就可以让他去帮你去批量的填写。我看网上有人说安装不成功,这里有两点需要注意, 第一,你的 codex 和 chrome 的 版本要更新到最新。第二, chrome 的 商店里需要有 codex, 有 些区域不支持,比如欧洲,你换一个支持的区域就可以了。关注我,我是持续分享 ai 提效工具和方法的小伟。

很多人问我 web coding 到底用啥工具,今天分享一下。一年半下来,我自己真正在用的组合,从设计到写代码到部署,共六类工具,毫无保留的分享给你。设计我不自己想, 直接上 pinterest 搜关键词,找到合适的就保存下来,把图片丢给 cloud code, 让它按照这个风格写代码,比任何 ai 生成 ui 的 工具都好用。 building agent 呢?我用两个, cloud code 和 codex 不是 二选一,是两个一起用。我的具体流程是让 cloud code 先写计划,然后 codex 挑毛病,它们互相 review, 计划到一致的时候再让 codex 去执行。写完代码之后,让 cloud code 做代码的 review, 同时让 codex 也起一个隔离上下文的 sub agent 去进行 review, 反复几轮,双方都觉得没有 bug 了之后就可以上线了。两个不同家的顶级 agent 的 互相 review, 可以 发现彼此忽略了的问题。这个非常好使,而且也是社区里成熟的做法。分工上,我的感觉是 cloud code 更擅长长任务,更有创造力,而 codex 更擅长单次的代码执行, 专业感更强。一个擅长想,一个擅长做 i d e。 我 一直用 cursor, 但不是用来写代码,我是在 cursor 的 终端里面跑 cloud code, 然后用 cursor 来看文件和 date。 模型我是订阅了 cloud 和 g p t 的 每月一百美金的套餐,当然你也可以选择用国内的根据性价比的模型。 后端我主推 hspock, 新手友好到离谱登录,数据库存储全都帮你内置好了。最重要的是对 a 盘的友好,而且还免费让 cloud code 和 code 自己去调用就行,不用你配置任何东西。 它贝斯我个人觉得偏重,之前尝试过好几次都没搞明白就放弃了。部署的话我现在也用 xbox, 它适合全站一站式部署上线,当然你也可以选择用 mercel。 但有一点, xbox 部署的默认域名是没有办法在国内直接访问的,如果你想要分享给其他人去用的话,最好还是买一个自定义的域名 用来绑定。我买了好几个域名都不贵,大概就二十块钱一年,这就是我一年半拎定下来真正在用的全套组合。下一期我会分享新手最容易踩的五个坑,我们下期见。

那本期给大家分享一下我是如何用 codex 实现用 ai 来去做一个账号自动化运营的这个过程。除了录视频这个事情以外,那其实还有很多的 运营的一些琐碎的事情,比如说我要去看我的账号数据,视频录完了我还要写封面标题等等,这些琐碎的工作其实很多,它不是光是录制一个这么简单的事情, 现在我的流程是可以这么做的。我现在是用 ai 的 这个 computer use 这个功能,直接去我的创作者中心帮我去把所有的账号拉出来,在本地上分析,分析完以后它会沉淀出几个特定的文档,这个文档呢就是我的这个 粉丝的文档,账号定位的文档,内容策略的文档。那基于这几个文档, ai 就 会去读取了这几个固定的文档以后,去帮我搜索相关的同行的一些对标的文档以后,去帮我搜索相关的内容, ai 就 会一个一个介绍一下。 每一次我视频拍完结束以后导出字幕,它就可以基于我的这套方法论,帮我批量的自动化的把我的视频的封面标题、描述标签全部搞出来。那也就说现在的主要是它在于你 内容我们已经拍摄好以后的那些环节,那内容的生产前面还是主要是由你自己来想的,不是内容生产前面数据分析它会给我选 dj, 它会跟根据你的账号定位去帮我们来看一下实际的效果就好。那你看 在这里我跟他讲我用了那个 codex 里面 computer use, 他 可以操纵我的浏览器嘛?然后去访问我的这些账户,我让他去分析一下,呃,跟我相关的一些对标账号,然后他是优先读取了我四个 m d 的 文档,嗯,这个文档里面是有我的粉丝画像的,呃,有我的所有的账号的策略定位,我的爆款的复盘, 以及我的选题方向的这几个定位,这是我之前就会有一个引导对话,我这边就跟他讲,我说我发现这些内容太过时了, 你要去重新帮我把这些内容梳理出来,他本来已经准备在做了,最后发现他读的内容太旧了,你就改了他的方向。对,我先去帮你更新你的这些账号定位,对,我要去更新,这个时候我就跟他说,我说你去读去账号吧,你看他在这里面先读了五十一条小红书的内容, 又去读了所有抖音的数据内容,那小红书的所有的明细,然后抖音的所有明细他自己全部读完了以后存在本地,基于这些内容 他开始来做重要的判断,他这几个判断内容是自己判断的,还是你给他自己判断?他根据我的数据分析了我的账号内容,爆款的内容梳理出来的, 那他总结了以后,我说好,那你居然已经调研完了。我说你去把我之前的粉丝画像,账号策略,你去更新一轮,他就叭叭叭叭叭叭更新了一轮最新的内容,所以这是他最后给我的一批我的一些材料,基于这些材料以后,他才会帮我去做这件事情,根据我账号的策略定位, 去帮我寻找跟我匹配的账号的数据。好,注意到小细节,这边这个选题推荐这个 skill 是 你自己写的还是你外面找一个?是我跟他之前合作沟通出来,就是你刚才这生成的一些整套 skill 形容一个,对,是的, 这个里面他就会拿了我很拿到了很多的标题数据。嗯,然后他就给出了所有我这个像内容的爆款的一些封面的建议,然后包括他还给我了一些我能做的选举的建议,都是爆款的选举建议。嗯,好。然后这些内容我跟他讲,我说你要去思考一下你怎么样去更新到现有的 skills 里面。对, 你看他就告诉我直接可以写进 skills 里面的一些规则。好,然后我们看一下我怎么使用的。嗯,然后当我这边输入案例包装,它就自动去调用我的 skills, 然后它的 skills 都是关联在一起的,然后当我把我的字幕给他以后,它就会自动唤起它的一个写作的一个 skills, 然后来去把我这个整个包装发布的内容给它写出来啊,包括标签,包括里面的封面。然后呢?有了封面以后,这个时候他会说他去调用封面 skills 来处理这个图,他就做了好多,你俩玩起来啊,然后他就做了很多不同的图,它还会自动去生成, 因为我还有别的平台,所以它就会生成不同尺寸的图片,你看生成各种尺寸的这个图片给我,生成完了以后,它其实是标题描述标签都是有的,我直接复制就结束了。对,这就是一个全的流程,其实这套方法论 就是最重要的,其实它是不断进化,不断迭代之后。现在不是有那个 codex, 不是 有那个定时功能吗?比如说每个礼拜五去 check 我 所有的视频数据,然后去自动化更新我的相关的一些策略。写作啊,对,写作 skill 更更新过去以后,我每次用到都是新的,就它可以跟着我的账号一同成长,我觉得这个是很牛的。然后再比如说你看这这次的内容生成完了以后,我发现有些过程是可以调优的啊,这个时候我就跟让它去 思思考一下他学到了哪些经验,然后将这些经验告诉我,然后我来判断这哪些经验可以沉淀为 skills, 然后这样的话他下一次就不需要我再教他了,你看他会整理出一批,然后呢?我确认过了以后,他会说他更新了 skills, 他 整理了哪一节步骤,所以我的 skills 是 越来越能够符合我的要求的, 而且再加上 image two 这个深普能力来了以后,封面指出的概率非常高了,我几乎很少去调了。那现在你的就是整个工作流程里面,哪些是 ai 帮你做,哪些还需要你人来做?呃,现在目前我在坚持真人拍摄,然后包括其实选集主要还是我们自己来,就是视频剪辑完了以后,我们直接字幕出来了以后, 视频的封面啊,描述、包装、标签,各个平台的封面的差异,全部都是 ai 在 做的啊,你就露了一个前面就是拍摄前面的啊,就说选题的大纲的准备,嗯,对,选举其实我们自己在准备,但是选题大纲我们会让它来梳理 一下。对,其实我先把我自己,因为我们有的时候内容会需要很多配套的一些材料,比如说我今天要讲 q d s, 嗯, q d s 背后很多一些功能背景,它会帮我收集很多资料。准备好或者这样子,然后呢继续接资料,然后一个大纲, 然后呢?大纲我确认好后再去输出一个 ppt 大 纲, ppt 大 纲里每一页需要画什么,嗯,然后时候再用,再用 ppt skill, 它会帮我做 ppt, ok, 这样子。 嗯,所以这是我们拍摄之前的一些准备。对,其实下次我们可以分享一下拍摄前的一些内容准备,对,这个是我们拍摄完以后数据输出,对,运营数据输出盘,对对对,是,然后最后一个想讲的就是我的整套方法论并不能让我的所有的内容都成为爆款, 是因为去不断地才根据我现有的数据去给我提供建议,也就说他其实是跟我一起成长的。嗯,所以他并不能让我一个 偏账号小白的人立刻成为一个每天爆款的大牛,他只是能不断地基于我现在的重复工作帮我去减少跟我的工作量,就是他没办法取代你的经验。对,他也可以取代你的流程。对,是的,所以他不能让我立刻就变成一个大牛啊。对, ai, 现在时代就是这样,就是成为你能力的杠杆。 对,他是我能力的最上限,所以这个就是我们今天想要分享的,然后包括这一期准备了哪些 skills, 到时候我会变成一个文件,然后放在我们的那个群文件里,大家可以去参考一下。好,那本期视频就这样,拜拜。

agent 早就不陌生了,不过它的下个形态是什么呢?单纯从名字上看,其实我们人文划分了这么三个阶段,第一阶段就是自 menace 开始,往后的 cloud code codex 以及国内的 workbody tree 等等,都可以称为纯 agent 的 形态。 后来呢, open claw 小 龙虾开始兴起,掀起了一股龙虾热,各种 claw 产品层出不穷,可以成为给 agent 套了一层漂亮外衣的 claw 时代。 但 cloud 类型的产品,我觉得吧,始终有个问题就是它的主角是 agent, 所有的包装都是为了让这个 agent 的 更好用,而不是设置一个全新的形态,让 agent 仅仅是底层的辅助,而不是主角。就 像 windows 刚刚出现的时候,它不是让命令行更好用,而是重新用一个新的视角来定义人和机器的交互关系,还是有本质的区别的。当然,有这种彻底的革新可能还十分遥远,不过我最近看到了一款产品,体现了这一趋势。腾讯的 mars 打开它之后,除了常用的 a 阵对话、定时任务、技能广场外,还有个变化还是挺有特色的,就是本地知识库。 在这里呢,你可以看到所有的应用软件可以打开卸载查看。 windows 上有这个视图还是挺实用的,也可以浏览自己的电脑常用的,对文件的操作都支持,不用再切出这个应用了。 由于呢还建立了缩影,所以这里的搜索速度也会非常快。并且它还专门建立了文档和图库两个专门的 type, 在获得你的授权后,就可以为这些文件建立羽翼级别的缩影,融合进 ai 羽翼搜索的范畴。虽然现在的功能还不算多,但这让我第一次感受到,这款产品就不再是以 agent 为核心,而是以人操作电脑的习惯为核心,这个感觉呢,就有点那味了。 接下来我说几个我日常的场景。我平时创作的时候,有非常多的文档,比如说我的每期视频、素材、图片、论文、 pdf 等等。 有的时候我想找一个东西,总是想不起来它在哪一期了,这时候就可以用到刚刚说的 marvis 知识库,比如这里可以看到所有散落在各处的论文,这里有所有图片,用大模型理解分类的整理结果,还可以直接用自然语言描述的方法来搜图,比如说我搜 transformer, 哎,你看一下就定位到了 transformer 这张架构图, 而图片的名字中是不包含 transformer 这个信息的。我也可以直接在聊天框中让它根据电脑中的文档做上下文信息,整个电脑就是个大知识库。 比如说有个有趣的实验,就让它根据我的电脑判断一下我是什么样的人,大家也可以试一试。由于这是我和我对象共用的电脑,这就不全展示了,普通的 agent 任务当然也不在话下。 比如说 windows, 我 好多年没有用了,但是我最近有个切实的需求,就是日常仍然用 mac 电脑,然后有些需要四零九零的任务,就想交给我的 windows 去运行。 这个时候我就可以让 marvis 帮我给 windows 开启 s s h。 那 如果我自己操作的话,可能要敲各种命令,设密码、防火墙啊等等,我连 windows 命令好像都快忘了咋开了,这呢就会很头大,而 marvis 就 可以直接帮我搞定。 开好之后呢,我在 mac 电脑上就可以直接用 vs code 的 远程 ssh 下,就很方便了。比如说我跑一下卡帕西大神的这个迷你 gbt 二的训练代码,分别用 gpu、 cpu 以及 mac 的 mps 三种设备来运行。哎,这样对比起来是不是就非常明显了? 还有个平时的痛点就是,其实很多电脑上的小任务根本就不需要云端大模型的算力,本地小模型就足够了。在之前可能需要欧拉玛或者 lm state 跑个本地模型,然后用 cloud code 改个配置,连上去还是挺有门槛的。 那 marvis 这回直接内置了这个能力,直接在这里就可以切换成隐私模式,他呢,会下载一个本地模型,并自动运行好,那接下来的所有任务就可以全都本地化了。当然,这里的效率模式也是端云协调的模式,它会自动判断什么任务用云端算力,什么时候用本地算力,非常贴心。 那在处理任务的时候, marvis 还有个工作室画面,一堆分工不同的牛马员工马不停蹄的服务,还是挺搞笑的。 你可以看到, mars 内置了功能,不同的 agent 来协同完成任务。总之,这种以人的视角为主题,以系统级的 agent 的 助手为目标的产品, 不同于往日在 agent 的 上面单纯套壳套功能。呃,等未来有越来越多的系统级的能力被打通,被 api 被 c r i 化,变得更让 agent 一 读之后,这种产品形态就会变得越来越好用, 说不定到后面你就会感知不到它的存在。那这就彻底和系统融为一体了啊。当然,从目前的功能来看,有些地方还是比较割裂的,比如说上面的 ai 对 话和这个知识库里的内容其实并没有完美的融为一体,但是我觉得这个方向是正确的,非常期待 marvis 再接下来的版本迭代吧。