我用 cloud code 跑通了视频自动剪辑,给大家实操展示一下,现在的 cloud code 太牛了,我深度使用了一个半月了,它能解决电脑上百分之九十的事情,我养过小龙虾一阵子,那 open clock 就是 个智障儿童。 这个剪辑软件已经开源了免费软件,我放在了评论区,给大家看一下。剪辑过程简直是自媒体的福音,从此不用再吭哧吭哧花时间剪视频了,开始实操。 运行了这个免费的开源工具以后,他开始帮我解析视频,看到我的视频有十二秒我的视频一个内容的结构,这是我拍的一个口播的数字人,他分析完我的视频以后,因为我全程没有口气词, 嗯,十秒一进到底,语速偏快但清晰,所以他给出了一个建议,方向,加字幕调色,加动画叠层,想问我往哪个方向走。接下来他就自动开始写脚本,写代码,我全程没有操作。 然后他开始生成三个动画,进行一个渲染,现在到了渲染环节,这是最终的一个产物,这是最终的视频,我们拉到最下面啊,直接直接丢出来了一个这个视频,结果牛不牛?现在 ai 太牛了,卡的酷的,赶紧用起来,点个关注,谢谢!
粉丝4463获赞2.6万

大家好,我是手软猫咪。今天这期视频,包括你现在看到的每一页画面,都不是用剪映、 pr 或者任何传统剪辑软件做的,它是 ai 写的一堆网页代码,然后直接渲染成了 mp 四,没有时间轴,没有关键帧,没有拖拽素材。 整个过程我只做了三件事,写文案、录音频,把东西丢给 ai。 可能你会问,这有什么意义? ppt 谁不会做?意义在于这套流程一旦跑通 以后,出同类视频的编辑成本几乎为零,换个文案,换个音频,同样的风格,同样的质量,几分钟就能再出一条。接下来我把整个流程完整拆给你看。先说整体思路,就四步。 第一步,写文案,就是你现在听到的这些话,先把要讲的内容写出来。第二步,生成音频,你可以自己录,也可以用 ai 配音,录完之后用剪映之类的工具把气口和停顿剪干净。现在这句话就是我用阿里的 cosy voice 训练的自己的声音, 听起来我觉得还是挺不错的。导出一个干净的音频文件。第三步,生成字幕,把音频丢进剪映或者其他语音识别工具,导出 s r t 字幕文件, s r t 里面会标记每句话的起止时间,精确到毫秒,这个时间信息是后面的关键。 第四步, ai 生成画面,把 s r t。 字幕文件丢给 ai 编程工具,比如 color code 的 或者 open code 的 这些模型用什么都行。 这期就是用 deepsea 生成的,效果一样好,告诉他按照这些时间戳每句话,生成对应的 html 页面。最后用 hyperframes 这个开源工具把 html 渲染成 mp 四的视频, 核心逻辑就是 s r t。 字幕充当了画面和声音之间的桥梁。如果你不需要这么精确的音画对应关系,比如你只想快速出一版概念视频或者内部演示,那 s r t。 的 不用直接把文案大纲丢给 ai 就 可以 让它自己安排节奏。这里单独说一下 hyperframes 这个工具,因为它是让整套方案成立的关键一环。 hyperemax 是 high end 开源的一个项目,完全免费商用,也没有任何限制。他做的事情是你给他一个 html 文件,他用无头浏览器逐帧截图,然后拼成视频。你可能会说,我自己用录屏工具录 html 页面不也一样吗? 不一样,录屏的问题是时间不好把控,你手动翻页,手动触发动画节奏很难精准。而 hyperremax 是 精准到毫秒的, 每一帧在什么时间显示什么内容,完全用代码决定,不需要人工介入。这意味着效率提升了一个量级。理论上,你一晚上可以批量产出一百期同等质量、同等美术水准的视频。 所以所有你能在网页上实现的效果, c s s 动画 g s a p 动效 three g s 三 d 场景都可以变成视频。而且因为是逐帧渲染,同样的代码永远产出一模一样的结果。 对于我们这个场景来说,最重要的一点就是它天然适配 ai, 因为代元模型最擅长写的就是 html, 你 让 ai 去操作视频剪辑软件的时间轴,它做不到,或者说很难实现。但让它写 html, 这是它训练数据里最多的东西之一。 至于 hyperframes 具体怎么安装,怎么调用,这些你完全不需要知道,你只需要知道它是干什么的,能做到什么程度就够了。把 hyperframes 的 项目仓库地址丢给 air 编程工具,告诉他用这个工具来渲染, 剩下的它自己搞定。我全程没有手动超过任何一条 hyperframes 的 命令,现在一步步看实际怎么操作。文案这一步没什么特别的,你可以自己写,也可以让 ai 帮你列大纲,然后自己调整,重点是确定好每个段落要呈现什么内容。文案就是你整个视频的骨架,音频部分 录音用任何你顺手的工具都行,录完后用剪映把气口和长停顿剪掉,让语音听起来连贯。不想自己录的话, ai 语音合成现在的质量也完全够用了。最终你需要的是一个干净的音频文件。 s r t 字幕。我自己是用剪映 把音频导入剪,应用语音识别功能自动生成字幕,然后导出为 s r t 格式。每一条字幕都有编号时间戳和对应的文字,这个文件就是你丢给 ai 的 核心输入。 最后是 ai 生成 stml, 打开你的 ai 编程工具,把 stml 文件丢进去,然后告诉他你想要什么样的视觉风格。 ai 会生成一整个 stml 文件, 里面的每句话都对应一段内容,时间轴全部绑定好了,预览一下效果,不满意就让 ai 继续调,满意之后让它渲染成 mp 四,再和你之前的音频合到一起,视频就完成了。 到这里你可能会想, ai 每次生成的风格都不一样怎么办?今天是赛博朋克,明天变成了水彩风,没法形成系列感,这确实是个问题,但解决方法很直接。先打磨一套模板,你先花时间跟 ai 反复调一版你满意的 html 模板 配色、字体、动画、节奏、布局方式都调到你满意为止。这个过程可能会来回好几轮,这是一次性的投入。 调好之后,你把这个模板文件保存下来,下次做新视频的时候,开一个新的 ai 对 话窗口,把两样东西丢给他,你的模板文件和新的 s r t 字幕或文案大纲,告诉他参照这个模板的风格和结构来生成新的内容。 这里要说一下为什么是给参照物,而不是写一份详细的设计规范文档,也就是所谓的 skill, 让 ai 去遵守。 原因很简单, skill 是 文字描述,每次生成都会受大模型随机性的影响,同样的规范文档,跑十次可能出十个稍有差异的结果,很难做到完全一致。但如果你给的是一个实际的 html 文件, ai 是 在看着具体的代码去仿照, 颜色值、间距、数值、动画参数全都是确定的,付现的精度高得多,所以这个用模板做参照物的步骤不可替代。最后聊一个观点, 在做这种 ai 生成的 ppt 或者视频画面的时候,瓶颈不再。模型能力在美术参考现在不管是 deepsea cloud 还是 gpt, 写 html 和 css 等能力都够用了。能不能做出好看的东西,差别在于你给他看了什么。 你跟 ai 说帮我做一个好看的 ppt, 他 只能给你一个泛泛的、不好不坏的结果。但你如果给他一张苹果发布会的截图,说按照这个风格来, 或者给他一个现成的设计稿,说参照这个配色和布局,结果就完全不一样。所以我的建议是,平时看到好看的画面就截图存下来,不管是网页、 app 界面、别人的视频截图、海报,甚至游戏 ui, 这些都是你的弹药库。 但要注意,截图只是参考,它的作用是帮你明确自己想要什么方向,真正落地的时候,还是至少用 ai 做出一个 demo, 调到满意为止。这个 demo 就是 我前面说的模板, 它既是你的美术标准,也是后续批量生产时的一致性锚点。总结一下今天的流程,文案、音频、 s r t 字幕、 ai 生成, html、 hyperframes 渲染成视频。整个方案的核心价值是可复制性。第一次跑通这个流程可能需要几个小时去摸索,但一旦有了满意的模板,后面每一条视频的制作成本就非常低了。 hyperture 是 完全开源免费 ai 编程工具,现在也有了很多免费或低成本的选项,感兴趣的话可以自己动手试一下。我是手仁猫咪,我们下期再见。

随着 ai 智能体的不断进化,我们习惯了让他们用 markdown 输出文档。但最近 cloud code 团队却发现,当面零复杂任务时, html 可能才是 ai 更完美的输出载体。 当 ai 产出的计划书越来越长,超过一百行的 markdown 文件几乎让人失去阅读耐心。而且为了在纯文本中展示颜色或图标, ai 经常不得不使用笨拙的 unico 的 字体或 sk 码拼凑,不仅效率极低,视觉效果也很糟糕。 相比之下, html 展现出了降维打击般的优势。首先是极高的信息密度,一个 html 文件就能囊括 svg、 插画甚至交互界面。 其次,它的视觉呈现清晰易读,并且通过网页链接就能及其便捷地进行分享。最令人兴奋的是,它支持双向交互,你可以在网页里通过滑块调整 ai 的 设计,然后一键将参数复制回给 ai, 形成完美闭环。 在实际应用中, html 带来了革命性的体验。比如在复杂的代码审查时,与其阅读纯文本,不如让 a a i 生成一份交互式 html 报告。它可以直观地渲染代码差异,在边缘添加内联注视,甚至根据问题的严重程度使用颜色编码一目了然。 面对难以用自然语言精确描述的需求,你可以直接让 ai 为你开发一个一次性的 html 格式化界面。例如,为系统特征开关生成一个代表单的网页,你只需在上面直观的勾选配置,最后点击一键导出,就能把只修改过的键值精确传回给系统,将其变成了天然的护栏。 不仅如此,这种模式可以渗透到工作的方方面面。在探索期,它可以输出网格式图供你对比方案。在设计阶段,它能直接生成带交互的动画原型。在调研时,它能结合 get 历史和文档,为你生成图文并茂的深度报告一切。只要你输入一句,请为我生成一个 html 文 件。虽然生成 html 比纯文本稍慢一些,但它带来的质变是无可替代的。 正如作者所说,使用 html 输出让我感觉与 cloud 的 合作更加紧密,整个创作过程充满了乐趣。在这个 ai 能力暴涨的时代,不要让简陋的文本框限制了你的想象力。

这个名为 open design 开源项目,号称能替代 cloud design, 它能帮你设计 ppt、 商业海报、 app 原型等。关键这一切只需要借助 cloud code 的 就能完成。那它到底是怎么用?设计效果又如何?我们来实际体验一下。 以制作 ppt 为例,首先我只需要告诉他我要什么样的内容,他便会借助 cloud code 自动生成一个菜单栏供我选择。我选择完成之后,只需要静静等待他执行,最终他会给我生成一份 atml 格式的演示文稿。我们先来看看效果 是不是非常不错,要知道我的 cloud code 用的是 dipsic v 四模型,就能得到这样的效果。看到这,是不是觉得 cloud code 不 仅仅是一个 ai 编程助手,它也是一个通用的智能体。

你还在一帧一帧剪视频的时候,有人已经把整套剪辑流程连铜币 raw 生成一起交给 ai 自动跑完了。 这奇缘片讲的不是一个花哨插件,而是一条真正能落地的视频自动化流水线。核心做法是把克劳的 code 接上 hixio 的 mcp, 让他从听懂素材到剪辑成片,在倒谱上对应的 aib raw 一 口气做完。大家好,我是进化中的阿晨, 今天我们就来拆这条让我觉得很有含金量的自动剪辑方案。原作者一开场就直接说克劳德抠的已经能把整条视频剪完,连 b 肉都能自己加。这一下就打中了做内容的人最痛的地方。因为传统找素材最浪费的从来不是拖时间线, 而是满世界搜 stock footage 还不一定匹配。而这套方案的重点是不再手动找通用素材,而是让系统根据你说的内容直接生成更贴题的画面。 and just type hix field and for remote mcp server url this is what you're gonna put? i can also put this? 按原片描述这条链路,先从原始口播开始,你把视频丢进指定文件夹之后, whisper 先做转录。作者特别提到, whisper 有 api 方案也有本地方案,它自己更倾向免费选项,所以让克劳德蔑的帮忙判断该怎么配 字幕出来之后,克劳德 code 不 只是做文字整理,它会进一步判断哪些句子适合插入 be role。 也就是说,它不是机械转写,而是在理解内容节奏。接着,这些被挑出来的片段会被送去生成对应的画面提示词, 然后 hixfield 再按这些提示生成视频集的 b role。 这里最关键的一点是, b role 不 再是 generic clip, 而是跟口播语义绑定的定制画面。 right and then you're like how do i even do this so what you have to do is just click the little dot over here do you see that just click that and click download and what's your download。 原作者还专门提到他自己做了一个 md skill file, 你 可以理解成他把这套剪辑编好,必是 role 规则执行流程,提前写成一个可付用技能包。所以克劳德抠的打开后不是临场发挥,而是先读规则, 再检查 raw folder, 再开始动手。原片里能看到系统会自动读取 b raw skill, 然后逐步执行剪辑任务,包括切视频、优化音频补画面,这些都在同一条链路里。作者实测,一条视频真正进入自动剪辑阶段,大概只要四到六分钟。当然 前期搭环境会更久一点,但一旦跑通,后面节省的是每一条内容的重复。劳动。原片也很坦诚,这不是装完就百分百完美。克劳的抠的可以做的很简单,也可以做的很复杂,你得愿意来回挑,让他慢慢贴近你的风格。 但一旦调顺,他能把你从最耗时间的执行层里拉出来。你负责判断和发布,系统负责大部分生产。 b roll, that's my skill and once you click it then clock code will take a look at it and then start editing you see that's the clock code。 如果你想自己复现原片,给出的基础依赖也很明确,先装 whisper 和 ffmp, 再准备克劳的 code 的 运行环境。如果你后面想扩展模型调用,也可以接 deep seek v 四 kilo code opcode, 或者直接配置 instagram api, 涉及 api key, github, reporter, terminal 这些基础操作最好一次性理顺。因为这类自动化工作流本质上拼的不是某一个模型, 而是整条协同链路。总结一下,这期视频最有价值的地方不是告诉你 ai 能剪视频,而是它证明了转录语义定位生成 b roll 自动剪辑这几步已经可以被克劳的扣的串成可执行流程。以前你做视频卡在找素材, 现在更像是在训练一个会照着你风格干活的剪辑助手。这不是完全替代人,但他确实把内容创作者从体力型剪辑往系统型生产往前推了一大步。

这是一期教你如何正确并且省钱使用 cloud code 的 视频,关注我时间长的朋友应该都知道,我是 cloud code 的 死忠粉,作为一个每天使用八个小时,并且用 cloud code 变现了几千块钱的用户,今天我将跟大家分享几个帮助大家省钱而且提高效率的隐藏命令,也许你从入门到精通就差这几个隐藏命令了, ok, 话不多说,我们直接开搞。首先就是 model ops plan, 大家熟知的我们都是通过 model 进行切换嘛。 但是这个命令对于二十美金的 pro 用户来说实在是太友好了,因为它会自动地在你进行一些复杂推理和写计划的时候使用最强的 ops 模型,然后在执行的过程中使用第一档的 sonata 模型,这个就能帮助 pro 用户显著地节省头肯, 你的一倍头肯,能用到三倍头肯的效果。第二个就在命令行输入 remote control, 就是 我们在养龙虾的时候终极梦想,就是我们躺在床上,然后让 ai 自己写代码,那么这个命令就能很好地帮你实现。这一点能够通过手机来操控 cloud code, 你 只需要在对话框里面打斜杠 r c, 它就会生成一个网页, 你用手机打开这个网页的时候,你的整个 cloud code 就 会在你手机上同步,这个功能是让你的手机变成遥控器,远程的遥控 cloud code, 我 只能说憨爆了。第三个命令行是斜杠 export, 它会把我们所有的对话上下文打包成一个 m d 文档。如果没记错的话,我觉得 cloud code 的 上下文窗口应该只有两百 k, 经常出现那种你跟他聊着聊着上下文窗口满了,你需要开一个新窗口的问题, 那么这个命令就能很好地帮助模型去知道啊他现在做到哪一步了,他接下来要做什么?此外,你可以导出到其他的 ai 产品嘛,比如说 codex 上面,然后你继续搞。最后我想讲的这个不是命令行,但是如果你要想在你睡觉的时候让模型继续帮你工作,那么就一定要勾选上这个 permission, 它叫 bypass permission。 我 们是不是很多人在使用 cloud code 的 时候,一会儿一个弹窗,一会儿一个弹窗,你要点击去确认这些权限,但是你选择 bypass permission 的 模式之后,它自己就会去执行所有的命令了。其实我今天本身还是很想讲一个,就是 agent team, 你 一个人怎么去组建一个 agent 军团去帮你干活? 我经常搞十几个 agent 同时并行的帮我完成任务,这种感觉实在是太爽了。但是因为这个篇幅比较长,而且今天时间有限,可能讲不完,所以说大家如果想听的话,可以在评论区里面提需求,如果想听的人多了,我们下期直接安排上,那么我是 holland, 关注我,带你分享更多 ai 变现和省钱玩法。

你现在看到的这个视频是 cloud code 配合 hyperframes 做出来的。我给了个文案,把想要的效果说了一遍,跟进对话框,剩下的剪辑做动画加字幕做效果,全是它自己搞定的。 整条视频我只负责了文案的输出,但看到这里你可能开始觉得只有这些嘛?对,给它接入 gptm h 二,画面就不再枯燥了。有一只橘猫, 一只柴犬,这条视频每一个环节都不用我自己动手,甚至我还让他详细整理了这个工具的使用方法,他的能力、边界,怎么和他交流都很清楚。这么做视频真的有把我爽到。

这段视频主要不是做教程,而是测试 cloud opus 四点七的前端生成能力。我给他的任务很直接,生成一个单文件的 html 天气动画页面,只用 html, css 和 javascript, 不 依赖后端。 这个需求本身有一定强度,因为不只是把页面搭出来,还要求支持多种天气和昼夜切换,而且每种状态都要有明显动效。 页面中间还要有一张玻璃拟态天气卡片,展示城市温度、湿度和风速这些信息。所以这次测试的重点就是看它能不能同时处理视觉设计、动画表现和代码落地。 可以看到,当我把要求描述清楚之后, opus 四点七很快就进入生成状态,而且不只是输出代码,还会顺手整理实现思路和关键细节。生成完成之后,他直接给出可运行的 weather demo 点 html, 并打开预览,让我马上检查结果。 接下来我切换几个天气场景,你可以重点看背景光影、云层、玻璃卡片,还有场景切换时的整体氛围变化。如果你平时也在做活动业、创意业,或者需要快速出一个高质量前端 demo, 那 opus 四点七的这类能力还是很值得参考的。

如果你常听别人提 cloud code 有 多牛,想体验,却被它复杂的安装、繁多的命令行以及纯极客的操作界面劝退,那你今天来着了。我在 github 上发现了这款宝藏工具,开源免费。它上线一个月,星标就将近十 k, 热度极高。先看下效果, 第一,全图形界面做到了豆包的易用性,能接入几乎所有的主流模型,甚至可以接本地部署模型。第二,可以接入微信、飞书等 i m 工具,让你用手机就能随时操纵 cloud code。 别人都在手机里养小龙虾,你可以在手机里养一只东海龙网。 第三,还支持 computer use, 全球顶尖模型公司都在研发的功能,能模拟人来操作电脑,完成任务。这个工具将 cloud code 的 安装和使用门槛几乎降到了零。 它是基于 cloud code 的 原码来进行的应用开发,保留了原汁原味的内核架构,在用户体验和功能延展方面做了很大提升。用过番茄花园 windows 的 人都能明白,我们国人开发者是多么的懂用户。 这段时间我用下来,我觉得作为一个 cloud code 的 老用户,我是回不去之前的方式了,就像是开习惯了自动挡的人不愿意再换回手动挡一样,以前要写命令改配置的操作,现在点点鼠标就可以了。如果你想体验 cloud code, 我 觉得这是一个非常容易上手的方式。点关注我,持续分享 ai 提效的工具和方法。

别让 ai 凭空设计,先让它学会一套审美。今天分享一套 cloud code 加 skill 的 网站设计流程,一共三步。首先,安装 hue skill, 这个 skill 可以 把你喜欢的页面提炼成一套可附用的设计规范。其次, 找到你想复刻的页面,可以去 refer 网站,找到自己喜欢的风格,复制给 cloud code, 可以 生成一套设计规范以及格式化设计看板 q 还会根据设计规范生成专属的 skill。 第三步,用这个专属的 skill 以及需求生成网站,最终生成的效果还挺不错的,我把整套流程也整理成了文档。

我可能就是个超级摆吃,但我发现 hicksfield 的 ui 太复杂了。 但幸运的是, hicksfield 刚刚推出了官方的 m c p, 让我们可以直接将 cloud 与 hicksfield 连接起来,这样就不必在这个 ui 中四处导航了。我们甚至能把它装到 cloud 里,让 cloud 以 hermes 智能体的身份运行。但在这个视频中,我们将把 m c p 与 cloud 进行安装连接。 好的,我刚发现了我的新宠,来自瑞典的蔻莱发胶,一整天都能固定卷度,毫无僵硬感,而且百分之一百纯素。快跑别走。这很简单,只需打开桌面上的 cloud 应用,如果还没下载,赶紧下吧。然后进入设置, 点击连接器。在这里我们可以看到所有已使用的连接器。我们现在点击添加自定义连接器,复制这个粘贴进去,称它为 hicksfield, 然后点击添加。现在我们要做的就只是点击连接。 我们点击允许,并将 hixfield 连接到我们的 plot 账户,点击打开 plot 并刷新。现在你可以看到我们已经连接了 hixfield。 我 们可以点击配置。在这里能看到他现在能访问的所有工具。我就让他拥有绝对的一切权限, 然后回到你想做的任何事情。我们用 oppo 四四点七来搞定他。现在我们就问他,你是否有访问 hixfield mcp 的 权限, 只需回复搞定。现在你可以看到 higgs field 已接入 m c p, 但你实际上能用它做什么?好吧,你能做很多事。你基本上能做的所有事现在都可以通过云端代码在 higgs field 里完成。我用 higgs field 做的事情之一就是做缩略图。 我这里放的是我最新视频的缩略图,然后我可以说我想要一个不同的图标,就放在这。也许我想要希格斯长,所以我可以搜索 hicksfield 的 图标。我可以复制这个,把它粘贴进去,然后说把左侧图标换成这个新图标使用 hicks。 现在他让我们保存这两个文件,所以我就把图片保存下来,点击这里的保存按钮,然后从我们的下载文件夹里拖进来就行。当 cloud 正在处理时,有人能给我解释一下, pro 看起来像个卡通人物吗?现在我想起来了,是超人总动员。继续加油, 老兄,我像超人总动员里的谁, 喜欢什么, 如果能帮上忙,就在下面的评论区留言。我要新建一个文件夹,命名为 hixfield, 然后把这两张图片拖进这个文件夹里,然后我基本上就告诉他, hixfield 的 两个文件都在 hixfield 的 文件夹里,还有下载目录中。 就像我在最近几期视频里说了,到二点五万订阅时,我会清理我的电脑桌面。所以如果你想让一切干干净净,那就点个订阅吧。 搞定。你可以看到它使用了 nano banana。 二,它给了我们这个任务 id, 然后它会说结果很快就会出现在你的 hacksfield 的 工作区中,所以我们可以进入 hacksfield, 再进去 nano banana。 搞定。你可以看到新的缩略图,它是用这个 hacksfield 图标创建的,但这并非我们能做的一切。我们还能让它制作广告。我想制作一些 ugc 一广告,然后我会粘贴这个提示词,说明我想要的具体内容。我可以这样说,用手机分辨率创建这位女性的图片之后,我们可以将其转化为动态视频模型。 回车现在语音就会构建这个。而这件事很酷的地方在于, m c p 内置了对使用哪些模型的推荐。使用 hicksfield 最困难的事情之一就是有太多不同的工具可选,你根本不知道到底该用哪个。但 hicksfield 团队内置了推荐功能, 现在你可以看到它正在使用 so 二,这最适合这类肖像,所以我可以进去找到 hixfilm。 so 二搞定。我们可以看到现在有了这个 ugc 角色,把它放进 hixfilm 文件夹里,然后说,太好了,我放好了 hixfilm 文件夹内的生成内容,然后我们可以进去找一个随机的产品,比如这个。然后我可以写请在下载文件夹中谈谈产品,也就是这款喷雾生成脚本,再次确认脚本, 并把这个角色和这款喷雾结合起来,制作一条完整的 ugg 广告。 这很酷,也是我认为的真正优势在于,当用人工智能生成内容时,它本质上是一场拼数量的游戏。你可能需要进行三五十次生成才能得到你想要的完美创意。通常你得坐在 hicks field 里做一堆生成,这效率不高。 那既然现在能让 cloud 来做这件事,我们可以让他一次性生成三十个版本,以便找出我们最喜欢的几个,这样能省下大量时间。我们可以看到我们的模特拿着喷雾,所以我要做的是下载这个文件,然后把它粘贴到 hex view 的 文件夹里,所以他现在就在 hex view 的 文件夹里。 现在他正在用 king 三点零进行动画制作。在他运行的同时,如果你正在用人工智能构建很酷的东西,那就加入我们完全免费的社区吧。这里已经有十五万名成员了, 这里有一大批活跃成员,他们始终走在前沿,共同探讨人工智能。我们还有一个七天人工智能挑战,不仅教你如何用人工智能构建产品,还教你如何真正把它卖出去,拿下你的第一个客户。 而且完全免费!这也是你可以找到我所有平台资源的地方,比如我的脚本技能和指令,绝对应有尽有。完全免费第一个链接在描述里,这就是最终成果。好的,我刚发现了我新的挚爱,来自瑞典的卡雷发胶,一整天都能定型卷发临江硬感截百分之一百纯素, 快跑别慢走!好的,我刚发现,太疯狂了!如果你想用我这个提示词,我会把它放在学习中心里,就称它为 x build 一 局机提示吧。 所以,如果你想获得这个资源,他就在免费社区里,你可以完全免费获取。太棒了,希望你们有所收获,也看到了这个新 m c p 的 威力,明白我为何要制作这期视频,如果有任何问题,就在下方留言。如果你知道我和超人总动员里的谁长得像,也请在评论区告诉我全部怎么样!

今天给大家推荐一套 skill 的, 它打包了市面上常见的格式化的表达,可以一键把你的文章变成 canvas mami 跟 iscaraj。 第一种结构清晰,配色干净,排版漂亮,这是 canvas。 第二种,它把流程节点、箭头的走向以及逻辑链条梳理得让你可以一眼看清,这是 iscaraj。 第三种是手绘的,质感就看起来比较自由随意,像在白板上随意勾的,这是 iscaraj。 同一个内容三种表达只需要十秒。 给大家简单介绍一下这三种矢图它适合在哪些情况下去使用。比如说像 canvas, 它比较适合做知识图谱,项目盖板,或者说文章结构的拆展 分类的话,适合现性逻辑的一些表达,包括流程图,决策数或者时间线。因为我最近在做一款退休相关的一个产品,会涉及到退休年龄的计算,以及退休金的一些计算,它把整个的逻辑都梳理的很清楚,包括说 怎么样去判断一个人的退休类型,它是到了法定年龄去退休,还是在法定年龄之前退休,它的整体的计算的逻辑都会不一样,然后它在这里也展示的很清楚。 export 就 比较简单,它适合那种自由表达,画草图跟圆形,以及非正式的一些思维发散。不过我觉得这个 export 它画的倒是比较简单,就是如果说你要增加一些图,或者说增加一些网页的跳转的话,还是需要你自己去增加的。 而且这个 skill 生成的图,如果说你有一些不满意的话,你是可以点击编辑去修改的,甚至你可以也可以去修改它的底色,比如在这里选择它就会变化,我觉得它就是节省了你从零到一的画图的时间,非常方便。 那接下来来告诉大家怎么样装这个 skill。 主要是三步,第一步就是 obsidian 是 要提前装好 ai agent 的 插件的,我用的是 cloudian, 之前视频有教过怎么安装,这里就不说了。第二步是我们在 github 上搜这个 skill 的 名字,然后就能找到这三个 skill。 这里下面呢,它是有对这个 skill 的 整体的介绍,告诉你整体的安装的方式。我们可以直接复制这个命令,回到 cloudian 的 聊天框,直接发送给 cloudian 即可。 把刚刚的口令发送进来之后它就安装好了。安装完之后呢,它会告诉你对应的 skill 的 用途以及它的触发词是什么。我们平常触发 skill 的 方式是斜杠,然后去掉起选择这个对应的 skill, 比如说萌妹,它就会 加载这个 skill。 这个 skill 还做了一些触发词,就是我不需要去调起了,我直接用自然的语言,比如说我要做一个 make 图,或者我要做一个 canvas 图,它就会自动加载这个 skill。 那 比如说我给他发的是用 make 格式化退休计算的流程,然后呢,他就阅读了这个 skill 的 skill m d。 因为我前面跟他去聊了一些退休计算的流程,然后呢他这里就把整个的计算流程化成了个 blank 图,非常的快。我还让他自动的去帮我保存为 opc 点笔记文件,然后他就可以帮我创建一个新的笔记了。 那今天的分享就到这里啦,以前我们做一张结构图,先理逻辑,再选工具,再调颜色,还有对齐整体的节点以及对拉线,至少半个小时起步,那现在一条指令 十秒三种风格任选,把节省下来的时间更多的放到我们的内容的本身,觉得有用的话点赞、收藏加关注,拜拜。

想做 youtube 的 不出境频道,但卡在了画面质量上。如果你关注的是影视解说、游戏剧情与世界观展示、硬核知识讲解,或者是极具质感的视觉艺术和商业广告,你一定知道,现在的观众口味越来越刁, 普通的拼凑素材已经没人看了,你需要的是真正的大片感。程序员圈子里的 cloud code 彻底火了,但百分之九十九的人都只拿它写代码,简直是大材小用。 今天我要教你一个被低估的神级玩法,利用 cloud code 驱动目前顶级的 ai 视频模型 hixfield, 全自动制作导演级控制感的专业视频 核心神器 hixfield mcp。 为什么是 hixfield? 因为在视觉要求极高的垂类赛道,它生成的视频极其细腻。 通过最新的 m c p 模型上下文协议,我们可以直接把 hixfield 的 ai 视频生成能力插进 clod 的 大脑里。这意味着 clod 不 再只是给你写个剧本, 它能直接调用后台的视频模型,按照你的要求一帧一帧地拍出大片。别担心,这不需要你懂编程,只需要三步连接。一、连接视频大脑在 hixfield 的 m c p 链接。这就像给 clod 装了一台超强的摄影机。 二、连接声音灵魂接入十一 laps 的 a p i, 这样你的视频不仅有画面,还能拥有目前最像真人的 ai 配音。三、安装渲染引擎,在终端运行一、行指令,安装 ffmpeg。 它的作用是让 cloud 在 生成完所有片段后,自动帮你把画面、配音和 b g m 缝合成一个完整的一零八零 p 视频。 现在你只需要一段终极指令, master prompt。 比如我今天想做一个酒店行业不为人知的秘密的科普视频。我告诉 cloud, 写一个八分钟的脚本,要有三目式结构,每六十秒设置一个悬念钩子。 视觉部分开头最重要的三十秒,全部调用 hix field 的 最强悍的 cds 二点零模型进行生成,确保画面达到影视级质感。中间部分利用 gpt 图片生成,配合动态平移效果。 最后帮我设计三张高点击率的缩略图。接下来的时间,你只需要喝杯咖啡, cloud 会在后台疯狂运转写脚本,裂分镜表生成配音调用 hixfield 拍摄视频。在影视解说和视觉艺术领域,它生成的视频逻辑更严密,画质更高级,完全没有那种廉价的 ai 感。 他甚至帮我处理了转场,自动添加了蛋入蛋出,连视频标题和标签都准备好了。你拿到的不是一堆零散素材,而是一个即发即用的发布全家桶。最后,我想给所有想做垂直赛道的朋友一个真心的建议, 当 ai 让视频制作变得有手就行时,大家的内容会变得越来越雷同。想要脱颖而出,你必须建立自己的视觉品牌。 比如,你可以利用 cloud 定制一个专属的虚拟角色或吉祥物,让它成为你频道的常驻主持人,无论别人怎么模仿你的文案,他们也偷不走你的 ip 形象。 ai 视频的时代已经不是未来式,而是现在进行时。如果你对这套流程感兴趣,在评论区告诉我,别忘了点赞订阅,我们下期带你解锁更猛的 ai 玩法!

如果你现在正在制作五脸人工智能视频,你可能深有体会,一个视频要花五个小时,有时甚至六小时,而且并不是因为工具慢,实际上这些工具很快。 这是因为你一个人坐在那里数小时,亲手写下每一个提示词,等待每次生成审核它,然后为下一个场景重复这一切。 每部视频四十个提示词,一简一句,全由你亲手摘现。现在我只用三十到六十分钟就能搞定同等质量两种工具。云端通过 m c p 直接连接至 hix field。 这意味着你不再受限于每周只能发布一个视频,而是能按自己真正想要的频率更新,无需在戏深夜晚亲手操作所有环节。所以在这期视频里,我将展示一套完整的工作流,从零散的云端聊天开始,一步步产出,最终成片。 就像这样,打磨完毕,随时上传。这就是霍尔木兹海峡,每天有全球四分之一的石油销量,经由此地,所以大家都对他非常客气。这就是伊朗。伊朗紧临海峡, 伊朗已决定关闭海峡,这是唐纳德,唐纳德表示反对。唐纳德宣布海峡开放。伊朗末收到通知, 伊朗向过往船只收取一百万美元通行费。美国封锁伊朗港口伊朗重新开放海峡,美国陷入困境,实施封锁,伊朗再次关闭它。海峡周五开放,周六关闭,周日早上再次开放,到周日下午,两艘船起火。 伊朗议长称这是一场战略胜局。原油租金涨至每桶一百美元,大家都认为这不能再继续了,所有人都继续着。霍尔木兹海峡本院已开放关闭并重新开放了十七次。这才四月而已,欢迎来到二零二六年。 想要跟随操作并获取我在本视频中使用的提示词和自定义技能,请使用描述栏和置顶评论中的免费资源链接。 当你访问文档后,点击提示链接,它将带你进入一个包含所有所需信息的 notion 数据库。现在,在开始演示之前,让我先展示一下为何将这两个工具连接起来会改变一切, 因为连接才是关键所在。大多数人工智能视频工作流看起来都差不多。你坐下写一个提示词,等待审核,再写下一个,等待审核。四十个提示词,逐个场景手工编写,这就是时间花掉的地方。 当 claude 通过 m c p 连接到 hixview 时发生的变化时, claude 成为了整个制作的导演。 你给他一个概念,他拽写后,选名单,编写每一个提示词,将他们发送到 hicksfield, 再把输出结果取回来。你不再需要手写四十条提示词了。 chocolates, 你 只需审查。这就把原本五个小时的工作压缩到了三十分钟到一小时。 云端接管操作员的位置,让你坐进导演的席位。现在让我展示一下设置。进入 cloud code 后,你需要做的第一件事是选择你要工作的文件夹。我已从桌面选好了想要的文件夹。 一旦选中,你需要将 hixfield mcp 连接到 cloud。 什么是 mcp? mcp 代表模型上下文协议,这使得你可以将两个应用程序连接起来。这次我们要将 hixfield 连接到 cloud。 要做到这一点,进入个人资料页面,点击并选择设置。它会在这一页打开。点击连接器,你也可以从这里连接。 如你所见,这已经配置好了,不过我想给你看点东西。点击左侧的前往自定义,你会看到 skills 和 connectors。 选择 connectors, 然后点击加号按钮,并添加自定义连接器。 当它出现时,输入名称 hixfield 或选择一个你记得住的名称。我就说 hixfield 吧,然后粘贴这个网址。我会把它留在描述框里,接着点击添加它。报错是因为已存在。 我已经有了,但如果你没有,它会要求你进行配置。它正在登录你的 hixfield 账户,同时访问你的 hixfield 账户, 确保你的 cloud 和 hixview 账号都在同一个浏览器中。打开连接成功后,你就会拥有像我这里一样的自定义连接器了。接下来你将安装我创建的一个技能,我也把它留在了描述里。 当你进入技能页面时,点击加号按钮,选择创建技能,然后点击上传技能。会弹出一个窗口,直接上传我创建的技能和工具。 我来解释一下它的用途。这项技能让 claudia 和 hicksfield 能够制作视频。我已经配置好了。当你提供脚本或主题时,它会自动填写脚本,你也可以进行修改。 脚本就绪后,它会询问配音需求,并利用该配音将视觉素材拆分为多个场景。 默认情况下,该功能使用四秒间隔,但您可以根据需要更改视频片段的间隔。设定好视觉风格后,他会给出分镜拆解,然后开始生成图像。 他会问你这个问题,你想用 nano banana 二还是最新的 gpt image 二,因为这些都是你可以通过 hix field mcp 使用的模型。一旦你选定它便会生成图像,待你满意后再寄予这些图像。生成视频片段。 它默认使用 sedans 二点零,但如果图像或视频中有标记,可能出现了不该出现的人脸,它将回退到使用 clean 三点零。 clean 三点零的限制较少,因此如有需要可以使用它。完成后,它默认设置为使用十六点九宽高比。但如果你想创建不同的比例,比如九十六的比例,你也可以这样提示它。 这只是为了说明技能里有什么。之后它会打开一个超真,并展示整个视频的预览效果。在 hixfield 中,你通常得一步步指挥一切,但有了这个工具,它能按顺序展示所有内容,让你能审查并进行修改。 当你满意后,它将为你生成最终渲染结果。这就是这个功能的作用。安装完成后,你可以在普通聊天中使用它,或者在云协助中调用。但在使用 cloud code 时则必须先行安装。 要做到这一点,回到 cloud code 就 行。一旦你在 cloud code 的 聊天界面中提供技能的链接,并说安装此技能,以便使用 hix field m c p 创建视频。我们就这么做。 就说你想安装这个技能并提供链接。它可能会告诉你已经安装好了,但我还是想展示一下你在聊天框里应该输入什么。 安装完成后一切就绪。如果你想知道什么是超帧,在之前的视频中,我展示了如何安装 remotion 和 hyperframes, 这能帮你预览视频。 现在一切 isatafo 好。 下一步是创建视频。第一个例子是关于洛克菲勒的采用特定的二 d 动画风格。下面是我将输入到聊天框的内容。我已粘贴了详细指令。 我说要用 hicksfield, mcp 和技能。我想用下面的脚本制作一个采用二 d 动画风格的视频。我已经上传了想用的二 d 动画风格,让我展示一下,你就能看到这个风格了。这就是我想要给故事用的风格。 然后我把脚本粘贴进去,并提供了我从十一 labs 生成的语音链接。我们把它发出去,看看会发生什么。他说会先搭建项目文件夹,复制旁白并转录,接着确定风格,并提交分镜拆解工审核。 所以点击允许即可看到它以基于附加的风格迅速生成了详细拆解。创建了约二十四个场景。最后我请求了确认。 你想改点什么吗?您对这二十四个场景满意吗?还是想替换某些画面的视觉效果或更改图像模型的偏好?正如我所说,我也会用 nano 版本,不过你可以选择任意模型。 咱们就这么跑吧。我就说批准,这样它就能在后台渲染片段的同时生成图像。有个小细节很重要, 像 cloud 和 hix field 这样的工具虽然强大,但它们无法独自打造一个成功的五脸频道。真正能建成频道的是围绕这些工具的整套体系。 知道做什么?人们为何会观看?如何赚取以提升留存率?当前哪些细分领域适合人工智能捂脸内容, 以及如何进行定位以实现变现。这正是我们每周在 accelerator 中专注的内容。这是我专为那些认真打造真实捂脸频道的创作者运营社区,而非仅仅收集教程的人。你正在学习的这个 cloud 加 hixfield 的 工作流, 我的成员七天前就拿到了,但那只是上周的一部分。我们还一起解决成员们卡壳的关键问题。那些阻碍他们建立真正起效频道的现视频境并逐一拆解, 那每周都会发生一次。所以,如果你想打造频道而不仅仅是收集教程, accelerate 就是 我们做这件事的地方。 链接在简介和置顶评论里。好,继续。他会首先生成第一个场景作为风格锚点并展示给我们看。当你满意后,他便会生成其余的场景样式。一定场景一已完成生成。如你所见, 一旦点击进去,你就可以查看它,或将其下载到电脑中,让我们放大看看效果如何。你不喜欢的话可以改。 你可能会好奇它是如何连接到 hixview 的。 当你进入 hixview 账户时,会看到那里的图片。它正在使用您的 hixview 的 账户生成图像。 这是一个图片视力。你可以看到他匹配了我们提供的风格。如果有任何不对劲的地方,你随时可以让他重新生成风格。我们继续发送并等待所有图像生成完成后再回来。 正如你所见,他已完成并展示了所有生成的图片。你可以看到这与我们要的风格非常一致。接下来是这个 看起来不错,连文字看起来都很不错。这里展示了多张图片,他们没被排序。但当你想要生成视频时,他会自动把他们拍好。这只是一个视力。 另外,如果你查看一下你的 hixview 的 账户,就能在那里找到所有图片。这相当不错,且保持一致。 既然我们已经有了二十四张图片,他现在说让我先展示完整的分镜供您批准,然后再开始生成视频。所以现在他向我们展示分镜脚本了。既然图像看起来没问题,我就指示他开始创建视频。 他将使用 sedans 二点零,如果有标志,则使用 clinty 三点零。 我们会等待完成并预览一下。生成完成了,让我们第一次一起预览吧。我还没检查过,所以来看看效果如何,并审查可能需要修改的地方。现在 打开本地主机,让我们一起播放这个文件。那是一千八百五十五年。一个十六岁的男孩在克里弗兰街头连续走了六周,敲开每一家可能雇佣他的店铺的门。 大多数人把他拒之门外。他随身带着一个小笔记本,记录下每一次拒绝,每一个名字和每一处地址。他回到某些地方,三到四次。 九月二十六日,一家果蔬公司终于雇佣他担任助理会计。他每天赚五十美分。余生,他都将把这一天作为约伯日庆祝对他而言比自己的生日更重要。那个男孩是约翰的洛克菲勒。 五年内,他创办了自己的企业。在十五年内,他创立了标准石公司。四十岁时,他掌控了美国百分之九十的石油精炼液。到他去世时,经通胀调整后的财富是他成为现代历史上最富有的人。 这真的很好,而且我甚至还没编辑过他。如果有地方需要更好的转场,你可以添加他们,或让他优化转场效果。或者,如果你想拥有更多控制权,也可以单独编辑他。 比如在某些地方,音效听起来有点大。你可以在 cupcart 里编辑并修复这些问题。但就目前的版本来说,已经很棒了。 现在视频完成了。一旦你完成修改,就可以像现在这样渲染它。完成后,你就能在电脑上获取并使用它了。我想再展示一个例子,因为创作故事可能相当简单。但如果你想用特定角色来讲自己的故事呢? 这里有一个我深沉的角色,让我展示一下全貌。我想用它来讲述我的个人故事。比如,很多人喜欢使用火柴人形象。你也可以这样做。 这就是那个角色。我已经给他配上了提示词和旁白。我们将运行相同的流程,然后看看在整个故事中使用这个角色的最终效果如何。 正如这里所见,他基于该角色生成了多张图片,你可以看到他们的一致性如何。 他还标记了一些错误,询问是否应修复他们。这很棒,所以他能修复这些问题并生成视频。这已完成生成和渲染。让我们看看最终结果。 注意,我还没真正剪辑过这个。我们正一起看这个。那就瞧好吧。二零二二年,我上传了第一条视频到平台。没有观众,没有蓝图,只有一种信念,人工智能即将改变一切,以及帮助人们利用它构建数字产品的渴望。 然后一切开始改变。我的观众不断问着同一个问题,如何开始一个捂脸 youtube 频道,所以我倾听了, 我转型了,我开始教他们真正想学的东西。三年后,这个频道已经有超过十六万观众,他已产生超过二十万美元的收入。 在我的社区里,已有超过五百人正在打造自己的五点频道,追逐着我在二零二二年所追寻的那种自由。 你不必从头就拥有完美计划,只需开始行动,倾听那些出现的人的需求,然后构建他们真正想要的东西。结果出乎意料的好,我们可以进行渲染, 然后根据后续需求将其用于你的项目。另外,请记住, m c p 设置提示和自定义技能都在描述栏和置顶评论里的免费资源链接中。点击内部的提示链接,获取完整的 lotion 数据库。所以这才是真正的要点。 那五小时的人工智能视频工作流从来不是工具的问题,那是你的问题。你坐在操作员的位置上,亲手逐个场景的编写每一个提示词,一做就是几个小时。 cloud 通过 mcp 连接到 hixfield, 让你离开那个座位。 cloud 运行,你来做导演。这就是当下捂脸创作者的正确做法,因为一旦你不再做每个视频的实操者,你就终于有时间真正去搭建频道本身了。如果你想了解这如何融入完整的 频道系统,包括研究内容、日历、脚本引擎和生产,请看下一个视频,我将完整拆解端到端的全流程,到时候见识。

我把 ai 自动剪辑视频的 skyo 又升级了,这次升级主要是让 ai 能够更精准的找到我想要的视频画面。这条视频呢,我会把完整的流程拆解出来,看完你也能让 ai 帮你搓出来一个。上期视频我们已经讲了文案的部分,今天就是来解决把这些文案变成视频。 我把这个流程分为了两个 skyo, 第一个 skyo 呢,是把视频素材分割,同时加上标注,让后边的 ai 可以 准确的识别出画面的内容。 第二个 skill 就是 让 ai 根据咱们的文案去生成音频,抓取对应的画面,最终导入剪映草稿。老样子跟他说一句话,我 需要你帮我生成一个 skill, 用来处理我的视频素材,根据它的字幕来精准地做画面的分割。同时要把分割的画面根据文案帮我做好标注,可以让 ai 准确地找到我要的画面。咱们稍作等待,他就会告诉你已经把这个 skill 创建好了,然后做了一大堆的介绍, 还给你了一些建议。还是老样子,我一般不去看,直接给他一个文件夹,让他去实操看一下结果就行。中间发现了一个问题,我就把它暂停 了,因为他切的太碎了,很多都是一秒两秒的视频,所以我给他了一个新的命令,你要分析文案, 按句子来帮我切分,让他修改,然后执行。这一次得到的结果还算是不错,我看了看每一条素材,大概从几秒到十几秒,已经达到了一个可以用的标准。下一步就是让他把分割好的素材,根据之前给他的字幕文件 做好画面的标注,这里是他给的标注方案,本身咱们就是让 ai 来干活,后边去看这部分内容的也是 ai, 所以 我就没有管他,只要 ai 能看明白就可以了。 到这里咱们第一部分的 skyo 就 已经完成了,咱们已经有了视频画面的素材和它做好的一个素材字幕的缩影。接下来还是跟 ai 说一句话,我需要你根据文案的内容匹配到刚才的分割素材,准确提取对应的画面,帮我把视频生成剪映草稿。 t t s。 需要调用豆包 epi, 稍等片刻以后他会告诉你新的词 q 又建好了。同时他还帮咱们做了一次测试,已经帮咱们生成了一个剪映草稿。这里呢,发现了一个问题,因为我没有要求他多长时间去切换一个画面的素材,视频的列录已经是没问题了,接下来就来补一些细节。后来我补了两个细节, 从这里可以看到我的视频素材长短是不一致的,因为我对他的要求是你根据视频的文案帮我分析出多长时间需要换一个视频画面。所以他帮我修改完以后的素材是长短不一的, 尤其是开头的部分,他的信息密度会比较大。这一句话,他帮我拆分了三个视频素材。第二个问题就是字幕,他刚开始给我的是一大段一大段的,我告诉他按句子帮我做拆分,然后就解决了。其实要搭建一个 skill 是 非常的简单的,费时间,费心思的是在后期的不断调整它的细节。 现在这一版生成视频的 skill 是 可以用了,大概能节约百分之七十八十的时间,但是后边我会不断的进行优化,自动加上音效,加上一些大字的效果,不断的去接近人工手剪的效果。 这两个 skill 我 已经上传到粉丝群,有需要的可以去自取,大家可以自己去实操一下,有什么问题可以评论区告诉我。

我用 mini max m 二点七搭了一套智能口播剪辑系统,把一条视频的剪辑效率提高了接近三十倍。以前录完一小时素材,最痛苦的不是剪,而是在时间轴里反复找废话,找口误,对齐画面。 所以我做的不是全自动乱剪,而是让 ai 先把荣誉片段全部标出来,人在做最后判断,先看它能做什么。第一步,标记所有口误废话,进行片段生成审核稿, 所有他认为有问题的片段全部列在这里,时间戳内容原因一条一条,你点哪条画面直接跳过去。第二步,人工修正。很多人问我 ai 判断会不会误删,这个问题问的很好,所以我的设计是 ai 出删人来把关在审核稿页面,人类可以新增和修改删除标记,同时支持倍速播放。 第三步,自动化极致。每个人的表达习惯和剪辑风格不一样,所以我把判断标准做成了可配置的,每次人工修正后自动分析修正逻辑用的越多,他越懂你的剪辑习惯。系统最关键的地方不是让大模型看视频,而是不让大模型看视频。很多人第一反应是这东西,分析视频头壳一定烧的很猛吧? 其实不会,我来拆解一下它的四步流程,你就明白为什么它这么省。一步,视频提取音频。第二步,音频转字幕,把音频转化成带时间戳的文本。第三步, ai 智能分析,这是整个流程里唯一消耗托管的环节, ai 读的是纯文本,判断哪些容易内容,哪些值得保留。 第四步, fmpeg 完成实际剪辑。根据 ai 给出的时间戳,要用 fmpeg 直接剪切视频,不经过任何模型 整个链路, ai 输入的是文字,输出也是文字视频剪辑问题被转化成文本判断问题。这就是它为什么省 token 下一版,我想让它从剪辑工具变成口播视频的补素材工具。 比如你口播里提到一个数据,系统自动生成一张图表,你讲到一个概念,系统自动补一张解释画面,你缺一段过度素材,系统自动生成一段补充画面。这也是我用 mini 代码,图像语音视频都能放在同一个链路里。 所以这套系统的下一步不是做一个更复杂的剪辑软件,而是变成一个全模态口播工作流。另外我还做了 skill 版本,直接把这个剪辑能力接近你的 agent, 变成你工作流里的一个节点, 你的 agent 需要剪辑口播时调用它直接拿结果。我一直觉得剪辑效率不是剪辑软件的问题,是判断力能不能被结构化的问题。这套系统只是一个起点,代码和 skill 全部开源,你可以在上面继续改。如果你用它做出了什么,欢迎来告诉我。

最近经常有小伙伴问我, ai 剪辑的视频效果是什么样的啊?你可以看一下我的这一条口播的视频,首先可以看到现在他已经帮我拆分的非常细了,因为我的口播视频是整体的,给他了一条二十多分钟的,帮我把说错的话、啰嗦的话、重复的话全都给删除了。有人会说这个和剪映的经典是不是就一样? 我想说的是,首先抖音的经典他不会删除你重复的话。第二点就是你把 skill 固定好以后, ai 帮你生成,可以一句话生成十条二十条,然后还可以加入类似于这种的动画效果,还有你的音效在哪里,让他加上你的背景音乐是什么, 你的视频导入进来的速度和音量,这些全都是你可以自己去设置的。接下来我来演示一下到底是怎么实现的,我现在使用的是 codex, 呃,从左边可以看到我有几个文件夹的目录,这都是我按项目来分的, 每个里边都有我设置好的固定的 skill。 比方说我今天先演示这个 ai 科技口播的,那么我只需要把这个文件夹复制给他,然后跟他说一句话,帮我把这个文件夹所有的视频用这个执行, 只需要跟他说这样的一句话就可以了,他就会自动调用 sku, 把你这个文件夹所有的视频去剪辑。我的 ai 科技口播的 sku 已经用了很久了,我的账号里边所有的视频全都是我录完让他帮我剪到剪映草稿,最后我再微调一下就可以了。 这个 sku 也是比较简单的,就是第一步让他调用豆包去提取我视频的文案和带 srt 的 时间戳的字幕,然后再整体的去分析我的语义,其中制定了几个规则,比方说没有生页的部分删除, 还有那些明显是碎句子的要删除。如果前后两句话他的语意想表达的意思是一致的,那就只保留后边那句话前边的删除。这就是咱们日常在路口播可能会重复会返工的地方,这里就直接等他去跑就可以了。一会咱们看一下他运行了多长时间,然后咱们看一下剪映里边的成品。 现在这个口播视频的 skyo, 他 是在帮我渲染视频的动画,这一部分是让他本地渲染的,速度稍微慢一点,但是如果你不需要的话,可以不要这个效果。刚才这两条他一共用了二十分钟,然后他主要的时间是在渲染我跟他提的动画上面, 这里边他一共是出了十六段动画,从这里就能看得到啊。切的很碎是因为我录制的时候段子重复的内容太多了,然后他加了什么?加了动画有一点点的问题,因为他一句话给切成了两行, 这个是需要再调的,但是呢,整体的效果咱们已经出来了,切好的,没有啰嗦的句子和画面,然后一点二倍速的变速,包括它的音量已经帮我调成了七点二,这都是我要求的。还有下面背景音乐,背景音乐是默认的, 其实 ai 剪辑视频我感觉看效果是没有意义的,你只需要看 ai 能帮你实现哪些功能。现在我这个 screen 也有很多需要调试的部分,比方说这个动画现在只是刚刚加上 很多细节,还需要去不断的微调,如果你的电脑上还没有部署一个可以帮你干活的 ai, 看一下我置顶的视频,建议大家一定快点用上。