粉丝689获赞1390

大家好,我是成风,我做了一个剪辑 agent, 十分钟就可以剪一条三十分钟的视频上,转发出去以后呢,收到了很多反馈,这是迭代,他更快更准了。 首先讲一下为什么我要作为这个剪辑 agent。 第一点是我经常用剪映剪口播,但剪映的一个问题是,剪映的剪口播,他无法理解我的语义,如果我有个二三十分钟的视频,无法识别。第二个是生成的字幕质量比较不好, 每次我都要主动去改,特别是我的名字,每次它都识别不准。所以我用了 cloud code 的 skills 做了一个剪辑的 agent。 根本的区别很简单,剪映是由我人去主导,工具为辅助的剪辑 agent, 我是 让 agent 去主导人去做审核的,这样的效率真的非常快。里面有三个核心设计,一个是 自净化的机制,这个是我觉得最厉害的地方,我给大家对比一下效果。这是我用剪辑 skills 做出来的审核稿,这个是剪映剪口播的审核稿,我们可以看到剪映剪口播这里它能识别到的地方非常少,但是我的剪辑 skills, 它就能识别到非常多的地方,非常多重复的话被它识别出来了。 同样一段视频,剪映漏剪的部分, agent 就 全都识别出来了,为什么呢?因为他会学习,每次执行以后,我都会给他反馈, agent 就 会把反馈永久保存用十次,他知道我们百分之八十的习惯,用五十次,他就会完全符合我们的需求,会越用越准。所有的规则呢,我都在这个剪口播的 skill 里陈列出来了, 大家可以自己去修改。第二个是模型,之前我是用的本地模型,但很多人都部署起来都非常麻烦,所以这一次我改用了火山引擎的 api, 运行起来非常快,而且豆包的音视频模型我体验下来真的是所有的音视频字幕识别里面最准的。 第三个是可交互化的设计,上一版我是用文档的形式让大家审核,这一版我是做了个界面,直接就能够出来被删减的地方,这里面一个是播放和暂停按钮,它会自动掠过这些已经被标记的。第二个是倍数,因为有时候我们可能减口波速度非常慢,所以呢需要倍数。第三个是我们用于资金化的, 我们可以把我们处理过的稿件复制删除列表,然后呢给到 ai, 让 ai 学习我们到底有什么样的表达习惯。第四个就是直接可以剪辑了逻辑,把产品逻辑跟大家处理完了以后呢,我给大家说一下具体要怎么去操作。第一步是下载我的 skills, 第二步就是配置火山的 a p i, 第三步是剪口播,第四个就是加字幕, 整体来说还是比较简单的。关于第一步的下载 skills 呢,我这里已经写了一个提示词,大家可以去下载一步呢是配置火山的模型,我们来到它这里的服务管理这个小模型,它有个标识词生成,我们这里要选择开通,开通了以后呢,我们在这里创建 a p i t, 然后我们安装完以后重启,我们可以点击斜杠 v, 我 们就可以看到这里有一个安装,要选择安装,然后输入我们的 api key, 它就会帮我们安装好我们所有需要的基建。第三步是剪口播,我们怎么去换取这个剪口播的时候呢?也是一样,在这里输入斜杠 v 剪口播,如果我们用的是某个 id 的 话,我们就可以把我们的剪口播视频给拉进来, 他就会去执行了。执行完以后呢,我们就能看到这样的一个页面,我们可以点击播放,也可以选择倍速,也可以选择复制删除列表和执行, 点击 shift 加拖动它就可以选定。如果说我们需要取消这个的话,我们也是一样的, shift 选中它就可以取消,然后进行这个剪辑,它就会把我们所有的内容都剪辑出来了, 就像我们刚才说的一样,对比剪映,它用了更好的模型去审核我们的字幕,导致识别效率会特别高,会省时间。集完了它就会有这样的一个文件,我们可以看到它审核里面加了个 cut, 这中间呢都是它各种的分析资料,我们其实是可以删除的。四步就是加字幕,我们可以看到这里有一个加字幕的 skills, 这个我们的词典, 我们可以把我们一些常用词都放在这里面,让 ai 更有效率的去识别出来我们的字幕,等它烧录完成以后呢,我们就能看到它下面有一个字幕了。 最重要的一步就是我们在里面设计了自进化的机制,我们在审核调了很多的片段,包括 agent 还没理解我们的习惯,所以我们需要去利用到它的自进化的这个机制,当 ai 出错的时候,我们反馈给他结果,并且他这个结果达到我们满意的话,我们就要去利用这个自进化的机制,让他去更新我们之前的 skills, 这样的话我们做出来的效果就会越来越好。关于这个整个文档和操作手册都已经放到了 agent 叉一百上面,在里面看到详细的操作步骤。

看看我的 agent 团队们,有写图文的、网站运营的、监控金价的、记账的,还有提供情绪价值的,后面还要增加一个视频剪辑的 open cloud 小 龙虾 用上多 agent 的 模式了吗?但像我这样每个 agent 对 应一个机器人的配置是有点广泛。在飞书上其实有一种更简单的方式,就是通过拉群,实现一个机器人多个 agent 多个群聊分别管理的模式。我们来以选择题、写作和神稿三个事情为例,完整的配置一遍, 一共三个步骤。首先用这样的命令创建多个 agent, 分 别负责不同的工作,然后给每个 agent 的 职责拉一个飞书群,并且把我们的唯一的这一个 飞书机器人添加到群里面。接着把每一个群聊和 agent 绑定起来,在这里查看群的 id, 通过这样的 bindings 配置把两者映设起来。最后不要忘记给飞书 channel 增加这两张配置,开放群聊和群聊中,不需要艾特机器人也能回复。 配置完成之后,在各个群里和 agent 对 话,给他们安排好职责和身份,让他们记录下来,你就可以在不同的群里指挥不同的员工工作了。像这样的流程,先选择题再写作,审稿,审完再改, 最后得到一篇完整的内容就可以发布了。这样做配置简单,效果强大,快来把你的 agent 军团也安排起来吧!关注我,带你玩转 open club!



完了完了,最近爆火的密姆动画你竟然还不会做,还不找猴哥学!你不知道猴哥一句提示词就能轻松搞定吗?你就直接上传一段参考视频和你喜欢的角色图片,输入这串提示词,点击生成, 这样你就得到了一段同款密舞蹈。把深层的视频弄进来,点击自定义抠像,用画笔抠出人物,接着按住 alt 向上拖动,复制一层下层视频,取消抠像,选中上层视频,再调整这里。把曲线右端拉到最低,点击射轮,拖动偏移射轮到任意位置, 再把自然饱和度拉到最低,饱和度拉高,这样就做好了开头的人物阴影,接着在开头添加人物或动画名,最后选中下层素材,长按 alt 向右拖动,复制一层素材入场,动画添加展开,配上音乐,品味变纯。相反。

很多人都知道 ai, 但真正能用上 ai 帮你完成工作的人不到百分之一。今天教大家如何在一天之内, vrv 定一个能代替我们工作的 ai 工具。但是这些有一个前提,你要学会驯服 ai。 说服 ai, 无非就是分为两步,第一步,你想让 ai 帮你做什么事情,让他帮你解总结,让他帮你整理数据,还是剪视频、发邮件,任何你能想到的内容都可以让他来做。第二步,把你想让 ai 做的事情,也就刚才你总结的事情,用 ai 能懂的形式呈现。 你可能觉得我刚才讲的那些都是废话,但这就是这两句废话解释的。人和 ai 是 两个物种,你需要理解这两个物种为什么不一样,才能更好地为 ai 设计人物。人类更擅长的是用肉眼观察,也就是为什么我们现在的画面都是 g u i, 也就是图形化界面,我们会去点 abcd, 我 们会去点 关闭。但是 ai 不 一样, ai 更加擅长的是命令行,也就是以这种 bash 脚本的形式,他们使用命令行读文件、写脚本,甚至去发一个网络请求,请求他得到的资源。所以,我们驯服 ai 的 核心是什么? 核心就是把工作流程转化为 ai 更擅长处理的东西,也就是文件。想想看,你的任务可以具体化为文字、数据,或者任何可以存储在电脑上的文件吗?换句话来说就是只要你的工作内容可以成为存储在电脑上的文件,你就有办法让 ai 帮你工作。 现在我举一个例子,如何采用刚才的两步走形式完成件事情,让 ai 帮我剪视频?听起来很不可思议是吗?套用我们十秒钟前讲的两步走方案拆解这个问题。第一步,我想让 ai 做什么?很清晰,我写一个方案, 然后 ai 帮我完成这个剪辑,最后剪辑完之后我再去软件里查看呈现形式,我不满意,我再返回给 ai, 让他继续帮我剪辑。第二步,我们如何把这个任务描述成文件的形式? 那这里我们就需要理解剪辑的本质是什么?剪辑无非就是一个时间线,你在时间线上添加片段,删减片段。那有没有想过时间线本身就是一种可以存储在词盘上的文件呢?它无非就是记录了一个片段的开始时间、结束时间以及对应在时间线上的分布而已。 这是 ai 上的东西,一个文件记录着原始素材的信息。那我们现在进入下一步就是 webcoding, 通过动嘴的方式,把四用四步,把想法变成可用产品, 把你刚才讲的那些东西写一个详细的说明文档以及工作流程。然后你定义输入、输出以及中间使用的文件格式。对于我来说就是刚才讲的时间线文件 json。 然后我们把这些东西一股脑的输送给 curl code, 让 curl code 根据我们的文档生成股价与关键函数,快速起步。 最后我们用 curl code 生成的这个软件进行小步测试和迭代,用小样本验收。 做完这四步,你就会发现你完成了一个 agent 的 搭建。构建 agent 的 核心效益无非就这么几点,第一,降本增效,你把你的劳动交给 agent, 让它来代替你工作。第二是资产化,把它作为一个插件或者应用上架平台,在上架平台之后它就变成了你的税后收入, 所以你把你最常做最烦的那一个工作流给提取出来,用刚才的四步把它变成一个文件化 a 帧的可以交互的形式,用 clock code 搭一个脚手架发布你的 v e。