昨天字节紧急叫停了 cds 二点零的真人人脸,你再不叫停啊,不知道会出多离谱的事。我甚至都看到了东北于姐大战詹姆斯。 官方呢?说的其实很客气啊,说内测关注远超预期,要优化创作环境,强调创意的边界是尊重,但明白人都清楚,这不是客气话,这是真的怕了呀。 cds 二点零有多强,这几天刷到的人都知道。我就不放图片了啊, 放上去,免得到时候被投诉啊。你丢一张真人照片进去,他能直接给你生成一段完整视频,人物不穿模,动作自然,表情连贯,镜头切换、运镜、光影全都是电影级别的。以前 ai 做真人,要么糊,要么脸崩,要么一动就穿帮。现在这个二点零版本,几乎做到了以假乱真。 普通人随手一张照片,就能让 ai 造出一段你根本没拍过的视频,成本极低,速度极快,效果极真。技术强到这个地步,问题立刻就来了,不是功能不够好,而是太好用了,好用到失控。 有人把明星照片丢进去,生成各种虚假广告、恶意视频,有人把普通人的自拍拿去合成不雅内容在群里传播。还有更狠的,用 ai 换脸,冒充领导,冒充家人,视频通话骗走几百上千万的真实案例,早就不是新闻了。以前这些操作还需要一点点技术门槛, 现在呢? cds 二点零一放开门坎直接归零啊。谁都能做,一张照片就能毁掉一个人的名誉,一段合成视频就能骗走一辈子积蓄。平台如果不拦着,接下来就是大规模的肖像权侵权、网络暴力、电信诈骗,虚假舆论根本压不住 内测刚一开,各种违规使用风险内容肯定已经冒头了,平台再不紧急刹车,后果不堪设想。就希望这次叫停他是暂时的,不是永久,要不然白瞎了这么好的模型了。
粉丝19.1万获赞1193.4万

首先这不是一个广告,这个视频录的也很突然,因为字节跳动刚刚发布了一个叫做 cds 二点零的模型,那正常面对 ai 模型,我的态度就是,哦哦,又发布了,然后会吵一堆很厉害的概念,然后实际体验不怎么好,然后翻篇。但是这个模型一开始我看到也是视频,就让我觉得啊,这个也能做到。比如你看这个 蜜雪冰城大战外企咖啡店,那重点在于它的精细度,对吧?这个真的很厉害。然后我看到网上的人都开始产出内容,比如这个, 比如这个,那我不说它完美无缺,但是你能明显感觉到比以前的 ai 视频要强很多,对吧?那这个时候我就觉得这个模型有点不简单了。 然后就是我们公司自己的人开始生产内容,我自己也试了,我的感受就是你真的得自己去试一试。假如二零二六年初视频生成模型已经是这个水平了,那我感觉传统影视流程距离被 ai 海潮冲走,已经彻底进入倒计时了。我没有危言耸听,我们一起来看看视频生成模型在今天是什么 样。 其实过去的视频生成模型已经很不错了,看着都挺像回事,但是有几个点你是能让他破功的,那就是大范围摄像机的运动, 分镜的连续性,还有音画的匹配度。那么从这三个痛点来看一看 cds 二点零的表现。那首先大范围的运动,我们请公司的 ai 导演转载了这样一段文本,还有图片,没有给别的任何的信息,这是我们产出的结果, 哼, 这个不震撼吗?这种运镜是现在 ai 能够生成的了什么?你想改个更离谱的运镜?没有问题,我们改下提示词再来看一眼, 反正应该不用多说了。过去我们鉴别 ai 视频是看摄影机运动假不假,这种方式已经基本上确定是失效的了。 那我们现在进入第二个点分镜,以往的模型是可以生成分镜,对吧?但是以前的分镜是这样的,它就有点为了切而切,最多给点特写,然后再给个全景。它的运镜本身是接不上的,至少和真人就我们人做的视频语言是有区别的。 那么好,我们接下来来看看这个模型最震撼的地方,我们来看看一句话,让他生成的视频,他的分镜设计, 这个我不知道你有没有注意到,他不是只给了特写,他是有明确的角度的切换, 而且他是有一个导演的意图在的,而且人物也没有走形。可能我这样讲听起来不够明确,我们用一个俯视图来模拟,看一下他的滋味的变化,你看这个切景, 这个切近,这个切近,他就像是真人导演一样,在不断的改变摄影的位置还有视角,为的就是让观众你能够对于重要内容有一个更好的理解,这是一个导演的思维存在,他这里有一个专注点,就以前我脑子里想的是 ai 生成一个视频,能够一段的生出来,然后剪辑式把它剪起来,变成一个厉害的作品。 但是现在就是我们得意识到这种模型一旦成熟,将来是不需要剪辑式的。他没有筛选或者废片的概念,他所有的东西都是有用的,只要深沉的风景够好。我为什么需要剪辑?就我过去真的一直以为剪辑是一种情感表达,你插几针,你的情绪会变得不一样, 所以必须得人来做。但现在我们必须得面对这这个问题,就是你怎么确定你插的这几针?你的思考比 ai 插的这几针更好,尤其是它可以给你无数个版本, 而且很快就能给你。那我们现在进入最后一个点音画的匹配,如果一个视频没有声音,那会大打折扣。过去 ai 最大的问题就是配的声音很假,尤其是人说话加上环境音加音乐混在一起就不自然。那我们再来看一下这个模型的效果,啊啊, 我们现在在图书馆需要小声点,还不错,对吧?你要知道以前做音效和混音需要人手工一个个贴上去,要一天或者更久的时间,现在一键就完成了。但是声音模型现在行业里面你要说吧,优秀的也不少了。我觉得这个你不会觉得很震撼, 但我想讲一个有点我们意外发现但是比较恐怖的事情,就是我发现一个点,只要把我就我本人的脸传到 cds 二点零上面,这个 ai 它会自动用我的声音说话,呃, 我不确定你有没有听明白我在说什么,就是在没有给任何提示,任何词语、任何信息的情况之下,我也没有给我的声音文件,只是把我的脸传上去,这个 ai 居然知道这张脸的声音是 我的这个声音。我给你们演示一下,这是我们用一句话加上我的照片生出来的结果。正常面对 ai 模型,我的态度就是,哦哦哦,又发布了,然后又会炒一堆很厉害的概念,然后实际体验不佳,然后翻篇。但是这个模型一开始我看到的演示视频就让我觉得 这个你不觉得恐怖吗?而且最恐怖的也是不只是我的声音,而是我们上传的照片,是这样的,对吧?只有楼的正面,但是你看他的运镜,他可以转到楼的另一面,那现实中我们的楼的另一面是什么样呢?是这样, 这不恐怖吗?他知道我背后的东西是什么,即便我没有告诉他。这基本上可以确定一件事情,就是 cds 二点零很大量的训练了我们公司的视频。那你肯定会问 tim, tim 他 们有没有问你要版权, 那我简单来说,平台的用户协议里面我不知道,可能隐藏了类似的授权的一个条款,但是我个人没有收过钱,也没有被联系过授权,也许他们在法理上是合规的,但是 这有点恐怖,对吧?就是更恐怖的是,我们测试了别的博主,比如何同学,你会发现人物形象的一致性超级高,我们平时看到的沙子都是由石头经过漫长的风化形成的,都是时间赠予我们的礼物 啊。不过可能何同学的视频音质还有一些空间啊,可以提升。结果我们发现 c 单词这次选择了用我的声音来附魔给他,然后还有很多人也都莫名其妙的有了我的声音,反正这个有点好笑,但是我觉得笑完得回归严肃。我真心觉得我们大家现在得警醒, 因为我们算得上是一个案例,就是最早把所有的信息数据,尤其是图像和声音数据传到云端的公司,还有我这个个体,尤其是高清内容,你现在就能够看到如果一个人的数据全部进入了 ai 的 数据集,会发生什么? 他能够百分之一百的模拟出你的任何的形态,还有声音。那请问这样的内容你的家人分得出身价吗?就我想看到这里,你应该能够理解为什么我们要做这个视频,这不是一个小的技术革新,这是一个会推走行业所有过去流程和沉淀的一个海啸, 我就会这么形容他。那在结束之前,我想再来举一个案例,就我们前段时间出了一个视频, ai 可以 替代我,那我的意义是什么? 那个视频里面我们讲述了我们帮助一位得了肿瘤的粉丝做了 mv, 花了两年的时间做特效,但是最终我们发现我人越努力做越比不过 ai 的 进步速度,我以前学的东西越没有价值。在二零二二和二三年,我们手工做一些这样列车飞天的镜头,大概需要几十个到上百个小时, 二零二三年的 ai 几分钟可以做出这样的结果不怎么好,但是二零二五年,两年以后到了中期, ai 可以 做出这样的结果,已经非常强了,对吧?那请问今天的 cds 二点零呢?我们也试了一下,这是它现在的结果, 所以多说无益。我真的觉得你自己亲自去试一试这个 ai 模型,能更好地理解它的可怕的地方。就它还不算真正改变视频行业的 ai, 我 打心里里说是这样, 但是即将登场的下一个 ai, 下一个版本可能就是了,那请问这对人类是好还是坏呢?

最近全网都在吵 cds 二点零是不是偷偷降噪了?我直接上结论吧啊,就是不是变笨啊,是变拥挤变谨慎了。那很多人觉得他现在拉垮无非这三点, 第一个就是体式词理解力下降,复杂动作容易崩。第二个就是审核变严了, ip 人物动不动就报错,就不让你用。第三个就是高分期的出片太慢了,细节经常会模糊,和以前的高质量啊,相差很大对吧? 那真相呢?其实就是,呃,用的人太多了,并不是能力倒退,而是短期的算力不足,再加上目前监管的严要求,再做合规调整和容量扩充。那如果我们用形象的比喻的话,那就是创造力被带上了紧箍咒。 说白了,目前就是 ai 圈的老套路了,刚开始先放开经验,全网收割一波大家的流量,等到流量够了,舆论充足并且开始付费会员。 相对于之前刚开始的时候呢,现在的 sedans 属于是施展不开拳脚。一方面,国内版权厂商对 sedans 自由使用自家 ip 形象制作各种动画和视频,却不付费, 而且这样的不作为还可能导致创作者做出损坏 ip 形象的视频大肆传播,那对耗时几年甚至几十年打造的荧幕 ip 形象是毁灭之灾。 因此国外例如好莱坞、迪士尼都在疯狂抵制这种行为,毕竟字节跳动它是国际化的大厂, tiktok 等产品在海内外也有广大受众,如果不管不顾,将为它的出海业务造成毁灭打击。其次啊,那就是影视剧分的视频真的给 simon 带来了国内的意外爆火流量 这个视频之后呢?所有自媒体创作者人人自威,连带的各种公司工作室甚至路人都开始使用 sims 加入自媒体赛道,这种新鲜劲啊,也大大超出了目前 sims 服务器容量,也就是每个人都可以使用的算力时长也大大降低了。要知道算力这个东西依靠是现实中的计算卡等硬件设备, 这些设备目前国际上依然是紧缺状态,即使是字节跳动这样的大厂,也很难在短时间内买到大量的高质量计算卡,快速提高算力。 那最后说句实在的,它依然是目前国内顶流的 ai 视频工具,只是从神变回了工具,或许未来会有无数个 sequins 这样的产品出现。目前接受它的不完美,用好它的长处,才是创作者该做的事情。我是 paper, 我 们下期再见。

一元一秒,月产三百二十分钟 cdenys 二点零 a p i 公布定价,第一批公司已接入。二零二六年三月四日字节跳动,投下一枚深水炸弹。二十八元四十六元,两串数字宣告 cdenys 二点零正式亮出商业化标志。 那个被冯记称为当前地表最强的视频生成模型开始明码标价,一秒一块钱来算笔账,生成一段十五秒视频,消耗三十点八八八万 tokens, 纯生模式四十六元,每百万 tokens, 单条成本十四点二元,正好一秒一块视频编辑模式更便宜。 二十八元,每百万 tokens, 十五秒只要八块六一秒五毛八,贵吗?对比极梦的二点五元,确实不便宜,但行业里只有一种声音贵,但值。一位制片人算过且说句,如果零废片一部成本不过五千块, 关键在可用率。 sims 二点零能到百分之九十,以前只有百分之二十,过去产五分钟只有一分钟能用,现在几乎是一次过, 成片率高,省事错成本。综合下来,水贵还真不一定,第一批介入的公司已经浮出水面,还有十到二十家头部漫剧公司已经在路上了。传统一只广告片导演、摄影、美术,后期几十人团队干几个月,现在一个热点出现,品牌一小时就能出高质量视频。 美图设计师介入了,商家不用真人出镜。一句话,生成电商视频传统动画几年几千万 cds 加一个导演型提示词工程师,等于一部可能破亿的慢剧。春节前,短剧公司集体转向, 往年抢春节档,今年主旋律是裁员和转岗,最先备裁的制片岗,协调档期、场地、群演, ai 剧组根本不需要,导演也面临筛选,要么干 ai 剧,要么转行。但在没有真人的片场,靠提示词导出灵魂表演,这一关能筛掉一大半。 中国已经动手了,取消保底,停掉项目,砍预算,平台放出信号,今后影视制作费用必须大幅下降。 展现台真人 ai 版六天破亿,十二人团队三十天十万成本,传统四分之一的钱。画面有缺陷吗?有弹幕在乎吗?没有。因为短剧的核心从来不是影像真实度,是爽点密度,四十一到五十岁观众占三成,三四线城市是主战场, 他们要的是反转,不是电影级画质。 ai 改变的不是精美度,是生产效率。冯京问过一个问题,如果 ai 将内容生产的文明等级提升一百亿倍,世界会怎样?现在可以给出阶段性答案,世界将属于那些能用语言和创意精准驾驭 ai 的 人。一秒一块钱买的不只是算力,是下一个时代的门票。 是你吧。如此事为真,陆凡一家对斗,战胜佛有恩,今日之事,恐怕难以得善。

这个周末已经完全被这个极梦发布的 cds 二点零刷屏了,就像影视飓风 team 说的那样,影视行业真的要变天了。现在我就给大家完整的测评一下 cds 二点零。先来看一下我用 cds 二点零做的这一段视频。 好,这个是怎么做的呢?呃,可以看一下我这个 提示词。我上传了三张图,一张是这个猪八戒,一张是这个黑客帝国里面的内偶, 然后呢,中间这个是一个场景图,然后我让,呃,我可直接可以艾特他,艾特图片一和图片三在图片二中激烈的打斗,打斗动作华丽,有来有回,不分不分胜负。其实大家可以看到刚才的视频啊,他那个分镜啊,包括他那个动作,丝滑程度 真的一点都不差于我们专业的这种影视制作。最关键的呢,是,我的整个提示词是非常简单的,然后再看我的第二段啊, 你的旅程将由古老的意志指引去吧。 第二段呢,呃,我是先生成了这么一段九宫格啊,这个是我们之前上一阶段用的这种方法, 让 jamie 直接用九宫格生成一副呃,电影级的一个分镜,然后呢,我把分镜直接放给了吉梦,然后,但是我没有给他去写台词啊,对,我没有给他写 呃故事,让他自己去根据我的分镜图去写故事,所以这个题词也提提示词也相当简单啊,就艾特图片一我这个九宫格的分镜,然后根据这个九宫格分镜生成一段影视电影视频啊,中文对话,我这里特意强调了是中文对话,然后呢,他完成度也非常高, 就大家要用的直接去极梦的官网就可以,然后呢,选视频,选视频生成啊,对吧?然后这块是一定要选上 cds 二点零, 然后,呃,这块是可以收尾针,也可以全部参考,我建议大家就直接用全能,全能参考就行。然后这个可以艾特不同的,呃,图片也好,视频也好,音频也好。 对,是的,他支持我们直接把图片、视频音频啊直接艾特进来,他不同的元素,就你不同的主角,不同的道具,不同的服装,你看他都行,或者我做参考视频,让一段视频修改另一段视频都是没问题的。 最主要这次还更新了一个长达十五秒的音画同步,而且他是每一秒都是可控的,就是我可以根据我要几秒,哎,他就生成几秒。 然后呢,我们看一下我们这个指导手册啊,指导手册里面有很多很多的案例,这个如果我们前期不知道怎么去完全释放的 cds 二点零能力,呃,可以参考一下我这个手册啊,大家如果想要这个手册的可以在评论区给我打一个,就是要资料我,我会单独发给大家。 好,最基础的他的能力,他的,呃,我觉得真的是物理,物理模拟的物理的规律会更强了,就基本上已经接近呃,骚玩兔了,但是骚玩兔的分辨率是达不到的,这个增强完的话能做到四 k。 好, 比如我们看一下我们这个蒙娜丽莎喝可乐的这个影片, 嗯, 一口 这个广告做的啊,这个里头可以看一下他的提示词,哎,就是他只上传了一张图片,然后把整个用文字描述了一下怎么去动,然后最后加入这个,对,这个就是他的物理,物理感非常的强,我们再看。 呃,然后他的多模态啊,我们支持上传文本,图片、视频、音频这些素材都可以作为他的参考。 所以我们传统在做首尾针的时候,首尾针里面,尤其你做十五秒的视频,没有去做参考的话,仅凭首尾针和文字描述是很难达到我们的一个预期的,所以,呃,我们在中间会要求很多的主题一,主题二进行一个。呃,参考。 好,还有我们这种商业的啊,商业片,商业导演很多。呃,我们对主体的这种英雄镜头的特化,我们可以直接出像这种的呃, 多角度的分镜图,然后要求他展现包包的材质,展现呃,什么东西,然后同时他的配乐是非常强的,哎,可以看一下他这个单独的配乐。 好,我们再看一下他的镜头连贯性啊,这个谍战片风格,图片一,作为手阵画面,镜头正面穿着红色的头盔,走线啊。图片二,拐角建筑固定镜头,你就看一个带面具女孩 做的图片三,作为参考,形象女孩在那儿豪宅。参考图,全程不要切镜头,一镜到底。他这种一镜到底的视频在那 真的是一进到底啊, 这样一进到底十五秒的视频就完全可控了, 包括音乐的卡点,这次主要是音乐太强了,它的它的音效呀 好,还是建议大家都去先去试一下,真的这篇文档可以发给大家,大家可以参照对照着它的提示词啊,用里面的素材都可以再去试一下。 对于普通创作者而言,现在或许是拥抱 ai 视频工具的最佳时机,不是因为它完美无缺,而是因为它已经足够好用到可以融入实际工作流。 至于这是否意味着人类创作将会被取代,答案或许不在于技术本身,而在于我们如何用技术延伸,而非替代人的创造力。 ai 视频的导演时代刚刚拉开序幕,好戏才刚刚开始。

真没招了兄弟们, cds 二点零动辄排队时间几万未起,预计时间四小时,这是我刚刚点的生成,你是不是还在全网找解决办法?我现在就告诉你一个真正唯一的解决办法,就是回归本真,暂时放弃 cds 二点零的生成,因为 即使它的生成效果确实好,这样长的生成等待时间我们是等不起的。现在我已知的所有慢剧团队都在回头用老办法去解决工期的问题了,即使内容稍差一些,需要多抽卡几次,但最起码老办法是行得通的。比如说这里,我就在用最新的 nano banana 二模型去生成九宫格的连贯分镜,然后 再去生成相应的短片视频整体的 nasubi 二呢?现在生成分镜的效果已经非常强了,基本上不需要我们去手动抽卡太多,只要你给出详细的剧情,或者说我这里都没有给剧情,我直接让它生成一个现代恋爱日常搞笑风格。这就是我们得到的底图。 当有了底图之后呢,我们就可以用老办法在生视频模块里面找到维度 q 三 pro 或者 ge 二去生成视频内容,限阶段用 banana 和维度结合去用,整体的生成效果也是比较自然的。 而同样呢,我们在这里也配置了很多提示词,比如我们这里的 v 度 q 三专属的打造场面。不管怎么样,先解决我们的工期问题吧,对 ai 视频制作感兴趣的关注私信我即可。

最强 ai 视频模型一夜封神,字节跳动为什么反手就给他上了锁?这波自废武功防的到底是什么?说的就是字节跳动刚刚亮相的 c 单词二点零,他直接把 ai 视频生成的战场拉到了物理意义上的中局。只要你给他一句话或者一张图, 他就能生成一段电影级短片,光影运镜,细节逼真到让网友惊呼 sorry, 在他面前都像上个时代的玩具。黑神话悟空。制作人冯记更直接评价, 这是地表最强视频生成模型,标志着 aigc 的童年结束了。这款王炸一出手,瞬间点燃了全球科技圈和资本市场,海外用户高价球码,国内资本市场更是一路狂飙。今天早盘,影视传媒板块集体暴动,中文在线、光线传媒等多股二十厘米涨停, 引力传媒、掌月科技等字节概念股更是走出二连版。市场情绪如此高涨,看中的正是他能为整个内容行业带来巨大的降本增效空间,但能力越强,风险越突出。模型效果太真,万一被用来冒充真人造假诈骗怎么办? 连冯记也公开表达了担忧。而字节跳动的反应可谓迅速,二月九日,平台紧急通知,内测期间,暂不支持上传真人图片或视频作为素材。想用自己的脸生成视频,必须先通过严格的真人活体验证,等于给这支神笔加了一道牢固的安全锁。业内专家指出, 这是企业在技术狂奔中必须坚守的责任底线, cdance 二点零的克制恰恰是一种负责任的表现,他提前划清了创意和侵权的界限,在做的出和不能乱用之间, 主动按下了暂停键,这已不只是技术问题,更是整个行业必须面对的长期课题。当然,封禁一个功能拦不住大趋势他对产业的冲击。一开始,专业公司的短距动画制作效率可能提升十倍以上。对普通人来说,视频创作门槛正在被踏平, 全民导演时代不远了,同时,好故事、好版权的价值会越来越凸显。所以, cdens 二点零这场高光与风险的测试告诉我们,顶尖的科技竞赛不仅是比谁跑得快,更是比谁方向盘握得稳。在打开创造自由新世界的同时,守住尊重与安全的边界,或许才是真正的终局玩法。

最近自建豪洞发布了新的视频生成模型,叫做 c dance 二点零,几秒钟就能生成一个电影级短视频,刷刷耳瞬间不香了。但是很快啊,日本的动画电影文化联盟以及美国的演员工会都向他发出了提醒,说是未经允许使用了他们成员的肖像和 声音。这点呢,早有记载。影视巨峰呢,在前段时间就连夜发布了一条关于 c dance 二点零的视频,他可以转到楼的另一面,那现实中我们的楼的另一面是什么样呢?是这样的, 这不恐怖吗?那这个确实是有点恐怖了,而且还有媒体透露说,迪士尼已经发出了停止侵权,喊更恐怖了。我靠, 关于这个西站三点零的争议点,一开始就是因为版权问题,这类视频模型一旦可以稳定的输出,像是某个作品,宇宙中的角色,或者呢是带有明显识别度的片段风格,版权方呢,就会变得非常敏感。因为对影视行业来说,授权、延伸、发行、宣发都绑在了上面。如果说大众开始能接受 a 明星 一件成片,那对于人类艺人来说,它的价值就会被系统性的给压下来,好像是 好事啊。听到这里呢,可能有朋友很气愤,说,哎呀,你这不是双标吗?你怎么能这样?所有 ai 不 都是这么训练的吗?你为什么单说 cds, 你 看你又激,那能一样吗? 此事件呢,也有记载,在二五年的三月底,欧朋爱在拆 i g p t 上发布了四欧的原声声图,当时互联网上出现了大量的 ceo 萨姆奥特曼,顺便一提,他现在还没换呢,还是吉普利风格的头像 什么情况?那当时有没有像现在一样集中反对呢?有倒是有,但是没有像这次这样爆发的这么大,当时大量的讨论呢,都是集中在这样的风格模仿,会不会是不尊重创作者?训练数据是不是没有授权?当时山姆奥特曼并没有选择道歉,而是直接发了一条推文,说是 gpu 已经快爆炸了,你们先冷静冷静,然后呢,就给降智了。哎,现在回想起来还真是 依稀当年泪不。所以这样一对比,各位就能明白,这次跟上一次不一样的地方, open i 那 个更多停留在风格上的模仿。而这个 cds 视频生成模型呢,可以直接用明星的脸去生成,所以说不管是这个电影公会还是版权方,他们都快速的介入,动作呢,也非常强硬。这个时候可能又有朋友说了, 骚扰二不也是视频生成模型吗?为什么没有人说他?你怎么知道没有?你看你又急。那能一,如果你用过骚扰二,你就不会问出这样的问题,因为他的政策一直在缩减。我不知道各位有没有看过,就是之前很火的那个科比 reaction 的 视频,非常多海量的,然后骚扰二又进行了进步的限制。那么问题呢,我认为有以下几点, 首先呢, siri 的 视频生成质量没有这个 cds 二点零的高,你还抢不了演员的饭,但是这个 cds 二点零他确实牛大了,你真他妈要抢我饭了,我还不管你?第二点就是你应该有明显的限制,就像吴鹏该这样,你说给我生成一个科比的视频, 他会直接拒绝你,但是字节跳动呢,他就没有做这个限制,人家本来就是奔着查你过来的,结果发现你就摆在桌上,完全不掩饰,所以他告你啊 你你常呃,顺便一提,现在这个时间他们已经进行了更新,你再去尝试让他生成一些明星的,他就会拒绝你了,哎, 真是。咦嘻,当总之呢事就是这么个事,因为你强了,因为你用人家东西了。这个行业里偷摸用不公开的素材进行训练,本来大家应该都不知道,即使你用了,我也看不出来,而且对我的利益呢,没有造成损失,就你爱用用我就不管你。 但是有一天我发现,哎,不对啊,你怎么还能用我的东西抢我的饭碗呢?所以说这些利益受到损失的人呢,都开始群起而攻之,至于跟地缘政治有没有什么关系, i don't know who care。 而且对我们普通人而言,你肯定越厉害我越要用啊,我花了钱肯定希望模型好用,你的模型如果真的在限制的时候脚往过正了,这个时候才对我们的利益造成了损失,我们才会喷你。 至于现在谁做了什么事,都会有另一方来找他,我们就看个乐子。最后呢,我想再提一个,我今天看到一个特别离谱的新闻,这个新闻不一定跟 c d 二点零相关,但是呢,还是有些相似之处,就是他也是跟 ai 生成视频相关的,有人用 ai 制作了上海嘉闵县塌陷的视频,传播非常广, 海外也涉及到了。我倒是没有注意那个视频,就只顾着看评论区兑现了,让我不禁感叹物种的多样化。然后今天呢,就出警报了,人已经被抓了,好像是一个四十九岁的女性,说是为了吸粉啊,真的太恐怖了。作为一个博主,我也经常有这种困, 所以不管 cds 二点零的最终结果是什么, ai 生成视频高度可信的情况已经不可逆了,影响的又何止是他们这些影视圈啊,已经开始外溢了,都上升到公共事件了。 下次各位在看到离谱视频的时候,一定要擦亮双眼,不要急着去带节奏。那本期视频就是这样,就是临时来给大家一个分享,春节不打烊 春节不打烊我录了两遍,不知道哪个读音对菜。给大家拜个早年,祝各位早生贵子!

朋友们, c 店四二零我先退款了啊,模型再好,你得能用的上才行。我确实是没用上,距离我充会员半个月了,总共一万五积分,我刚用了五百积分,过不了审加排不上队,他就不是生产力了,而是演示级产品 过不了审的问题。我不想多说,找了客服无数次了,我这纯 ai 生成的形象也不行,后来想着多一事不如少一事,不做真人了,想做个 ev 电影出来又给我毙了。 其实题材这都无所谓,更崩溃的是排队问题,限时预计等待一分钟,结果半小时起步。我明明排第一个,结果显示我得等俩小时。 等了四个小时之后,轮到我了。造梦造半小时,造到百分之九十九了,告诉我审核没通过,建议调整。 说到这,可能很多人不懂为啥预计和等待时间能查出这么多,简单科普一下, e t a 常常只计算排队到开始跑 gpu 的 时间, 并不计算全流程。但实际上,一个视频生成通常不止一步,而是繁琐的一整条链路,这其中任何一段堵了或者出现了问题,都会让两小时变成四小时, 尤其高峰期和审核更严格的时候。所以你们用 cds 排队最长等了多久?评论区给我报个数,我看看谁有我惨。哎,有了。

一夜爆火的 cds 二点零刚登顶就被好莱坞重大骗商集体举报,原因直指侵权,导致自洁这几天连夜衰弱。 cds 二点零现在生成排队需要排一天就算了,生成的效果也是大不如刚出来的时候。难道 ai 视频创作真要凉?别急, 真正懂行的创作者早已转向这款 ai。 像这样的视频,我叫刀马,记住也好,记不住也好,反正名头不重要。 这些都是我用最新版本的 stable decision 的 ai 去生成的啊,是不是真假难辨,不知道这波资源能不能顶得住啊?咱们新朋友不用担心,本期视频呢,没有任何的恰饭内容,大家请放心观看,不过就是大家希望收藏的同时呢,希望可以点个小赞啊,谢谢各位同学! 它直接调用的是目前最顶尖的 flex 模型,它开创了 ai 绘画的先河,真正地实现了纹身图的功能,也就是通过一段文字的描述呢,即可生成画面。直到后来发展出 s d 一 点五 s d 叉 l flex 的 模型,绘图的质量越来越高, 对题词的理解能力呢,也越来越强。我上传一个人,一个东西,一个场景,穿着古装的男人在直播间拿一瓶白酒。啊,张飞给你带货。或者一个人加另一个人,再加另一个人,三个人一起,或者呢,给你一个背影加一张脸就能大变样,牛不牛?还有这样 以及呢,我只有三张参考图,就做出了一整条人物场景一致性的片子。参考图摄视频呢才是最大的亮点,一个道具加一个照片,就是一条广告大片,再加另一个人呢,就能和他随便同框, 他的生活效果呢,比肩艺术家,你甚至可以拿他做点小生意,闷声发财。轻轻一点,一拖,一张海报就做好了,我再一拖呢, 纹身图就做好了对不对?那我还一拖,这飞机也是我的啊。关键是他既不用花钱,也用不上魔法,普通电脑也能轻松傻瓜式操作。更变态的是,这个神器无需你懂高深复杂的咒语,只需要简单的操作呢,就可以制作出完美的写实画照。他的出现呢,直接把设计师的门槛给干碎了。 关键是工具呢,完全免费,每个人可以尽情的发挥创意灵感,新手小来直接无脑教就好。话不多说,咱们直接开始,不管是学生、设计师还是对 ai 有 兴趣的爱好者,都可以轻松学会。 最后呢,还有好消息,课程内所有的素材,包括整套万套题词库以及呢各种模型插件以及 sd 的 商业编辑流程都可以免费领,真的不收费,需要的同学我都替大家打包好了,等你带走。那下载完之后呢,我们来解压一下安装包, 然后直接右键啊,解压我们当前所在的文件夹,这个文件夹呢,我不建议大家是中文啊。解压完成之后呢,不需要安装任何东西啊,我们找到第一个 粉色的一个小图标啊,双击打开启动器,可以进入到启动器的界面,在左下角呢,会有一个标示启动器的版本,我们再点一下一键启动按钮呢,因为是第一次启动,所以需要等几分钟来进行部署啊,我们耐心等下就好了。然后我们进入了 s g 的 一个操作界面,如果把它比作房子话呢,这个才能算做毛坯房,因为只有一个模型,什么也做不了。 那么这个时候呢,我也贴心的给大家整理好,并放置了各类型最常用并且好多的一个模型道具好不好,我们只需要啊, 在模型的中文备注里直接预览图一起整理放好啊,只需要你在 s 这个操作界面上,直接就能看清模型样图和中文的名称,就不会和别人的一样,只显示一串英文代码,风格根本就分不清,看着都头大啊。我这边整合包呢,不仅包括了 s g 大 模型,还有 lo 模型等等,这样直接拿来用就可以了啊,这种 s g 不 香吗? 只是稍微有点大啊,但是呢,这些都是入门必备的啦,如果有需要我这个精修整合包的同学,我都替大家打包好了,我会逐一的回复给大家。

说一句可能会被骂的话,这次不是影视行业要进入寒冬,而是影视行业原来的生产逻辑彻底塌了。 字节的 cds 二点零正式发布,很多人还没有意识到这意味着什么,但是可以肯定的是,大量靠做视频吃饭的人危险了。上次让我有这种感觉的,还是谷歌发布 jimmy 三点零的时候。当时我第一次看到你随手画一张简笔画, ai 就 直接能够帮你蹭蹭一段视频, 它不是 ppt 动画,也不是拼接的剪辑,而是有镜头有运动、有节奏的完整视频。那一刻,我意识到一件事,拍视频这件事已经不再是专业门槛儿了。而现在的 c 蛋四二零,直接把这件事推进了更恐怖的阶段。 以前你用 ai 做视频,还需要建立起一大堆的工作流,现在这些都不需要了。 c 蛋四二零最大的变化就是一句话,你可以像跟人说话一样,让 ai 帮你拍电影、 图片、视频、音频、文字,你有什么就丢进去什么。你可以说这是人物,这是背景,这是我想要的故事,他就真的能够帮你生成一段完整的视频。重点是,你越来越难以分清楚,这到底是 ai 做的,还是真实拍摄的。 过去 ai 视频最大的问题是什么?穿帮人物走路像滑冰,动作不符合常识,看一眼就出戏。现在不一样了, c 弹三点零最大的升级是什么?他开始懂物理了, 动作变得更加自然,镜头变得更加连贯,人物的重量感、运动轨迹都更接近于真实世界。你不需要懂什么叫做物理引擎,你只需要明白,现在的普通观众已经很难一眼分辨这到底是 ai 生成的还是真实拍摄的,这才是最可怕的地方。 你在想一件事,以前拍这样一条像样的视频需要什么?需要编剧、导演、摄影、灯光、剪辑、调摄,一整个团队, 一堆的设备,需要花费巨额的成本。现在呢?一个人一台电脑,在家里面,没有剧组,没有演员,也没有通宵的剪片, 只要你有好的想法,剩下的全部交给 ai。 这已经不是提高效率了,而是直接干掉了中间层。所以我才说一句很残酷但是非常现实的话,影视行业的寒冬可能才刚刚开始。 并不是说电影会消失,而是大量中低端重复性的岗位会直接被淘汰,广告商、宣传片、短剧、解说类的内容都会被这种技术快速吞掉。 那未来到底什么样的人能够留下来呢?未来留下来的一定不是只会用软件的人,因为工具已经彻底平全了, ai 的 工具会变得人人都能够使用。 未来能留下来的,一定是脑子里面有判断力,会审美、会讲故事、懂人性的人。虽然这些概念有一点虚,但是这些才是区分人和 ai 最重要的标准。

再这么下去, cds 二点零可以说是真要成废品一个了。目前 cds 二点零生成视频效果不理想,生成速度慢,等待时间过长都已经是家常便饭就不说了, 就连版权都已经在差不多的瞎审核了,也不需要细说了。想必美国迪士尼等行业在不断以版权问题起诉,这字节跳动也都人尽皆知了。 但是有没有想过美国那帮人到底是如何起诉的?是真心实意地出于版权问题,还是借此恶意打压 这些?有没有想过他们做了什么,能让原本好端端的 c dents 二点零变成现在这样? 今天早上我在外拍了张照片作为素材,让豆包用 cds 二点零生成想要的视频,结果豆包士立刻就说存在版权限制,意气之下就逼问了豆包,照片我自己拍的,有个屁的版权。之后豆包自己也就承认了 我拍的照片,所以版权属于我,那么版权是我,我也就有全部权利使用这张照片是不是?于是逼着豆包再次生成? 就在豆包同意再次生成视频的很长一段时间后,又突然说因为侵权违规什么无法生成?我也就问了句为什么,然后豆包回答的莫名其妙的东西让我硬生生的猛掉, 后来再切回到视频的正轨,于是再次让它重新生成视频。后来也不知道是第几次再强调照片是我自己的,我自己的,我自己的。豆包听后也认可了,同时也承认了自己推脱的错误,又再次同意视频生成。 之后更无语地来了,豆包就已经像人开始胡说八道一样,一个劲地再乱生成图片, 图片内容也完完全全不符合我的提示词描述。我要的是视频,有图片。我要的还是视频,还是有图片?豆包整个系统都显得像人脑电路接错 满口胡话了一样,不仅给的不是我要的,甚至内容都和我的提示词都能差十万八千里。 之后就选择用即梦去生成视频。而情况则是下午三点多发送的提示词显示需要预计等待六小时,而到过了晚上九点半的现在,这个等待时间反复在四小时和六小时间横跳,奇葩程度比豆包还要离谱。 我自己拍的照片都能搞成这样,更别谈有 ip 的 图片了。所以,原本好端端的 cds 二点零经历了啥,又在美国遭遇了啥,有人知道具体的吗? 同时也是希望我们国内的 ip 能有机会像迪士尼像 opnine 授权一样,跟 cds 二点零进行合作或授权。 当然,为防止版权问题, cds 二点零最好在用户生成视频前标注清楚是哪个 ip 的 素材,以及生成视频后标注该 ip 的 水印等。

朋友们,出大事了!智捷刚发布的 cds 二点零因为太强了,一夜之间引发了监管风暴,目前手机端已经被直接撤销,所有宣发全部叫停。 这背后的原因很有可能跟昨晚影视巨峰 team 发布的那条评测有关。就是在没有给任何提示、任何词语、任何信息的情况之下,我也没有给我的声音文件,只是把我的脸传上去,这个 ai 居然知道这张脸的声音是 我的!这个声音最恐怖的也是不只是我的声音,而是我们上传的照片,是这样的,对吧?只有楼的正面,但是你看他的运镜,他可以转到楼的另一面,那现实中我们的楼的另一面是什么样呢?是这样, 这不恐怖吗?这说明 ai 不 再单纯生成像素,而是在真的理解现实世界的物理规律,口述物品。大家直接看这段 cds 二点零生成的视频, 不得不感叹,这几天简直是人类职业保卫战。前两天 cloud 才刚刚发布的 agent team 直接颠覆了软件开发行业。转眼间, cms 二点零又让影视圈经历了这场大地震,这才二零二六年刚刚开始。 左手代码,右手演示 ai, 这种近乎失控的净化速度,确实让各行各业的专业人士都开始怀疑人生了。对于这种强大到需要紧急封印的技术,你是感觉到兴奋还是害怕?

c 的 三点零禁止使用人脸,是不是很多小伙伴都难受了?到底什么样的图能用,什么样的图不能用?而且该如何解决呢?来吧!首先你得知道根本原因其实就是肖像权的问题,其实以前也有类似的限制,但是之前的生成并没有现在这么的真实, 所以以前你可以用这些图去生成视频,而且新的参考功能有可能会滋生很多的作假视频,理解过吗?所以话说回来,只要你的人物是 ai 生成的,基本上不会有什么大问题,哪怕他非常非常的像。比如这样, 那如果你想用到的是一张真人的照片,比如我,虽然我不是明星,但是他也可以识别出来,不让你去生成。但是当我上传了一张我的去掉了背景, 还加了一点美颜,而且清晰度不是那么高的图的时候,它可以了。而当你想用一张明星的照片作为参考的时候,显然是不行的。 所以你一定需要用到某个人物,尽管我不是很介意,但即使你已经把图洗到这个程度了,依然是不行。别给自己找事干了,移架其他平台吧。 综合的来说, ai 生成的人物图片基本上是不会有问题的,而经过精修调整和设计的真人的照片有一定几率是可以的,而名人明星的照片即使你经过洗图和二次加工也有可能不行。当然这不绝对,大家还是可以去试一试。我是樊老师,希望和你共同进步。

气不气人?爆赚两个月的解说类 ai 漫剧终于在今晚被判了死刑!版权中心发布了漫剧分成系数调整公告,调整自二零二六年二月起生效。对于这个结果,这个号里的视频已经说的想吐了,那有些人还在到处找教程,别人已经用 ai 漫剧一天到账三回了, 是不是觉得每个教程都像隔靴搔痒,看的时候热血沸腾,动手时却连第一步都迈不出去?因为从来没人把最关键的那层窗户纸给捅破,今天我来当这个捅破窗户纸的人, 哎呀,慢剧就是你刷的停不下来的动漫短剧,它的赚钱秘密根本不是什么高深技术,就两层,要么让观众掏钱解锁,要么让平台给你广告分成一集,哪怕只有七秒,跑通流程后,收益自己就会来找你。 本期视频我不讲废话,只干一件事,手把手带你跑完从零到一的完整路程,如果你也受够了,一看就会一做就废,就现在点赞,盯住屏幕,我保证看完视频 你会立刻知道第一步该怎么做。相关的制作流程和 ai 工具我都以文档的形式打包好了。感兴趣的六六六 哈喽,大家好,这一次给大家来拆解一下爆款 ai 漫剧是如何制作的,那这一次拆解的是红果漫剧排行第一的展现。台下我震惊了诸神主要会从四个方面来拆解,首先第一个就是剧本和脚本,第二个图片的生成,视频的生成。最后 呢就是后期的剪辑。那我们先来看一下剧本脚本,那我们可以先来分析一下它原来的片段啊。首先开头大家可以看一下, 这个肯定是第一个画面吗?然后呢到第二个画面,他就是直接到这里,这是由两个画面组成的。那到这个位置其实他是一个首尾针,就是第一个画面,然后镜头快速的俯冲,俯冲,直至到第二个画面显现, 这是一个画面。然后第二个画面的话,就是有这一个人物往上面去飞升,然后到这个位置这里又是一个画面。所以说那我们这个画面呢,也是有两个,一个手针,然后一个尾针在中间呢,加上他的镜头描述,就这个人物往上面飞升,大概这样一个过程。 那再往后面走的话,到这个位置他又是一个什么镜头呢?这是一个图声视频,直接拿一个手针,然后我们这里直接给一个镜头慢慢上升就可以了。贴到这个位置他就直接切到下一个画面吗?那切到下一个画面直接用的就是硬切,大家可以看一下, 直接硬转场过去了。那再往后面来呢,都是比较简单的动画了,比如说我们从这里开始看啊,大家可以看一下,你看 其实就是简单的位移动化。好, ok, 那 我们今天就是要来去把这一些片段给它拆解出来,大概讲一下怎么才能把它做出来。那像红果的剧本大概就两种形式吗?第一个呢就是翻写小说去改编,然后还有一个的话就是由 ai 直接去写, 大多数还是番茄小说啊,所以我们一般剧本都是提前写好的,或者直接请个人去写,或者呢直接让 ai 来写。那我们重点来看一下 ai 去改编, ai 改编的话呢,我们要使用到大云模型,这里的话,比较推荐的就是豆包和 d p k, 因为这两个是国内的, 然后叉 g p 呢是国外的,需要翻墙,这里我们直接去搜索豆包和 d p k 就 可以了。然后我们豆包的话呢,直接给他发送这两段提示词, 就如果说我们有剧本,那你就不用管第一个了,就直接存第二个就可以了。没有剧本呢,你就是先让他给我们去写一个剧本出来,比如说我来演示一下,我们打开豆包这边,我直接把这一个给他,给他一个主题,当然如果说我们有情节的话会更好一点啊,就是你给 他他才会出来,跟你的情节是比较类似的。好, ok, 我 这里呢就不让他继续去写了,大家在写之前也可以先让他给你写个故事梗概,先看一看啊,这这个呢就是,哎呀, 点完之后我们就可以再给他发送第二句话了。第二段话呢,那我们这边直接来看一下,就是让他直接把 ai 生图的提示词给我。那如果说我们有剧本的情况下,你就可以直接在这里上传这个剧本,然后再给他发送这段提示词,也是一样的。 好,我们可以看一下我这个提示词,里面就直接给了 ai 生图提示词和 ai 生视频提示词, 其实就是方便一点啊,当然一般来说他这种直接写了我们肯定是不能用的,所以我们要了解这种提示词的结构才知道要怎么去修改。 那如果我们是有剧本的情况下,我们就直接钉见一个啊,在这边可以直接把剧本把它传上来 不说,我在这里选择上传文件,上传上来之后呢,再给他发送这样一段话,那他就会去根据你里面的这个剧本来去写。 当然这个剧本的话,大家也不要一次性全部发给他,基本上可以一张一张的去发大圆模型,它是有记录上下文的能力,所以你后面再去发也是一样的。好, ok, 那 这里我同样的把它停止一下,大家可以看一下它,这里就直接把它整合到一起了。比如 第一个他给的是华丽古风,你可以让他去修改,所以呢我们要去了解这种风格大概是什么样子的, 然后下面这里其实就是描述嘛,所以我们直接拿这个生图提示词去点就可以了,然后再往旁边来呢,就 ai 图声视频也给我们 了,所以这个的话 ai 可以 直接给我们一个参考,那前提是我们要对这个剧本是非常满意的,所以这也是为什么红果上面很多都是拿番茄小说去做的,因为本身剧本就比较好嘛,如果是 ai 生成的剧本可能就没有那么的好, 那有了这个剧本和脚本之后,我们也可以让他给我们生成 不设定,当然这个人物可能就是第一集嘛,第一集会出现的人物,我们都会让他给我们设定好,然后这里呢我也让他给出对应的 ai 升图提示词,当然这个你也可以先不给,先看他的设定是不是满意的,然后再让他去给,都是 ok 的。 所以在前期我们要做的事情是,第一个就是确定剧本,确定分镜表,然后呢确定每一个人物,这个人物的话,大家其实也可以直接让场景这里 直接去描述出来,然后直接去生成,看自己满不满意,也不一定说非要单独生成人物啊,当然单独生成肯定是更好一点,像这里呢,他就直接把核心人物给我生成好了,比如说三 d 古风人物啊,这个我们就可以直接拿给 ai 去 生成我们对应的人物,看是不是想要的,不是的话呢,我们就还要再去修改这一个题词词。好, ok, 那 到这里的话,我们分镜脚本的制作就完成了,到下一集我们再来讲图片的生成,那在上一集呢,我们已经讲了脚本和剧本以及 分镜表是怎么得到的。这一集开始我们来讲一下图片的生成,图片的生成是整个 ai 声视频里面环节非常重要的一步,他直接决定了你整个剧情。 那首先我们来看一下图片的生成,我这里把它分成了几块。图片的生成我这边把它分成了几个模块,首先第一个选择平台,第二个提示词的技巧,第三个参考图反馈,其实也是怎么去写提示词。 那首先我们来看一下选择平台,平台这一块呢,也有挺多的,首先第一个最推荐大家的就是吉梦,因为吉梦呢,它是性价比最高的,而且呢速度比较快。当然这里其他的也给大家讲一下, 就是 m g, m g 呢是最早出来的图片生成的平台 ai 的, 它是国外的,需要科学上网,那它出来的图片质量是非常高的, 大家可以根据自己的需要去选择。然后 s d 的 话呢,它是本地的,但是呢它对电脑配置有要求,而且绝续成本相对来说会比较高一点。那再往下面就是海螺,海螺的话呢,这个是才出来的,我觉得它 生成图片质感很高,就没有那种 ai 感,全能图片 pro, 但是这个它现在比较贵啊,那我这一次的案例也是用海螺来制作的,大家可以看一下它出来的质感。然后可妮也是新出了一个模型,是 o e 模型出来的图片效果也是不错的,大家可以去试一下, 比较适合中国风。那我们再来看一下题诗词的技巧,题诗词的技巧,这边我把它分成了几个模块啊,一般来说我们会从这几个方面来写,首先第一个就是景别,第二个是视角,第三个呢就是人物加行为加环境, 这个其实很简单啊,就是我们平时怎么说话就怎么去描述,而且像这一块 ai 都会给我们, 就是里面有什么人物啊,然后他穿了什么衣服,他在做什么事情,在一个什么样的环境里面。再往下面呢,是画面的美学,包括射雕啊,风格、光影、勾图这些。再往下面就是画质,画质这一块基本上我们都可以加上去 说高清啊,超清啊,八 k 啊,史诗级的画质,这种我们都可以去加。那我们一个一个来认识一下啊。首先第一个景别,这边我给出几个图片,大家可以来认一认啊,看知不知道这是一些什么景别。首先第一个啊,就是这四个 景别的话呢,大概也在这个位置,大家可以看一下,比如说第一个大家觉得是什么景别呢?对啊,这个就是远景,然后我们再来看这个,这个大家觉得是什么景?别,这个是全景啊,全景的话就是它能够完整的展示整个人物以及它周围的一些环境。 那再往近一点呢?这个就是人物的中景嘛,中景的话它是聚焦于人物的上半身,突出人物的姿态以及重要特征。再往近的话就是近景,近景的话主要展现的是头部的肩膀,突出面部的表情,主要来展示他的一个情绪。 那我们再往近,再往近的话就是特写啊,大特写,极端特写的时候我们就连毛孔都能看得清楚了,就是越来越近的一个感觉。 好, ok, 讲了这么多,大家看一下啊,这一个是什么景点呢?大家也可以在评论区留言哦。好, ok, 那 我们再来看一下视角,视角这一块大家可能会比较熟悉啊,最熟悉的就是三式图嘛,正面视角、侧面视角、背面视角,然后这个呢就是俯视、仰视以及这个是四分之三的侧,四分之三侧的话,它也叫四十五度角啊。 所以我们要了解这一页,不管是在改图片啊,还是在自己去写这种提示词的时候,都会好一点,然后再往下面人物行为环境,这个的话呢,就是自然语言去描述就可以了。再来就是色调、风格、光影以及构图,这个我把它展开一下, 风格的话,这里每个平台他可能都会不太一样啊,这里我大概截的就是题梦的,大家可以看一下, 我们一般来说会有二 d 风格呀,然后三 d 风格啊,这个是最常见的嘛。那我们还有一些什么风格像盲盒风格,盲盒的话就是 q 版,比较可爱的三 d 版,你可以这样去理解。 再来呢就是有这种工笔风格定格动画呀,再往下面像国漫风格啊,三 d 手办啊这种大家都可以去了解一下,可以去看一看,就如果说你想要生成,比如说这种简笔线条,你就直接告诉他简笔线条画就可以了,看这里有没有你喜欢的, 当然我们也可以找到一个自己喜欢的图片,然后呢让 ai 去反推这个,待会讲一下,然后这边是可您的一些风格,大家可以对应看一下, 像可能有一些风格大家是没有怎么去了解到的,像这种羊毛毡呢,然后城市胶囊啊,其实这都是一种风格,他都可以去识别的。好, ok, 那 我们再来看一下光影,光影这一块呢,大家要了解的至少逆光,逆光的话就从背后打过来的,他比较侧重于 他的轮廓,然后侧光,侧逆光、流光等等。再来就是色彩,色彩,这里的话暖色调啊,冷色调啊这些都。 然后再往下面来呢,就是构图,构图这一块像九宫格呀,然后引导线啊,框架构图这些不太建议大家去把它记下来,为什么呢?因为我们 ai 它是可以根据你的 描述来生成一个相对来说是比较匹配的一个构图,所以我们没有必要去记这一些,当然大家也可以去了解一下。 ok, 这些呢就是我们提示词的一些组成,那可能有的同学就说,老师,这么多东西我怎么记得住啊,我也不知道该怎么去描述啊。那我们还有一个终极方案,也是最好用的一个方法,就是参考图反推,但我们要做这种编侠的,那你可以去找一个类似的场景, 就比较宏大的这种场景,或者说跟小说里面描述的比较像的这种场景,我们让他直接去反推一下,这边呢,我就直接打开 ai 啊?还是 打开 ai, 然后这边我们就可以直接上传一张图片,比如说我现在想要这一个图片,然后呢我们直接让他去描述一下这个场景,我需要用 ai 生成类似的,然后后面这个比较重要,就是让他根据景别画质、人物行为, 然后风格、色彩、光影、构图等来描述。这个是不是很熟悉呢?其实它就是提示词的结构,所以为什么前期我们要了解提示词的结构,你只有了解了这些,你才知道怎么让 ai 根据这些结构来跟我们去生成对应的。 ok, 那 我们给到它之后呢,它就会根据你所上传的这张图片,然后呢再来去生成对应的。 好, ok, 这个就是他给我们的。那如果我们拿这一个,我直接 ctrl 加 c, 然后来到海螺这里呢,直接用图片生成 ctrl 加 v, 那 我们可以直接去生成,看是不是你想要的。如果说不是,那我们可以让他更加的详细一点。这边呢我还是打开思维导图给大家看一下, 就是我们可以让他更加详细的描述一下这一个场景,需要包括详细的人物位置、关系、景别画质、行为等等。这边我也告诉他不要华丽的词藻,因为 ai 他 有时候老喜欢给你来一些比喻词, 那比喻词多了,他就会出来比喻词里面的内容,比如说你描述这一个眼神锋利,对吧?他可能会描述的像刀一样锋利,但他真的会给你生成一把刀。 所以这里呢,我们就不要这些华丽的词藻,直接让他给我们直观的描述就可以了。大家可以看一下现在他给的这一个相对来说就是比较详细的,我们也可以去学一下他是怎么去描述的, 就是说前景是一个什么,中景是什么,然后远景又是什么,大概就是这样一个画面,那我们呢就可以直接让 ai 去给我们生成,大家也可以看一下我之前的提示词啊,之前这个提示词呢,它生成出来的其实没有太远,所以呢我们可以去刷图, 刷图之后还是不会得到非常远的感觉,所以这个时候我们就需要干什么呢? 我们需要去修改。而且大家可以看一下现在 ai 给我描述出来的这一个,它这里给的是一个全景画面,但是如果我们直接拿全景去生图,你会发现生不出来, 所以呢我们要去了解这些,像这个我生成一下同款啊,大家可以看一下这里俯瞰的超远景视角,这个都是我自己去解的,因为 ai 它根据图片描述,它不一定描述的准确,但是里面的内容它还是能够 描述准确的,所以呢我们只需要知道这些风格就可以了。像这里我给了一个顶级三 a 游戏 c g, 这个其实就是他的风格,当然我们也可以给三 d 建模呀,都是可以的,三 d 写实建模,这些都可以去给他。然后呢来去看一下,像这里如果我们要得到一个非常远的, 一次性得到不是那么现实,所以在这里我得到了这样一个图片之后,接下来我做了一个什么事情呢?我就把它再当成了一个参考图, 然后呢我们再让它整体的视角再远一点,这个就是修改图片嘛,那这样的话我就能够得到一个,再远一点,可能我觉得还是不够远,那这个时候我就再给他就把这一个图再作为参考图, 然后呢再跟他说还要远一点,还要加什么东西都可以去减,大家可以看一下第一个视角跟第二个视角,明显感觉这一个就会更加的有这种宏大的感觉一点。好, ok, 再来我们可以看一下这一张图片的生成啊,这张图片其实我也是 了蛮多次,然后最终呢选择的是这一个,这个的话大家也可以看一下,其实这里也描述了一些,比如说俯视角啊,然后前景是什么,再往前面是什么?就是像这种远景呢,我们描述的越细,那它会更远一点,大家都是这样子, 然后包括整体的色彩是以冷色调为主的。再来下面这些,下面这些其实本身啊本身是没有这么多的,可能在一次没出来之后呢,我就会给他去加入一些更多的风格,然后去做一定的尝试,看能不能出来我想要的一个效果。那这里面最难的可能是这一张图片, 这张图片他原来的这一个场景就是本身是带一点三 d, 然后呢前面这个人他又是那种二 d 的 感觉,所以像这种场景是比较难生存的, 那我们可以怎么办呢?我最终的解决方案就是说我先去生成一个三 d 的, 然后呢我再把这个人物换成一个二 d 的, 像这一个修改的话,用吉梦修改会更好一点啊,这边给大家看一下, 这里的话,我最开始啊是得到了这样一个比较三 d 的 风格,大家可以看一下,相对来说比较符合我自己的一个预期。然后呢我再把这个像这一个楼牌,他是不太对嘛,所以我就给了参考图,大家可以看一下,就是这里传了他以 后都给他了,然后呢我再让他去改,就是图一的楼牌要换成图二的样子,因为我最开始第一个画面是这种楼牌嘛, 所以我把它修改一下,然后呢让它去掉图一中的台阶,三个人在同一个时期台面上,因为现在它整体不在一个高度,所以呢我就给了它这样的提示词。 在这是前面人物换成二 d 的 风格,最开始给我改出来是这样子的,像前面这个风格我觉得跟我想象的就比较像了。那接下来我们再要的就是去刷图,刷到一个自己比较喜欢的,然后呢我再去选择一个作为参考图,比如 说这一个我直接把它关掉,这个直接作为参考图,再来跟他去对话,比如说这里我给到了就是去掉图中的台阶,三个人保持在同一时期面上,这样的话他就生成了我想跳的这种感觉了。当然像这个的话,我们是在有参考的情况下,如果没有参考的情况下,那我们应该怎么做呢? 像这里都是参考图反推吗?没有参考,我们在最开始这个脚本身上的时候,我们已 得到了剧本,那你就直接把这个剧本的提示词复制过来,复制过来肯定是远远不够的,就是这个想告诉大家的,就是我们想要得到好的效果,你一定要去找参考 我们前面得到的这一个,你也可以直接拿这个 ai 声图的提示词,大家可以看一下,他描述的相对来说就比较简短一点啊,那我们可以直接拿这个提示词,然后呢再去生成,有什么不是我们想要的,再去修改都 是 ok 的, 大家可以看一下我们直接拿这个提示词生成的效果,这个肯定是不够远的,对不对? 就没有那种很壮观的感觉,所以呢,我们可以拿一个作为一个参考图,让他拉远一点点, 大概就是这样子的,那至于说这个风格,看是不是你喜欢的,如果说我们不喜欢这种三 d 华丽古风,那你就不要他, 大概就是这样一个逻辑啊。当然我们整个里面啊,改图也是非常重要的一环,现在 ai 发展的很快啊,所有的改图就像我刚刚前面讲的那一个一样,你只需要上传你的图片,然后呢直接跟他讲你要修改什么内容就可以了, 比如说你要去修改景,别呀,或者你要去修改背景的内容,直接跟他说就 ok 了。同样的这里呢,我拿两张图片过来,大家可以看一下,我由第一张图片改到第二张图片,我们应该怎么去修改呢?大家可以思考一下,其实就是保留着一个人物嘛,所以我们可以直接把这个图片 还给他,然后跟他说只保留前景中的人物,然后视角我们要去改一下,他这个视角跟现在这个肯定是发生了变化的,我们要改成什么呢? 仰视角,然后我们要给他人物正面服装保持不变,人物低头双手自然落下,没有法器,人物占据画面的三分之一, 这些都要写清楚一点,他才能够改的比较好。我的话呢,也给大家看一下我改的整个过程啊,其实最开始他也没有那么顺利,你看最开始改的时候,他出来的效果是这样子的,跟我现在想要的效果其实不太像, 所以在这个地方呢,我就不断的去抽卡,然后不断去调整,后面得到一个相对来说好一点的。之后我再跟他讲头在最上面人物比例 保持不变,这样他才得到一个我相对来说比较想要的一个效果。好, ok, 那 这个就是图片的生成了。下一节我们来讲一下视频的生成。好, ok, 在 前面两节我们讲了剧本、脚本以及图片的生成,那这一节我们来讲一下视频的生成。首先呢我们要了解一下视频 生成都有一些什么平台,目前用的最多的还是在线的平台,因为他出来 速度也快一点,当然也有本地的,本地的话就是开会以外,它是免费的,但是比较慢,而且对电脑的配置要求也比较高。 那我们首先来看一下在线的平台,在线平台的话呢,有吉梦海螺,可您统一万象龙位,这边比较推荐大家的还是吉梦,因为吉梦它是性价比比较高。然后呢出图的速度也是比较快的,而且它是有素质人的功能, 这里大家可以首选即梦啊。当然海螺这一块呢,他的首尾针打斗的效果是比较好的,就如果我们有比较炫酷的打斗画面,那可能要去选择海螺,大家可以灵活去用啊,每一个都可以去用一下,因为每一个平台 每个月都会有一定的免费的点数,像吉梦的话是每天都有。然后可宁这一块,它的画质是非常高的,效果也比较好,唯一的缺点啊,就是贵。同一万象这一块呢,它是支持生化同步的,当然现在吉梦也支持了,它这个生化同步相对来说都比较贵一点, 充一万向它可以免费,但是非常的慢,非常慢,那如果你要去加速的话也是比较贵的,如果你这个是国外的,需要科学上网,它这个也是最早出来的,大家可以根据自己的需要去选择。 然后本地的话呢,就是开 free ui 嘛。那这边图声视频的结构呢,主要就是动作加镜头加情绪,因为图片已经出来了,所以我们视频的提示词不需要写的特别的复杂,除非你是有很复杂的动作要它去完成。 然后这边镜头是比较重要的,比如说上移啊,下移啊,或者说推进啊,遥近啊,这些都是要去掌握 的。那如果大家记不住的话,我们可以直接打开海螺来看一下海螺这边我们选到视频生成,然后呢在这边他就会有一个视频生成的运镜,大家可以看一下,比如说其实就是你的摄像机往左边移动,或者说你的摄像机往左边 摇或者上升,大家可以看一下,再就是晃动,这里大家可以一个一个去看一看啊,比如说跟随,一般有这种走动的,我们都会给他来一个跟随, 这个就是定投的语言,然后呢动作其实就是你要干什么,比如说我要开门出去啊,或者说我要跑步啊,然后再就是情绪,情绪这一块呢,悲伤啊,难过啊,其实这些 ai 都是可以去识别的,那我们还是来这一个案例里面的片头来看一下。 那我这一个镜头,这个镜头的话呢,我就直接给的是镜头慢慢上升,然后直至看不到前景的平台,因为你慢慢上移,你不知道让它移到什么位置, 所以这里呢我就给了一个慢慢上瘾,然后看不到这个平台,大家可以看一下,他基本上呢也是保持了我这一个提示词的指令的,这呢就是比较简单的镜头的移动,那我们在做视频的时候,用的比较多的就是守卫针,这样的话他会让我们的画面更加的可控向第一个镜头 这边也给大家看一下,第一个镜头,它其实呢就是一个首尾帧的动画,比如说我这里点开看一下,大家可以看一下,就是当我们的图片生成好之后,我有一个手帧,再来一个尾帧,两个图片都传给他,那这边同样的我们先给他一个镜头语言, 就是镜头快速向下俯冲,如无人机一般的飞入,然后穿过图一的楼拍门,你也可以写穿过手针的楼拍门。什么是楼拍门?就这一个吗?它可以去识别到的,大家可以看一下,看它直接穿过它,然后呢 推到这里来,这里我还给了一个曲线变速,曲线变速给了之后,他就不是一个匀速的,他的这种速度感就会更好一点。然后呢展示到第二个场景,所有的人物位置保持不动,这里为什么我要去加一个这样子的话,其实这个镜头我也生成了蛮多次的,之前用海螺也试过,也给大家看一下啊。 这里我直接选择视频可以看一下啊,就是最开始他就冲了,是这个人物他一直要跟着动,就海螺他怎么 都出不来,要不然呢就不知道冲到哪里去了。大家可以看一下,你看这个人物他就理解为因为首尾针吗?他可能会理解,为什么呢?就是前后的这两个是同一个人,他直接冲到这一个人变成了他, 所以这个时候没有办法,如果你感觉你的提示词是没有问题的,那我们就只能去偷卡。然后呢再去换平台。像这里我换了可零之后啊,可能前期可能他也会出现这种问题, 你像这个也是有问题的,最开始的时候这个人也是会跟着动的,因为 ai 他 现在就是有这种不确定性啊,而且他确确实实容易理解为这一个人物飞到这里来。像这种平台的话,我们没有必要去纠结于一定要用哪个平台, 你知道他们的优势和劣势就可以了。你像这一个视频,这个视频他是人物往上走,然后呢他去身上发出光芒,最后变成这样一个场景嘛。所以这里的话,我给的提示词呢,就是镜头跟随人物快速上升至空中,然后云尘也跟着人物一起移动, 这里是给他的一些提示词的参考,但是他这里的这个光芒其实我已经给了,就是整 个光芒要盖住人物,但是他这个人物都没有去盖住他,所以我们也可以去对比,再用海螺试一下呗。那这边用海螺尝试了一下之后,哎,我觉得效果就比屏幕的要好一点,就选的是海螺的这个。当然了现在的这一些动作更多的是参考的他原来的这个动, 我就是告诉大家,其实 ai 它是可以帮助我们实现你想要的这些效果的,就现在它已经慢慢的更加的可控,你们能够做到自己想要的这种感觉, 当然呢整个过程还需要你不断的去抽卡。好, ok, 那 这个就是整个视频生成的环节了。好, ok, 那 前面三节课我们已经学习了剧本、脚本、图片的生成,这节课呢我们来讲一下后期剪辑。后期剪辑这一块 主要呢就是第一个剪辑流程,剪辑流程的话,首先第一个我们就是要导入素材,然后呢再进行初剪以及精剪,最后配音配乐,然后来导出,我们 同样的来演示一下,可以打开剪映,打开剪映之后呢在这边可以导入素材,素材我们可以直接拖拽进来就可以了, 比如说我现在选中做好的素材直接拖拽进来,拖拽进来之后我们再把每一个片段直接放到这一个时间轴这里来,那这样的话呢,他就会是一个连贯的。然后这里比如说我选择其中一个,我只选这一个, 他不要的片段我们就直接删除,当然有的地方可能要加速一下,你像这个位置我觉得他太慢了,所以呢我们可能要把这一块要把它 ctrl 加 k, 下面这一块也 ctrl 加 k, 然后对这一节呢进行一个变速的处理,这里我们可以把速度给他调快一点点,那这样的话他就很快就上来了, 然后再往这一块,这一块的话速度还可以就上来了,然后再往这一块的话他就很快就上来了,然后再往这一块也是的,大家看要不要去调一下他的速度, 我们也可以适当的给他加个速,这样的话我们就完成了初减。那精减的话呢,就是每一块我们都可以去给他配音,比如说像这里这里他有这种风吹动的声音吗?所以呢我们就可以在音频这里,然后呢在音效库这里去搜索这种吹风 或者说环境音都可以啊,就是给他加一点这种音效在里面,比如这里我先随便加一个吧,随便加一个,然后在这边我们也可以给他配一首音乐,这里的音乐大家可以去配轻音乐啊,或者说跟仙侠相关的音乐都可以啊,直接去搜索就可以了, 搜到了之后呢也是一样的直接拖拽下来,然后这里还有一个我们可以看一下他原来的视频啊,原来的视频有很多地方他都是简单的这种 未移,所以那有的时候呢,我们可以直接这样去操作,比如说现在在素材这里我再给他拿一个图片过来,那这边我就把这个图片拿过来啊,拿过来之后呢,其实他前面可能会有这些运镜的动画啊,其实大家去看一下他原来那个视频啊, 后面很多地方,他可能就是说,哎,这个人物左移一下,右移一下,上移一下,这边我们可以直接来看一下,就是到这一块的话,大家一看,你看这是图片往左边移动, 然后呢图片可能往上面移动,慢慢的去移动这种,其实这种也是最早的动态慢的一种形式,就是人物在这里移动,然后呢配上我们的讲解,那这个怎么去操作呢?我们可以拿到这个图片之后,首先给他放大一点, 望大一点之后往缩小一点,这样他是不是有移动的空间了?那比如说我直接让他从这个位置,在这个位置的时候呢,我们直接把他的位置这里给他来一个关键帧,然后呢在后面的时候我再去移动他的位置,那这样的话他的位置关键帧就有了,他就会形成 一个慢慢慢慢左移,可能到下一张图片呢,你就慢慢慢慢上移,这样一个动画就出来了。其实这一个慢,这里面有很多都是直接简单的微移啊。那我们再来讲一下他的配音,配音这一块大家可以直接用剪映的朗读,比如说我这里直接来一个问, 这里有个文本,然后呢我们可以直接在这边有一个朗读,去选择对应的人物,比如说猴哥的,那我们就选择这个猴哥的,然后让他开始朗读, 这样的话就会得到他的一个配音。当然大家如果说想要你的配音是有情绪的,那我们就需要借助一些配音软件, 比如说这个软件,这个软件的话呢,他是每个月都会送你一万的积分,大家都是够用的啊。这里他就可以你自己去设计音色,包括这里呢也有一些可以选择的音色,相对来说会比剪映里面有情趣一 点。然后在这个位置有一个音色设计,那如果你想要生成什么样子的,比如说我想要生成的是仙侠人物,那你在这里就可以去描述一下仙侠人物, 然后声音是一个什么样的特点,然后呢是一个什么样的氛围,你去描述一下,再让他去生成对应的音色,这样的话就比较独特一点, 大概就是这样子的,我们把配音生成好了之后呢,就可以去把它下载下来,下载下来了之后,我们就可以用极梦里面的数字人的功能,比如说在这个位置我们把角色上传上来,然后在这边你想让他说话的内容也发送给他, 好发送给他之后,我们可以你梦这里也可以直接去选择音色,比如说我直接选择猴哥 也是可以的,然后在这个地方他可以去调节说话的速度。 ok, 选好之后,在下面这里你还有动作的描述,有就有,没有的话就可以不填。当然如果我不想要他的音色,可能我是刚刚自己生成的,那你就可以在这个地方选择上传音频,把自己的音 频上传上来,那他就能够去照着你这个音频去读出来了。最后呢我们再把它一起放到这个剪辑软件里面,整体的把配好的音上传上来,然后片段拼接起来,这样整个过程我们就完成了。这里面的话其实他的转场都没有很复杂的转场都是硬切,大家可以去看一下。 好, ok, 那 这个呢?就是我们通过一个爆款漫剧片段的拆解,来给大家讲一下我们整个 ai 制作的一个流程,那大家学会了吗?

美国硅谷最不想承认的一件事终于发生了,当奥特曼还在满世界筹集七万亿美金想把地球变成算力工厂的时候,中国人用 deep sea 和 cds 扯下了暴力堆算力的折旧布。 其实很多人到现在都还不理解,就为什么我们能用硅谷几十分之一的资源做出同级别的效果,这背后呢,其实是一个他们不愿意对外说的真相。就科技,他很烧钱,但在科技圈烧钱多,他并不代表技术一定强,有时候呢,他只是为了掩盖算法层面的平庸。 那以前呢,我们总觉得中国 ai 是 在追赶,但实际啊,从去年的 deepsea 开始呢,这个逻辑就开始变了,我们是在有限的资源里逼出了最极致的脑效比,那是第一次,让那些习惯了靠算力垄断收割市场的巨头们感到了恐惧。 有人说这是草根奇迹,但我更愿意称之为智力对暴力的降维打击。那如果说 deepsea 它只是让硅谷感到了压力,那字节跳动最近放出这个 cds 二点零啊,则是直接给好莱坞影视剪辑行业送上了一份退休预告啊。 那二月十二号,这个 cds 二点零呢,正式发布了,并全面接入了豆包和即梦,还上线了火山方舟体验中心。那以前呢,一个五分钟的片段,那你从剧本啊,分镜拍摄到后期音效,起码要一个团队至少忙活半个月时间以上啊。那现在呢,用 cds 啊,可能一顿饭的时间就做完了。 为什么会这样呢?是因为啊,这个 cds 二点零,它实现了原声音视频同步。什么意思呢?就是啊,就你给他一句话,哎,他就连这个画面带背景音乐,甚至连这个角色喘息的声场,空间感,一次性就全都给你整出来了。 那这就可能导致影视行业出现一个很诡异的现象,就是老一代的好莱坞导演呢,还在研究怎么做某个画面的特效,那新一代的导演已经在用提示词批量生产电影了。 那这个时候啊,有人肯定会说了,就 ai 拍出来的东西,他没有灵魂呐,哎,我理解他想表达的意思,但我更了解人性。 试想一下啊,当 ai 生成的画面精准度超过了百分之九十的人类摄影师,当他的运镜比大师还要稳的时候,那他口中那个昂贵的灵魂,在流水线生产的商业市场面前,到底还值多少钱呢?那我们还可以看一个很有意思的啊,中外 ai 路径的差异,甚至可以说是一种偏见。 那硅谷的 ai 们总是喜欢聊 agi 啊,也就是聊通用人工智能,聊怎么取代人类。而中国的 ai, 你 像谦问啊,像 cds 啊这些,那他们的目标就很务实,甚至呢,都有点儿卑微啊,但也让硅谷 ai 们恐惧,就是他们只想啊,帮你点奶茶,帮你拍视频。 这也导致了有些人就嘲笑咱们中国的 ai 太过于功利了啊,没有理想主义。但我们回想一下,就人类历史上每一次的技术革命,哪一次是因为理想而普及的呢?都是因为好用和便宜啊。 我们并不想要一个什么都能聊,但什么都干不好的数字诗人,我们要的是能帮人真正干活的 ai 工具。那当大众分不清这黑神话钟馗的视频,它到底是人化的,还是 cds 生成的时候,那传统意义上的艺术门槛,其实已经彻底崩塌了。 从二零二五年 deepsea 的 效率神话,到二零二六 cds 二点零的视听革命,中国 ai 正在用一种暴力进化的方式告诉全世界,规则变了。 那接下来的二零二六,会是一个极其割裂的时代啊。一部分人呢,会利用这些工具,一个人就活成一个团队,实现财富跃迁。而另一部分人呢,会死守着所谓的经验和喋喋不休的抱怨,在算法的浪潮里逐渐隐身。 那面对 ai 的 爆发,您是焦虑还是兴奋呢?其实啊,不管我们咋样,历史的车轮都会滚滚而过,并不会看路边的任何人是在欢呼还是在哭泣。 这种 ai 进步,对我们普通人来说,那到底是最后的机会,还是最大的危机?其实每个人心里啊,都有个答案了,而这个答案可能比 ai 本身更残酷。我是岩哥,关注我,看懂经济科技与国家发展。

你觉得这四个 ai 生成的视频,哪个难度最大,哪个难度最小? 大家好,我是闪客,赶紧给我点个三连,不然我就从这跳下去 公布答案。第一个难度最小,第二个难度中等,第三个难度较大,而第四个是我自己画的,而且几乎没有任何 ai 工具能生成出来。 如果这个答案让你感到意外,甚至是完全相反,那么恭喜你来对了地儿。今天这期视频我就会用大白话来告诉你 ai 视频生成的底层逻辑。为什么最近爆火的 cds 二点零这么强,以及还有哪些场景至今还没有任何 ai 能够解决?放心,没有任何复杂晦涩的公式,但我保证你能理解到其中的本质。 我们先抛开那些乱七八糟的各种细节,其实一个 ai 模型就是输入式文字输出式视频的一个大模型而已。而一个视频就是由多张图片构成的,一张图片又是由多个像素点构成的,每个像素点可以用一个数字来表示,它的颜色换成一行,那就变成了我们熟悉的向量, 一旦它变成了一个向量,就可以画在坐标轴上了。只不过呢,视频的向量维度非常大,会在一个高维空间中,我们人类是无法想象的,但是我们能够想象的是二维向量,比如说幺幺这个点就在这,三四这个点就在这。那如果把这些点想象成高维空间,它其实对应的就是一段视频或者一张图片了。 如果把这个空间中的所有点都画出来,大概就是这个样子。这里面呢,就有一些点是看起来合理的视频,有一些点呢是看起来没那么合理的视频,不过大部分点对应的还是一种毫无意义的纯噪声。 我们的目标就是在这些茫茫的点中快速采用出那些有意义的点,我把它标成绿色就是这个样子。当然,这些点的数量实在是太多了,我们也找不到一个数学公式来精确的描绘它, 所以我们只能假设它在高维空间中是符合一定统计分布的,就像你这个三维生物看眼前这个二维平面一样,一下子就能看到它的规律,但是高维空间就不行, 所以这个时候就又需要深度学习出码了,通过已知的数据去拟合学习,不严谨的说就是,比如这些点就是我们已知的视频数据,那我们就大概率可以学习出一个函数,能够很好的采用出中间这个点。 具体要怎么学习呢?我们可以稍稍以简单图片为例,可以训练一个模型,根据一张纯噪声输出一张合理的图片。但是呢,这样做太难了,所以我们退而求其次,用多个时间步来完成这个操作。你把这个过程称为去噪及去除噪音。 图片中的噪音没什么神奇的,也是一个大的项链而已,就是一个个的数字。那我们拿图片中的一个位置出的颜色值为例,去噪就是这样一个简单的减法而已。那我们的模型只要根据这张图片能预测出这个噪音是什么就可以了,就相当于学习了这样一个函数,当 x 等于一百二十五时, y 的 输出为九。 这里呢,使用的模型结构还是大名鼎鼎的 transformer, 没错,归根结底依然是 transformer 在 发光发热,当然这也经历了从 unit 到 transformer 的 历史过程。那怎么样训练这个函数呢?也很简单,准备像这样的一大堆的图文。对,然后把图片主动一步一步加噪音,并且标记上加噪的时间步, 把其中一个图片和这个图片加的真实噪音拿出来,把图片连带着时间簿以及对应的文字都作为这个模型的输入,经过模型的计算后得到预测的噪音, 然后和真实的噪音进行比较,计算损失函数,进而进行反应传播,训练网络,剩下的就交给大力出奇迹的 skill 令唠了。再严谨点的话,这里的图片呢,是经过 ve 压缩后的向量,后面呢还要用 ve 来解压,目的就是减少训练的难度, 然后把这样一个过程加入一个循环中,不断重复,这就是当今纹身图和纹身视频的底层架构。基于 transform 的 扩散模型 diffusion transformer, 简称 d i t。 当然还有很多新的流行的变种,比如说把预测造成的部分换成预测限量场的 flow matching, 这里就不展开了。 我们回到二维平面,别忘了这里的每个点对应的就是一张张图片或视频,比如这个点对应的就是刚刚全是造点的图片,这个去造的过程就可以理解成沿着某个方向移动到合理图片上的点的过程。 当然这个过程可以有很多种结果,只要生成的结果是合理的即可,所以理论上落到所有这些绿色的点上都是可以的。那如果此时加入一段文字描述,本质上呢,就相当于加了一个约束条件,造成的最终影响就是整个解空间变小了。 当然,除了文字之外,现在的 ai 视频模型已经有相当多的丰富的约束条件可以加了。比如最新的 c 量子二点零中,可以用自然语言写出这样一段约束,把图一、图二和图三、图四都当做主体参考,把视频一当做动作指导,把图片五当做场景参考,最终的生成效果就相当精准了, 对应到二维坐标上的点,就相当于这个解空间更小了。 我们回过头再看视频最开始的问题,为什么第一个视频最简单呢?因为我用的提示词仅仅是生成一段太空大战,他的解空间是非常非常大的,用人话说就是只要差不多像太空大战,我就很满意了。 而第二个视频的提示词要求就多了一些了,视频要基本符合我所要求的发展走势,但是也仍然有不少发挥空间。可以看到,我要求的时间在视频中其实是错误的,因为我的要求更精确了,所以说容错空间就更小了。 再看第三个视频,虽然画面看似简单,但视频要求完全按照我的话,一个字一个字的说,一个字都不能错,基本上已经没有多少发挥的空间了。 当然,这个效果可以从工程层面来解决,不一定完全依赖大模型的能力。比如我先用文字生成一段语音,然后再去对口型,那这种情况我们暂且不考虑。 而第四个视频解的空间就非常非常非常小了,如果我再要求的多些,甚至几乎只有一个解能满足我的需求了,这对于底层到处是随机变量的扩散模型来说,几乎是不可能完成的任务,除非用编程来渲染,那就属于作弊了。 甚至我觉得 cds 能实现这样的效果已经非常非常不容易了。但是仔细对比一下提示词,你会发现相差甚远。 所以只要是让视频的解空间变得非常小的体式词,就是 ai 视频生成的一个重灾区。那有的时候我爸妈就是,呃,担心 ai 会不会发展到某一天无法分辨我这个视频的真假了,那我就告诉他们,你可以让我去数数,比如说从一数到十,然后再配合上这个手势, 一二三四五六七八九十,这个视频就是任何 ai 都没有办法成功生成的。我用几个顶尖的视频 ai 生成模型生成是这个样子的,惨不忍睹。然后我平时的评论区,我发现有很多人问我,我的动画是不是 ai 生成的, 一开始我以为是在玩梗,然后后来的话,我发现好像真的有人有这样的疑问,那如果你对 ai 视频的能力边界有所了解的话,就应该知道现在的 ai 视频的底层逻辑是不可能生成我这样的动画的,因为它的解空间非常非常小,而且也很难用提示词精准描述。呃,最后我再来说说我的个人感悟吧,就是最近 c 弹子不是很火吗? 然后又讨论了这个 ai 视频进化所可能带来的影响。其实也能用今天的逻辑来推演,比如说,哎,我不是 ai 啊,一二三四, 比如说对 ai 视频来说,生成一个场面很宏大的视频和生成一段几乎静止的动画,还有生成一个纯噪声,可能这三者对 ai 来讲没有什么本质区别,因为他们需要的算力是一样的。同时 ai 也不会有审美,说觉得这个好那个好,这都是我们人产生的审美。 但是呢,如果让他严格遵循你的指令,生成一个解空间很小的视频,这个就是一个很难的任务,或者说准确说是让你感觉更难满意了。 所以说 ai 视频的进化会极大影响那些我认为是人工成本巨大,视觉冲击力强,但是对内容本身影响不太大,或者说仅仅是锦上添花的这些地方,比如说有声小说配画面,然后创意短视频短剧,以及一些影视作品中一些那些一闪而过的镜头。 相反,一些人工成本很小,视觉冲击力不大,而且需要和内容深度配合的领域, ai 暂时还无法替代。 比如说我做的一些科普通话,那我自己做可能很快就搞定了,而且需要非常精准,而且还要和内容有这种零延迟的配合,这种的话 ai 就 代替不了,也不适合。 再说一遍,我不是 ai 啊,一二三四五六。然后还有就是那些真正优质的以内容为根基的影视作品或者短片,也是很难被替代的。因为现在的 ai 创作逻辑更像是你先把视频效果做出来,因为你要录很多遍,也不知道它会出什么效果嘛。然后你再根据效果反过来调整自己的文案和剧情走向, 那么这些以内容为根基的作品, ai 视频的解空间就非常非常小了,因为它很难遵循,所以也就为呃,所以也就很难无法,所以也就无法完美的搭配。 还有很多人问要不要用 ai 做视频啊?进军自媒体其实很多课的话也是有这种教怎么用 ai 生成内容,然后起号,很容易分析啊,其实相当于你在问你要不要做一个未来可能所有人都会的一种视频类型, 没道理吧,为什么?你明白做自媒体要找到你的独特性,找到你的不可替代性,但是到了 ai 这块就忘了。我认为如果你想做自媒体的话,你的选择其实甚至应该是完全相反的, 你应该非常努力地学习用 ai 做视频,用 ai 写文章,然后分析出它的能力边界,然后非常努力地去做那些 ai 无法完成的内容,而不是在焦虑要不要挤进这个未来极其拥挤的赛道。

广告人的天塌了,不到五块钱大片你也能拍的出来? ai 要干掉的何止是相机和那些摄影师们,他现在要干掉的是整个一方公司。这就是吉梦最新推出的 ai 大 模型 cds 二点零。 因为模型能力过于强大,官方不得不紧急地限制人脸素材的输入能力。 kim 就 吐槽自己只上传了一张个人照片,系统竟然自动生成了包含他真实声音的情况之下,我也没有给我的声音文件, 只是把我的脸传上去,这个 ai 居然知道这张脸的声音是我的。这个声音我给你们演示一下,这是我们用一句话加上我的照片生出来的结果。 正常面对 ai 模型,我的态度就是,哦哦哦,又发布了,然后又会炒一堆很厉害的概念,然后实际体验不佳,然后翻篇。但是这个模型一开始我看到的演示视频就让我觉得,啊,这个你不觉得恐怖吗? ai 在 二零二六年春节来临之际,对于影视行业来说,真的是炸响了一个大雷子。 接下来,我用三分钟时间,一步一步的教会你,人人都可以做一条视频广告的时代到来了。大家好,我是在奇士别克的社播主何老师, 我们来应个景哈。假设我们今天要给一款烟花做一个十五秒的电商广告,那么因为深圳既然禁放,何老师手头呢,肯定也没有这个实物。所以我先下载了一张烟花实拍图片,然后丢给了 manila pro, 帮我生成了一套烟花前后两面的白底电商图。 还挺神奇啊,他竟然自己就打了个生产地湖南浏阳,听上去还挺靠谱的,当然,这一步如果你手头是有产品的,可以直接拍一个三十组,就可以忽略这个环节。第二部 国内的广告参考片呢,比较大的平台是新片场,我在上面下载了一条四十多秒的化妆品广告,觉得还不错,因为 cds 的 参考能力呢,是上限十五秒。 所以呢,我就对样片呢进行了简单的剪辑,把觉得不错的镜头呢剪辑在一起,压缩了一下整体时长。第三步,接下来丢给 ccloud 二点零新推出的全能参考功能,它呢,支持视频跟图片参考混搭。我使用的是二十三号新推出的 fast 模型,等待的比较短,十五秒的生成费用呢,也只有二点零的六折。 我上传了参考视频一条产品的主图,两张照片,提示词是这样的,完全参考视频一的剪辑结构和运镜效果,特效动作,制作一条关于图片二的电商视频。 图片一是产品的背面图片二是产品的正面,注意去除参考视频中化妆品的元素,增加各种烟花爆竹的图片。 十四到十五秒画面,品牌 mario k 的 字幕替换为礼炮双响。这里呢, cuddle 二点零可以像群发消息一样,使用艾特这个标记来艾特对应的素材。因为生成视频的上限是十五秒,我们可以对每一秒进行精准的描述,包括警别啊,镜头运动啊,甚至是后期的文字啊,特效什么的。 比如我要求 ai 在 第十四十五秒出现产品名称。接下来我们来看成片儿 talk, 这个过程啊,只用了三分钟,加上找样片做电商百里图,一共花费不到半小时的时间,算力方面呢,我使用同一段提示词,共生成了两版内容, 一共花了一百八十积分。现在呢,请大家作为甲方爸爸啊,给这条视频定个价,按照吉梦标准,会员九百五一年的价格,一百八十积分呢,折合人民币就是三块六。而如果我告诉你,翻拍最新的苹果手机的广告也是一样的成本,那么各位甲方爸爸们, 请你们决策,你们是要重金请大导演原创一条,还是请 ai 仿拍一条?而选择 ai 仿拍的甲方爸爸们,你们是打算自己干呢,还是请人干呢?如此简单的操作,会不会让很多做低端行活的广告公司消失了呢?甲方和乙方的区别是什么呢? 在以前呢,乙方报价单上那一堆堆的专业器材名称,我们都是按天写他们的使用单价的。那么现在呢?这报价单上写什么?电脑显卡型号?还是你的网站会员积分? 当乙方不再拥有专业性甚至垄断性的生产资料的时候,根据马克思主义政治经济学的原理,那么甲乙双方的生产关系就会发生改变。你注意到了没有啊,这条视频的最关键的核心资产不是摄影的技术硬件,也不是显卡算力,而是那条参考样片。 阅片量恰恰成为了未来视频创作中更关键的要素了。你看过的片子越多,脑子当中的画面呢,就越有细节,输入给 ai 的 指令呢,就越精准。 同时,你看过的片子越多,那么审美也会随之提高,越能启发 ai 呢,做出高水平的回应。同 样是用手机拍,有人把女朋友拍成超模,有人把女朋友拍的想跟你分手。总之呢,无论是甲方还是乙方,和 ai 互动的这个人,月片量成为了未来的核心竞争力,也决定了这个人的身价。但同时,月片量在 ai 时代呢,对于创作者也会变得越来越难。为什么? 因为当这种无脑模仿、粘贴复制式的视频越来越多,越来越容易的时候,信息污染将不可避免。以前呢,咱们看十条视频,那可能就有一条有深度,有思考,有借鉴意义的视频啊,优秀的。而现在呢,你刷一百条都不一定能看到一条了。 在这里,还有一件事何老师拿出来讨论啊,就是我们不停的阅片的目的是什么?是为了找抄袭的对象吗?以前我们在学校里开各种审美课啊,这种鉴赏课,那是为了站在这种前人大导演的这种肩膀上来提高审美,然后未来是做自己原创的内容。 而如果我们只是为了单一的模仿而做视频,那这才是视频创作者最大的悲哀吧,不停地制造视觉垃圾,但是呢,无论你愿不愿意,视觉垃圾这种东西已经来了,这种海啸马上就要到来。好的,今天和老讲这么多,讲的对,拜托,一键三零,讲的不对的,欢迎评论区同我。