粉丝2.5万获赞15.7万



ai 生成的图像可以看起来惊艳无比,但一旦你尝试构建一个连贯的序列,它们就原形毕露了。 nano banana pro 和 gemni 三扭转了这一局面。 今天我就来教大家如何仅凭一张初识图像,仅用一个提示词就能导出无数个视角一致的新图像。 你能确保角色、场景、世界和艺术风格在每一帧中都保持高度一致。当然,一旦我们掌握了这项能力,我们便终于能够解锁创作逼真影像序列的可能性。 我是 a i e samson, 欢迎回到我的频道。我们将分三个层次循序渐进地来实现它。每深入一个层次,你对生成结果的控制力就会更强。 那么我们这次影像叔事之旅的第一步就是创建主角。这张机准图像将为我们整部影片的创作奠定基础。为此,我建议大家,生成的图像角色至少要露出上半身,光线要清晰, 姿势要明确,背景要包含足够的信息,确保脸部完全清晰可见,身体部分也尽量多展现一些。你可以用任何你喜欢的图像生成模型来创建这张精准图。 你可以从 nano banana pro 入手,当然,你也可以用 midjourney, 它是我最钟爱的 ai 图像生成工具之一,因为我非常欣赏它那种独特的 ai 图像生成工具之一,因为我非常欣赏它那种独特的核心美学风格。你们可以直接用它来生成这类图像, 你们只需替换其中任意变量即可保准能生成符合流程要求的图像。视频里用到的所有提示词请加微信云桥奈免费获取云桥网络感谢关注与支持, 算是送给大家的一点小心意。这个提示词通用性很强,在多个 ai 生图工具里都好使。接下来我会用下面这张图来演示,我选了这位来自亚马逊丛林的美丽战士公主,由她来带领我们展开冒险。 那么下一步就是使用 nano banana pro 这个工具,仅凭一个提示词就能生成一整组图像。这里有一个特别实用的提示词,我们马上就用它。 它内容比较长,你们直接复制粘贴就行。从我提供的文档里复制,然后粘贴到提示词输入框。好了,现在来看这个提示词, 这是我们看到的第一个版本提示词。这个提示词最初是由 x 原推特上一位名叫 takala 的 创作者制作的,所以必须为它在这个领域的杰出成果点个大大的赞。接下来我将使用 google flow 来运行 nano banana pro, 同时我也会分享一个可以完全免费体验的替代方案。 那么把提示词输入进去,我们直接点击上传,把主角的图片添加进去, 看它出来了。 google flow 让我喜欢的一点是,它可以一次性生成最多四张图片供你挑选。这非常实用,因为它能让我们得到一组各不相同的图片,然后我们可以选出自己最喜欢的那一张。 好了,直接点击生成吧。趁着加载的空档,我来给大家演示另一个完全免费的用法,也就是在 gemini 里面使用这个功能, 也就是说,你可以在 gemini 里免费使用 nano banana pro。 操作很简单,直接把提示词输入对话框,用同样的方式上传图片即可。为了展示多样化,我这里换一张稍微不同的图片,我用一个动画片段来给大家演示一下。另一个很棒的点是用它来处理动画效果也完全没问题, 然后点击发送。但是我生成的这张图片被拒绝了。这是因为我的衣着落腹度有点儿太高了,所以我换了一套更保守的装扮,重新跑了一遍。 如果你对无审查模型感兴趣,看完本期视频后不妨看看这个。那期视频全面介绍了最新的完全无审查 ai 图像模型。不过现在咱们言归正传,大家可以看到这里的每一个镜头都排列的井井有条。 为了让大家更清楚背后的机制,这个提示词的作用是分析图像的构图,然后它会生成一个网格,展示这个图像在不同场景下的样子,这样就能得到一组非常具体的镜头。 首先是一个极远景,也就是左上角的第一个镜头,接着是远景,然后是中远景,其余的镜头也都以网格形式排列好了。这意味着我们美丽的主角拥有了各式各样的角度。接着我们就可以用它们来生成每个场景的全尺寸大图。大家看,我输出了四个版本, 关键点在于他有时不会输出镜头标注。这些标注很重要,因为对下一步操作很有帮助,也就是我们需要分别导出每一帧的环节, 所以如果遇到这种情况,直接重新跑一遍就行,你还可以从中选出自己最中意的那一帧。我个人就挺喜欢这一个的。 下一步就是把它加到提示词里,接下来我们要提取出喜欢的镜头,我们只需用一个简单的提示词就能搞定。提取净帧,然后你可以利用标注功能输入那一帧的名称, 所以我特别想提取出那个低角度镜头。同样的,我们可以生成这个镜头的多个版本。输入提示词。趁它加载的功夫,我也给你看看它在 demo pro 里生成的效果有多棒。 在我们的动画版本里,这位花盆先生出现在所有这些不同的场景中。瞧,正如你看到的,我们得到了一张绝对惊艳的图片, 而且它与原始提示词以及我们的底图保持了高度一致。需要提醒一下,这个方法并不是次次都灵,先给你打个预防针,免得你遇到问题的时候有点懵,不知道是咋回事, 尤其是当你一次只处理一张图的时候。你看这四张里面,有两张我觉得能达到百分之九十九的准确度,一张大概有百分之七十的准确度,还有一张怎么说呢,算是翻车了,我可以再跑一次,让它生成一张不同的图, 而且你想试多少次都行。整个过程的核心就是把你选好的所有图片都导出来,以便将它们转换成你最终想要的画面系列。好了,搞定,现在我们生成了这个中远景镜头, 激动人心的时刻到了,因为现在我们就能把这些静态图片变成动态视频了。而实现这一步的最佳方法就是在制作视频时设定一个起始针, 也就是说,我们要精确的设定视频的开场画面。接下来我会分别用一款付费工具和一款免费工具来演示具体操作, 咱们先来看看付费工具怎么用,我要用的就是 google v o 三一,我们还是在 google flow 这个平台里来操作它。使用方法就是找到帧到视频这个功能,然后直接把第一帧图片添加进去就行。我这里就用这位女士的图片,你可以输入提示词来描述你想要的动作。 我建议大家从这几个方面构思,角色怎么动,镜头怎么动,还有环境怎么动,比如树木摇曳。那么我们就可以输入女人射箭固定镜头这个提示词,然后提交,当然得确认这第一帧就是我们刚才生成的那张图。 如果想完全免费的实现,我推荐使用 grog imagine, 它目前非常给力,让我们有机会完全免费的生成视频。要实现这个效果,请访问 g r o k 点 com。 斜杠 i m a g i n e 进入上传文件页面,插入提取的竞真,并确保选择视频模式。 grack 的 一大优点就是速度超快,它完全免费,而且审核限制比 google v o 三点一宽松得多。如果你对 grack imagine 感兴趣,我专门做过一期视频来介绍它,你可以看完这期视频后再去观看,所有链接都在视频简介里。好了, 咱们一起来对比一下免费版和高级版的输出效果。首先我们来看免费版 rock 的 表现效果不错,物理模拟良好,场景保持的也很连贯。唯一要挑刺的话就是他卧弓的姿势看起来不太标准,他的手只是轻轻搭在弓弦和弓身之间,但整体效果依然出色。 现在来看高级版,专为追求极致 ai 视频效果的用户打造,很明显,细节表现确实更加精细。不过射箭动作的物理模拟这里似乎有点小问题。你看这里,他做出射箭动作,但箭好像没有射出去。 如果突然出现这种情况,建议重新生成视频,我马上演示一下,然后你就会得到一个完全不同的结果,接下来才是重头戏。而让这个方法威力大增的是,它能实现不同镜头之间的无缝转场,我们只需利用视频的首帧和尾帧就能实现。 目前这个功能仅在 v o 三点一及其他高端 ai 视频模型中提供。 grok imagine 里没有这个功能,但它能让我们完全控制我们所运用的电影技法。 我来给你详细演示一下具体操作。所以你需要做的第一步是选一张图作为起始针,我们就用提取出来的这个镜头作为第一针,然后用这个作为最后一针。在勾勾 flow 里,你只需点击添加到提示按钮。看这里我们已经把这个设为首针,这个设为尾针, 然后输入一个基本提示就行,哪怕是简单的两者过渡,然后发送即可。操作之后,我们就得到了这个效果。 下一步就是对其他镜头重复这个流程,我们可以继续沿用这种首尾帧的方法,这样就能把各个片段无缝拼接在一起。 这里的关键在于要确保把上一个片段的尾帧用作下一个片段的首帧。这样当你把两段素材接在一起时,就看不出明显的剪辑痕迹,整个流程会自然衔接,毫无剪辑痕迹,从而获得这种流畅的一镜到底的蓄势效果。沉浸感十足,冲击力强劲。 这标志着真正的 ai 电影摄影术时代已经来临。我们不再仅仅追求漂亮的画面,而是掌握了真正的电影语言、远景、中景、特写、故事节奏以及镜头连贯性。但这还没完,我们还能更进一步,我们可以增加一层复杂度,从而获得更强大的蓄势表现力。 那么问题出在哪呢?问题在于,我们手头是一堆相当零散的镜头,这些镜头拍的是同一个角色,也属于同一个场景,但是缺少一条能把各个镜头串联起来的虚实线。所以整个看下来,这些镜头之间似乎没啥关联。这更像是一段蒙太奇拼贴, 而不是一个真正的故事。为了解决这个问题,我们要用上这个提示词的二点零版本。它的作用是为每个镜头都规划好一系列特定的构图,从而构建出更强大的故事序势。顺便一提,这个提示词最初来自 tag collar, 后来由一位名叫 underwood 的 网友进行了增强。 好了,我们这就动手把它粘贴到提示框里,然后重复之前的操作。这次我们换一张稍有不同的图片作为起点,但角色还是同一个,现在我把它丢给 ai 去处理。 接下来,咱们可以翘起二郎腿,坐等 ai 大 显身手。此刻,幕后正在运作的是,他正在借助 gemini 三的强大能力,仅凭我们给的第一张图就能定义并生成一个完整的故事,然后再根据这个故事来确定最终成片里每一帧的具体画面。 也就是说,他先分析图像,再据此构思故事。他把这个故事拆解成了九个不同的镜头,从而能更全面的呈现故事内容。这样一来,就不再只是单一角色在单一场景里换几个角度拍摄了,而是构建出了一个更加完整、有血有肉的叙事片段。 现在我们得到了这个输出的镜头叙列,如你所见,这让我们的蓄势能力大大增强了。每一个镜头都让我们对故事的走向有了更清晰的感知,我们还能更好的运用推进聚焦于角色和场景的细节来搊鸣剧情。 我试了几个例子,这个大概是我最中意的一个,那么我们就用同样的方法从这里导出几帧画面,大家可以参考注视。好,我们现在就来提取。然后我们可以在其中几帧之间制作动画,就能得到这个漂亮的镜头叙列。 在开始讲解最高阶的方法之前,我想先给大家介绍另一种解决这个问题的思路。这是一个不同的工作流程,能让你多一个角度来探索这个概念,而且还能每天利用免费额度来实践。如果你想把它和平面设计相关的工作结合起来,这个方法就特别合适。 这就是今天的赞助商环节。让我为大家介绍一下 ideagram, 这是一款 ai 图像生成工具,它能帮你让笔下的角色始终保持完美的一致性,无论什么场景,无论什么项目。咱们一起来看个例子。 我创建了一个角色,就叫它玛丽好了。我把玛丽放进了几个截然不同的场景里,从充满未来感的东京天际线,再到西雅图一家温馨的咖啡馆, 而他的样貌却始终如一,就连他脸颊上那颗精致的小痣,无需手动调整,也无需猜测,同一个角色就能无缝融入我所有的创作。 无论是用于社交媒体、帖子、网站、视觉,还是品牌素材,甚至打造一个 ai 虚拟网红。 ideogram 能让你生成完全一致的角色,让他穿梭于各种环境,却始终保持高度一致。这对于维护品牌形象来说再合适不过了,也能保证故事须臾的连贯性,帮你省下大把时间,这样你就能腾出手来 去专注于更宏大、更出色、更有创意的项目。那么,如果你已经准备好让工作流程更上一层楼,那就快来免费试用 ideogram 吧!亲身体验一下保持角色一致性能有多轻松。不过我们当然可以再进一步,何不升级一下,引入更强大的功能?方法就是 精确的定义我们想要讲述的故事。为此,我专门打造了一个专属提示词,有了它,我们只需输入一个简短的故事梗概,然后让 nano banana pro 为我们生成九张图片,这九张图就能完整呈现故事的主要情节。关键在于 它能保持角色形象的一致性,同时还能为我们构建出一个完整的蓄势脉络,这意味着我们可以把自己的概念和想法放进去。 这个提示词的使用方法是,首先在 gemini 里用它来生成提示词,然后导出这个提示词,再到 nano banana pro 里用它来生成图像。那我们现在就一起来操作一下。这个最进阶的流程需要两个输入项,第一个当然是基础图像,第二个则是一个简短的故事梗概。 我准备的故事梗概是一位来自南美洲的部落女子正沿着一条海岸小径行走,当她偶遇一条体型硕大的巨蟒时, 他随即与这条巨蟒展开搏斗,最终一剑将其刺穿,随后他将巨蟒的尸身带回了村庄。至此,我们这位年轻女主角的故事已经有了几个关键情节。 现在你可以把这段故事概要放在提示词的开头部分。这是指南里提供的第三个提示词模板,也就是第三个版本,我称之为导演剪辑版提示词。 你基本上可以先把故事概要放在开头,然后再接上具体的提示词内容。我建议把这段完整的提示词输入到 gemini ai 模型里。接下来你就会得到一个像这样内容详尽的超长提示词,里面会详细定义出我们所需的所有不同镜头。 我们可以拿着这个提示词,用同样的流程来生成图像。先输入提示词,再附上我们的基础底图。 提交之后,接下来就是见证奇迹的时刻,简直令人兴奋到难以置信,因为整个史诗篇章的蓝图已经在此铺开,每一个镜头都得到了完美而精致的定义。于是画面中出现了他沿着海岸小径行走的身影。接着画面切换到他与这条巨型蟒蛇对峙的场景。 我们迎来了那个让人倍感满足的美好瞬间,他一径射穿了蛇皮,接着是一个绝妙的俯拍大全景,镜头里是那条死去的蛇,随后他拖着蛇回去向部落众人展示他的战利品。 那么我们就以此为基础制作动画,将所有元素整合起来,最终呈现出一段史诗般的画面。最终效果就是这样,砰! 现在你可能会问,这些步骤能不能自动化呢?这正是有趣之处。我想给大家介绍一个由多尔兄弟打造的工具,他们是 ai 领域的牛人,他们开发了这个工具。这个工具能自动完成生成不同故事版的部分流程。 操作很简单,上传一张图片,进入故事版功能,让它生成一个网格,它就能自动创建出这样一组图像。这个工具的好处在于,它让流程实现了一定程度的自动化,但缺点是你无法像自己手动设计提示词那样掌控大局,无法获得同等的操控自由度。 但我还是想展示给大家,因为它无疑预示了未来的发展方向。未来,我们将看到更多自动化流程,用于创建像这样的复杂工作流。我们的做法是 先找到主角的一个基础形象,也就是底图,将他们优雅的姿态呈现出来。接着,我们用这些素材打造了多个风格各异的镜头。借助 nano banana pro 的 强大威力, 我们引入了故事结构,对这个流程进行了深入拓展。在最终用我们的导演剪辑版提示将所有元素融合之前,这个功能让我们可以设定基础画面和故事框架,从而生成九个精准的序式节拍,确保整体连贯,让角色、场景和风格意图之间和谐统一。 我们还探索了如何利用起始帧和结束帧,在这些不同镜头之间实现顺滑的序列动画,最终确保我们能获得一个美妙的一镜到底,长镜头完整讲述一个故事, 这就是我们现在掌握的能力,一张图片就能演化出整个场景、整个故事,乃至整个世界,现在就去创造些天马行空的作品吧。