李乘风4天前
GPT image 2.0+本地 comfyui LTX2.3 测试视频,Codex 智能体一键掌控,从灵感到写剧本 到最终的成片 下面这版可以直接当抖音口播文案用: **标题:一张图一个灵感,怎么做成一条完整 AI 短片?** 很多人做 AI 视频,最大的问题不是不会生成,而是没有流程。 你可能也遇到过: 有一个画面灵感,有一张参考图,然后就开始一张一张出图、一个镜头一个镜头试,最后画面很好看,但连起来不像一个故事。 我这次完整跑了一遍流程:从一个雨夜游乐园的灵感,到人物设定、故事、分镜、图片提示词、图生视频提示词,最后用 ComfyUI 批量生成 22 个镜头,再拼成一条完整短片。 核心方法其实是 5 步。 第一步,不要先写大剧情,先定“故事钩子”。 比如这次的钩子是:一个女人在雨夜回到废弃游乐园,找到一张旧照片,然后离开。 它很简单,但里面有地点、人物、目的、情绪变化。 第二步,把故事拆成短视频分镜。 这里最关键:不要一个镜头拍 5 秒、6 秒还只讲一个动作。 短视频分镜应该更像节奏剪辑:2 到 4 秒一个镜头,每个镜头只推进一个故事信息。 远景交代地点,中景交代行动,近景交代线索,特写交代情绪。 这样观众才会觉得它是在叙事,而不是一堆漂亮画面堆在一起。 第三步,先做图,再做视频。 每个分镜先生成一张稳定的 16:9 关键帧图。 这一步的重点不是“好看”,而是人物、服装、场景、道具都要一致。 人物是谁,胸针长什么样,售票亭在哪,摩天轮在哪,这些都要在提示词里固定住。 第四步,把图片提示词和图生视频提示词分开写。 图片提示词负责画面质量、构图、人物一致性。 视频提示词不要写一大段剧情,而要写“这个镜头具体动什么”。 比如:雨滴滑过玻璃、手指轻轻碰到胸针、脚踩进水坑、旧照片被慢慢拿起。 动作越小,越准确,图生视频越稳定。 第五步,声音提示词不要写 BGM。 如果你想让模型生成更自然的现场声音,就不要写“音乐”“背景音乐”。 要写具体的环境声:雨声、脚步声、水坑涟漪、木抽屉摩擦声、远处车流声、金属门轻响。 这样生成出来更像电影现场,而不是套了一层不合适的配乐。 这样一个流程下来,就不是“随机抽卡”,而是一个可复用的流程
00:00 / 00:49
连播
清屏
智能
倍速
点赞5
00:00 / 00:54
连播
清屏
智能
倍速
点赞63
00:00 / 09:17
连播
清屏
智能
倍速
点赞157
00:00 / 01:44
连播
清屏
智能
倍速
点赞644
00:00 / 00:41
连播
清屏
智能
倍速
点赞66
00:00 / 03:43
连播
清屏
智能
倍速
点赞2
00:00 / 00:44
连播
清屏
智能
倍速
点赞NaN
00:00 / 00:31
连播
清屏
智能
倍速
点赞85