大家好,这是 ai wood 爱屋研究室,今天 running hap 上线,目前地表最强视频模型, 请用茶。 我就说这家咖啡好喝吧,你还不信,确实好喝,我错怪你了。 what are you looking at hello? 小 伙伴们大家好,那么开头那几段视频呢,就是 running have 刚刚上线的一款非常神秘的,目前地表最强的一个视频模型,那么 做的这几条视频哦,名字我就不说了,大家应该都猜出来了啊,懂的都懂, 那么目前这个节点跟我们上次那个视频说的他其实不一样,这次功能的话是个全家桶的啊,全家桶的包含了这个视频的一个编辑啊,我们分别看一下这个几个功能啊,那么最基本的纹身视频 啊,就这么个节点哈,我们在这可以看到啊,直接输入我们提示词,这边选择分辨率,还有选择这个时长哈,跟我们线上是一样的,十五秒最长, ok, 然后啊,就可以生成了哈,价格也差不多哈, ok, 那 么还有一个多角色参考,那么多角色参考,其实有两个方式啊, 都能实现真人参考啊,真正的真人参考,那第一种方式是什么呢?是这个建立自己的资产库啊, running have 这边设置了一个资产库, ok, 那 么这个资产库怎么建立呢?我们看这有两个节点啊,一个叫 spark video assess 啊, create 就是 这个节点啊,就是专门建立资产库的,你可以建立自己的角色库, 那么我们把这两张真人的照片直接上传给这个角色库,然后呢,这边有一个整合哈,整合,然后再接到我们这个生成视频的节点,这边专门有一个角色的接入节点啊, 然后呢,我们提示词是这样写的啊,以 mate 一 的角色和以 mate 二的角色怎么怎么样怎么怎么样,如何如何互动,这样写 下面也是同样的啊,选择分辨率还有时长比例就 ok 了。那么在这个模式下呢,我们看到哈,他这个节点里边其实有一个叫什么呢? real person mode 啊,就是说真人模式啊,就是在这个资产模式下呢,可以不开这个真人模式哈, 那么还有一种更简单的方法,就是直接把两个真人的照片接入这两个节点, image 一 和 image 二,那么也能够达到同样的效果啊,但是这个时候大家一定要注意,要把这个 real mode, real person mode 就是 真人模式给它打开啊,成功率基本上是百分之九十左右啊, 效果跟我们刚才这个资产模式是一样的。那么为什么还要出这个资产模式呢?就是 running up, 他 将来会建一个资产库啊,应该在很短的时间内就会建立一个资产库,就是你的角色库,这样的话大家可以方便去调用自己的资产啊, ok, 那 么还有一个就是什么呢?就是这个首尾真模式啊,首尾真模式也是同样的啊,只不过它的分辨率调整,还有这个时长是在上面哈,在上面设置了, 然后呢,呃,就是直接生成我们的提示词,按照我们提示词来生成啊,上传两张图,这个里边注意啊,也可以加入我们资产库,就说可以把我们角色也插入进去啊, ok, 那 么还有一个就是视频编辑啊,这个也是我们非常需要的一个功能,在之前是没有的, 那么可以直接上传一个我们这个角色的图,然后呢再上传一段视频,那么这段视频的分辨率你要注意一下哈,我建议大家直接上传四八零 p 的, 因为七二零 p 的 他会报错啊,因为总像素数他是有一个限制的,我建议大家上个四八零 p 的 就可以了,然后就能够啊, 让 emoji 一 的角色替换 emoji 一 的角色啊,这么写的词,这里同样设置分辨率,还有这个时长,就能够得到我们这个编辑后的这个视频哈,就是把角色就替换了, ok, 那 么这就是这样一个,呃,全功能全家桶啊,当然除了这个版本以外,还有一个 fast 版本,嗯,对吧?有一个 fast 版本也一样的哈,一样的操作是一样的。那么 怎么讲呢?这个他的目前我个人感觉的优势,什么不用排队啊,不用排队,而且真人的成功率非常高,非常非常高啊, 但是那种明星的 ip 还是不可以的啊,这点大家还要注意一下啊,明星还是会有限制的。 ok, 这个就给大家分享到这里啊,这个工作流呢,我也已经放好了最全家桶啊,你这边记得你要关上它啊,关上它, 不然的话你运行的就你不用的时候,你就把其他的关上,不然你运行就浪费钱,对吧?这一秒还是那么多钱啊,还是那么多钱,就跟上次一样啊。 ok, 那 就给大家分享到这里。
粉丝1.5万获赞19.4万

大家刚才看到的这个案例呢,就是我们用无线画布来做的,那么就是一张图片 啊,先生成一张图片,再生成一个风景图,再用这个风景图去生成这个视频,能够很好的保持人物场景风格的一致。那具体怎么做,我来给大家看一下啊,我用到的工具呢是 runnyhop 的 这个无线画布啊,在 runnyhop 首页打开无线画布 啊,打开无线花布以后啊,这里面有几个选项啊,一个是新建项目,一个是推荐模板啊,推荐模板这个模板呢,这里面有很多的模板,而且随时也会在更新,那么我们就打开一个新建项目给大家看一下,那就以我的这个案例为例,给大家看一下。 打开这个以后啊,我们来看一下基础的操作,首先看这个画布,这个画布是什么意思呢?它可以实现一个完整的纹身图,图身视频的流程啊,这个流程呢,可以自己任意的去搭建 啊,但是呢,他又不需要我们像康菲那一样去复杂的一些搭建工作流啊,因为他用的模型都是闭月模型,而且效果也非常好。那具体怎么做,我们先看一下基础的操作啊,基础的操作 啊,首先啊,他有他是也是一个一个的节点啊,他主要是文字、图片和视频这三类的节点啊,那 这个图片的基本操作呢,是按住 ctrl 键,你可以放大啊,可以缩小这个画布,按住 alt 键,加上鼠标左键啊,可以拖动啊,当然鼠标右鼠标右键,你按住以后啊,也可以来拖动这个画布啊,这是最基础的一个操作,放大、缩小和拖动。 那首先我们来看一下啊,最基础的纹身图,那么我们基础的纹身图啊,你可以其实啊我们从零开始啊,从零开始,你可以在这个画面画布上 啊,直接点右键添加一个节点,比如说要生成一个图片啊,你直接点击右键添加一个图片,然后把你的提示词扔进去就行了,这个提示词复制 啊,把它粘贴到这来,然后这个下面啊可以选择你的图片生成的模型,大家看一下这模型支持哪些呢?啊?有 v 二啊,这是最新的 v 二, v 二官方等等啊,大家看一下,可以去自己选择, 还有 send 四点五四啊,五五点零等等,你选择哪一个都可以啊啊,每个人呢?每天呢它是有免费的,五次可以体验,不管是图片还是视频啊,都是五次 啊,这是纯粹的纹身图啊,你这个文字呢,你可以像我这一样在他前面添加一个节点,叫文本节点, 你把文文本节点和这个它连起来啊,那你这个文本里面的东西就可以传给他啊,就可以填给传给他,你连接了参数以后,你这个地方的参数就不起作用了,他他这个文本他就从这传过来, 那么也就是说按照从后面我们去涂深视频或者去生成分镜图也是一样的,就是前面一个节点就作为后面一个节点的输入 啊,是这样的意思啊, ok, 那 比如说我现在我把这个删掉啊,你如果只是想单纯的纹身图纹身图,那你直接在这地方输入你的这个提示词,然后点击发送就可以了啊,点击发送可以了,这个地方也可以设置一下你的参数啊,比如说你选择模型 啊,呃,你在这个是这个生成几张啊?比如说生成一张啊,然后你的像素的大小啊, 二二二零四八乘以二零四八啊,直接生成两 k 的, 还有生成四 k 的, 你都可以去选择啊,你点击发送啊,点击发送 那就可以了,比如说这是这是一比一的图,那么发过去他就可以去生成,那么你生成完成之后,你可以把这个图片啊作为一个什么下一个节点的输入啊,下个节点的输入啊,比如说像我这个案例里面 他怎么来的呢?就是一张纹身图的提示词,把这个提示词啊发给这个节点啊,这个用的节点是用的全能 全能 pro 啊,这个这个模型去生成一个九比十六的四 k 的 一个图片啊,得到一个,得到一个人物啊,得到一个人物啊,这个地方是刚刚生成的,这是一比一的,我生成人物呢,我经常喜欢用的是啊,九比十六啊,九比十六 u b s 六的话,它这个生成人物的话,它的呃,效果要好一点,对吧?那么你生成人物这是第一步,第二步呢,我们要去生成分镜图啊,生成分镜图,因为你做视频要保持人物的一致性,那我去生成分镜图,那么生成分镜图的话 啊,怎么弄呢?你把它这个方地方后面加上一个,也是你生成风景图,也是图生图,对不对?你这也是图生图,只不过你在图生图的基础之上要加了一个系统的提示词,这个系统提示词啊,回头啊,我会发在我的那个飞速的文档里面啊,大家不用去记 啊,你直接直接使用就就行了,你可以做一个模板啊啊,然后你生成这个分镜图,九宫格的分镜图就有了。生成这个九宫格以后啊,你用两种方式来使用它,一种方式啊,就像我刚才说的这样,你直接用分镜图去生成视频啊,分镜图去生成视频, 分镜图去生成视频,那么你可以就像我这个案例一样,你可以分分镜图去生成视频。那么分镜图生成视频的模型现在有哪些呢啊?有全能模型,有真的是二点零,像这种模型还有可零的这种,它都是支持的, 不是所有的模型都支持啊,一定要注意,不是所有的模型都支持分镜头去直接生成视频啊,只有这种最顶尖的模型啊,最顶尖的模型他现在是支持的,那么如果他不支持,那我用传统的模型啊,传统的这个方式可不可以呢?也是可以的, 我们这个地方上面,你就可以在这个图片上面点右键啊,点右键直接点击九宫格裁剪啊,九宫格裁剪,点击一下,看到没有,他就会把这张图片啊给你裁成九宫格啊,裁成一张一张的图片, 裁成一张一张图片是干啥啊?裁成一张张图片是干啥?裁成一张张的图片,我们就可以去做,我们就可以去做这个首尾针啊,你可以去做图深视频或者去做首尾针啊,那怎么做啊?怎么做 啊?那么比如说你要去做首尾针,我们先说一个最简单做图深视频吧,你把第一张图片啊拉出一根线来点击视频, 我们选择一个模型,选择这个啊,全能视频微啊,两毛钱一张啊,两毛钱一个啊,两毛钱一张,两毛钱一个。然后你选择你的这个分辨率啊,九比十六,还是横屏还是竖屏? ok, 比如说你这个地方写上你的提示词,你这个提示词,你如果说有同学说,哎,我的提示词我不会写啊,我不会写,那有没有办法?那可以啊,全,我们再添加一个节点, 添加一个文本节点啊,文本节点,然后让刚才那个图片啊,那个图片 啊发过来,我们让干什么呢?让大圆模型,让它根据这个图片 生成视频提示词啊,生成视频提示词啊,然后呢?你可以说用于干啥?哪个模型啊?你不不说也可以直接点击发送 啊,这点就发送,发送完了之后,这个就相当于是利用大圆模型啊,直接去识别这张图片,然后给你生成一个提示词啊,生成一个提示词,然后把这个提示词我们传给谁啊?等他生成生成完了之后,你把这个提示词传给他, 传给他,那相当于你这个视频生成的模型的时候,有图片,有文本,对吧?有图片有文本啊, 看,没有提示词就有。来了来了哦,五秒钟的视频,那么你就选择一个这个全能模型啊,你 啊,视频提示设置好了,然后我们点击发送啊,点击发送,那么就会调用图片,调用这个,这个,呃,提示词,然后直接传给视频,然后点击生成,这是第一种方案, 那比如说我要先做一个首尾针的,那可不可以呢?啊?可以啊,还给他,我们他在生产过程当中,我们同时可以去同步的进行啊,其他的添加,点击添加节点,点击视频,我们选择这个首尾针啊,点击首尾针 啊,他原先给了两个图片,我们把这个图片啊,点击首尾针,我们把我们这张图片 传过来,然后这张图片第二张图片传过来,第一张图片和第二张图片传过来, 然后呢?你啊,然后再写上提示词啊,就可以了,然后这个提示词你说你也不会写啊你,你说你也不会写啊,不会写也没有关系啊,也没有关系啊,我给大家准备了一个这个自动生成提示词的一个模板啊,还是一样的,那我们在这个呃,点右键 添加节点文本节点啊,这两张图片啊,同样的扔过去啊,我,我在这地方给大家准备了一个系统提示词啊,直接粘贴过去。这个系统提示词呢,我也会放在文档里面,大家啊,在评论区领取就可以了。 我们调用大圆模型自动的去识别这两张图片,然后让他给我生成一个啊提示词,首尾帧的啊,首尾帧的提示词,你可以,比如说你,你要你后面的话,你可以想这个图片,这个视频 啊,这个首尾针几秒钟啊,让他给你生成几秒钟也可以,你,你可以在这里面提要求啊,提要求啊,比如说我这不写时间要求啊,直接让他给我生成,点击发送, ok, 让他给我生成这个这两张图片的一个提示词啊提示词, 等这个提示词生成好了之后,我再发给他去生成首尾针啊,去生成首尾针。好, ok, 刚才图层视频这个好了,我们来看一下效果, 好吧,这是刚才涂成视频,然后呢这个呢又,呃,这个给我们生成的提示词又好了啊,我们把这个提示词啊传给啊这个视频生成的模型。 ok, 那 这地方我们就不用写提示词了啊,不用写提示词了啊,一样的,然后点击发送 让他给我们生成啊,过一会就生成好了,我们来看一下效果 哦,然后呢还有一个问题啊,我刚才这个地方,大家看一下我的选择视频的时候,呃,选择了十六比九,但是我的图片传过去的是九比十六的,那么所以说它存在一个横屏竖屏的一个切换,那么你的图片是,呃 九比十六的,你就选择这个视频的时候也选择九比十六啊,这样子的话就没有问题啊,就没有问题,你可以再重新生成一下。 ok, 那 么你用这种方式呢,你可以去把所有的啊手按照这个方式去把所有的图片做首尾针,首尾针全部做起来,那么你这九张图片啊,整个的啊就就可以做一个完整的流畅的啊,这个首尾针的一个视频,那因为他就中间没有任何的多余。 然后呢你按照这种方式去,可以把所有的后面的所有的图片啊全部去做首尾针,那么就成了一个完整的这么一个视频 啊,这种的话就相当于我们要去做啊,比较啊,高质量的,或者说你的,你对你的视频要求比较高的,那你用这种方式去做,做完之后啊,得到了素材,你可以拖入剪映在 剪辑一下就可以了啊,就可以了啊,这就是整个的一个其实用法。那然后呢,我给我也给大家准备了一个飞速的文档啊,飞速文档也可以去。呃,就是怎么使用啊?怎么使用?从注册登录,怎么充值,怎么打开基本的操作,然后新建项目,拖拽拖拽啊生成, 然后包括这个案例的提示词和模板,包括这种分镜提示词我都放在这个文档里面啊,大家如果需要的话在评论区一键三连领取啊,今天视频就这样啊,谢谢大家观看,拜拜。

小伙伴们大家好,今天跟大家推荐一下这个小红书团队新出的这个 firey 的 模型啊,它这个本身呢是一个图像编辑模型,大家也可以看一下它基本的能力啊,你像单图编辑或者说这种换装类的, 基本都是效果还是可以的,他用的这一套呢,和千万二五幺幺其实是一样的,就是模型不一样,你像这加速 low 啦之类的,用千万那个加速 low 啦跑出来效果也是一样的,我测了基本没什么区别,然后并且这个工作流啊,和我们之前千万二五幺幺给的结构也是完全一样的, 就这个大家看是不是基本模样一样啊?呃,我只是把这个工作流里的模型从千万换成了就这个 firered 就 可以了,所以说玩起来没有难度啊,大家只需要换一下模型就可以了。本期对应的工作流呢,我这边也同步上传到了 ryan 哈普这里, 大家在 ryan 哈普这里点开就可以直接使用了,如果是新用户这边呢,用我地址注册还能送大家一千个积分啊, 那你还不这里呢,你像这种新的开源模型,或者说甚至闭源应用,类似于无线画布什么的,都在慢慢上新,也是推荐小伙伴们都去玩一下啊,像是模型训练这一类的啊,都是已经上新了, 功能呢也是越来越完善啊,你像康培元生态这一块基本包含的玩法这里都有了。好嘞,我们回到发瑞的模型 跟大家说一下。首先啊,我这张是测的他的,就说换装的双图模式啊,跑了好多车,我发现有个问题,就这个人物的头基本是不变的啊,像这张图我们还是看不出什么太大的问题,对吧?最多稍微有点颜色不准, 但如果说我给他的衣服就说过于小,然后出来的就会相当诡异了,大家可以看一下我之前跑出来的一些诡异的图,你看 是吧,这也可能是跟他模型有关啊,比如说啊,我们测一个就说关于图像修复这一类的,因为他是图像编辑吗?肯定能做一些修复类的活。好,我们看一下啊,你像这个 不管是千万二五幺幺还是克莱因这一类的,其实对于这种任务啊,都是比较轻松的,并且这个小红书这个做的也是不错的, 这个模糊的直接变高清了,然后这是单图啊,双图的话,我们再生成一张换装的这一类图片啊,好,我们看一下啊,小红书这个模型呢,你如果说要求,就说人物不变的情况下,其实 因为他是小红书,我们也知道啊,其实就主攻人物这一块,他的效果还是相当不错的。当然就类似于我出的这种诡异的图也会有啊,因为他可能这个比例一直没有掌握好,所以说啊,对于一些特定情况下出图效果还是相当不错的。你比如说类似于这个, 他完全遵循了我们的提示词,要求图一的人物不变,然后把衣服平移过来,并且姿势也没有变化。嗯,我们再测一下,比如说像姿势更换这一块啊,好,我们试一下,让图一的女人摆成图二的姿势,然后保持图一女人面部特征不变, 看一下他这个关于人物一致性保持的怎么样,这个就完全崩了,这就像我说的,我测了好多张图啊,他这个双图编辑啊,就有特点,这个人物的脸和面部这块啊,原图多大,基本生成图就多大,基本不带变的,所以说像这种换姿势的 就基本就没有生成,基本就没有成功过啊,也可能是模型就这个特点。好,我们再试一下像这种改中国字的,我们让他把喵望宠物 改成大炮之家这一类的,我们看一下效果啊,这个模型跑起来还是很快的啊,我这边一边开着录屏一边跑,你看,嗯,这个只需要十六秒,上一张图,小红书这个模型对于改字我测试好多张了,这个效果确实啊,改中国字的话效果确实不错的。 所以说啊,每个模型都有自己的特点,如果大家玩的话,尽量就说根据他的特点来玩,类似于我刚才说的,他基本就会保持图一的人物比例大小,特别是面部这一块,基本就保持不变在这生成,你按照他这个特点去寻求合适他的, 就说图片去搞啊,我们试一下三图编辑这一块啊,比如说让图二和图三的女人手牵手,背景是在图一这一块,然后让他生成一下,我们看一下效果。 嗯,其实怎么说呢,凑合吧你,当然因为这个本身开源的这个小模型,他这这一块图像肯定会脸部稍微有些糊啊,但是基本遵循了我们的提示词,并且 还是能接受的,所以说这个模型还是有一定潜力的,也推荐大家玩一下。另外关于这个工作流的使用呢,如果单图的话,就建议大家直接选图一,就按照你上传图像的比例, 如果是多图的话,因为有横的,有竖的,类似这个他有正方形的,有竖版的,如果大家选就说这里选择一的话,他会默认按照第一张图的这个比例来生成。如果大家有自己其他比例需求,那你就在这里选个,不是在这里啊,在下面这里选个二。 这里还是一样在下面这里选个二,然后上面自己选一个。想,呃,自己选一个想要的比例 是一比一还是竖版,横版都就在这里选啊,这一目了然,就看明白了对应的节点和工作流,我这边同步上传到了网盘里头啊,大家从网盘里头找到三月十一号发布的,然后模型直接放进去就可以了。好嘞,谢谢大家,再见。

臭弟弟,要不要跟姐姐喝一杯?我,我其实不太会喝酒。 大家好,我是老徐。这条视频给大家讲一下如何给二的 t x 二点三模型指定音频。我们知道这个模型是可以生成声音的,但是有时候我们也想用自己指定的声音,这样就可以用来生成数字,人 也可以用图片来生成 mv。 这个工作流我是把它转成了一个子工作流,这样看起来呢比较简单,用起来的时候也比较方便。那为了大家更好的理解,我会把它解开。这个工作流我也发布到呢 roundtable 上面, 在 roundtable 上面直接搜索我的名字,就可以看到这个工作流。接下来我就直接在 roundtable 上面给大家进行演示, 这是解开之后的工作流,大家可以看一下。这个跟原声的图声视频工作流没有太大的区别,基本上都是一样的,唯一的区别就是这个地方我们可以看一下,这里是进行音频处理,然后把处理过之后的音频连接到了前功机 之前这个地方是一个琴空间的空音屏,所以他会去生成声音,那现在我们是用自定义的声音把它给替换掉了,那如果想要继续的生成声音,把它连过来就可以,所以这个工作流其实也是非常简单的。 工作流的使用跟图像视频的区别不大,就是这里要上传一个声音,然后这里是开始的时间,比方说前面的前奏比较长,自己有没有裁剪的话,可以在这里停一下跳过的时间,然后这里是设置时长, 然后这里是选择纹身视频还是图身视频,那如果把它开启的话就是纹身视频,那这个图片就不会生效了。默认情况下我们都是用图身视频,这个提示词就主要描述这个图片的运动, 然后这是图片的宽度和高度,默认的分辨率就是七二零乘以幺二八零,帧率也是固定不变的,就二十四帧。这个模型在运行的时候,首先是用低分辨率生成视频, 然后再用这个放大模型把这个视频放大,所以它也是有两部分的,整个工作流的使用都是非常简单。另外再说一下这个模型对电脑性能的要求, 不仅是在我自己的评论区,在社区的很多文章里面有看到很多人说这个模型对显卡的要求非常高, 至少是需要二十四 g 以上才能运行,而且我的电脑的配置也不是特别的高,我就是十六 g 的 显卡,五零七零 t, 然后内存只有三十二 g, 我自己在本地跑,用默认的分辨率幺二八零和七二零,即使是跑十秒以上的视频都是一点问题都没有的, 而且这个时间我觉得还是可以接受的,大概就是三百多秒左右十秒的视频,然后有时候他的时间可能会稍微长点,整体都是可以接受的, 起码比万二点二的速度是要快很多的,而且它的分辨率比万二点二也更高。这个问题其实在 rtx 二刚发布的时候就有很多人反馈, 在刚开始的时候确实是对显存要求特别高,我记得 rtx 二刚出来的时候,我用四零九零跑都是没办法跑通,后来换四十八 g 的 显存或者是用五零九零才可以跑通,但是没多久 comfui 就 进行了优化, 包括英伟达也对这个模型进行了优化。但是这个最新的版本我是没有更新的,因为我是看到有些反馈说这个最新的驱动会导致控制力会进一步的降低,所以我先等一等。 但他之前的一个版本就已经进行了优化了,所以现在 rtr 的 模型对显存的要求其实是非常低的,最起码是比万二点二要降低了很多, 速度也是可以的。那这段视频的内容就是这些,那大家如果觉得有帮助的话,也可以关注一下老徐,给老徐点个赞,谢谢大家。

这就涉及到我们 controlnet 的 一个控制,好,接下来我们把 controlnet 的 节点拉出来,这个往后放一点, 我就稍微快一点,这个就不解释了。然后以妹子出来,我们要做一个图片的处理, e u x 一个集成的预处理器,我们把它的处理方式变成深度处理 deep, 然后 controlnet 还是跟之前一样, 正面连正面,负面,负面连负面 ctrl net 加载一个深度的 ctrl net 这就是深度的一个处理器,但是我们要选 sd 的, 然后这边也是一样,正面连正面,负面连负面,然后把它拉下来, 我们的图像还是把我们处理过的图像连过来,这个分辨率我们还是要注意一下,因为上节课讲过了,它几个分辨率一定要保证一下,要不然出来的图会变畸形。然后我们把宽度连过来,这个图像连到我们 controlnet 的 控制组 ve 连接 ve, 这样我们整个的一个 controlnet 的 控制组件就连接完成了。哦,这里我再说一个小点,因为上一节课我这儿拉出来一个 null, 然后把它的一个宽高,然后连到这个地方了。其实我们把这个图片经过 ve 编码,然后出来的宽度跟高度,跟这个宽度高跟高度是一致的,所以说我们就直接把这个 ve 编码这个 int 连接到 k 采集器就可以 在不改变彩样器降噪值的情况下,我们把它运行一遍,大家看一下会出来什么结果。大家可以看一下它整个的裙子啊,裙摆啊,包括它的风格其实都发生了转变,从二次元到写实的这么一个风格, 我们再把它的降噪值调成一可以看一下,点击右键运行一下, 这样他的风格就发生彻底的转变,为什么会产生这种情况呢?你降到值调成一的话,就完全是一个纹身图的概念的,就是根据这张图的一个姿态重新生成一张图片。所以说我们在做转会的时候,降到值尽量调低一点, 我们可以自行去做测试,大家看一下它整个的这个感觉,这个水就变得真实一点了,包括穿穿的校服,这个质感,你经过二次重绘以后,它的质感就出来了,我们把它跑一次吧, 直行选中节点哦,有一个要调一下这个地方的降噪值,我们要调成零点五到零点八左右,然后各自根据各自实际的情况,然后去调整,然后再把它跑一下 好出来了, 大家可以看一下它的细节, 它的服饰就变得真实了,然后我们再将过 s、 d 放大,然后三次放大就出来我们的产品了。这是动漫风格转真人风格的一个方法,反之是同样的道理,比如说我们拿一张真人的图片,我给大家演示一下, 我们就拿这张真人的拿这个吧,然后把它反推一下,记住一定要提前反推,反推出来,要不然你生成出来的这个转绘图,你就是另外一个样子了。 然后我们转一个动漫风格的,直接让它运行, 我们看一下效果,我们可以看一下它的风格就转变过来了,想要不同的效果,我们就根据这个降噪值,然后去调。 有些小伙伴会说,这里边的你看一下这个耳环,它都变了。我给大家说一下,这是一个纹身图,它现在没有这个功能,它不是一个图片编辑的一个这个大模型,它是一个纹身图的一个大模型,它还是根据我们文本框的这些提示词,然后去作画的,它肯定会产生一些变化。 假如说我们要无限接近于这个原图,那我们直接可以在这个降噪值,我们就去调降噪值,我们再运行一遍, 一遍一遍的去测试。因为这个转会它最底层还是一个纹身图,所以说我们不能保证你要原始跟原始图一模一样,然后把它转会出来。 目前这个 sd 大 模型他实现不了,当然也可以尝试一下强度更大的一些控制,把这个处理器,然后再把线稿的处理器加上,然后用两个线稿和深度共同去控制,然后进行尝试。结果我觉得肯定还是有一些细节上的变化的,完全不能保证一致。 还有一种方式呢,就是在模型的后边这个 lara 加入风格 lara。 我 们重新选一个图片吧,选一个二次元的,我还是比较喜欢二次元的,比如说这张吧,我们加一个 lara, 风格 lara, 比如说国画的一个 lara 反推出来,我们把提示词填上,然后转换成英文, 把它运行一遍。 哦,我这个 laura 在 c 站上面找的,这是一个风格 laura, 这是为了给大家做演示,然后我随便找了一个风格 laura, 大家可以看一下它出来的效果。这个有作用吗?我们把原图拉过来, 看似好像也没太起什么作用,有一个很重要的原因是因为我们在提示词输入的时候,没有加入这个 lara 的 一个触发词,它的有一个触发词叫中国话,我们把它复制一下,然后返回 ctrl u i, 在 前面把它给粘贴上 英文逗号隔开,然后我们再运行一遍整体看它,这个 lara 就 起了一些作用了,我们把它的降噪值改为一试,一试 他的风格就出来了,然后包括他训练 loir 的 一些这个中国化的底膜的一些元素都已经出来了,我们甚至可以根据我们要的效果把他的 loir 强度增加到一点二,然后我们可以再测试一下, 看一下他这个国画的感觉就更强烈一点了。所以说在加入 loir 的 时候,我们还是要两个因素,就是一个降噪值还是一个 loir 的 强度,然后去调节控制我们图片转会的一个最终结果。 好了,这次的分享就到这里吧。然后我说一下风格转会的两个重要的点,第一个就是他的模型替换,第二个就是他的一个 lara 的 一个加持,就是模型上面,你假如说我要转一个写实的模型,你让动漫的模型去做的话, 他有时候会做不出来,你要转一个动漫的效果,你让一个写实的,比如说你让麦局去做一个动漫的, 他出来的效果会很不好,因为他的模型训练的时候基本上没有未给模型多少动漫的图片,所以说他出来动漫的效果肯定不好,我们还是选一些 就是我们想要的那种效果的模型底膜,然后去加载,然后加入一些风格 lara, 然后去调整我们的降噪值,包括 ctrl n t 的 一个加持控制,然后去转换出来我们想要的一个结果,再给大家分享一个大模型, 这个模型我觉得挺有意思的,出来的效果都还不错,我们把这些把这个留着,把把 ctrl net 这个删掉,把 ve 这个也删掉,然后拉出来一个控件,我给大家测试一下这个模型,然后我们在 c 站上看一下它的模型出来的效果,我觉得含盖的风格还挺多的, 那快一点,我们刚开始接触 ai 或者是小白的话,我们可以在可以尝试着复制它的一个提示词,回到我们 comui, 把它粘贴过来,把它运行一遍。 刚开始初学者我觉得大家还是在提示词上面下些功夫,最终出来图片的质量与这个提示词有很大的关系,你提示词写的好,它出来图片就好,你提示词写的赖,它出来的图片就效果不好。所以说提示词也是大家需要学习的一个必经之路, 也是一个比较重要的一个地方。看一下我把他的提示词复制出来,其实跟他这个图片的效果大差不差,差别主要是因为啥呢?因为他下面会有一些采用的方式方法,然后包括 cf 这只,然后步骤数都有,我们把这里边的 参数跟他那边调的差不多,基本上就出来的效果跟他那个一样了,但是整个的感觉还是出来了。 所以说刚开始学习的时候,我们可以在各种不同的网站上,然后去看他们上传的一些好图,他们的提示词是怎么写的,包括他们用的彩样呀,他们的一个步数是怎样设置的。好了,这次就分享到这吧,然后给大家说一下这次的网盘, 这个网盘里边这些内容到时候我都会分享出来,包括整合包,包括一些现在的千万三破线的一些模型整合包。我要感谢一下 b 站上面的金鱼大佬,他提供的整合包里边有一点七跟二点零版本的,大家可以根据自己的需求去下载, 然后这节课也没有什么要分享的东西,然后我会在这个里面传一个刚刚我给大家说的那个模型,他也是刚出来更新出来的一个模型,我觉得挺好的,分享给大家。另外这呢有一个模型的文件夹,然后这里边分享的是我电脑里边常用的一些模型,如果大家有需求的话都可以在这里边去下载, 下载完之后你就放到这个 modus 文件夹就可以。好了,这次的分享就到这,呃,也没有什么了,然后这有个科学的上网玩这个康费 u i 还是需要一些魔法网络的,如果大家呃魔法网络不会装的话,你可以后台私信我,然后我把这个发给你解压就可以用 啊,当然是需要一个月掏几块钱的,这个链接的一个费用,呃,一个月反正就不多,也就几块钱吧,反正一千多 g 够大家用。 为什么要有魔法网络呢?是因为在之后有一些节点,你要他会有一个下载模型的一个节点,你运行到这个节点之后,他会自动去下载一些模型,他们会从这个 github 啊,还有哈根 face 这些。 呃,别的网站去下载是需要一些魔法网络的。这次的分享就到这我觉得有用的一些东西,然后我都给大家讲一遍, 有好些那会搭的比较繁琐的工作流,包括有些局部重绘啊,还有一些裁剪重绘,然后把它裁出来,然后重绘之后然后又粘回去。好多复杂的工作流我就不在这里说了,因为现在呃大模型的叠带已经有很简单的方法把它实现了, 但是我们要清楚整个的一个纹身图的基础逻辑,大家把这个吃透之后,了解清楚之后,我觉得后边就简单容易多了。好了,谢谢大家。

视频我们来看到 remix 模型三点零版本的更新, remix 模型是一个基于 y 二点二的和平模型,可以进行无限制的生成。三点零版本这次的更新在四点, 那么第一点呢是加入了 bb vr laura 模型,增强空间理解,第二点是加入了 unified reward 的 优化 laura 来提升整体的画面质量和生成稳定性, 调整了多种 n s f w lora。 最后一点,也就是说这是一个 i q v 系列的最终版本。这两种 lora 模型在我之前的视频当中我也介绍过,确实是有一定的争议在里面的, 所以三点零的更新你绝不是空穴来风。这个视频我们来看到 remi 三点零的涂声视频的官方原声流程的实现,并且进行了一定的改良优化,支持反向提示词与 q n 三点五的破碎模型结合在一块进行自动化的反推 限制解除的文本编码器,可以看到接近于闭环完成的一整套组合搭配,如果愿意的话,我们还可以接入 z image 模型的身图来获得更优质的图像作为输入,完成更高质量的文本到视频流程。接着我们来看到工作流,我这里测试和使用的是全球最大的在线康复医学平台 running heart, 也是 ai 爱好者们最常用的在线工作台。如果对于我们要去启动这一个 remi 三点零的流程的话,我们需要去加载一张图像,这里的提示词会做的非常简单,我把作者的系统提示给搬过来了, 借用 q n 三点五的无限制模型,我们可以进行非常充分的润色,设置一下我们生成视频的宽高,那么这里依旧是一个以百万像素为计量单位的调节一,那么零点九二的话约是七二零 p 左右的视频生成 帧数,这个地方我们可以调的更高,但一般我们就用八十一帧,可以提的更高,但没有必要大概就会回环。 如果我们要使用 z 以类似 tom 模型来进行纹身图,我们还需要多输入一段纹身图的贴纸词,然后把它接过来就行了。在开源图像模型这个地方, z 以类似 tom 模型还是非常的能打的,那么这就是快速启动图像,相对的流程以及同步更新,可在线运行。 那么对于 remake 三点零的 iqv, 我 还准备了一套量化方案,以及 q 四 k m 量化后的三点五的模型。放在哔哩哔哩简介了,接着我们来看到细节处, 它模型这个地方分为高噪和低噪模型,并且在哈根 face 上已经有它三点零版本的 q 四 k m 的 量化模型了。在这个项目下面, 我们可以使用 unet g g u f 节点进行加载。 remix 模型是合并模型,且内涵加速,所以呢,我们的 c f g 为一,这一十点反向提示词也是相应的要失效,所以我使用了 k g 所做的 one video next 节点来让反向提示词取得一定的生效效果, 直接去连接我们的反向调对就行了。 load clip 文本编码器,那么这个文本编码器一是没有限制的,线上的话应当是还拥有它的量化模型,我们可以使用 g g u f clip loader 来加载这样的量化的文本编码器。加载 v a e 我 方到云盘当中的这个 v a e 应当是更优的选择。对于低限存用户来说,图到视频节点,我使用 p t i p v 去替它, 这个节点当中主要去调节的数值是运动幅度,没有变化,应当是一在一到一点五之间,一点一应当是一个比较保守的值, 数值的增加会增加我们得到的视频的运动幅度。颜色保护默认开启,不让生成后的视频的颜色飘的太厉害, 散养器就不多说了。那么如果对于低显存的用户,我们最应该做的是在解码这个地方使用分块解码, comfy y 原声就是有这样一个节点的,那么出来之后的话,我们可以进行适当的补帧,使用 g i m m 补帧。 最后我们来看到 comfy y 的 拉玛 c p p 的 多模态插件,这是一个非常有趣的节点,来自于这个项目 支持到最新的 q 问三点五,非常的强劲,因为 q 问三点五呢要比 q 问三呢强很多啊。这个模型加载的过程当中呢,我们要先加载模型,然后与之对应的我们还要加载一个多模态投影模型 以及对话格式,那么这三者的话应当是有一个对应关系在里面的。到了右边这个节点,我们就需要运行了,运行的时候主要看两个输入项,一个系统体式词,那么刚刚是来自于作者一个呢,是用户体式词,这里很简单的就是一个女人在跑步,在跳绳都可以 出了结果之后的话我们就给它送到体式当中。 z 以 mash top 模型,主要是提到的上一次的两个 ro 搭配 d p o 模型,高权重 联想真实感模型低选中调出来的效果还是相对不错的。其他地方呢?没有特别做文章,因为这是线上嘛,感兴趣的可以看一下我之前的镜像,更为极致的流程和体验。

视频,我们来看到 client 模型高清放大的工作流的更新,在之前的节目当中,我们有讨论过 client 模型的高清放大的工作流,那么我说过这个地方会有一个结果给大家, 刚好论坛当中可以模型出现了这样的一个工作流,也顺手去分享给大家。使用图像编辑模型去做放大最大的艺术就在于它能够尽量的去保留原图的人脸,服装构图和质感,可以看到变得更为清晰了,这也是我们早期所追求的结果,尽量的不要变化带增加细节, 以及 b f s 二五幺幺模型逐步重回贴回的面部交换的工作流的更新,之前我们有分享过卡莱恩九 b 的 版本,这个视频我们顺便来看到二五幺幺的版本。接着我们来看到工作流,我这里测试和使用的是全球最大的在线康复软件平台 running hard, 也是 ai 专业用户和爱好者们最常用的在线工作台,对应的流程已经同步部署至线上,并可在线运行。那么先看到可莱因九 b 的 图像放大流程,我们先说快速启动,首先呢我们需要去加载图像,直接点击运行就可以了,如果要调节尺寸,我们可以在百万像素这个地方进行调节, 原铁的地址呢,我已经贴出来了。首先我们要明确的是 flex 模型的二代的 client 的 九倍的模型是有一个 base 版本的模型的大模型除微标志 base 则意味着它是一个加速模型,所以我们后面在参考系当中的步数呢,为八步默认使用的文本编码器和 v a e 下面的 obscure 组当中是进行一个两倍的放大,所以我们在未进组之前的话,进行一个百万像素的约束,也就意味着我们出来的图像呢是一个接近于两百万像素的程度。如果我们想做更大的图,我们可以在进入组之前呢, 用更高的百万像素来进行约束,如二,那么最后的结果会得到一个四百万像素约束的图像。 terence, 这个地方我使用作者的 more terence 词,那么问题不是很大。然后紧接 reference later, reference later 这个节点我们初次见到,是在 contest 的 模型当中, max 的 一代编辑模型,这个节点对于防像素偏移是非常有效的。在尺寸约束这个地方,原来作者用的是这样的一个节点,我个人认为不用那么灵活,所以给剃掉了。部署为八, c f g 为一,这是一个加速模型, c f g 应当为一反向节制词,在此时应当已经失效。 设置采集器,调度器,保持默认。在作者的逻辑当中,他对这个图像进行了二次编辑,初次是一个幅度较大的编辑, dna 的 值为零点八, 其实这个地方呢就已经有很大的变化了,然后呢再将这张图像呢进行二倍的放大,一般呢是默认进行四倍的放大,然后在后面做了一个零点五倍的缩放, 就会获得最终结果。而二次编辑这个地方的 noise 值是非常低的, v 为零点一,但是这么干的话,我们会获得非常严重的色彩的偏离, 所以在后方我们可以接一个颜色匹配,比如这个结果与我们的原图相比的话是完全对得上,但是呢又增加了细节,这个对比就是最好的例子,而且几乎没有任何的偏移,纯粹的是在进行放大。早些时候呢,我对于 color 模型是有偏见的, 在我测评了一些图像编辑任务之后的话,我认为它不够好,不够那么全面。但是像如图像放大这样的单向任务上面,或者说面部交换上面的话,可以模型明显要更胜一筹。看到后面的面部交换,我们就会发现这样的结果, 视频相对的流程已经同步更新,可在线运行。那么这就是面部交换的工作流, 我这里基于的工作流呢,是一个重绘贴回二五幺就重绘万物迁移的这样的一个工作流。这里主要的让我们的效果得到增幅的还是这个 lo 二模型 来自于项目 b f s 这个地方是有作者的设计流程的,我并未采用,依旧已经部署至线上。这里我使用的是之前基于小智老师的插件节点来编的一个万物迁移的。就编辑的流程, 先说快速启动,快速启动上来说,我们需要加载两张图像,那么第一张图像呢,是我们的背面不交换的图像,右键在遮照编辑器当中打开,涂抹一下被交换的面部。第二张图像呢,是我们的参考的面部,然后点击运行就可以获得结果。依旧是一样简单的快速启动, 其余词词以及其他的部分可以不进行任何的编辑。如果比较了解,可以拿我的流程继续进行编辑。 图像尺寸这个地方,我会先进行一个大尺寸的约束,因为我会裁图中一小部分来进行图像编辑,再贴回去, 在面部交换这个流程当中是没有任何问题的。这个模型做量化了,我的印象当中会出现很多的问题,所以我们就建议使用二五幺的 b f 一 六的原版的模型,然后加在一个 low 二模型。这个 low 二模型的话,我们刚刚已经标明了出处。未使用加速模型,原因非常简单,在作者的工作当中,他也没有使用加速模型, 这意味着我们不使用加速模型会获得更好的结果。 f g 设定为二点五,与作者保持一致。在这个地方我们是进行了图像的还原的,把它给还原到我们原来的画布当中去, 这是一个另外的测试用力,那么我是觉得它是强劲的,但是与克莱恩模型相比的话,它的面部给我的感觉是比较的油腻的。当然对于二五幺幺模型,我们可以使用一些乱模型来去油, 但是如果我们已经有了 clay 模型在前的话,我们也完全可以去使用 clay 模型。什么工具好我们就用什么,无论是开源或者说闭源的,因为很简单,我们只是想去办一件事情。