粉丝59.5万获赞876.4万

只需上传图片,点一下就能拆分图片,图层大小、位置都能随意挪动调节。这就是阿里全新开源的图像模型 pan image layer, 它能够一键将图像拆解为多个 rgb 图层,实现类似 ps 的 分层编辑功能,让 ai 修图也能实现精细化操作。 分层后,目标图层成物理隔离状态,编辑效果仅改变指定图层,从根源上保障各项编辑操作的一致性。例如,将这张海报分层后,可精准替换第二层的人物,把女孩换成男孩, 还能修改第三层的文本内容为宽 image, 调整物体尺寸时也能做到无损画质,还原度拉满。 更灵活的是,宽一眉卓尔不限制固定图层数量,支持自定义可变分解,可根据需求自由设置三层、八层等不同分层数量,适配多样修图场景。这意味着 ai 修图迈入精准分层时代,去背景元素替换、局部调整等操作,都能独立控制单个图层。 作为阿里宽系列的重要成员,宽一眉卓尔坚守开源的核心原则,每个人可免费使用,让专业分层修图不再有门槛。 项目地址放评论区了,感兴趣的小伙伴快去试试吧!欢迎一键三连支持一下哦! ai tiktok 中文社区每日更新超多前沿 ai 开源项目资讯,以及免费共享 ai 开源项目知识库链接放评论区了,关注 ai tiktok, 让您领跑 ai 时代!


哈喽,大家好,我是你们的 ai 小 兵哥,设计师的福音来了,阿里发布的千万一枚级 l 的 模型, 这是一个可以对图像进行 ai 自动分层的模型。以前总说 ai 没有图层概念,想要对图像进行局部编辑,却经常影响到其他部分,修图总是翻车。 现在使用这个模型就可以将图像自动分解成多个图层,可以对单个图层的元素进行修改,不需要手动进行抠图,大大提升工作效率,小白也能轻松上手。 我们来看一下介绍。这是阿里发布的图像分层模型,能自动将图像分解为多个 rgb 图层的模型,使单层具有可编辑性。同时这种分层天然支持高保证基础操作,例如调整大小、重新定位和重新上色,可以在保持原图一次性基础上对单图层进行修改。 我们来看一下案例,这是一个手机的海报,通过模型可以自动分解成背景图片和这是一个圣诞节日的海报,通过模型分成之后,我们就得到了这个抠除背景之后的图像。 我们来看一个比较复杂的案例,这应该是一个图标,通过模型自动分层之后,可以得到背景图、建筑结构图、人物的抠图和前景的抠图。 而且这里面还有一个非常有意思的地方,就是图片中被遮挡的部分都会被 ai 进行自动重绘,比如在建筑图层这里,前面是有人物遮挡的,这里分离出来的图片自动完善的这个细节。还有人物的前面有一部分是被摄像机遮挡的, 整理出来之后也还原了这个细节,这可是一般的抠图软件做不出来的效果,有了这样的不同图层,我们不管是对他进行局部修改,还是将他的图层进行缩放,都会变得非常轻松简单。接着我们来看一下工作流,这是我前面视频的一个封面,我将它通过这个工作流对图像进行自动分层之后, 就得到了下面这样的图片。这是原图,这是一张白色的背景,这是一个背景图片,这是我使用的一个黑色的半透明模板,连这个模型都帮我自动提取出来了, 而且将原图片的颜色进行了还原,我觉得非常的惊讶。这是前面的一个主体人物,这是底下的副标题,全部都帮我分离了出来。唯一有一点瑕疵的地方就是没有单独把 plus 二升级这个图层单独分离出来。这是因为我工作流设置的是五个图层,所以最终分离的结果是一二、三、四、五 总共五个图层。如果我们需要对它进行进一步分层,也可以将这个图片复制下来,将它粘贴到这里。图层设置为二,继续进行分离。分离已经结束了,我们得到了一个黑色的背景和一个单独字体的图层,我们将这些图层先保留下来。接着我需要对单个图层进行编辑, 在这里我使用千万以内级 id 格式的模型,加入三个 id 的 工作流,将工作流进行修改,接入需要修改的图层,输入提示时,将图片中的文字改为 plus 点。二、重新渲染字体, 将颜色改为深橙色加浅黄渐变。第三个,我们将它改为新突破运行工作流。 好的结果都已经出来了,第一幅图,图片中的文字改为了 plus 点二,但是这个图片不是透明图层,我们等会需要将它的背景进行抠出。第二幅图片,将文字改为橙黄渐变。第三幅图片将文字改为新突破,任务全部完成。接着我们来添加一个 fastcom 节点, 前面拖出一个画板工具,将图层分别添加上来修改。工作流,抠除掉背景, 好的图像已经全部出来了,我们来看一下。在 fastcom 这个节点,我们可以对图像进行说法和移动位置。图层经过调整之后就得到了这样的效果,这三个字改为了新突破。 flag 二,中间加了一个点, 底下的副标题增加了一个渐变色效果。我主要是给大家进行操作演示。这个模型生成出来的图片自带透明背景,我们可以直接将它保存成 png 格式, 导入 ps 就 可以直接在 ps 上进行修改。接下来我带大家看一下工作流,我们在这里上传需要分层的图片,通过左边的数值设置他的最长边,这里还有一个图层的数量, 如果我们需要分解成五个图层,我们这里就填五,需要分解成两个图层,这里就填二。缩放之后的图片会接入 ve 编码器,进入浅空间,在浅空间接入我们的正向条件和反向条件,这里是图深图,工作流,正向提示时可以不写。左边是需要加载的模型, 主模型使用千万 amg 莱亚的 b f 十六的版本,上面我们连接一个加速涡轮,使用这个加速涡轮可以将传感器的迭代部署大幅降低,提高工作效率。可立普模型接入千万的二点五 vr 模型 ve, 使用 ve 专用的 ve。 大家注意浅空间的图像,这里不是一个单图,我们需要给它传一批具有多张图像的浅空间图像,浅空间的大小就是我们图像缩放之后的大小,浅空间的数量需要使用简易计算来得到。如果是分离两个图层,这里需要填九。 如果是分离三个图层,这里填十三。如果需要分离五个图层,这里填二十一。接着通过彩样器叠带生成结果,生成出来的结果也是一个具有多张图像的列表,我们可以在这里看到里面的内容,上面的节点将不需要的图像裁掉,裁掉之后通过解码器解码出来,得到我们分成之后的图像。 好的,本期工作流讲解到这里结束,我们来做个总结,这个模型给我最大的感受就是它让我们的设计工作变得非常简单,如果我们想要改变图片中的某个元素,只需要将所有的图层放入 ps 里面进行编辑即可。 如果 ps 将这个大模型功能接入进去,直接就帮我们把所有图层分离出来,想一想都觉得很香。另外给大家补充一下上期视频所讲的 zm 级 control 二点零的模型有了升级,升级的原因是代码中有一个拼写错误, 官方对此进行了修复,发布了二点一的版本,我们将之前二点零的版本直接替换为下面二点一的版本使用。觉得本期工作流对大家有帮助的,记得帮我点个赞,关注我,带你体验最新的 ai 效果,谢谢大家!

ps 党狂喜,阿里 qw 刚出的这个 ai 模型,直接把普通照片变成可编辑图层,比手动抠图像一百倍!十二月二十日,阿里巴巴 q one 发布的 q one 减 image 减 layer 的 模型,彻底解决了传统 ai 修图的痛点。 以前想换人物衣服颜色,结果连背景都跟着变,想挪个物体变圆弧的没法看。现在这个模型能自动把图像分成三层或八层,你想动哪层就动哪层,换背景像拼拼图一样简单,完全不影响其他部分。 觉得是分层,还能重复细分。比如要调眼睛的细节,把眼睛涂层再拆成睫毛瞳孔眼白,想怎么修就怎么修,精细度直接拉满。对了,阿里已经把代码开源了,在 hugen face 和 model scott 就 能拿到,想 试的宝子赶紧充,以后修图再也不用跟 ai 斗智斗勇了,直接分层操作,精准到每一根头发丝。这波是不是直接把图像编辑的门槛给踩碎了?期待以后用它搞点好玩的创意点,关注 ai 前沿资讯不迷路!

大家好,我是老徐。这条视频给大家介绍一个阿里刚出的新模型,它也是轻微 mag 系列的,叫做轻微 mag 类型的,它是一个图片分层模型,可以把图片像在 ps 里面使用一样进行分层, 这样进行图片编辑的时候就会更加的精准,也更加的方便。大家可以看一下它的这些案例, 这些海报图都可以进行产品和背景的分离,这里是分了两层,然后这两张是分了三层,按照官方的介绍,他是可以无限分层的,就是这些分层之后的还可以进行进一步的分层,每一层的图片都是透明格式的。 目前这款模型已经发布到了 hackface 和摩塔社区, comfyui 也对它进行了支持,如果我们是在 comfyui 上面使用,就可以到 comfyui 的 模型仓库进行下载, 它的体量跟轻微也卖极是一样的, bf 十六的模型接近四十一, gfp 八的模型是二十点五 gb, 然后它需要搭配它专用的 v i e, 因为它跟之前的生成模式不一样,是对图片进行分层,所以它会搭配这个轻微 image layer 的 专用 v i e, 不 能和轻微 image layer 的 v i e 混用。 模型下载以后需要放到 comui 的 model 图层的这个目度里面,如果在本地使用,需要把 comui 升级到最新的版本,然后在室内工作流里面找到轻微 image layer 的 图层分解的这个工作流。 因为模型的体积比较大,运行的时候对显存的要求也比较高,所以接下来我会在 roundtable 里面给大家进行演示,大家使用我的邀请链接注册 roundtable 还可以获得一千的免费散列值,每天登录也会获得一百的散列值。 在 roundtable 上直接搜索我的名字,就可以找到我的工作流。这个工作流是在官方室内工作流的基石上进行了一些改进,主要是增加了一个提日词的反推节点, 这样我们上传一张图片就可以直接获得分层的图片,这里是设置分层的数量默认我是设为四,大家可以根据实际的需要进行增加或者减少。 如果需要手动添加题二词的,也可以把这里关闭掉,然后在这里可以输入手动的题二词。 模型的原始设置是需要跑五十步,然后 cf 机设置为四,但是这样非常的慢, cf 幺幺的室内工作流用到的是二十的步数, cf 机为二点五, 即使是这样,速度也是非常慢,跑一张图大概可能要五分钟,因为都是属于轻微与 max 系列的模型,它们的基础架构都是一致的, 所以我尝试使用了轻微 mag 二点二五零九的加速 nor 也是可以使用的,这样我们就可以把步数调整为八步, c、 f、 g 设置为一,这样跑一张图的话大概也就是五十秒,这个速度就会快很多, 但是整体来说还是设为二十步, c、 f、 g 为二点五的情况下更加稳定。我们再来跑张图片来演示一下 上传这张图片,然后我们把它的图层数量调低一点,调到三层,提示词会自动的反推直接运行。 这里我使用的是轻微三四 b 的 视觉模型,它的提示词反推还是比较准确的,如果显层够的话,也可以用八 b 的 视觉模型, 我们可以看一下这里的第一张图是原图,然后这里是产品图、背景图,然后这里是文字信息, 那这条视频的内容就是这些,大家如果觉得有帮助的可以关注一下老徐,给老徐点个赞,谢谢大家。

上传一张旧款沙发照,再上传一张新款的毛皮面料图,然后输入提示词,将图一的沙发面料换成图二的毛皮面料。点击运行,你就能得到一张旧款沙发换上新款毛皮面料的图片了。 你也可以上传一张模特照,再加上一张穿搭图和一张场景图,然后输入提示词,让图一中的模特穿上图二中的衣服,然后悠闲的走上图三的楼梯。 点击运行,你就可以得到一张模特悠闲的站在楼梯上并穿着穿搭图里的衣服的照片了。是不是特别的酷,本期来讲千万也没之。二五幺幺图像编辑大模型 这个二五幺幺版本是二五零九的增强版,多项修图能力大幅度的提升,尤其提高了角色一致性,并且内置加速 laura 无需额外进行参数调优。 话不多说,咱们直接看 comf 以外工作流首先打开 runnyhub, 搜索我的名字,电磁波 studio, 点击工作流,找到千问 image 二五幺幺图像编辑大模型工作流点击运行工作流,你就可以跟着我学起来了。 整个工作流是比较简单的,左上角是模型加载区,使用 load viewer model 节点加载千万 in midi 二五幺幺 b f 幺六大模型, 在下面的 laura lodger 节点上传千万隐秘埃及的二五幺幺 landing four steps 加速 laura 接下来你需要上传需要处理的照片,在这里呢,最多上传三张照片,比如我在第一个 laura lodger 节点上传的是一张模特照,第二个节点上传的是穿搭图, 第三个节点是场景图。然后就是重头戏了,在 text in code 的 千万 imageplus positive 节点输入提示词。我输入的是让图一中的模特穿上图二的衣服,然后悠闲地走上图三的楼梯,旁边是枯燥的踩样解码。 comfui 官方建议,如果工作流起用加速拉尔,那么 steps 应该设置为四, cfc 设置为一。因此呢,我把 k 三 part 节点里的 steps 和 cfc 按照 comfui 官方指引进行了对应的修改, 其他的不用动,点击运行,你就可以得到一张模特悠闲的站在楼梯上并穿着穿搭图里的衣服的照片了。是不是感觉特别的牛? 看到这里还等什么,赶紧跟着我练起来吧!尤其是广告行业的小伙伴,是时候尝试一下丢掉 ps, 然后跟着我进入用嘴改图的时代了。 嗯,好像说的有点过于吹牛了。不管怎么样,我是觉得 ai 大 模型的进化速度真的非常的快,说不定明年就真的会实现我刚才说的扔掉 ps, 正儿八经进入用嘴改图的时代。 如果你觉得本期视频对你有所帮助,请关注、点赞、收藏,三连走一波,这里是电磁波 studio, 我 们下期视频见!


一张图片点一下就能够拆分图层,自由调整元素的大小和位置。这是阿里最新开源的图像模型,免费的工作流我已经给大家都准备好了, 只需要你上传图片,然后点击运行,完全不用管其他的复杂参数。那么它的效果到底如何呢?是用什么样的场景和另一款也支持图像拆分图层的 love art 对 比,它有什么样的优势呢?看看这个案例, 虽然两边都完成了主体背景还有文字的分离,但是呢,阿里的模型抠图明显更干净,而且背景的重绘效果也明显更好。 虽然呢, rap 它的文字是可以编辑的,但是却丢失了文字的效果。再来看一个更加复杂的案例,我们把分层的数量设置为五,这是阿里开源模型出来的效果,各种 ui 元素基本都被分离出来了。 然而这是 love art 的 效果,除了文字图层,其他的都识别失败了。那么点个关注加收藏,更多详细的资料全都在这里。


大家好,今天分享一个设计师必备神器,它能让你像剥洋葱一样将一张图片分离出一个个独立的图层,每一层可以单独修改而不影响其他部分。还支持将分离的图层二次编辑修改并一键合成新的图像。首先下载软件, 双击启动 跳转页面,点击左侧的工作流,选择工作流 只需在这里上传需要分层的图像,设置分层后的图像宽度、高度和分离的图层数量,选择需要使用的分层模型, 这个模型需要显卡显存十二 g 起效果更好。 cf 试用显存八 g 起效果略差,大家根据自己的显卡选择, 这里输入提示词可以留空,建议开启下方自动提示词, 最后点击下方运行, 接下来用具体案例演示操作,我们将这张图分离出来,先预估需要分离的图层数量, 设置分离的宽高和图层数量, 这里最大支持分离八个图层。 编辑好后,点击左上角的 cf 保存并输出。 接下来我们测试另一个高精度模型分离效果 参数,默认点运行 可以看到这个效果就好多了, 可以直接在合成器里二次编辑合成, 合成和导出的图层保存在这里,可以在第三方软件使用。 如果对分离的效果不满意,可以多次尝试分离,也可以将分离的图层导入二次分离模型,建议选择非 guf 版,效果更好,其他大家自行测试。本期视频到此结束,感谢观看!

今天我们来看一个新玩法,将图像进行分层,进而实现素材提取、分层编辑等更多高级玩法。首先模型,大家可以通过摩搭平台下载,搜索视频展示的名称即可。 两个子目录分别对应 com f u i 中的模型存放目录,推荐大家下载 b f 十六,这个模型质量会好一些。另一个是 ve 模型,直接下载即可。 然后 comfyui 需要更新到最新版本,可以使用 manager 进行更新,如果是整合包,需要自行寻找升级方法。工作流可以基于千问生图工作流改造。首先通过模板查找千问文生图工作流, 直接点击模板创建新的工作流,清理掉多余的干扰节点。然后将加载节点快速切换到对应的本地路径,放大给大家看一下选择结果。其中 create 模型使用千万生图的模型即可。 接着这一步比较关键,需要将空 later 的 节点替换成会员的视频空 later 的 节点,这主要跟分层的实现逻辑有关,记住就行。重点注意这里的长度参数 设置规则为,目标层数乘以四加一,例如期望拆乘三层三乘以四加一,得十三,则长度设置为十三,以此类推。目前处于过渡方案,后续官方应该有新的节点支持,大家可以参考注视节点中的势力进行配置。 接着添加图像加载节点,加载需要处理的素材,然后获取图像的尺寸。连接到 comelon 的 节点, 跟千万图像编辑模型一样,获取尺寸之前需要先将素材按照像素进行缩放。 接下来又是比较关键的一步,使用 reference latent 节点将素材图像和文本条件整合后,再连入彩样器,正负向条件处理方式一致。注意,图像素材需要先进行 v a e 编码后才能与 reference latent 节点进行连接。 顺手先清空掉模板中的提示词,选择好我们的测试图像,最后再来将采样输出部分调整一下,采样步数测试下来需要设置大一点,不然输出的图像质量会比较差。 解码之前需要先使用 latent cut to batch 节点,将视频帧处理为 latent 批次参数,使用默认即可。连接上 v a e 解码节点,然后通过图像预览节点查看处理结果。 最后展示一张从批次中取出的图像。最后展示一张从批次中取出的图像,比较简单,直接取出其中一个 latent, 通过 v a e 解码后进行预览即可。至此工作流改造就完成了。先不使用提示词,直接运行一下看是什么效果。 首先看一下耗时,采用耗时接近六分钟,说实话不太友好,期待社区的加速方案。再来看一下分层结果,不太明显,其实是成功的, 仔细看右边缘这个位置,而且这个结果是可以通过提示词干预的。简单填写了几个提示词,背景文字、人物重新运行一次看下效果, 虽然还是有一些瑕疵,但比前一次效果有明显提升。顺便说一下,第一张可以当做原图,后面的才是分层提取的结果,整体来说除了速度其他还是不错的,又可以增加不少新的玩法了。点赞关注,下期更精彩!

今天呢,千维 image 爱奇特发布了新的版本二五幺幺,那这个新的版本呢,在人物一致性方面做了很大的提升, 同时呢它将二五零九版本里边比较通用的 lara 呢也集成到了这里边,所以说呢,功能会更加的强大。另外的话呢,它也在产品设计和工业设计方面呢,呃做了很大的改进,同时在图像的理解方面呢,也做了很大的提升,可以汇聚比较辅 达的数学的几何图像。那大家现在看到的是新版的千万 image edit 在 抱抱脸上的页面,那在这个页面里边儿,它对整个模型改进的地方呢, 做了详细的表述,并且呢有视力的图片。那同时 confui 的 官方呢,在第一时间也支持了这个模型。那这里边呢,我们可以看到有两个二五幺幺版本的模型,呃,一个呢是 b f 幺六的,一个呢是 f p 八的,大家呢可以根据自己的算力情况呢来选择不同的模型。 同时呢, light x 二 v 也不甘示弱,在第一时间呢发布了相应的加速模型,其中呢有两个主模型都是 f p 八的,那同时呢,也有两个加速的 lora, 一个是 b f 幺六的,一个是 f p 三二的。大家可以通过它的大小啊,清楚地知道它是基础模型 还是加速的 lora。 那 为了让大家更加清楚和全面地了解这个新的模型呢,我构建了十一个测试场景, 从各个方面对这个模型做了全方位的测试。那我把工作流呢也构建到了 running hub 上,大家可以通过 running hub 转身来访问这个平台。在 confui 领域, running hub 是 一个非常棒的在线工作台,因为只要有新的模型和新的扩展出现,它都会第一时间跟进。大家可以通过我视频描述区的邀请链接来注册 running hub, 这样可以获赠一千点的免费点数,另外你每天登录 runnyhab 也会有一百点的赠送,这样你就可以尝试你自己的工作流了。下面呢,我们就看一下具体的测试实力。那关于工作流呢,我简单的给大家介绍一下,因为它和千维一 mate 二五零九版本呢,并没有太大的区别。 首先呢,我们把主模型换成了二五幺幺 b f 幺六的这个版本,但是我将权重类型选择成了 f p 八。那另外加速的 lara 呢,我选择了新版的 lightning 四部的加速模型。关于我们的编码器和 ve, 这个没有任何的变化, 那同样核心的节点依然是 textin code 纤维 image edit plus, 我 们可以同样输入三张参考图片采用,由于使用了加速模型啊,所以说呢,我这儿采用的是八步采样, 虽然那个加速呢是四步的啊,但是我一般都不会用四步,我最少也会用八步。解码之后就是我们最终的这个图像了,大家看一下提示词啊,我的第一个实力呢,是生成一个四宫格的图, 而且每一张图片呢,这个美女都会有一个不同的姿势,并且呢这个输出的结果并不是一个写实类型的啊,是一个动漫风格的。那我们来跑一下,大家看一下输出的效果,现在就生成完了,那从输出的结果上来看,虽然人物的风格发生了变化,但是呢人物的一致性呢 保持的是非常好的,那同时呢,这个版本对于输出结果的美观程度做了很大的提升, 大家会发现输出的结果呢非常的漂亮。好,下面呢我们来看一下第二个例子,第二个例子很简单,我只是替换背景, 那这个主要是测试人物的一致性,大家看一下,这是原图,一个美女站在街头,然后呢我现在呢把它替换成一个圣诞节的背景,人物呢没有发生变化,一致性保持的也是非常好的, 背景就被完全的替换掉了。那我们再看下边这个例子,这个呢是一个双人的复杂场景,那我们的参考图片呢,变成了两个, 一个是一个西方美女,一个是一个东方的男士,那为什么要选择这样两张图片?因为我们都知道,如果在一个图片当中 出现了东方人和西方人物,人物的一致性的在一定程度上会被破坏掉,这个场景呢也非常的复杂,大家看一下,我这个提示词也是非常多的,那我定义了整个的场景,包括背景图片,他们的穿着,他们的姿势, 包括手里拿着什么,这个在提示词当中呢都有非常详细的说明,我们来看生成的这个效果,首先呢人物的一致性其实是有一定程度的降低的,最明显的呢是在这个美女的身上啊,我们下边来对比一下 这个美女的特点,其实展现的呢也是没有问题的,但是呢他的确呢不像单张图片表现的呢也是没有问题的,但是呢不可否认, 他基本上保持了人物的一致性,并且呢在提示词的遵循程度上做的非常的棒,凡是我在提示词里边提到的内容,在整个的图片当中呢 都体现出来了,下面呢我们看第四个例子。第四个例子呢其实是一个单人一致性的测试,那刚才我们看到了在多人情况下的一致性会有所降低, 这个呢是很多模型都存在的问题,但是呢单人的这个一致性的确保持的非常的好,这个呢也是他在他的官网上不断的提到的一个改进的点,那大家看一下,我们将这个美女呢给他装扮成了一个圣诞老人的形象, 并且呢他的手里边还抱着一只猫,的确这个新版本的模型在人物的一致性方面呢做的非常的棒,那下面我们来看第五个例子。第五个例子重点测试的是三图片的参考, 首先看第一个图片啊,第一个图片呢就非常有意思啊,这张图片展示的是两个人物在一块吃饭,但是呢这两个人物是木头人,那我希望把这两个人物给它替换成两个美女,所以说呢,我有第二张参考图片,第三张参考图片,那大家看一下,替换的效果是非常棒的, 但是呢依然出现了,当人物增多的会有一定的变化,重点呢体现在这个人物上, 大家看一下,其实呢这个一致性的是有所降低的,但是呢这个人物的一致性我觉得表现呢还是非常棒的,所以说大家在使用这个模型的时候,掌握一个基本的原则啊,就是这个参考图呢,数量就越少越好。好, 下面呢我们看第六个例子,第六个例子呢,也是我们在测试模型的时候经常用的一个测试用力啊,是把一个动漫人物 转成一个真实人物,说实话这个用力呢,很多模型的表现呢,都让我觉得一般般,但是这个模型的表现的确非常的惊人。大家来看一下最终生成的这个效果,我现在把它放大, 大家感觉一下,真的非常的漂亮啊,那之前的模型呢,能做到这个程度的其实并不多,所以说呢, 整体的美观性的确有一个质的提升。下边呢,我们来看下它的第二个特点啊,前边其实我们都是在测一致性,那下边我们测的是什么呢?因为它在它的官网里边提到了,它将很多社区里边流行的 lara 呢给它集成进来了。 那我们用到的第一个 lara 就是 改变镜头的视角,比方说呢,我现在这有一张图片啊,这张图片是一个全身的视角,一个美女呢坐在石头上面,而且穿的这个衣服呢,也非常的有特点。 那我这个提示词是什么呢?是将这个相机呢给它平移到另外一个新的视角,给脸部做一个特写啊,那我们来看生成的效果,大家看一下这个面部特写做的是非常棒的,当然呢,不是完全一致,因为你会发现这个是一个侧脸,但是这个呢, 呃,稍微有一些转动是吧?这个角度有一些变化,但是不管怎么讲啊,这种镜头推进的效果,这种特写的展现啊,我觉得是没有问题的。好,下面呢,我们看一下第二个 laura, 第二个 laura 呢,我们叫做旋转镜头,那我们经常会有这样的需求,希望把这个镜头呢 旋转三十度,我当时测的时候用三十度呢,效果不太明显啊,所以说呢,我把这个测试用力给大家改成了九十度,而且是向左旋转,那这个图片原始的视角是这个样子的, 那我们旋转之后,大家感觉一下整体的效果呢,也是非常棒的。那下面呢,我们来看一下改变环境,它改变环境的能力呢,也有一个质的飞跃。那我们来看这有一张图片, 这张图片呢其实平平无奇啊,我们看一下有水有高楼,这有一艘船,那我的提示词呢,是把这个场景从白天变成 晚上,那我们来看下最终生成的这个效果,这个效果就漂亮很多了,大家看下这个高楼的一个表现,这个船包括整体水面的反光,以及天空当中的月亮,我觉得处理的都是非常不错的。下面呢我们来看一下重新打光的一个操作, 有一张卧室的图片,那我现在呢,希望以柔光的形式给它重新打光,那大家看一下生成的效果,当阳光从窗户照进来啊, 那整个的这种光影的表现变得非常的漂亮。那我们现在给大家展示的这些实力呢,其实在千闻一昧的 edit 二五零九里边呢,我们都见过啊,只不过就是它们是以 lala 的 形式出现的啊, 而这个二五零幺版本呢,是把这些 lara 给它集成到了这个模型里边。那最后呢,我们来看一下关于产品设计或者叫工业设计的内容,它只不过是把名字变得有点高大上,它其实呢还属于什么图片修改的部分,那我的参考图呢,同样是这个卧室的图片, 另外呢这还有一个裙子啊,这个裙子的材质有点特殊,那我的提示词呢,是希望把床上的那个布就是这个给它换成这个裙子的材质,那大家看一下,就完全替换掉了。那我们在很多产品设计里边呢,就会涉及到 要改产品的颜色呀啊,要改它的材质啊,所以说呢,我们把这样的一个操作呢,给它归类到产品,或者叫工业设计。那这个呢,就是我给大家展示的这十一个例子,其实呢它还有一方面的能力呢,有一个极大的提升, 这个呢我并没有做单独的实力啊,我们简单给大家介绍一下,那这个能力呢,就是它几何学的理解能力,比方说我这有一张图片啊,那我的提示词呢,是希望通过 c 点, 然后像 a d 这条线,我们给它做一个垂线,而且把相交的这个点给它记作记,那看一下最终生成的这个效果 啊,非常的棒。那我为什么没给大家测试呢?我觉得没太大的用途啊,如果是专业的绘图的话呢,我们肯定还是用专业的绘图软件,只能说它能够更好地看懂理解图形, 更好的执行你的操作啊,仅此而已。好,这就是我们今天给大家讲的纤维移位指二五幺幺这个新的模型,我个人觉得这个模型做的非常的棒,强烈推荐大家去试一下。好,今天呢,我们就说这么多,关注我,做一个懂爱的人。

最近呢,阿里发布了一个新的模型,叫做千问 image layer 的, 从这个名字我们也能感觉出来,它主要的功能呢是将我们的图像呢进行分层,那以这种方式呈现的图像呢,可以自由地去编辑,比 比方说来修改某一个图层当中的主体,修改背景,修改文字,改变某一个主体的位置啊,那这些操作呢,就会变得非常的方便。那大家现在看到的是千万 image layer 的 在 github 上的页面,它主要呢提供了两个基础的功能,第一个呢就是分层,第二个呢就是支持二 gba 通道, 也就是支持透明图层,这个非常的重要啊,如果你只是支持分层,但是不支持透明的话,那这个故事呢,其实也没有办法再往下继续。 那目前呢, confui 的 官方呢,也原生地支持了这个模型,那关于工作流的下载的话呢, confui 的 官方呢,还没有提供正式的渠道,那大家可以打开这样一个讨论的帖子,大家看一下。 呃,有的网友在向官方索取这个工作流,那他呢也提供了一张图像,你只要把这个图像拖到你的 confui 里边去,那这个就可以变成一个 confui 的 工作流了。 从他们下边讨论的信息呢,我们可以发现,这个工作流有一个非常大的缺点,就是非常的慢,而且呢,官方也确认了,这个模型呢,的确是非常的慢,那我们考虑一个模型可用的状态呢,效率永远是第一位的。 当然呢,我们有一些改进的方法啊,待会我们可以看到,那同样在 comfy, 在 抱抱脸的仓库里边呢,我们可以看到对应的模型下载,第一个是主模型,那模型里边呢,有两个文件, 第一个文件呢是 b f 幺六的模型,第二个呢是 f p 八的混合模型,大家可以根据自己的算力情况选择合适的模型。那另外呢,还需要下载的一个文件就是 ve, 大家注意这个 ve 呢,和我们之前用到的模型都是不一样的,这个非常容易理解,因为它要在浅空间里边进行分层, 所以说呢, ve 不 可能是我们用到的 flux 或者是 y 二点二这样的模型的 ve。 我 把工作流呢也构建到了 running hub 上,大家可以通过 running hub 点三来访问这个平台。 在 facebook 领域, runninghub 是 一个非常棒的在线工作台,因为只要有新的模型和新的扩展出现,它都会第一时间跟进。大家可以通过我视频描述区的邀请链接来注册 runninghub, 这样可以获赠一千点的免费点数。另外你每天登录 runninghub 也会有一百点的赠送,这样就可以尝试你自己的工作流了。官方的工作流导入进来呢,大概就是这样一个形态,那我们来看一下啊,它主要的作用呢是对现有的图片进行分层, 比方说呢,我这儿有一个海报,那是我之前用 always 生成的,那这是分层的效果,那我们先不管分层的这个效果是不是合理啊,我们就来看一下这个工作流的一个基本实现。首先呢主模型,我这儿加载的是 b f 幺六的模型,那为了让这个分辨率合适啊,我现在对它进行了一个缩放, 把它缩放到了一 k 的 分辨率,并且呢取得了它的宽和高,那宽和高呢?方便我们去生成一个 latent, 大家注意啊,这个 latent 呢非常有意思,它是用的是会员 v 六一点零的 latent, 会员 v 六一点零当然是一个视频模型啊,所以说呢, 它其实是用视频的多帧来体现这种分层的效果,那这个 length 就 非常有讲究了, 大家注意啊,如果你要是分一层的话,需要把 list 设置成五,如果你要分两层设置成九,大家通过这个 序列的变化有没有感觉出来有什么规定?其实呢就是四乘以这个层数加一。那有人说为什么是四?这个很容易理解,因为我们说的一般的图片呢,是包含三通道二 g b, 那如果你要是包含透明层的话呢,就必须有一个 alpha 通道,那就是每一层啊,就需要有四个通道,那这个加 e 加的是什么?其实就是我们最初的这个原始 图片,然后呢是我们的文本编码器和我们的 ve 下边呢,你要注意啊,我们怎么把它分层呢?哎,最关键的是先要把它编辑到我们的浅空间里边去,然后呢我们这有两个 reference latent 啊,其实是要将我们的 参考图片加入到我们的条件当中,那这个是参考图片的 latent, 那 我们分别和我们的正向条件 和反向条件进行对接,这样的话就生成新的正向条件和反向条件。然后呢,由于它是一个分层的,需要将这个 list 给它转成一个训练,然后呢我们进行 decode, 就 可以得到我们最终的这个效果, 大家注意啊,这个如果直接跑的话,会被跑死的,为什么?因为我们采样的时候,它的这个设置是这样的,这是二十步, c f g 是 二点五,然后这当然是欧拉, 下边呢是 simple, 我 们来试一下,大家看一下,采样呢我们就完成了,那我跑这个呢,大概用了五分十一秒,注意啊,这个只是采样的时间, 那生成的效果我们来看一下。首先呢大家要明确啊,生成这个图片的质量是有所下降的,那我们可以通过背景的展现呢,就能感觉出来,如果我现在把这个放大,大家注意啊, 这个背景呢是有一些违影出现的,那我们来看一下原图,原图这个地方呢做的是非常平滑的,那由于呢我这用了十三啊,也就是分了三层,他这是把文字分成了一层, 人物分成了一层啊,然后呢把这个水面分成了一层,基本的效果呢还是不错的,但是呢还是说时间太长了,所以说呢,有很多优化的手段,因为这个模型呢,要么就基于千万 image, 要么就基于千万 image edit, 这个我们可以加一个 lightning 或者 light x to v 的 模型,这儿呢我用了一个 lightning 八步的一个模型,而且是基于千万 image edit 二五零九的, 这个其实你用什么都可以,其实我也试过千威 e 魅智的加速模型啊,只要它是一个八步加速的 啊,基本上效果呢都没有什么太大的问题,那我们这儿呢可以把它改成八步,那 c f g 呢,我们可以设置成一点零,然后采样器我建议大家选成 l c m, 这样速度会更快,然后呢我们再来跑一遍感觉一下,那这个呢也采完成了,我们看一下时间啊,大概用了五十八秒, 这个提速是非常明显的啊,我们再来看生成的这个质量,大家注意啊,分层的话呢,是没有什么问题的,这层呢,总觉得有点莫名其妙啊,包括我们刚才生成的这层也有点莫名其妙。然后呢,就是背景上的确也有这种尾影出现, 这个即便是不加加速模型,这个都是有的,如果你显存不够的话,那我们可以将模型做一下替换啊,大家看一下,那我现在用的是那个 f p 八的混合模型啊,那我的图片呢,是一个乡村美女的海报。 那我们来看分层的效果,首先呢,分层的逻辑不太合理啊,首先是文字,人物呢,只有身子没有头是吧,然后头是单独加进去的,另外背景也会有尾影出现, 这个会更明显一些,所以说呢,如果你的显存够的话啊,我建议大家还是用 b f 幺六的那个模型。那通过我们刚才给大家展示的这个工作流呢,其实大家发现了,就是分层的逻辑可能会有一些问题, 比方说啊,这层到底是干嘛的?那同样啊,这个呢也出现了啊,人物呢,他的分割呢是不准的, 所以说这个时候呢,我们就体现出来谁的重要性呢?就是提示词的重要性。现在我们提示词是留空的啊,它分层的话是没有任何引导的,所以说呢,我建议大家还是在这呢写上提示词,告诉他 这个构图是一个什么样的,那比方说我现在加了这样一段提示词,说一个美女呢,正在展示一个 s k two 的 产品,那我们看一下最后分层的效果, 虽然这有一个空白层,但是你要注意啊,它的确把文字单独拿出来,人物,然后最终呢生成了我们想要的这个海报。那同样我们来看这个,如果我现在加上这段提示词啊, 是一个汉服的美女,然后呢站在一个跑车的前边,那你看一下,它分层的时候,先是文字啊,然后美女,然后跑车,然后是最终的这个图片。所以说呢,我们再一次展示了提示词的引导作用,希望大家呢,不要忽略这一点, 你的目的呢,不是分层,而是要合理的分层。当然根据官方的这个理念的话,我们可以设定分层的个数啊,分几层, 但是有的时候呢,他可能是不太准确的,或者是你分的越多啊,他整个逻辑性就会越差 啊,但是呢,你可以把你拿到的这个图片再次跑这个工作流再分一遍。比方说呢,我们把这张图片放到这,我们再一次进行分层,层数呢,我依然选择三层,大家看一下,现在呢,我们又把它分成了文字 车和啊背景啊这样三层。所以说呢,大家在使用这个工作流啊,如果分层不太精确的话啊,你正确的打开方式应该是用这种方式啊, 让他不断的往下分,而不是你要尝试一次分十层,甚至二十层。那这就是我们说的它的第一种应用场景啊,就是把一个图片拆分成不同的层,但是除此之外呢,它还有另外一个场景啊,就是生成分层的这种 图片,我们来看一下这样一个例子,那现在呢,大家看到的这个工作流是生成这个图片的工作流,大家注意啊,我现在把参考图片去掉了,所以说呢,在工作流当中相关的节点呢也去掉了,其他呢没有什么太大的变化啊,关键是提示词的写法, 你的提示词呢,一定能够准确的说明你要会制一个什么东西,那在这呢,我用了一段啊 views 的 提示词,这个是我之前给大家写的一个提示词工程,那同样我给大家准备了两版,一版呢是中文版, 一版呢是英文版,那我这用的是中文版的提示词工程,关键词呢是保时捷海报、香车美女。 那他会生成这样一个体式词,这个体式词呢是分五个维度啊,来描述这个海报,那我们下边来看生成的这个效果,大家看一下整个的质量呢,还是不错的,你会发现分层的效果,然后精准的程度 啊,分层的逻辑性,这个都没有问题。为了让大家看的清楚的话呢,我不希望他生成这种过爆的这种感觉,那我可以在这个里边给他加上优雅、高贵、宁静。我们来看生成的这个效果,第一层呢是人物加文字,第二个呢是这个背景, 第三个呢是实景的车。我觉得呢通过这个实力,大家会发现如果字太小的话 会有一些问题,这个其实对于很多模型来讲呢,可能都会有这样的问题啊,当然如果不使用加速模型可能会更好一些,因为它一定程度上受 c f g 的 影响,所以说呢,大家要注意这个问题啊,就尽量的不要生成这种特别小的文字。那在这个视频当中呢,我们给大家介绍了纤维 image layer 啊,以及它的原生的工作流,包括我们优化过之后的加速工作流,以及它的两个最主要的用途。第一个是已有的图片进行分层, 第二个呢是直接生成分层的图片,建议大家去尝试一下。今天呢,我们就说这么多,关注我,做一个懂爱的人。

核弹级更新,兄弟们通用千万大模型开源了端到端的扩散模型昆 n m 二 z, 也就是用 ai 实现图像精细化分层与编辑。只要上传普通的 rgb 图像,它就可以精准识别不同元素, 自动拆分成多个域独立的 rgb 图层,如同在 ps 里精心制作的分层文件一样清晰。并且每个图层都能单独操作,不管是改色、换人物、 编辑文字,还是缩放旋转,全都不在话下。这意味着你可以更精准的编辑,还不会影响其他图层,不仅精度高、 还原度拉满,分层数量还灵活可控。复杂的商业海报都能拆分成十几层。以往要先抠图,再手动标注前景背景,现在只要花一分钟就能搞定分层设计,小白都能快速做出专业级效果。目前这个模型可以分为 i 体验,也在 github 正式开源 新闻,这波更新直接把专业图像编辑的门槛拉到最低,以后设计师可以彻底告别抠图噩梦还有分层的头痛了,做拆分的兄弟们也算是有福了。

千问 image edit 二五幺幺,也许你没有听过他的名字,但是你一定在网络上看到过这些图片,没错,大部分都是通过使用完全开源免费的千问 image edit 来制作的。 这次的二五幺幺版本应用范围更广,尤其是在人物一致性这方面,可以说是二零二六年之前最强的模型了, 只要是图胜图的领域,就没有他做不到的。哈喽,大家好,我是 ai 小 王子,本期课程带大家体验千问二五幺幺的各种玩法。 首先讲一下最快速简洁的玩法,打开评论区置顶的链接或直接百度搜索无影零购,也就是左上角的第一个,点击它进入到他们的官网,我在这上面部署了一个千问二五幺幺的镜像啊,进去之后点击右上角的手机号,通过验证码登录 即可注册。创建好账号之后还在这个页面点击立即领取,点击立即领取, ok, 这样子当显示领取成功,就代表你已经完成领取了。接下来找到这边的控制台, 点击零购镜像找到,通过镜像码收藏镜像,输入二零四九七六二八,点击确定就可以直接找到我的镜像。 ok, 完成后呢,我们找到右上角的部署工作,站 在个人镜像收藏镜像里边,点击这个 ai 小 王子千万二五幺幺,点击使用该镜像部署,立即购买即可。首次使用两百毫斯特算力,大概能用差不多四个小时左右。我们可以看到这个配置是英伟达五八八零的显存显卡,拥有四十八 gb 的 显存,三十二核 cpu 和六十四 gb 内存, 都是专业级 ai 渲染配置,并且后续使用呢,价格会更低,以这个配置来看呢,性价比是非常高的。 ok, 我 们点击立即购买,当显示订购成功,我们点击前往查看工作站,就是在这个地方,它会自动帮我们开机进度条,加载完之后,只需要点击这边的 comfyui 就 可以直接进入到我的镜像页面。 ok, 进入之后呢,直接找到左边的工作流, 找到千问二五幺幺,点击即可进入到我给大家准备的这个工作流。简单讲一下这个工作流如何去使用,基本上我们需要修改的就是这边的图片上传部分,还有这里的关键词。有一点需要注意的是,当我们在做溶图的时候, 这里最多是三张啊,因为这边的千问 image id plus 输入像最多是三个 image, 那 么再多的话就要你在合并图像,并且多图融合超过三张,它的效果很差,所以不要用太多的图片去做融合, 般两张和一张的效果是最好的。当我们需要一张图片来做图,生成图的话,我们只需要把其他两个加载图像按住 ctrl b 给它关掉。在这云端呢,我给大家配的 unite 和 clip 模型都是最高配啊, 因为这么高的配置不用顶配可惜了。这里还有一个叫做无影 d i t 加速推理,这个是无影零构云端独有的 d i t 加速技术,真的超级猛,一会大家就知道了,很厉害。我们点击它之后呢,可以看到它能够识别到的所有模型, 比如说千万 image edit, 也就是今天我们要用的模型 one 二点一,二点二,除了生图生视频,它也可以加速, flex 一 点零都是可以加速的, 如果同学们想要调用,很简单,只需要点击上面的无影 d i t 加速推理,它就会自动应用到我们的工作流当中。 ok, 我 们先关掉,先不加速,看一下它的效果。那么今天实操呢,我想先看一下两张参考图的一致性效果,所以我把中间这个先打开,找两张图片,它和它,我想让它在保持一致性不变的情况下,让男人 背着这个女人。 ok, 我 们点击运行,一个男人背着女人的样子就已经做好了,除了人物的面部一致性还原,人物的穿着呀等等还原的都很好, 并且很好的预测到了,因为这个女生是没有脚这个部分的,他也把人物的脚啊,应该穿什么鞋子做了一个预测。 ok, 那 么我看一下首次加载呢,我用了十八秒的时, 那么当我把这个加速节点按住 ctrl b 打开,然后我们再生成,看下它的速度。 ok, 在 加速后呢,只需要用到九秒,不加速十八秒,加速后九秒,这个速度已经非常非常快了,可以说是用了两张图融合生成四张图片,那个速度就九秒的一个 时间。那么一会我跟大家去做个测试,看一下当我们只有一张图片融合的时候,他需要多少秒。 ok, 这个人物一致性的玩法其实是最基本最普通的玩法,我们关闭掉一个图片, 只用一张图片去做图像融合,提示词复制过来,点击生成。我们看一下他做创意图生图的效果,人物转成了卡通抽象风格,但人物的面部做了很好的还原,对吧?还是依然保持着他的写实风,并且主要看这里啊。 这次一张图做融合生成的时间只有六秒钟,速度真的是惊人的快,那么再试一下跨次元的玩法,这次我们要用两张图片,前一段时间非常火的疯狂动物城,大家可能有看过啊,人物和两个主角的一个自拍, 这个其实就可以拿千万的二五幺幺来去制作,只需要一张人物的图片,我们还用这位女士再上传一个参考的一个兔子和狐狸,把关键词附上来,点击生成, ok, 我 们就可以看到一张这样图片, 我们看一下啊,人物保持一致性没有问题,比如说这边蝴蝶,五个蝴蝶对吧?竖着拍,还是五个蝴蝶裙子的颜色呀?然后场景也通过我们关键词做了改变, 像狐狸和兔子两个人物的还原度也是非常非常高,对吧?不过有一点瑕疵,不得不说这个图中图他在中文书写上还是有一些欠缺的,尤其是远处的一些文字。接下来我们再做一个人物的海报设计,比如说这个女士,我想让她做一种大师级极简的海报, ok, 又是五秒钟生成的,看一下人物的一致性还原效果是不是非常非常好。不过人物的发丝是做了一些更改,因为我们强行把他的这个人物做了一些简单的风格转变,所以这种海报风格用千万的二五幺来去制作也是很不错。 再试一个人物的创意设计,创意设计我觉得是非常有意思的,所以我们再试几个,比如说再换一个小姐姐, 我们把这个关键词复制过来,点击运行。 ok, 在 人物保持不变的情况下,辫子呀以及前面刘海都没有变,只是给他变了一个发型的颜色, 对吧?人物的长相也是很相似的,所以从这种不同的角度来讲啊,他的一致性几乎是没有问题的。除了写实人物的一致性,我们再看一下,当我们把一个写实的人物转变成其他风格, 比如说我们常见的匹克斯风格的图像,它的还原程度效果是怎么样的?是否能在人物转风格的同时, 也能保持原有人物风格的模样? ok, 你 看这个转的也非常好,人物转成了匹克斯风格。那么除了上面这些呢,其实还有一个非常有意思的,能不能通过千问的二五幺幺帮助我们制作一套九宫格的表情包呢?没问题,把我们想要的人物,比如说小王子 ip 自己来做个测试图片放进来,再通过我们想要的关键词,比如说我要做一套九个超级可爱表情包,具体每一个上面写的什么字,什么表情,都是在这点上去修饰的,我们看下它的效果。 ok, ok, 大家看一下, 也不想起床学习啦,躺平啦,你看是不是在保持人物一致的情况下,做了不同的表情,然后一次性给你生成了九个, 而且还带了很多的文字,那么文字大部分呢,可以说是都正确,但是有部分是不正确的,这是一个非常正常的现象,我们可以通过不断的去刷图等等等等方法去给他做改变,是不是非常非常的好玩?但我想跟大家讲的是,前面我们制作的所有图片, 不管是创意啊、表情包啊等等,都不是二五幺幺最拿手的,二五幺幺最拿手的其实是打光,没错,比如说我们看一下啊,一个室内的场景,我们想把白天的光线改变成夜晚的光线啊,在这边输入,把这个房间整体的光线改变成夜晚的光线,要确保其他家具保持不变, ok, 做好了我们看一下啊, 首先我们先检查一下家具的位置有没有改变,没有吧,对吧?都是完全一比一的还原的,并且有个小细节啊,外面的自然光也做改变,两盏床头灯它是自动去识别到哦,这两个灯是晚上可以打开的, 非常非常的强大。这个是室内场景,那我们平时用的更多的可能是写实人物的摄影打光,那提示词可以简单写一下,比如说伦布朗光光源方式,我们看下它的效果, ok, 一 种伦布朗光的效果就出来了, 再改变成一个自然光,看下它的效果, ok, 这个就是自然光,那个效果其实并没有太大区别,因为原图就很自然光。除了这些,我们还可以控制光源的来源,就是从哪里来的光源啊?比如说我让他在右上角打一束蓝色的光, 再在左上角打一束紫色的光,看看他能不能识别我们图片的位置,以及灯光的颜色,还有一些交互, ok, ok, 我 们看一下强不强啊? 我这里说的是右上角是蓝光,左上角是紫光,对吧?右上角蓝光,左上角紫光,并且他不只是照到了人物,他还反射到了人物的衣服上。同学们,大家觉得强不强? 那么接下来我想再给大家去看一下他的第二个强项,叫做模型的空间理解能力。假如说这张图片,我们先放大看一下这张图片,我想让他将镜头平移至桌面做一个特写,我们看一下他是否能完成。 ok, 同学们看一下左边是原来图片,我让他 向前进,就将镜头平移至桌面做一个特写,镜头转到这边水龙头这样子,然后这边有画,对吧?还有这个小盆栽以及桌上的案板。讲实话啊,桌面上案板从左边图上来讲,应该不是这几个元素,但是整体的样子 他还原的同学们觉得是不是非常的像,以及这个放在案板的部位对吧?虽然元素是什么我们也不知道,因为原图这个也不是很清晰,所以它自带一些自动推理,自动预测功能。 这个是室内,我想再让大家去看一下室外这个效果。给他一张新图,我给他的提示词是展示这个建筑物的测试图,我们看一下这正视图,这是原图展示他的测试图。 首先从这个结构来讲呢,是几乎上是没有问题的,让他展示到了一个另外一个角度拍摄这个建筑的图片,他对空间的理解能力啊,不管是在室内还是室外,都是非常非常强 的。那最后呢,我想给大家去再展示一些工业设计的效果。 ok, 我 先上传一张奔驰汽车的图片,我告诉他在保持车身所有细节不变的情况下,把汽车颜色改成黑色。 ok, 我 们看一下是不是成功的把颜色改成绿色, 其他颜色就不用说了,比如说改成紫色,紫色也是轻而易举,但这个功能啊,很多都有,我想做一些更复杂的颜色控制,比如说我想让他把上半部分变成紫色,下半部分变成绿色,看下他的这种空间和颜色的控制效果怎么样? ok, 说了是上面紫色,下边是绿色,对吧?所以我们可以看到这个模型啊,一是他的语理解,二是颜色,三是一致性。不得不说,这个做了真的很棒, 尤其是在我们做工业设计的时候,我们可能比较喜欢这个 no 领风格,就是把一个汽车拆解成不同的零件,然后散装放到地面俯视拍摄的一种效果。对,大概就是这样的一种效果,也是轻轻松松,轻而易举的就给他解剖成不同的零件了。 那么今天展示的内容呢?其实只是千万二五幺幺的冰山一角啊,基本上只有想不到,就没有他做不到的图生图, 同学们下去一定要好好玩一下开源的二五幺幺模型,可以说已经逐步可以代替闭源的 banana banana 了。在背课的时候啊,我觉得有一点可以提升,就是生成图片的数量。比如说我要一次性生成十种不同的风格图, 这个时候呢,他只能一张一张随机生成,并不能一次性生成十张图片。就像我在这里边关键词输入给我生成十张图片, 他只能给我生成一张图片,他顶多是一张图片拆分了十张图,比如说刚刚那种九宫格,这里还是比较难调的,如果这点 comfy 还可以突破的话,我觉得他离闭源模型那个差距又缩小了一步,这个功能可以提升非常非常高的一个效率。不过还好我使用的是无影零购的五八八领跑的, 配合这上面无影的 d i t 加速,只需要五秒钟就能跑一张图。并且这个云端呢,它是一托于阿里云强大的底层技术,不管是 to c 还是 to b, 都能够提供安全、稳定、高性能的 ai 技术设施。 同学们一定要去体验一下。无影的速度真的是快到无影!点击评论区置顶即可直达。顺带一提,无影零购的工作站里有很多已经部署好了镜像,在公共镜像的生态镜像这里,有一个日更的镜像师,就是海米的这个 m m x 定制版, 几乎每一个扩展和模型它都会在第一时间更新上去,有需求的同学可以上去使用一下。 ok, 本期课程就先讲到这里, follow me, 让你轻松掌控 ai!
