粉丝7451获赞4.6万

大家好,这里是刚下班拉凯,今天主要是分享一下美团在十二月九号的一个两篇文章更新,以及他上线了一个凹的一个 ai 模型,我们会对他的一个六种风格深图体验来测试一下,是买家秀还是卖家秀?我们先看一下卖家秀, 首先第一眼我们应该去看他的一个画面,质感给人感觉是吧?有没有美感,中文字,英文字有没有什么错别字,整体感觉还是非常不错的。接下来是他一个图片编辑能力,比如说把这个寿司改成汉堡对吧? 这个添加一个人物,把这个饮料去掉,包括这个标题字的修改,感觉还是相当不错的。那目前的话在十二月十号, 那目前这边一共有四款模型,就龙猫系列的模型一个,一个是 ad 模型,一个是 image 模型,这两个还是需要空谷 ui 的 一个本地支持,那如果你是吧你非常着急的话,你可以在本地里去安装这个空谷 ui 的 一个 节点,可以自己去尝试一下,当你的对你的显卡要求比较高,接下来就看一下就是他们这个六个风格的一个系统效果是怎么样的。首先是第一个风格啊,就是这是我自己就是去深图的,他每天可以生成一百次,一个是海报对吧? 海报的文字感觉还是可以的。然后接下来就是一个字体设计,就是中文字的字体设计,标语字,对吧? 然后这边的话我特别做了一个实验啊,左边是一个默认滤镜,右边是加一个,加一个中国风的一个滤镜,默认滤镜的话是没有任何的一个, 因为我只只输入了一个对于标语字的一个描述,没有添加任何的,包括中国风也都没有添加,那这边的话也是同样的提示词,但是我选择了一些中国风的元素, 那以及这个是凹凸起的设计,那以及快要过圣诞节了嘛,做一个圣诞节的海报,然后呢?对这个圣诞老人的这个手是不太满意,我想改成黄颜色参考图片,直接上传个参考图片,把圣诞老人的手改成 黄颜色图片,编辑能力还是是相当不错的。然后接下来是一个电商风格的一个海报,就是这个双十二的一个海报,红包做的有点怪异啊,红包跟这个有点怪异,然后以及一个卡通风格, 然后接下来是一个中文的,一个就是一个古诗,床前明月光的古诗,然后已经把它换成英文,对吧? 字迹很清晰对吧?没问题。接下来是一个摄影风格,第三个摄影风格,东方美学的感觉,对吧?有 以及我们的美妆。接下来是把这个底下的换成那个中国风的风格,也是有种水墨画的感觉, 以及赛博朋克风格,对吧?就但是多了很多文字,我们看过这些,是吧?我自己生成的,叫做买家秀,我们来再读这两篇文章就会稍微好一点点的,我们再来读这两篇文章就会更容易理解,他主要是介绍一个三大功能亮点,一个是图像生成,对吧?我们也看了, 然后有编辑能力,编辑提画对吧?就是改头发,改微笑,然后这个是拉远,这是保持相同的姿势,然后是修改眼睛,这是删除增加中文,对中文特别支持,是吧?超能的,生僻字也不翻车对吧?那汉字做的比较好。快速生成 一个摄影棚质感的画面,技术方面的一些支持。然后再看第二篇文章,第二篇文章会讲的技术能力会比较多。主要是进行对比啊,这个是一个把这个原画改成复古风格的画风, 然后这市面上一些主流模型啊,比如说奇梦或者是 banana, banana 进行对比,然后这是一个把这个图片的男孩的这个改成一个,画成一个爱心的一个形状,然后这个是一个,就是以参考图片一花朵的颜色,对吧? 生成一张带有花盆的木桌,花朵去与图片中的花朵颜色一致,对吧?颜色都能保持粉色粉色的一致,这个是改变,这个是改变。相机的视角,改成一个俯视的视角,这个是歪的,这个是没有没有变化, 这个是稍微拉近了一些视角,这个是也。这个是改成了一个低角度,但是可能没有那么低吧。 然后这个就是人趴在地上,对吧?往上看,把这个这个样鼓中的这个机器改成放在胸胸前,放在胸前就是放头上,就是放腿上,就是放胸前,这个放胸前就是举举高了看,然后这是放胸前, 就他意思就是说啊,我的这个图像的辨析能力在主流模型里是不差的。 然后亮点二是一个中文生成的精准覆盖,这个已经看了很多了,对吧?中英文没问题,长文以及一些生僻字,对吧?其他的性能验证你可以直接看结论啊,就是说我们与头部开圆闭圆模型,是吧?依旧具备较强的竞争力, 那我们看完这两篇文章之后呢?这是二零二五年九月十二月九号的文章,我们再来看一个,这应该是 应该是二三年的文章,对的,我们测这个罗拉模型是当时的 ssd stable different 的 模型,那当时他们是怎么训练这个模型呢?是通过一个是训练级,就是他们是通过照片改成手绘稿,将手绘稿进行 啊, ssd 的 一个生成,对吧?改成一个比较符合他们要求的一个训练级的素材,对吧? 罗拉的模型训练,是吧?训练级处理罗拉训练测试能评点上线,能通过一个打标,是一个机械打标,再加人工打标,然后我们看他最后一个产出的结果,是一个中秋的一个海报以及各种资源位,对吧?印在各个资源位上。

毫不夸张的说,这个国产的图像生成模型完全可以挑战国外的最强模型了,它就是痛一千万的 z image。 目前国外最强的生图模型当然是 nano banana pro, 那 么如果给 z image 和 nano banana 一 段同样的格式词,它们生成的图片到底是否有差距呢?这个视频我们就一起来测一下到底谁更强。视频的末尾我也会附上 z image 的 本地安装盒,在现使用教程。话不多说,我们直接开始。 首先我用这个提示词,让他们分别帮我生成四个人物的立体 q 版迷你人偶,每个人偶要穿上最具代表性的服饰。这是 nano banana pro 给我的结果,这是 z image 给我的结果。 可以看到他们都非常精准的理解了我的需求,如果说对哪个更满意,我认为还是 nano banana 的 一致性更好一些。接着我又输入了这段提示词,让他们分别帮我生成巴黎、纽约、罗马和悉尼这四座城市的三 d 立体模型。 nano banana 给我的结果是这样的, c image 给我的是这样的。这次我们可以看到两个都做得非常好,他们都把这四座城市最具代表性的地标建筑找出来,做成了立体模型,也都很有质感。 随后我又输入了这段提示词,让他们继续做这四个城市的立体图像,一决高下。这是 nano banana 的, 这是 z image 的。 这次可以看到 z image 出现了一个小小的事物,这块没有完美融为一体,而且从整体的色彩和质感上,我认为还是 nano banana 处理的更好。我让他们继续 pk, 这次我输入了这段提示词,让他们生成一只穿着羽绒服的鸟站在树枝上的图片。 先来看 nano banana 给我的结果,再来看 z image 做的比 nano banana 更好,也更符合我们大多数人的审美。 随后我又输入了这段提示词,让他们帮我生成一个微型人用割草机给巨人修剪眉毛的照片,并且特意强调了不要塑料模型。很快 nano banana 给了我这样的结果,而 c image 给我的是这样的。 通过对比可以很明显的看到, nano banana 生成的为行人有真人感,完美符合我的要求。而 c image 的 微型人则是塑料模型,并且我试了好几次都是一样的结果。 接着我输入新的提示词继续测试。这里我输入了一个地理坐标,分别让他们生成这个地方的日落图像。说实话这个有一定的难度,但没想到他们都完美识别出来了,这个坐标是希腊的圣托里尼,并且生成了日落的景象,这个要给他们点个赞。 不过从色彩和质感上来看, nano banana 似乎更胜一筹。随后我还想给他们上点难度,让他们生成中国山水画风格的图片, 于是给他们输入了这段提示词,让他们通过古诗作画一决高下。没想到这次两个都翻车了。 nano banana 凭借强大的文本身成能力,文字上没有任何纰漏,但他生成的伊人是男的, c m h 虽然知道伊人是女的,但他的文字却出现了乱码。 到这里,我的测试完毕。通过这些实测,我总结了一下, c m h 和 nano banana 相比,除了推理和文本能力上还有一点点差距,其他方面其实已经非常接近了。如果抛开 nano banana, 我 认为它甚至已经能调打国内外众多的胜图模型。 而且非常难得的是, c m h 是 免费开源的,可以部署到本地,支持定制微调。另外它只有六 b 配置,门槛非常低,随便一台显存显卡性能高一点的电脑就能完成部署。 最重要的是,对于我们普通人而言,它的升图速度非常快,只需要几秒钟就输出给你,所以这个六 b 的 模型干的却是三十 b 的 事。最后,如果你想本地部署,可以去这个地方直接下载安装即可。如果你想在线使用 z m h, 就复制这个地址,进入之后直接点击图片生成,在这个页面里,系统默认的就是 zame 模型,直接输入提示词即可开始创作了,而且完全免费,图片也没有任何水印,这还要什么自行车,简直太香了朋友们!

哈喽,同学们,我是旭 sir, 这节课给大家讲一下 stable diffusion 图声图的一个基础操作。 图声图的逻辑其实跟文声图都是类似的,都是需要基于我们的文字提示语去生成图片,相比于文声图的话,他是多了一些图片的一些基础操作的功能,可以基于一张图片进行修改,通过点击上面这个图声图,他就可以切换到图声图整个这个模块里。 那我们看一下这个页面,其实他跟纹身图的一个差异也没有那么大,他只是多了一个图声图这个上传图片的一个这么大的一个模块, 这里有几个操作,第一个是图升图,第二个是绘图。当我切换这两个操作的时候,发现下面的数据其实并没有发生太大的变化,第一个是多了一个缩放模式,这里边有一些操作可以修改。那第二个呢,是多了一个重绘幅度, 那这个参数呢,也是我们可以进行调整的,那这些我们一会会给大家讲,那如果点击第三个局部重绘的话,那这里面的参数变化会大一些啊,比如说蒙版模糊、蒙版模式等等关于蒙版的一些设置,这三个局部重绘的一些界面基本上也都是类似的,只不过在一些功能上有一些细微的差异。 最后一个批量处理,这个比较好理解,就是选择多张照片,然后进行统一的批量的处理。 ok, 那接下来我们看一下图声图第一个这个模块的一个基础操作, 首先我们需要选择一张图片,把它弄进来,把图片拖进来的方式有几种,第一种呢就是点击上传啊,点击这里边我们可以去上传一张图片,同时我也可以在其他的平台,比如说这个 c 站里边,我把这张图片直接哎选择拖进来,拖进到这个模块里,他就会自动把这张图片上 传进来。比如说在文生图里面,我们给好关键词提示语,然后去生成一张图片, 生成之后呢,我们就可以在这张图片的下面看到一个图生图的一个按钮,点击这个图生图,他也会把这张图片以及图片的信息啊自动的填充到这个图生图这一个模块里。 第三种方法就是在图片信息里面,当我们把一张图片拖到图片信息这个模块里之后,他右边就会展示对应的这张图片的信息。下面呢也有一个图生图的按钮,点击这个图生图,他也会自动的把这张图片以及这张图片的信息自动填充到图生图这个模块里边。 ok, 然后我们再看一下这个下面的一些操作,这里面有一个缩放模式,缩放模式里下面有拉伸、裁切、填充以及直 直接缩放四个操作。这个缩放模式他可以结合这个画面的宽度和高度进行调整。比如说我这里面调整一下他画面的宽度,在视图里就会出现一个红色的框,那这个红框呢,就是决定我们生成的这个画面的一个宽度,比如说我们大概 把它调成一个这样的一个宽度,然后下面的重绘幅度我们把它调高一些。这个重绘幅度指的是新生成的图片,他跟原始的图片的一个匹配度, 比如说我们把这个数值调的越高,他生成的结果可能就更加偏离于这个我原始的这张图片。那如果说我把这个参数调的很低的话,那生成的这张图片他还会更加接近于原始的那张图片。 ok, 那我先把这个参数调高一点点啊,比如说调到零点七左右, 然后我点击生成图片,我们看一下, ok, 这就是生成的结果。生成的这张图片的宽度相比于原始的图片啊,他就变窄了一些,这是因为我们刚才改了宽度的这个参数, 那如果说我们把这个重绘幅度给他数值调小呢?因为我们现在看到的这张图片基本上没有造成太大的一些拉伸的图片变形的一些效果,这是因为我们刚才把这个参数调大了,如果说把它调小,他会变成什么样的?我们看一下,比如把它调成零点零六、零点零七吧,我们看一下 点击生成。哎,我们再看一下这张图,这张图他生成的一个效果基本上和我原图是非常接近的,但是他在宽度上进行了一个压缩,这就是因为我把重绘幅度给调低了。重绘幅度参数调低,他的 带来的一个结果就是他生成图片更接近于我原始图片,但是我已经更改了这里的一个缩放模式,他还会把这个宽度进行缩减,所以他就会造成这张图片进行了一些拉伸变形的一些这样的效果。 ok, 那这就是拉伸给我们带来的一个效果。我们看一下第二个裁剪,点击裁剪之后,我们也可以拖动一下这里面的一个宽度,假如说我们拖动到这个一个宽度吧,然后我们再把它高度也改一下, 高度是控制上下的一个啊这个高度的比例的,比如说我们改成这样,我们再去点击生成一下, ok, 他就会生成我刚才裁剪的那一个部分的局部的模块,这就是裁剪带来的一个功能。然后我们再点击一下填充,我们看 一下,然后把这个高度重新恢复一下,然后呢我们把这个宽度啊给他改宽一点,就是改到这么宽,然后我们再点击生成看一下, 然后这张图片呢,相比于原图,他左右就会变宽很多,但是变宽之后呢, ai 并没有把左右两边的这些内容给填充进去,他只是进行了一个拉伸处理,这个效果很显然不是我们想要的,那我们怎么办呢?可以把重绘幅度适当的调高, 重绘幅度调高之后呢,他就会自动把左右两边拉伸的这个部分给填充一些信息,填充一些图形的内容啊,给他填充进去。但是同时他人物可能也会发生一些比较大的一些变化,比如说我们改成零点六吧,然后再去点击生成, ok, 我们看一下他两边基本上就给我填充的还不错。然后但是人物呢,相比于刚才的那张图,其实他的变化还是有一些的,那这张图其实相对来讲控制的还好, 生成之后呢,这两边多出来的一些内容就给我自动的填充进去了,但是人物呢,也稍微发生了一些微微的变化,这就是填充这个命令。最后一个是直接缩放,直接缩放其实跟拉伸有一些类似,我们调整这个尺寸之后呢?呃,这个参数可以再适当的小一点, 然后我们再点击一下生成,他其实也是把这张图片进行了一些拉伸,其实这功能我们并不常用,最常用的还是前三个拉伸、裁剪以及填充,记住这三个功能就好了。然后下面的这个参数刚才给大家讲了,就是 不会幅度。这里再给大家强调一遍,这个参数呢,我们调的越高啊,那基本上他生成的这个图片就更加偏离于我们原始的这张图片, 如果参数调的更低呢,那生成的这张图片他会更加接近于我们原始的那张图片。这个重绘幅度呢,他会影响到这里边的采样迭代步数,因为当前这个采样迭代步数是二十八,我把它调的高一点吧,比如说调到四十,然后呢这里边的参数我调到零点五, 这样好算一些,他是怎么计算的呢?如果说采样迭代步数是四十的话,那生成的这张图片他应该是大概跑四十步,那如果说我把重绘幅度调成零点五的话,那就是四十的一半,那就是大概跑二十步左右,二十到二十一步,那我现在按照这个 参数,我去点击一下生成,然后点击,然后把这个控制台给打开,看一下这里的参数,哎,还是二十二十一,那这个参数其实就是刚才我改了这里边这个四十和零点五这两个参数造成的那个结果他就跑了二十步左右,就是这样的一个概念。 下面这里有一个随机种子,这个种子是什么意思呢?我们对应生成的这张图片,每一张图片他都有一个种子值,就像下面这个信息里面就包含了一个 c 的值啊,四幺八八等等等等。这个 c 的值呢,就类似于这张图片的一个身份证的一个号码,每一张图片他都有一个 c 的值。 举例子,如果说我们使用同样的种子值,并且使用同样的正向描述语以及负向描述语,那按照道理来讲,生成的图片应该是完全一模一样的,这就 是种子值的一个概念。那种子值右边还有两个小按钮,一个是骰子,点击一下,这个骰子呢,他前面的数值会变成负一,这个负一表示生成的图片就是一个随机的种子,他可能是任何一张图片的一个风格。 那后面这个按钮呢?点击一下,他会恢复到原来我上一张生成图片的那个种子时,那点击之后呢,他就会自动变成刚才上一张就是四幺八八等等等等这个参数。 接下来我们看一下绘图的功能,呃,这里我选择一张啊,存好的一张白色的图片 啊,什么都没有。切换到绘图功能之后呢,右上角有两个操作,一个是画笔,这里我们可以调整画笔的大小,画笔的粗细,然后另外一个呢是画笔的颜色,我们可以随便改一个颜色,比如说改一个蓝色吧。那还有一种方式呢,就比如说我在网 上找的一张图片,还以这张图片为例吧,我把这张图片继续拖到这个绘图的这个面板里边,拖进来之后呢,我们看一下这个人的头发,这个人的头发的侧边呢,稍微有一些稀疏,那我们希望把这个人的头发侧边啊变得浓密一些,那么可以怎么办呢? 把这个画笔啊调的再稍微粗一点点,然后把这个颜色呢改成一个纯黑啊,或者直接吸一下这个人物的头发的颜色也 ok, 稍微偏棕色一些啊, 吸一下这个胡子吧,稍微偏紫色一些, ok 的。然后把这画笔再调大一点,然后把这个位置,把他头发的这个位置给他描一下, 希望他更加浓密一些,哎,大概画到这个位置,然后呢,我们可以把这关键词也复制过来, 然后反向关键词也复制过来,然后我们再去点击生成,看一下它的效果。 哎,这出错了啊,这个是因为我这边的一些参数没有变,我们把这个参数啊调整到他的实际的画幅的大小,大概是 五幺二吧,五幺二七六八, ok, 五幺二乘以七六八。采用方法,然后我们选择这个比较常用的这个关键词,我们再补一个吧,补一个 blackpire dla ck, 然后把这个重绘幅度参数稍微调大一点点,调到零点六左右,然后点击生成,我们再看一下。 哎,把这个图片放大一点,哎,现在这张图呢,他侧边的这个毛发,就相比于我们之前刚才拖进来这张图片,他的毛发就要浓厚了很多啊,这个也是绘图的一个功能的一个用法。