粉丝1.0万获赞12.3万



hello, 小 伙伴们大家好,那么悄无声息的呃,百度发布了一款他们的图片模型啊,就是这个 文心 image 这个模型啊,那么这个模型它是一个八 b 的 模型,那么 comfy 官方呢,也在第一时间做了这样一个支持啊,我们看到了,它也是跟我们正常的 模型一样啊,就是分成几个分体模型啊,一个是 diffusion models, diffusion models 我 们看一下,它里边也是分了两个,一个 turbo 版啊,我们理解为就是一个加速的啊,蒸馏版的,那还有一个呢,就是我们的标准版, 同时呢它的 textencoder 用的是比较奇怪的啊,用的是这个 miniskirl 啊,是个法国的一个模型,估计还是因为一些面子问题吧,不会用到千问啊, 没用前文那个模型,因为前文现在是比较主流的一个泰森浏览器嘛,做 clip 的 一个模型。而 ve 呢,就是用的 flux 二的这个 ve 啊,用的这个 ve, 那 么 我们把这模型呢下载到 comfy 啊 model 目录下的对应文件夹就可以了哈,那我们感受一下,使用一下这个模型,那么同时呢,也跟我们之前的 z mage turbo 呢作为一个对比啊,这两个模型呢,我们用的也是 turbo 模型做对比啊, 它这个 turbo 模型呢,我们看啊,正常的加载就在这里啊,直接这么加载啊,就完事了主模型,然后呢这里下载我们加载我们的 clip 啊,类型选择 flux 二, 然后呢 ve 就 加载我们 flux 二的 ve 就 可以了,这里因为它是个 turbo 模型,所以说它这个条件零化呢,也要接上啊,就说没有负面了,八步啊,一点零, 然后这就是他的这样一个基本的参数哈,那么这里我们看一下,我也跑了很多组的对比啊,差不多十组,我们看看。先是一个风光的哈, 我们能发现这个模型其实有一个特点啊,因为跟 z 妹子放在一起对比的话,就容易发现 他是比 z 妹子更锐,就是色彩饱和度更浓哈,我个人感觉其实有点点过你和的感觉啊。嗯,这是第一组的一个对比哈, 再来看下一组啊,这是一个菜市场这样一个场景,这个对比我觉得比较明显,能体现出这个模型的一个特征啊,就是他的这种细节,这种结实的程度,图片的结实程度要比 z 妹子要好啊。我们看 z 妹子的话,呃,人物呢, 包括这个整个画面的图片的一个边缘呢?他会稍微有点模糊,但是看到这个呃温馨的地方,他是处理的更好,包括角色的一些面部啊, 处理的会更清晰一些,就是对比度,边缘的对比度会更强一些啊,大家可以看一下这两个图片的对比,比较直观的看的出来啊。 ok, 那 我们接下来下一组哈啊,这是一个马眼的一个近距离特写,这个也能看出来, z mate 它的这种细节就 感觉会少一些啊,就是说,或者说就是说纹身这个模型呢,他会更加的强化这种细节啊,会给人一种过你河的感觉啊,会给人一种过你河的感觉,包括这个色彩饱和度,大家可以看一下色彩饱和度啊,对吧? 啊,这个细节其实因人而异啊,并不是说他一定是一定要非常多就好啊,但是说有时候增加一些细节,在某些场景是比较有用的,特别是像刚才这个场景啊,他的效果就会更好一些。 ok, 我 们再来看下一组啊,这是一个就是肢体表现的啊,我让他做了一个瑜伽动作的这样一个模型,那么这个我跑了好几次哈,我会发现他也会有肢体崩塌的一个现象啊,也会有肢体崩塌的一个现象,那么左边是 z 位置的啊,然后右边是我们这个纹身的这个模型, 这个模型他这个表现是正确的哈, 而且这个我在跑的过程当中也这个纹身的模型也出现了多手多脚的现象。但是同样啊,我们再来看画质,它的画质同样还是比这个 z 英寸 turbo 呢更结实啊,这 z 英寸 turbo 会发灰, 那么还是这样啊,纹身这个模型它的色彩的饱和度,还有边缘的锐利度都会更强一点。 ok, 那 么我们大家看中文的这样一个表现啊,这是做了一个视觉的一个效果的啊,那么这样看出来,其实这个模型它就会在细节上面会比 z mate turbo 呢会 增加更多啊,像我们这些文字的这种,对吧?这种水墨的这个一个呃浸染的一个效果啊, 晕染的一个效果他这边就有,但是这里面的 turbo 就 没有啊,包括抽卡几次我都会,我都发现这个问题啊,就是这里面 turbo 像这些细节他就缺乏啊,但是说在这个纹身的模型里他就有,当然这还是说因人而异啊,并不是说就是说一定要有他就是好的哈, 我们再来看看这个角色的,那这张图给我的感觉呢?就说他这个这图片的皮肤的质感哈,会比 zimh turbo 呢,更加的接近人类的真实的一个质感啊,会说白了会有点脏。 zimh turbo 我 们都知道啊,它是一个美学这个强化的模型,对吧? 他在这个呃,怎么讲?就是说是经过我们社区很多大佬的这个美学的一个提升过的啊,所以说这个可能审美上更符合我们些,但是真实度上,他的皮肤质感可能在这个纹身上面表现会更好啊,感觉他这个模型刻意做的, 那么这个图片给我感觉其实有点像刚发布的 one 二点七那个 image 模型啊,就是它的 one 二点七的图片模型啊, one 二点七图片模型也是这种倾向啊,就是更倾向于真实的皮肤这种质感哈,它也有这种倾向。 ok, 我 们再来看下一幅,这个是个二次元的,二次元呢,也是一样,也非常明显的,就是说我们这个呃纹身的模型呢,它的这个色彩更加的浓一些啊,更加的,呃,怎么讲?还是说饱和度啊,就是 都是更强一些啊。那么 z e m h turbo 呢?还是啊,会有点会,当然是放在一起对比的,你单独拿出 z e m h turbo 这张图来,效果也是不错的啊。 ok, 那 我们再来看看这个啊,这个就是说一个古风的那么本土模型吗?他肯定是对我们的本土这服饰啊,优化都是没问题,挺到位的 啊。这里我们也能看出一些特点,这个模型呢,他其实在这个面部角色的面部表现上,他更避免了一些。怎么讲呢?我们可以理解为,呃 面部这种锁脸这种现象啊,他这个面部其实更接近我们正常普通人的拍照一个,当然最里面特步这个是很漂亮,非常漂亮的啊,这也是我们 梦想中的一个完美的一个形象。但是说呢,这个文心呢,他这个角色就不是那么完美,可能就是因为不那么完美,所以他更可能看起来更真实一些。 那么有一点是比较强的,就是说他这个模型的这种文字表达能力是比 zimera turbo 强的哈,我们看这个就是啊,这个旁家来猜想,这个是,呃,他们官方的一套提示词啊,我们看看 这个就明显看出来哈,就是 zimera turbo, 它的中文,特别是在这种大量的文字的体现当中呢,是没有这个文心这个强啊。不过这个 zimera turbo 我 们也知道啊,它其实相当于一个摄影强化模型,对吧?摄影强化模型,它对这种二 二 d 的 这样一个体现呢,都是会稍微差一点啊,但是这个文字的这个能力,我们看看啊,嗯,确实啊,文心这一点非常好啊,我只能说非常好,这点是要强的哈。 再来看一个,这个就是一个,也是一个有点像那种罪恶都市那种一个画风的这样一个图哈,那么同样的啊,这个也是非常明显的这个,我们这个色彩的浓度纯度啊,色彩纯度, 特别这个红比这一面的 turbo 是 要更浓一些啊,当然还是说这个都是因人而异啊,看大家他喜欢个人选择哈。 ok, 那 么还有呢,就是他还提供了一个什么模型呢?就是我们这个标准模型,标准模型的话, 那它是有负面的啊,有负面条件的,那么它这个单独的模型呢,其实还有一个提示词强化这样一个节点啊,操作啊,就说它可以接入这样一个 textgen generic 啊,就是说这个提示词的一个生成,那么我们可以直接在前面 输入比较比较简单的一些提示词,它就会把其他一些补强啊,直接接入我们这个 clip 啊,然后这个跟我们 ltx 那 个提示词强化是非常类似的一个操作啊, 这里呢注意这个工作流里边,就官方的工作流里边,他有这样一个选项啊,就说你如果要用提示词强化,你就把这个打开啊,变成处,如果你想直接用你这里的提示词呢,就是不需要他做强化,那你就把它关掉就可以了,那他就会直接按照你这里的提示词进行一个直接的生成,而不会去做一个强化。 那么这里我们也跑了一下,跟他这个普通的 turbo 模型做了一个对比啊,他标准模型的话就是,呃,步数和这个 c f g 呢,都不一样啊,步数的话,我们看这边的话,他这个官方呢,康菲尔官方给的是二十步啊, c f g 给的四点零啊,那么速度呢,就是会比这个我们 turbo 版的慢一些啊,我这边跑的时候是,呃, turbo 版用了差不多 十三秒啊,然后这个标准版呢用的是二十八秒啊,当然我这边跑的都是一个幺五三六乘幺零二四这样一个分辨率啊,都是这样一个分辨率。 然后我们再来看看图片啊,我们按照正常理解来说, turbo 版的话,他肯定是就是说因为蒸馏过了嘛,蒸馏过的话,他的这种画质和表现其实应该是比这个原始版的要好一些,我个人感觉也是啊,原始版的话他会有一些发挥啊,这也是正好给大家看一下他的二次元的表现, 那么就是说 turbo 版呢,也是就说效果也是不错的啊,我感觉这个时候大家用 turbo 其实就挺好, ok, 那 么这就是百度这样一个新模型的一个感受啊,其实在一直以来,大家对百度在 ai 方面呢,其实都觉得它好像是没有那么 呃,特别是图片, ai g c 方面的话啊,没有那么的强大啊,就说很多东西都是闭源的啊,就是之前有些模型也是闭源的 呃,但是呢,这次他开源了,这个模型体量也不大啊,是个八倍的模型,接近于克莱因啊,接近克莱因, 然后呢,速度也挺快的,因为他跟 zimi turbo 的 速度差不多啊, zimi turbo 的 话,我这边的话跑这十张差不多呃,速度只比他只比他快了十秒不到啊,一个五十多秒,一个六十多秒啊,相当于这边一张图, zimi turbo 的 一张图呢,是五秒左右啊, 大概就是速度也接近 zm 啊,我觉得效果还是不错的,在某种意义上来说啊,但是说这个目前我也在跟官方的小伙伴去沟通,这个有时候会有一些过瘾和的这种感觉啊。看看我不知道是 coffee 的 这个附线的问题呢,还是模型本身那些参数的问题啊,我们也要去求证一下这个东西, 不过开源的东西我觉得始终是好的啊,开源的话,是不是像这种小小的模型啊,如果它的架构没有一些过大的变化,比如说它还是用的 flex 二或者是卡恩的一些比较接近的一些架构了呢,那可能对我们将来的 laura 这个微调呢,可能会非常快的就出现啊, 而且它这个中文能力啊,就是文字表达能力我觉得还是很不错的啊,在某些特定场景的话,它比 zui 这 zui 的 turbo 呢,更适合去做一些啊 啊,速度也不错啊,总之开源是好的啊,那么我们也迎接一下新的这样一个模型啊,大家一定要对开源社区保持这样一个信心。 ok 啊,就分享到这里,拜拜。


