粉丝48.8万获赞241.9万



hello, 大家好啊,呃,大概在两周之前, blackforest labs 发布了他们最新的 flux two 这个模型啊,那这次的发布,相比于他们之前的这个 flux one, flux context 这些模型其实水花没有那么大啊,原因是在于, 呃,人们还是觉得这个 nano banana two 实在是太惊艳了是吧,它是一个更好的图像生成编辑模型。而 flux two 呢,在使用上好像没有 nano banana 那 么强啊,没有没有给人那种哎之前那种惊艳的感觉啊, 所以 flux two 在 互联网上的声量并没有那么高。但是我还是想要去讲一讲这个 flux two 背后的技术,因为我一直觉得,呃, blackforest labs 它们其实有一点点像这个 行业标准的这样的一个先驱者啊,就经常它们所决定使用的一些架构啊,最终会被后面的不管是研究人员还是开发者给进行一个引用啊。我想带大家去了解这个 flux two 背后 到底是一项什么样的技术啊,它在这样的一个行业里面处在一个什么样的位置啊?对于未来的产品或者说研究有着什么样的启示?欢迎大家收看我今天新一期的视频那一句话来总结我对 flux two 的 感受。我觉得它不是一个完美的图像生成图像编辑产品 啊,但是呢,它的确是一个非常扎实的研究。那现在我们再去看图像生成模型,它就 远远不是我们一年前的那个标准了,你只要能够通过文字生成比较好,比较漂亮图像就 ok 了。现在我们对于图像模型的要求是,你要能够真正实现编辑 啊,精准的编辑,你要能够理解人的意图,你甚至要能够思考。我们之前也聊过很多,就是生成和编辑,他们本身就是针对不同场景的需求,而编辑的难度是远远大于生成的。 flex two 给人那种感觉是,在一些情况下,它可能生成的这个图片的塑料感比较重啊,这就会有一些奇奇怪怪的高光。呃,其次呢,就是它的这个编辑效果甚至没有它上一代发布的这个 flex context 要好,是吧? flex context 能够精准地进行编辑,但是 flex two 却没有实现这样的一个效果 啊,所以给人的感受就是说,哎,这个 flex two 好 像并没有我期待的那么好用啊,再加上 nano banana two 在 他之前发布,给人的感觉就是,你之前一直是行业的这个领军人物啊,现在被别人比下去了,这些缺点其实都是 flux two 存在的,而且需要去改进的地方。那为什么 flux two 是 一个比较扎实的研究呢?那首先第一点,它是一个开源的项目是吧?它所有的东西都给到你了,你可以去玩,你可以清晰地去看它的股价到底什么样的。 那第二个呢?它其实是解决了之前一直留存的一个问题,就是大圆模型和这个 diffusion 模型,它们俩接起来之后,是吧? 没有办法很好地去实现这个 scaling law 啊,没有办法不断地把这个参数往上加,从而让这个模型变得更强。你如果去看做的比较好的模型,比如说这个千万 image, 或者说千万 image edit, 它的这个大圆模型始终都是用的那个七 b 的 纤维模型啊,之所以用那个比较小的模型的原因就是当人们尝试用更大的模型和这个扩散模型接起来去训练的时候,会发现训练变得不稳定,没有办法继续进行一个学习。但是 flux two 呢?它把这个大圆模型从七 b 这样的一个水准 增长到了二十四 b 这样的一个水准,并且把这个模型训练出来了,这相对于之前来说是一个比较大的突破。那基于这两点,我认为 flux two 还是一个比较扎实的研究的。那我们首先来说一下这个 flux two 相比于 flux one 呃,有哪些主要的变化啊?首先我们从扩散模型 d i t。 的 这个股价上来说 啊,它虽然在这个框架上有一定的变化,但这种变化不是决定性的啊,它主要的变化是增加了 single streaming blocker 的 数量啊。如果我们去看它的这个地方代码,大家可以看到啊,它这个 single transformer 啊,有四十多个啊。 然后它的这个 transformer block, 也就是之前的这个 double streaming block 啊,数量减少了。为什么说这种变化不是决定性的啊?就是我之前做的一些 d i t。 的 实验来说,呃,你用 single streaming 还是用 double streaming? 呃,其实都能够让模型去学习到一些知识,而且你很难定量地去分析说这层它到底是负责什么的,那下一层到底是负责什么的?所以整个这个扩散模型的 it 是 一个黑盒, 你只是知道他在里面做一些对齐的工作,但是你很难去预测说,哎,我在这个地方多少个的这个 double swimming 模块就是最好的,你没有办法预测,很多时候就是通过实验得到一些数据,我用这样一个模块的配比,最终发现啊,这样的学习的确是最快的啊, 可能就是这样的一个实验结果。那除此之外最重要的两个区别就是它把之前这个 t 五的 encoder 这样的一个编码器啊,完全替换成了一个 v l m 这样一个视觉模型的输入,其实不是一个多么新鲜的事情,是吧?我们现在看到的所有的 图像生成编辑模型,基本上都会有这样的一个视觉模块。举个例子,千问 image 啊,它用的就是千问这个 v l m, 它这方最核心的突破就是我们之前所说的,原来我们只能训练七 b, 但是它现在能够训练二十四 b 的 一个 v l m 啊,这个是最大的一个提升。 那第二点呢?就是这个地方它做了一个新的 ve 啊,叫做 flux two ve, 这个新的 ve 其实是我认为 flux two 它 呃最有价值的地方啊,我们来仔细看一下这个 ve 到底在干什么那,那在了解这方案之前,我们其实想要去了解,为什么之前的训练是挺在七臂这样的一个维度, 它为什么不能再往上拔一拔啊?这个地方的核心其实是这样一个概念啊,这个可学习性。那这个地方我们其实不是直接把图片给到模型进行一个训练,我们需要把图片经过 ve 进行一个压缩,压缩之后呢 啊,再给到模型,然后最后呢得到的结果通过一个解压缩还原成最终的这个图像啊,所以 ve 的 核心是压缩, 它就可能存在一个情况,就是它压缩之后的信息是不适合大约模型去训练的, 因为 ve 的 构建的时候,是吧,我最核心需要解决的问题是,我需要保证压缩完之后足够小,然后解压缩的时候呢,能尽可能的还原原来的这个图像, 他并没有去考虑说,是吧,我压缩之后的这样一个状态,他包含的信息是否是杂乱的?还是说是,呃,有一定顺序的,那如果说你这个压缩之后的信息啊,他凑巧他有一些这个信息和信息之间的内在联系,然后这个大约摩星去训练的时候呢,就很容易发现这种联系, 它就能够很快的呢进行这样的一个训练。那随着这个大模型它的参数增多,那它所能容纳的这个细节增多,那经过 ve 压缩之后的数据呢?它可能一些噪声 就被放大了啊,原来小模型它看不到这些噪声,那模型大了之后,它就有能力去处理这些噪声,结果这些噪声就导致了模型没有办法进行一个稳定的训练。那人们就猜测是吧,就是经过 ve 的 这样的一个数据, 他的可学习性是有一个上限的,导致了大圆模型他的这样的一个规模也有一定的上限。那人们就去想什么样的信号是大模型喜欢的啊?那你如果把图片压缩成文字, 把这个图片变成 sleep 啊,那这个文字信号肯定是大模型喜欢的啊,这个,而且已经验证大模型能够很好的处理这些逻辑, 但是,呃,把这个图像变成文字这件事情本身这个压缩率就太高了,而且 c 里部其实我们已经使用了啊,已经在这个 d f c 的 模型里面有这样的一个部分了,所以它提升有限。然后另外一个就是像 dino v two 这样的模型 啊,他是把图像变成图像的表征,这个表征是什么意思?你可以理解成这个图像里面他的位置关系,是吧?这个物体他是在这个图像的第几层?是在前面还是在后面?他的热力图是什么样的呀?他的深度图是什么样的呀?这个像素和其他像素之间的关系啊?这个像素是不是在边缘上面 这样的关系呢?它是一种逻辑关系啊。那既然是一种逻辑关系,它放到大圆模型里面,按照道理上来说呢,它也是能够比较好的进行一个训练的啊,因为它其实提取了比较明显的或者比较规范化的这样的一种表征,而且这种表征呢是可以总结出规律来的。那所以这个方我们的目标就变成了, 那我们既然要用 ve 进行一个压缩,压缩可能会有可能有一种中间状态是它既能够很好的压缩和还原, 又能够从一定程度上去表示这种特征。这种表征啊,这种位置和位置之间的这样一种关系,我们期待如果我们能抓到这个关系,我们就能够比较好的提升这种学习率。那怎么样实现这样一件事情? ve 本身只关心压缩和重建, 但是我在训练维 e 的 时候,我引入一个这种 dino v two 的 loss, 那 他训练的时候呢,就不仅仅会关注重建,他还会去稍微关注一下啊,怎么样去构建这个表征啊,他就融合了这两种能力啊,这其实也是一个 比较直接的这样一个思路啊,那这里的这篇文章其实就是在做类似的事情啊,他在训练 t 的 时候呢,引入了一个表征信号作为一个额外的 loss, 然后让这个训练的时间大大的加快了。那 flux two 就是 根据这样的一个思路去优化它怎么样去训练 ve 的 这样的一个过程,从而 让它这个图片经过压缩之后,既能够进行还原啊,又带有一定的褶正信息,而这些褶正信息能够更好地给到大圆模型去进行一个使用,从而实现了这个大圆模型规模从七 b 到二十四比这样的一个提升。具体的这个实验细节,实验数据以及数学的一些分析啊,大家可以自己去看一下这个文章的原文啊,我觉得还是一个比较完备的实验的,而且这个工作其实想象力还是蛮大的啊,因为前段时间 dino v three 才刚刚出来, 那就意味着这个 ve 的 上限,还有那如果你的 ve 更强,你的模型的上限就会增加啊,从而就可能能够得到更好的结果。而且很明显 flux two 没有着重地去解决图像一致性的问题,就是编辑里面那些问题,它还没有去进行一个大规模的微调 啊,这就是为什么我们看 flux two 看起来像一个玩具的原因,它虽然有着技术上的突破啊,但是它没有把这个产品给训练到一个特别完美的一个状态,而且这个其实给了我一些启发,就是为什么 openai 和 google 它们能做出很好的图像生成模型,我觉得就是因为它们算力足够 让他们把 ve 中间的这个大圆模型和地球人的骨架联合起来训练啊,我就跑那这个 ve 很 快的可能就学会了一些表征啊,能够更好的让这个大圆模型去知道它要干嘛啊,从而他们通过算力怼出来了一个很好的图,想生成模型, 只不过 fox two 通过这样的文章告诉大家我们应该怎么样去实践这样的一个工程啊,所以, 嗯,不要看着这个 fox two 产品很弱啊。我觉得这算是开源社区黎明前的哨声,我相信不久这个开源社区的图像生成模型就会追上 呃,这个 nintendo banana two 啊,这样的闭源模型了。那以上就是这期视频的全部内容,如果你觉得我们的视频做的还不错的话呢,欢迎点赞、收藏、转发、订阅、评论我们的频道,这对我们来说非常的重要,感谢你的收看,祝你学习顺利!