00:00 / 01:25
连播
清屏
智能
倍速
点赞24
00:00 / 01:04
连播
清屏
智能
倍速
点赞126
00:00 / 05:37
连播
清屏
智能
倍速
点赞251
00:00 / 04:15
连播
清屏
智能
倍速
点赞127
00:00 / 06:38
连播
清屏
智能
倍速
点赞5288
张小珺2天前
谢赛宁 × 张小珺:从DiT到Sora诞生的前传 视频播客片段: 当初我在做DiT(Diffusion Transformer,扩散变换器模型)的时候,diffusion(扩散模型)也是刚刚起步,FAIR还没有一个人在做diffusion model(扩散模型)相关的研究,但我觉得这个东西好像很有趣,应该去尝试。 然后Bill Peebles(DiT共同一作),他是我当初招的一个intern(实习生),他现在是Sora(OpenAI发布的视频生成模型)的head(负责人),也在Sora生成的视频里面担任主角。他是一个非常sharp(敏锐)或者在我看来是一个完美的PhD(博士)学生,在各个方向都是”六边形战士"。 但anyway(总之),当初我们的起点其实不是要做diffusion model(扩散模型),也不是要做DiT(扩散变换器)。在前两个月的探索中,完全是集中在representation learning(表征学习)这件事上。 就是说我们想看一看一个diffusion model(扩散模型)学到的表征,到底跟一个正常的supervised(有监督)的ResNet(残差网络),或者说一个MAE(Masked Autoencoder,掩码自编码器)学到的表征到底有什么不一样? 其实后续在这个方向还有很多的工作,但我们开始做了一段时间的感受是:这个东西好像也还行,也就那样。它能学到一个不错的生成模型,能学到一个不错的表征,但这个表征要比你的self-supervised learning(自监督学习)的表征要差得多得多,完全不能打,所以我们就放弃了。 但是在这个过程中,到了最后一个月的时候,我们发现,这个转变的前提是:因为做DiT(扩散变换器)我们需要在representation level(表征层级)去跟比如基于ViT(Vision Transformer,视觉变换器)的表征系统做一个对比,所以那个时候是我们为什么不用U-Net(用于图像分割和扩散模型的卷积网络)、要用ViT来做diffusion model(扩散模型)的出发点。 #张小珺商业访谈录 #谢赛宁#ai新声计划 #视频播客扶持计划 #抖来聊聊
00:00 / 12:00
连播
清屏
智能
倍速
点赞1001