FoundationVision / VAR

[NeurIPS 2024 Oral][GPT beats diffusion🔥] [scaling laws in visual generation📈] Official impl. of "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction". An *ultra-simple, user-friendly yet state-of-the-art* codebase for autoregressive image generation!
MIT License
4.28k stars 315 forks source link

换个角度,ms codebbok是不是也可以等价于另一种latent diffusion? #72

Open YilanWang opened 5 months ago

YilanWang commented 5 months ago

感谢好文,我在想,以256x256为例,从[1,2,.....,16]的codebook size,在计算的时候也是resize到16计算残差,这种resize之后的信息,是不是也可以等价于latent diffusion?从大小为1的最粗糙的信息开始到16,这不就是一个类似diffusion的coarse to fine的过程吗?

HonorWithPupils commented 3 months ago

其实仔细观察 扩散模型 中的前向加噪过程,和降低分辨率的过程其实是高度一致的。举例来讲,对不同分别率的同一张图片使用扩散模型前向过程加噪,会发现相同 t 的前向加噪下,高分辨率的图片更加容易辨别其中内容,这说明加噪和降低分辨率某种角度来看其实是等价的

从这种角度来看,有望能达到、超过扩散模型的性能,同时由于更容易和 LLM 组合,有望全面取代扩散模型