换个角度,ms codebbok是不是也可以等价于另一种latent diffusion?

FoundationVision / VAR

[NeurIPS 2024 Oral][GPT beats diffusion🔥] [scaling laws in visual generation📈] Official impl. of "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction". An *ultra-simple, user-friendly yet state-of-the-art* codebase for autoregressive image generation!

MIT License

4.28k stars 315 forks source link

其实仔细观察扩散模型中的前向加噪过程，和降低分辨率的过程其实是高度一致的。举例来讲，对不同分别率的同一张图片使用扩散模型前向过程加噪，会发现相同 t 的前向加噪下，高分辨率的图片更加容易辨别其中内容，这说明加噪和降低分辨率某种角度来看其实是等价的

从这种角度来看，有望能达到、超过扩散模型的性能，同时由于更容易和 LLM 组合，有望全面取代扩散模型

FoundationVision / VAR

换个角度,ms codebbok是不是也可以等价于另一种latent diffusion? #72