Open YilanWang opened 5 months ago
感谢好文,我在想,以256x256为例,从[1,2,.....,16]的codebook size,在计算的时候也是resize到16计算残差,这种resize之后的信息,是不是也可以等价于latent diffusion?从大小为1的最粗糙的信息开始到16,这不就是一个类似diffusion的coarse to fine的过程吗?
其实仔细观察 扩散模型 中的前向加噪过程,和降低分辨率的过程其实是高度一致的。举例来讲,对不同分别率的同一张图片使用扩散模型前向过程加噪,会发现相同 t 的前向加噪下,高分辨率的图片更加容易辨别其中内容,这说明加噪和降低分辨率某种角度来看其实是等价的
从这种角度来看,有望能达到、超过扩散模型的性能,同时由于更容易和 LLM 组合,有望全面取代扩散模型
感谢好文,我在想,以256x256为例,从[1,2,.....,16]的codebook size,在计算的时候也是resize到16计算残差,这种resize之后的信息,是不是也可以等价于latent diffusion?从大小为1的最粗糙的信息开始到16,这不就是一个类似diffusion的coarse to fine的过程吗?