levihsu / OOTDiffusion

Official implementation of OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on
Other
5.53k stars 809 forks source link

vae的scaling_factor对哪些latents做了缩放? #105

Closed trikim closed 7 months ago

trikim commented 7 months ago

如题,从推理代码上看,只对原模特图image_ori_latents做了缩放,用于后面和(1 - mask_latents)相乘,而其他的vton_latents和garm_latents都没有看到做缩放,这是什么原因呢?有对比过对其他latents也做缩放的效果吗?

levihsu commented 7 months ago

你好 这里做缩放是为了后续减轻vae重建unmasked region的损失 不太理解对其他latents做缩放的意义

trikim commented 7 months ago

谢谢大佬的回复。 我是在一篇博客上看到对rescaling的描述,觉得做rescaling改变latents的数据分布,可以使得生成效果更好,但我没做过实验对比,所以存在疑惑。

Screenshot 2024-03-12 at 16 45 11
liupengcnu commented 7 months ago

@levihsu 借楼请教一个问题,在训练过程中,是不是跟推理过程一样,只对原模特图image_ori_latents做了缩放,而其他的vton_latents和garm_latents都没有看到做缩放?