Open Qudaokuan opened 1 month ago
您好,在模型的finetune 阶段中,函数train_ddim()中这个x并没有经过vae的decode就输入到OCR识别模型中去计算loss,正常情况下不应该是经过vae的decode之后送入到OCR模型中算损失么
还有进行微调之后,效果提升多吗 @dailenson
是否需要经过vae deocder取决于识别器预训练过程是在latent code上还是在vae decoder后的原图上。实验过程中发现让识别器在latet code上直接预训练是work的。在原图上反而会显著加大内存。至于效果的话,微调之后可以显著提升生成字符的内容准确度。
您好,在模型的finetune 阶段中,函数train_ddim()中这个x并没有经过vae的decode就输入到OCR识别模型中去计算loss,正常情况下不应该是经过vae的decode之后送入到OCR模型中算损失么