dailenson / One-DM

Official Code for ECCV 2024 paper — One-Shot Diffusion Mimicker for Handwritten Text Generation
MIT License
298 stars 28 forks source link

关于finetune阶段的问题 #10

Open Qudaokuan opened 1 month ago

Qudaokuan commented 1 month ago

您好,在模型的finetune 阶段中,函数train_ddim()中这个x并没有经过vae的decode就输入到OCR识别模型中去计算loss,正常情况下不应该是经过vae的decode之后送入到OCR模型中算损失么 image image

761qgmpgz943 commented 1 month ago

还有进行微调之后,效果提升多吗 @dailenson

dailenson commented 1 month ago

是否需要经过vae deocder取决于识别器预训练过程是在latent code上还是在vae decoder后的原图上。实验过程中发现让识别器在latet code上直接预训练是work的。在原图上反而会显著加大内存。至于效果的话,微调之后可以显著提升生成字符的内容准确度。