关于finetune阶段的问题

dailenson / One-DM

Official Code for ECCV 2024 paper — One-Shot Diffusion Mimicker for Handwritten Text Generation

MIT License

298 stars 28 forks source link

Open Qudaokuan opened 1 month ago

Qudaokuan commented 1 month ago

您好，在模型的finetune 阶段中，函数train_ddim()中这个x并没有经过vae的decode就输入到OCR识别模型中去计算loss，正常情况下不应该是经过vae的decode之后送入到OCR模型中算损失么

761qgmpgz943 commented 1 month ago

还有进行微调之后，效果提升多吗 @dailenson

dailenson commented 1 month ago

是否需要经过vae deocder取决于识别器预训练过程是在latent code上还是在vae decoder后的原图上。实验过程中发现让识别器在latet code上直接预训练是work的。在原图上反而会显著加大内存。至于效果的话，微调之后可以显著提升生成字符的内容准确度。