Royalvice / DocDiff

ACM Multimedia 2023: DocDiff: Document Enhancement via Residual Diffusion Models. Also contains 1597 red seals in Chinese scenes, along with their corresponding binary masks.
https://www.aibupt.com/
MIT License
196 stars 21 forks source link

关于图片的输入大小 #7

Closed lcwLcw123 closed 10 months ago

lcwLcw123 commented 10 months ago

请问inference中的图片时必须输入是304304的大小吗,假如我有1024768需要先将他切成多个304304的patch,过模型之后再将它拼起来吗。假如我想训练自己的数据集,是先要将他们都切成304304吗?

Royalvice commented 10 months ago

不是必须的。DocDiff是全卷积的,所以支持任意大小图片输入,不过长宽都得是8的倍数,因为下采样3次。训练时的图片大小不影响推理时的图片大小。比如DocDiff就是在128128随机裁剪训练,推理时既可以裁剪成128128的patch然后拼接,也可以直接在原图上进行推理,分别对应原文的DocDiff-native和DocDIff-nonnative。不过在非训练分辨率下进行推理,会有性能衰减。您可以根据效果具体决定使用哪种策略。

Royalvice commented 10 months ago

训练集分辨率如果是1024768,那么我建议您训练就进行128128随机裁剪。测试直接在原图进行推理

Royalvice commented 10 months ago

请问inference中的图片时必须输入是304_304的大小吗,假如我有1024_768需要先将他切成多个304_304的patch,过模型之后再将它拼起来吗。假如我想训练自己的数据集,是先要将他们都切成304_304吗?

如果您还有什么问题,欢迎联系我。如果您觉得有帮助并给个Star,我竟感激不尽,谢谢!