关于图片的输入大小

Royalvice / DocDiff

ACM Multimedia 2023: DocDiff: Document Enhancement via Residual Diffusion Models. Also contains 1597 red seals in Chinese scenes, along with their corresponding binary masks.

https://www.aibupt.com/

MIT License

234 stars 24 forks source link

关于图片的输入大小 #7

Closed lcwLcw123 closed 1 year ago

lcwLcw123 commented 1 year ago

请问inference中的图片时必须输入是304304的大小吗，假如我有1024768需要先将他切成多个304304的patch，过模型之后再将它拼起来吗。假如我想训练自己的数据集，是先要将他们都切成304304吗？

Royalvice commented 1 year ago

不是必须的。DocDiff是全卷积的，所以支持任意大小图片输入，不过长宽都得是8的倍数，因为下采样3次。训练时的图片大小不影响推理时的图片大小。比如DocDiff就是在128128随机裁剪训练，推理时既可以裁剪成128128的patch然后拼接，也可以直接在原图上进行推理，分别对应原文的DocDiff-native和DocDIff-nonnative。不过在非训练分辨率下进行推理，会有性能衰减。您可以根据效果具体决定使用哪种策略。

Royalvice commented 1 year ago

训练集分辨率如果是1024768，那么我建议您训练就进行128128随机裁剪。测试直接在原图进行推理

Royalvice commented 1 year ago

请问inference中的图片时必须输入是304_304的大小吗，假如我有1024_768需要先将他切成多个304_304的patch，过模型之后再将它拼起来吗。假如我想训练自己的数据集，是先要将他们都切成304_304吗？

如果您还有什么问题，欢迎联系我。如果您觉得有帮助并给个Star，我竟感激不尽，谢谢！