Closed lcwLcw123 closed 1 year ago
不是必须的。DocDiff是全卷积的,所以支持任意大小图片输入,不过长宽都得是8的倍数,因为下采样3次。训练时的图片大小不影响推理时的图片大小。比如DocDiff就是在128128随机裁剪训练,推理时既可以裁剪成128128的patch然后拼接,也可以直接在原图上进行推理,分别对应原文的DocDiff-native和DocDIff-nonnative。不过在非训练分辨率下进行推理,会有性能衰减。您可以根据效果具体决定使用哪种策略。
训练集分辨率如果是1024768,那么我建议您训练就进行128128随机裁剪。测试直接在原图进行推理
请问inference中的图片时必须输入是304_304的大小吗,假如我有1024_768需要先将他切成多个304_304的patch,过模型之后再将它拼起来吗。假如我想训练自己的数据集,是先要将他们都切成304_304吗?
如果您还有什么问题,欢迎联系我。如果您觉得有帮助并给个Star,我竟感激不尽,谢谢!
请问inference中的图片时必须输入是304304的大小吗,假如我有1024768需要先将他切成多个304304的patch,过模型之后再将它拼起来吗。假如我想训练自己的数据集,是先要将他们都切成304304吗?