Royalvice / DocDiff

ACM Multimedia 2023: DocDiff: Document Enhancement via Residual Diffusion Models. Also contains 1597 red seals in Chinese scenes, along with their corresponding binary masks.
https://www.aibupt.com/
MIT License
234 stars 24 forks source link

增加有更多噪声的数据集 #19

Open Yikai-Liao opened 1 year ago

Yikai-Liao commented 1 year ago

这个开源项目提供了一些生成噪声的预处理流程。 https://github.com/sparkfish/shabby-pages 他提供了一个pipeline,用于合成各种噪声的图片。 Article_Hero_Picture_Shadow.png

Yikai-Liao commented 1 year ago

另外,我觉得,除了添加噪声来构建降噪数据集,还可以构建一些被暴力二极化的图片作为输入,我经常会在一些PDF扫描版教材上见到这种情况。 如果只是一些噪声加旋转的话,用传统算法手动调参也可以得到不错的降噪效果,但是那些暴力二字化图片儿,会有一些文字的笔画直接断掉,传统算法就恢复不了了。如果能处理这种问题的话,我觉得会更有意义。

Royalvice commented 1 year ago

这个开源项目提供了一些生成噪声的预处理流程。 https://github.com/sparkfish/shabby-pages 他提供了一个pipeline,用于合成各种噪声的图片。 Article_Hero_Picture_Shadow.png

好的,我了解一下

Royalvice commented 1 year ago

另外,我觉得,除了添加噪声来构建降噪数据集,还可以构建一些被暴力二极化的图片作为输入,我经常会在一些PDF扫描版教材上见到这种情况。 如果只是一些噪声加旋转的话,用传统算法手动调参也可以得到不错的降噪效果,但是那些暴力二字化图片儿,会有一些文字的笔画直接断掉,传统算法就恢复不了了。如果能处理这种问题的话,我觉得会更有意义。

你说的没错,不过这种问题必然要通过多模态的模型解决,因为要有zero-shot能力。单靠视觉特征肯定不行。后续我会考虑构建一个多模态模型。

Yikai-Liao commented 1 year ago

另外,我觉得,除了添加噪声来构建降噪数据集,还可以构建一些被暴力二极化的图片作为输入,我经常会在一些PDF扫描版教材上见到这种情况。 如果只是一些噪声加旋转的话,用传统算法手动调参也可以得到不错的降噪效果,但是那些暴力二字化图片儿,会有一些文字的笔画直接断掉,传统算法就恢复不了了。如果能处理这种问题的话,我觉得会更有意义。

你说的没错,不过这种问题必然要通过多模态的模型解决,因为要有zero-shot能力。单靠视觉特征肯定不行。后续我会考虑构建一个多模态模型。

这种情况是不是与仓库节目修复出therofore的情况类似,都需要多模态能力

Royalvice commented 1 year ago

另外,我觉得,除了添加噪声来构建降噪数据集,还可以构建一些被暴力二极化的图片作为输入,我经常会在一些PDF扫描版教材上见到这种情况。 如果只是一些噪声加旋转的话,用传统算法手动调参也可以得到不错的降噪效果,但是那些暴力二字化图片儿,会有一些文字的笔画直接断掉,传统算法就恢复不了了。如果能处理这种问题的话,我觉得会更有意义。

你说的没错,不过这种问题必然要通过多模态的模型解决,因为要有zero-shot能力。单靠视觉特征肯定不行。后续我会考虑构建一个多模态模型。

这种情况是不是与仓库节目修复出therofore的情况类似,都需要多模态能力

是的,本质上DocDiff不理解这个Therefore的含义,仅仅根据视觉特征进行还原。加入Text Prior效果会好很多