StrucTexT中1 亿张文档图像数据的类型

PaddlePaddle / VIMER

视觉预训练基础模型仓库

493 stars 95 forks source link

Closed lixumin-zai closed 2 years ago

lixumin-zai commented 2 years ago

请问： 1.是真实场景下的图片还是类似于pdf的图片呢？ 2.如果是真实场景下的图片，是由经过透视变换矫正的还是有歪歪斜斜的？

linan142857 commented 2 years ago

预训练数据包括IIT-CDIP的1100w英文tif格式文档，拆分多页大概4kw单页，剩余6kw数据是业务场景下未经处理的数据。通过OCR刷库得到文本信息，全部都转换正常图片格式（例如jpg）