PaddlePaddle / VIMER

视觉预训练基础模型仓库
493 stars 95 forks source link

StrucTexT中1 亿张文档图像数据的类型 #35

Closed lixumin-zai closed 2 years ago

lixumin-zai commented 2 years ago

请问: 1.是真实场景下的图片还是类似于pdf的图片呢? 2.如果是真实场景下的图片,是由经过透视变换矫正的还是有歪歪斜斜的?

linan142857 commented 2 years ago

预训练数据包括IIT-CDIP的1100w英文tif格式文档,拆分多页大概4kw单页,剩余6kw数据是业务场景下未经处理的数据。通过OCR刷库得到文本信息,全部都转换正常图片格式(例如jpg)