Closed lixumin-zai closed 2 years ago
请问: 1.是真实场景下的图片还是类似于pdf的图片呢? 2.如果是真实场景下的图片,是由经过透视变换矫正的还是有歪歪斜斜的?
预训练数据包括IIT-CDIP的1100w英文tif格式文档,拆分多页大概4kw单页,剩余6kw数据是业务场景下未经处理的数据。通过OCR刷库得到文本信息,全部都转换正常图片格式(例如jpg)
请问: 1.是真实场景下的图片还是类似于pdf的图片呢? 2.如果是真实场景下的图片,是由经过透视变换矫正的还是有歪歪斜斜的?