opendatalab / MinerU

A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。
https://opendatalab.com/OpenSourceTools
GNU Affero General Public License v3.0
13.43k stars 1.01k forks source link

OCR方案替换 #742

Closed chinaphilip closed 3 days ago

chinaphilip commented 2 weeks ago

你们能不能把代码中调用OCR接口暴露出来,方便替换其他的OCR方案

xuboot commented 2 weeks ago

@chinaphilip 这个快不快

chinaphilip commented 2 weeks ago

你自己跑下不就知道了,就paddleOCR嘛,OCR部分速度还行,可以用c++再优化

myhloli commented 2 weeks ago

ocr要配合公式检测的结果,在det阶段把公式mask掉,这个需要接入的ocr模块开源且用户有修改ocr源码的能力,所以不太好开放出来给用户自行修改。

chinaphilip commented 2 weeks ago

我觉得就用空白把公式盖住就行吧,这个接口应该不难写

myhloli commented 2 weeks ago

我觉得就用空白把公式盖住就行吧,这个接口应该不难写

试过不行,比较短的行内公式不能有效起到分割作用,det的时候还是一整行,然后公式就插不回去了