opendatalab / MinerU

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
https://opendatalab.com/OpenSourceTools?tool=extract
GNU Affero General Public License v3.0
18.18k stars 1.3k forks source link

一张图片里有简体中文、英文、韩文、繁体中文、日文等多种语言 如何进行OCR识别 #1031

Open huyidu opened 3 days ago

huyidu commented 3 days ago

Description of the bug | 错误描述

一张图片里有简体中文、英文、韩文、繁体中文、日文等多种语言 如何进行OCR识别

How to reproduce the bug | 如何复现

一张图片里有简体中文、英文、韩文、繁体中文、日文等多种语言 如何进行OCR识别

Operating system | 操作系统

Linux

Python version | Python 版本

3.10

Software version | 软件版本 (magic-pdf --version)

0.9.x

Device mode | 设备模式

cuda

myhloli commented 3 days ago

混合语言ocr是不支持的