wanghaisheng / awesome-ocr

A curated list of promising OCR resources
http://wanghaisheng.github.io/ocr-arxiv-daily/
MIT License
1.66k stars 351 forks source link

Adnan Ul-Hasan的博士论文-摘要 #8

Closed wanghaisheng closed 7 years ago

wanghaisheng commented 8 years ago

对于大多数模式识别的科研人员来讲,OCR已经是被破解的难题。但事实上并非如此。尽管当下针对大多数语言存在很多非常棒的OCR软件和系统,比如,拉丁文、希腊语、中文、日语等等,对于很多其他非常具有挑战性的近代语言,研究的热情仍旧不减,比如: cursive Nabataean,其中包括了阿拉伯语、波斯文、 乌尔都文;Brahamic family of scripts,包括Devana- gari, Sanskrit, 和一些变种;这些语言给OCR带来了诸多难题,比方说一个单次中间字符的形状会根据它的位置、字距kerning变化,同时包含了大量的连写ligatures。另外,历史文献的OCR研究也需要深入探索,因此,需要开发一种强大的OCR系统来保存文化遗产。

同样的,对于多语言混杂的文本也存在OCR的需求。随着不断的国际化,不同语言之间的影响力也在增强,出现了大量的多语言混合的文档。文章、报纸、书籍中也出现越来越多得到外语词汇。日常生活中的用品中也很常见。从进口食品的包装到电器,以母语的兴衰获取产品信息的需求也在增加。多语言的操作手册、书籍、字典需要OCR系统来实现数字化。

本文的目标在于通过机器学习方法,特别是RNN来试图解决其中一些难题。尤其是最近LSTM被用在当下的文档和历史文献的OCR上。在此类文档上取得的出色效果也促使我们将其应用在多语言文档的OCR中去。 首先使用英语数据集来评估LSTM的性能基准。这种方法得到了比任何其他现有OCR技术更好的效果,同时也不需要复杂的特征建模和语言模型。 于是,将LSTM应用在更加复杂的诸如urdu nastaleeq 印度方言的一种、梵文中去。对于印度方言,对一个公开数据集的识别效果LSTM取得了已知的最好效果,识别错误率低至2.55%。对于梵文,引入了一个新的公开测试数据集,错误率低至9%。 紧接着将基于LSTM方法扩展到历史文献/历史文档的OCR中去。在这方面,本文中只考虑 Old German Fraktur 语,medieval Latin script of the 15th century, and the Polytonic Greek script。在这些语言的识别上,基于LSTM的方法完爆了其他现有的OCR系统。对于历史文献,通常很难准备好大量的标注数据供有监督学习来训练神经网络。对于没有可用的标记数据的情况下,本文提出了一种结合基于分割和无分割两种方式是理想方法来获取标注数据。比如German Fraktur and Polytonic Greek script,从现有的文本语料库中自动生成的数据也得到了可喜的结果(前者错误率低于1%,后者错误率低至5%)

另一方面,本文利用2种方法实现了一个高效的多语言OCR系统MOCR。首先,开发了一种能够识别文本行数据的基于序列学习的识别系统。这样子,就可以避免将文本切割成单字/单词或单个字符。然后,提出了一种处理不同类型的多语言混杂文本的方法。核心在于模仿人类阅读多语言文档的能力,在这个过程中并没有使用语言区分技术。在设计过程中,LSTM无需区分语言,同时识别多种语言。第一步通过实现一个一步就能识别多种语言文本的与语言无关的OCR系统来构建这个框架,然后将语言无关的OCR框架扩展成利用单个OCR模型就能够识别多语言混杂的文本。最终得到的通用方法在一个公开的英语-希腊语的文档测试集上取得了1.2%的识别错误率。

In summary, this thesis aims to extend the OCR research, from modern Latin scripts to old Latin, to Greek and to other “underprivileged” scripts such as Devanagari and Urdu Nastaleeq. It also provides a generalized OCR framework in dealing with multi- lingual documents.