tesseract图像识别训练

DanceSmile commented 6 years ago

选择并且合并样本图片，生成合并tif 将需要训练的样本合并成一个文件，用于训练
生成Box File文件根据合并的样本文件进行初步识别，生存对应的box文件它是一个文本文件，列出了训练图像中的字符，按顺序，一个字符一行，包含字符边界框的坐标。
```
tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox
```
文字校正手动对 box File 文件的的识别结果进行调整
定义字体特征文件该文件的作用是当字体被识别时，提供字体风格（style）信息在目标文件夹内生成一个名为font_properties的文本文件，内容为
```
font 0 0 0 0 0 
```
【语法】：fontname italic bold fixed serif fraktur

fontname为字体名称，italic为斜体，bold为黑体字，fixed为默认字体，serif为衬线字体，fraktur德文黑字体，1和0代表有和无，精细区分时可使用

该命令输出tr文件，它包含了每个字符的特征

tesseract num.font.exp0.tif num.font.exp0 nobatch box.train

Tesseract需要知道能够输出的字符利用unicharset_extractor工具，可以从box文件得到unicharset文件

unicharset_extractor  num.font.exp0.box

输出inttemp（形状原型）unicharset(能够输出的字符) shapetable(形状聚类创建主形状表) 和pffmtable（每个字符的期望特征数）三个文件

mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr

normproto（规范化的敏感原型）

cntraining num.font.exp0.tr

combine_tessdata num.

DanceSmile commented 6 years ago

DanceSmile commented 6 years ago

DanceSmile / dancesmile.github.io