DanceSmile / dancesmile.github.io

dancesemile's github pages
4 stars 1 forks source link

tesseract图像识别训练 #15

Open DanceSmile opened 6 years ago

DanceSmile commented 6 years ago
  1. 选择并且合并样本图片,生成合并tif 将需要训练的样本合并成一个文件,用于训练

  2. 生成Box File文件 根据合并的样本文件进行初步识别,生存对应的box文件 它是一个文本文件,列出了训练图像中的字符,按顺序,一个字符一行,包含字符边界框的坐标。

    tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox
  3. 文字校正 手动对 box File 文件的的识别结果进行调整

  4. 定义字体特征文件 该文件的作用是当字体被识别时,提供字体风格(style)信息 在目标文件夹内生成一个名为font_properties的文本文件,内容为

    font 0 0 0 0 0 

    【语法】:fontname italic bold fixed serif fraktur

fontname为字体名称,italic为斜体,bold为黑体字,fixed为默认字体,serif为衬线字体,fraktur德文黑字体,1和0代表有和无,精细区分时可使用

  1. 聚类

该命令输出tr文件,它包含了每个字符的特征

tesseract num.font.exp0.tif num.font.exp0 nobatch box.train 

Tesseract需要知道能够输出的字符 利用unicharset_extractor工具,可以从box文件得到unicharset文件

unicharset_extractor  num.font.exp0.box 

输出inttemp(形状原型)unicharset(能够输出的字符) shapetable(形状聚类创建主形状表) 和pffmtable(每个字符的期望特征数)三个文件

mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr 

normproto(规范化的敏感原型)

cntraining num.font.exp0.tr 
  1. 组合 将生成的所有文件(shapetable[形状聚类创建主形状表]、normproto、inttemp、pffmtable等)加上lang.前缀
combine_tessdata num. 
  1. 使用训练后的字体
DanceSmile commented 6 years ago

http://www.cnblogs.com/cnlian/p/5765871.html

DanceSmile commented 6 years ago

http://qianjiye.de/2015/08/tesseract-ocr