Open DanceSmile opened 6 years ago
选择并且合并样本图片,生成合并tif 将需要训练的样本合并成一个文件,用于训练
生成Box File文件 根据合并的样本文件进行初步识别,生存对应的box文件 它是一个文本文件,列出了训练图像中的字符,按顺序,一个字符一行,包含字符边界框的坐标。
tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox
文字校正 手动对 box File 文件的的识别结果进行调整
定义字体特征文件 该文件的作用是当字体被识别时,提供字体风格(style)信息 在目标文件夹内生成一个名为font_properties的文本文件,内容为
font 0 0 0 0 0
【语法】:fontname italic bold fixed serif fraktur
fontname为字体名称,italic为斜体,bold为黑体字,fixed为默认字体,serif为衬线字体,fraktur德文黑字体,1和0代表有和无,精细区分时可使用
该命令输出tr文件,它包含了每个字符的特征
tesseract num.font.exp0.tif num.font.exp0 nobatch box.train
Tesseract需要知道能够输出的字符 利用unicharset_extractor工具,可以从box文件得到unicharset文件
unicharset_extractor num.font.exp0.box
输出inttemp(形状原型)unicharset(能够输出的字符) shapetable(形状聚类创建主形状表) 和pffmtable(每个字符的期望特征数)三个文件
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr
normproto(规范化的敏感原型)
cntraining num.font.exp0.tr
combine_tessdata num.
http://www.cnblogs.com/cnlian/p/5765871.html
http://qianjiye.de/2015/08/tesseract-ocr
选择并且合并样本图片,生成合并tif 将需要训练的样本合并成一个文件,用于训练
生成Box File文件 根据合并的样本文件进行初步识别,生存对应的box文件 它是一个文本文件,列出了训练图像中的字符,按顺序,一个字符一行,包含字符边界框的坐标。
文字校正 手动对 box File 文件的的识别结果进行调整
定义字体特征文件 该文件的作用是当字体被识别时,提供字体风格(style)信息 在目标文件夹内生成一个名为font_properties的文本文件,内容为
【语法】:fontname italic bold fixed serif fraktur
fontname为字体名称,italic为斜体,bold为黑体字,fixed为默认字体,serif为衬线字体,fraktur德文黑字体,1和0代表有和无,精细区分时可使用
该命令输出tr文件,它包含了每个字符的特征
Tesseract需要知道能够输出的字符 利用unicharset_extractor工具,可以从box文件得到unicharset文件
输出inttemp(形状原型)unicharset(能够输出的字符) shapetable(形状聚类创建主形状表) 和pffmtable(每个字符的期望特征数)三个文件
normproto(规范化的敏感原型)