YCG09 / chinese_ocr

CTPN + DenseNet + CTC based end-to-end Chinese OCR implemented using tensorflow and keras
Apache License 2.0
2.74k stars 1.08k forks source link

Synthetic_Chinese_String_Dataset的问题 #311

Open swy0915 opened 4 years ago

swy0915 commented 4 years ago

Synthetic_Chinese_String_Dataset的数据集是用什么代码生成的数据,作者能分享下代码吗,我猜测是SynthText_Chinese_version的那个代码,但是不知道作者有没有修改过

swy0915 commented 4 years ago

还是说SynthText_Chinese_version的代码只是简单的换了生成的语料?

lmw0320 commented 4 years ago

还是说SynthText_Chinese_version的代码只是简单的换了生成的语料?

我有点奇怪,这个数据集有360W+的数量,其标签文件中的内容是字符转换成的编码。。我怎么知道每个编码数字对应的文字呢??求指点

Ysnower commented 4 years ago

标签文件里面比如后面有个编码数字是29,就代表这个字在txt索引文件里面的第30行