Synthetic_Chinese_String_Dataset的问题

YCG09 / chinese_ocr

CTPN + DenseNet + CTC based end-to-end Chinese OCR implemented using tensorflow and keras

Apache License 2.0

2.74k stars 1.08k forks source link

Open swy0915 opened 4 years ago

swy0915 commented 4 years ago

Synthetic_Chinese_String_Dataset的数据集是用什么代码生成的数据，作者能分享下代码吗，我猜测是SynthText_Chinese_version的那个代码，但是不知道作者有没有修改过

swy0915 commented 4 years ago

还是说SynthText_Chinese_version的代码只是简单的换了生成的语料?

lmw0320 commented 4 years ago

还是说SynthText_Chinese_version的代码只是简单的换了生成的语料?

我有点奇怪，这个数据集有360W+的数量，其标签文件中的内容是字符转换成的编码。。我怎么知道每个编码数字对应的文字呢？？求指点

Ysnower commented 4 years ago

标签文件里面比如后面有个编码数字是29,就代表这个字在txt索引文件里面的第30行