MaybeShewill-CV / CRNN_Tensorflow

Convolutional Recurrent Neural Networks(CRNN) for Scene Text Recognition
MIT License
1.03k stars 388 forks source link

中文数据集的词库 #319

Closed curryJ closed 5 years ago

curryJ commented 5 years ago

您好,我看完了所有的issue,也找到了中文的annotation.txt。但是还是没有找到中文所对应的lexicon,请问这个文件在哪找到呢,谢谢!

MaybeShewill-CV commented 5 years ago

@curryJ 这文件是需要你自己按照synth90k数据集格式自己生成 不是我提供的:)

curryJ commented 5 years ago

谢谢。但是还是我已经得到了中文序列与对应的数字的映射,我想这应该是根据查这个词库字典的到的。pytorch版本的也给出了这个词库,但是不一样。非常感谢

发自我的iPhone

------------------ 原始邮件 ------------------ 发件人: MaybeShewill-CV notifications@github.com 发送时间: 2019年7月22日 14:31 收件人: MaybeShewill-CV/CRNN_Tensorflow CRNN_Tensorflow@noreply.github.com 抄送: curryJ 761478292@qq.com, Mention mention@noreply.github.com 主题: 回复:[MaybeShewill-CV/CRNN_Tensorflow] 中文数据集的词库 (#319)

MaybeShewill-CV commented 5 years ago

@curryJ 没事:)

curryJ commented 5 years ago

还有一个问题想请教一下。英文的数据集,图片都是一个单词,label也是一个int。但是中文的数据集,label是几个int,这样的话,要生成tfrecord格式以及后面的测试是不是都要重新写啊?谢谢

发自我的iPhone

------------------ 原始邮件 ------------------ 发件人: MaybeShewill-CV notifications@github.com 发送时间: 2019年7月22日 17:30 收件人: MaybeShewill-CV/CRNN_Tensorflow CRNN_Tensorflow@noreply.github.com 抄送: curryJ 761478292@qq.com, Mention mention@noreply.github.com 主题: 回复:[MaybeShewill-CV/CRNN_Tensorflow] 中文数据集的词库 (#319)

Closed #319.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.

MaybeShewill-CV commented 5 years ago

@curryJ 1.一个字符对应一个int 不是一个单词 2.这个json文件会在你生成tfrecords的时候自动生成:)

curryJ commented 5 years ago

我看了代码里面,是将char 转换到int,但是我不明白annotation.txt中label为什么是一个int,紧紧是因为图片中只有一个单词?

发自我的iPhone

------------------ 原始邮件 ------------------ 发件人: MaybeShewill-CV notifications@github.com 发送时间: 2019年7月22日 19:54 收件人: MaybeShewill-CV/CRNN_Tensorflow CRNN_Tensorflow@noreply.github.com 抄送: curryJ 761478292@qq.com, Mention mention@noreply.github.com 主题: 回复:[MaybeShewill-CV/CRNN_Tensorflow] 中文数据集的词库 (#319)

@curryJ 1.一个字符对应一个int 不是一个单词 2.这个json文件会在你生成tfrecords的时候自动生成:)

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.

MaybeShewill-CV commented 5 years ago

@curryJ 你自己了解一下synth90k的标注文件是什么意思你就知道了:)

curryJ commented 5 years ago

@curryJ 你自己了解一下synth90k的标注文件是什么意思你就知道了:)

image 这是synth90k的annotation.txt文件 image 这是我自己转换得到了annotation.txt文件。 label的话,一个是int,一个是int的list。 代码中也是用的int,label是一个char一个char转换的。 image

想请教一下,中文直接传入list是不行的。 谢谢!

MaybeShewill-CV commented 5 years ago

@curryJ .....我说你去了解一下这个synth90k数据集annotation都是什么意思再测试. 这个annotation.txt 单词后面跟着的数字代表lexcion.txt文件的行数 ==!

MaybeShewill-CV commented 5 years ago

@curryJ 实验前先把数据搞清楚了吧:)

curryJ commented 5 years ago

谢谢

发自我的iPhone

------------------ 原始邮件 ------------------ 发件人: MaybeShewill-CV notifications@github.com 发送时间: 2019年7月23日 18:49 收件人: MaybeShewill-CV/CRNN_Tensorflow CRNN_Tensorflow@noreply.github.com 抄送: curryJ 761478292@qq.com, Mention mention@noreply.github.com 主题: 回复:[MaybeShewill-CV/CRNN_Tensorflow] 中文数据集的词库 (#319)

@curryJ 实验前先把数据搞清楚了吧:)

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or mute the thread.

BigPandaCPU commented 4 years ago

您好,我看完了所有的issue,也找到了中文的annotation.txt。但是还是没有找到中文所对应的lexicon,请问这个文件在哪找到呢,谢谢!

亲,这个中文的annotation.txt你是在哪找的呢?能方便发一下吗?

jackie930 commented 4 years ago

您好,我看完了所有的issue,也找到了中文的annotation.txt。但是还是没有找到中文所对应的lexicon,请问这个文件在哪找到呢,谢谢!

您好 这个中文的annotation.txt你是在哪找的呢?能方便发一下吗?