courao / ocr.pytorch

A pure pytorch implemented ocr project including text detection and recognition
MIT License
584 stars 133 forks source link

感谢大佬回答我的疑问对于crnn数据集的获取 在此分享给有需要的人 #24

Open skinatabc opened 4 years ago

skinatabc commented 4 years ago

训练数据分为两块 1.一个是生成的数据,也就是这个github上也有不少相关工作, 可以在这里下数据集:https://pan.baidu.com/s/1QkI7kjah8SPHwOQ40rS1Pw (密码:lu7m) 自己生成的话可参考这个代码 https://github.com/Sanster/text_renderer 2.还有一块是自己项目用到的一些数据,不过数据量比较小 这一块当然也越多越好,不过获取以及标注难度比较大

wpc11 commented 4 years ago

我想问下这个标签是包含了那个8.6g的数据和2.69g的数据嘛

skinatabc commented 4 years ago

不知道是不是分开的 要用这个标签的话是需要转换的 你可以下载来看看

------------------ 原始邮件 ------------------ 发件人: wpc11 <notifications@github.com> 发送时间: 2020年3月30日 20:02 收件人: courao/ocr.pytorch <ocr.pytorch@noreply.github.com> 抄送: skinatabc <767802795@qq.com>, Author <author@noreply.github.com> 主题: 回复:[courao/ocr.pytorch] 感谢大佬回答我的疑问对于crnn数据集的获取 在此分享给有需要的人 (#24)

我想问下这个标签是包含了那个8.6g的数据和2.69g的数据嘛

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

wpc11 commented 4 years ago

就是在程序里进行转换嘛,,还是把标签下载下来对标签进行转换,,我试过这个标签但只用了第一个8.6g的数据集,,期待你的答复。😀

skinatabc commented 4 years ago

我也感觉是8个g的那个。转换就是下载的标签里面只有数字没有具体的字符,需要转换一下 有一个对应转换字符的文件的 如果百度云里面没有的话你可以去别人github找下。

------------------ 原始邮件 ------------------ 发件人: wpc11 <notifications@github.com> 发送时间: 2020年3月30日 20:15 收件人: courao/ocr.pytorch <ocr.pytorch@noreply.github.com> 抄送: skinatabc <767802795@qq.com>, Author <author@noreply.github.com> 主题: 回复:[courao/ocr.pytorch] 感谢大佬回答我的疑问对于crnn数据集的获取 在此分享给有需要的人 (#24)

就是在程序里进行转换嘛,,还是把标签下载下来对标签进行转换,,我试过这个标签但只用了第一个8.6g的数据集,,期待你的答复。😀

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

wpc11 commented 4 years ago

好的谢谢啦

wpc11 commented 4 years ago

您好请问下那个数据集中标签的转换字符文件该如何搜索呢,,直接搜转换字符文件嘛,,之后试着搜索但没有搜到,,期待您的回答

skinatabc commented 4 years ago

我是在github上另一个ocr项目的issue里找到的 忘记是哪个了… 你可以看看https://github.com/YCG09/chinese_ocr这个里面有个char_std_5990.txt 那个就是用来转换的

------------------ 原始邮件 ------------------ 发件人: wpc11 <notifications@github.com> 发送时间: 2020年4月7日 13:39 收件人: courao/ocr.pytorch <ocr.pytorch@noreply.github.com> 抄送: skinatabc <767802795@qq.com>, Author <author@noreply.github.com> 主题: 回复:[courao/ocr.pytorch] 感谢大佬回答我的疑问对于crnn数据集的获取 在此分享给有需要的人 (#24)

您好请问下那个数据集中标签的转换字符文件该如何搜索呢,,直接搜转换字符文件嘛,,之后试着搜索但没有搜到,,期待您的回答

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

wpc11 commented 4 years ago

好的好的多谢您的回答