Open szzwy opened 7 months ago
你好,我这个项目分为两个模型,一个是用于检测并提取文字的ctpn模型,另一个是用于识别文字的crnn模型,这两个需要分别训练,训练的代码在/train_code文件夹内。 针对ctpn的训练,你需要进入/train_code/ctpn_train_code文件夹内,修改/ctpn/config.py文件内的img_dir和label_dir为你图片的路径和标签的路径,同时,你的数据集还要做成如/imagedata的格式(如果标签不为json文件,就要自行去转换为json文件或修改/ctpn/dataset.py文件内read_json和readxml读取标签的函数)。如果以上均完成,运行train.py应该就能成功开始训练了。 针对crnn的训练,你需要进入/train_code/crnn_train_code文件夹内,修改/train_pytorch_ctc.py文件内的config.train_infofile为你的数据标签文件路径,数据标签文件的格式参照information.txt文件(这里可以用上面训练ctpn的数据集,然后调用data_pre.py代码,就能自动生成这个数据标签文件)。如果以上均完成,运行train_pytorch_ctc.py应该就能成功开始训练了。另外,对于crnn的训练,你还可以参考这个https://github.com/courao/ocr.pytorch/blob/master/train_code/train_crnn/readme.md 。 希望我的回答能帮助到你。
好的楼主,但是我在测试ctpn的train.py时使用了代码内自带的和我自己测试,都报出下面的错误:
Traceback (most recent call last):
File "/mnt/workspace/OCR-Invoice_Identification/train_code/ctpn_train_code/train.py", line 106, in
是我环境的问题吗
我想针对火车票训练一下,数据集我有,应该怎么搞呢?谢谢楼主