不能复现训练结果

HuFBH commented 4 years ago

你好，我在复现训练结果时遇到了问题。我使用了默认的train_full，得到的结果相差很多，以下是我的训练结果（我没有修改任何配置信息）：

是哪里出问题了吗？以下是一些具体的操作过程：

操作信息：

（1） git clone 本项目 git clone 本项目数据集：git submodule update 总是失败，下载了链接的项目代替

（2）搭建环境与验证 make small 可以跑通

（3）训练 make full：提示 No such file or directory: 'data/images_train/2050.png'

直接跑train_full: python train.py --data=data/full/data.json --vocab=data/full/vocab.json --training=configs/training.json --model=configs/model.json --output=results/full/

可以跑通，但是不能得到展示的结果，是哪里出问题了吗？

LinXueyuanStdio commented 4 years ago

关于 No such file or directory: 'data/images_train/2050.png' 数据集缺少图片文件，可以自己生成补上，参考 README 的搭建环境部分。当然，训练时不用这条数据也是可以的，修改数据集的 mapping 文件，删除对应的行即可。
关于结果无法复现项目里的默认配置不是最优的，只是提供了一个能跑的版本供玩耍。我也不知道最优的配置到底是啥，因为调参是个玄学。如果希望获得 README 里差不多的结果，建议参考 issue 调一下参，我在其他 issue 里讲了一些调参的经验，可供参考。这个默认配置我是考虑过的，只要对模型有一点点理解，就可以修改少于5个参数，达到 README 的水平附近。

我试过的参数组合很多，有的EMS可以到60以上，但是换个数据集使用一样的参数，EMS有很大的差异。这个有至少三个原因。一是数据集有问题，二是模型有问题，三是训练方法有问题。但是，数据集确实可以进一步清洗，模型的结构和参数也可以进一步改进，训练方法也有太大的灵活性。更不用说随机初始化随机dropout造成结果差异等等更玄学的原因，所以就算我提供我认为的好参数出来，也会出现无法复现的声音，尽管模型确实是可以达到 README 的程度的。加上本项目只是达到先进水平，可以在大部分数据上有较高的准确率，但是离最高水平还有很大的距离（据我所知，已经有EMS到80以上的模型了），给出好参数真的没有必要，还不如玩玩就好。

另外呢，我希望本项目是作为一个易读的，可供学习的，入门的，相对完善的项目，而不是用来上生产环境，或是用来挑战SOA。所以希望使用者能自己动手调参，快乐玩耍就好啦。

HuFBH commented 4 years ago

是的，你的建议非常有用，谢谢。我正要来更新我这边的情况，之前发现了数据集有问题（你说明中的第一点），处理后我顺利跑通了训练。是的，如你所说，我在训练过程中仍然遇到了“不能复现训练结果”的疑问，因为我定性思维认为展示的结果就是默认的配置，你的说明解决了我实践中的疑问。恩，我刚从其他应用领域过来，这是一个很不错的项目:smile:，再次地，感谢你用心的答复。

SpeitzerPatrick commented 3 years ago

你好，你知道数据集有啥问题吗？

pageedward commented 3 years ago

@HuFBH 你用的是哪个数据集，im2latex 100k？不是的话数据问题可以说下嘛，我这使用im2latex 100训练，看下有没可借鉴的地方

LinXueyuanStdio / LaTeX_OCR_PRO

不能复现训练结果 #25

操作信息：