关于bleu 在wmt2017 de-en

zl1300012994 commented 5 years ago

您好：我使用了您的THUMT框架，我完全按照UserManual上的参数指令，但我训练了100000step只达到了0.2024bleu，我看您的手册里log显示，5000个step就达到了0.2157，请问是哪些参数我设置的不对吗？希望您能回复

Glaceon31 commented 5 years ago

我貌似没在手册里找到0.2157？手册里在WMT14上5000个step到0.2601，不是在WMT2017上的结果。可以先跑一个完整的训练，再看看在测试集上的BLEU值

zl1300012994 commented 5 years ago

谢谢您的回复，是我口误了，是在wmt14的测试集的bleu，大概我用的是早年的一个手册，上面的数据是0.2157，那我先完整的训练完，再看看评测结果，请问您，是否有印象大概用wmt2017，de-en训练集，训练到模型稳定，需要跑多少个epoch，或者，多少个step（给定batch_size的时候）？最终的loss大概降到多少了，我是第一次做这个，不太清楚，期待您的回复~

Glaceon31 commented 5 years ago

印象中训200000个step的话，100000steps已经离最高点差不多了。最好按照新版本的手册跑，老版本的手册里batch_size设置的太低了，会导致最后的效果差上不少。

minicheshire commented 5 years ago

您好！这里对您的一些疑问进行回复。

关于手册中给出的log。手册中给出的log是在一次训练过程中，模型在开发集上的结果。其实这里手册中给出的结果更多的还是一个示例而已，最终值得比较的结果应该是当训练结束后模型在测试集上的结果。在WMT2017 DE-EN的测试集上，使用checkpoint averaging技术，最终应该可以达到35~36个BLEU的结果。由于随机初始化的影响，BLEU值微小的浮动是正常的。
关于训练何时充分的问题。对于base模型（这也是THUMT的默认参数），按照论文中的经验结果，100K步（batch_size = 25K）就已经能达到不错的结果；而对于big模型，则可以训练300K步。另一种做法是，对于base模型，可训练200K步，以达到比100K更加充分的一种“过饱和”的效果，保证能够选出在开发集上性能最好的checkpoint。若GPU资源充足，还有一种做法是设置训练步数为999999999，即无穷大；训练过程中，人工执行early stop：即，当发现模型在开发集上连续10个checkpoint效果不升，则结束训练。

以下是一些训练时可以用到的小技巧：

batch_size设大。不如这样讲：25K是一个底线。实际操作中，可以按照您的GPU显存的大小来设置batch_size，将GPU显存尽量占满即可。您可这样理解THUMT中一些参数的关系：命令中的batch_size是单GPU，单更新循环的batch大小（比如为BS）；如在device_list参数中标明了使用多个GPU（比如n个），且在update_cycle参数中标明了在一个step中要更新几轮（比如m轮），则模型训练时的实际batch_size为BS*n*m。
eval_steps设为中等大小。建议的设置为1000或2000。可以想象eval_steps就是您为了观察训练过程而进行的采样；您要在采样得到的样本中选出若干个进行后续在测试集上解码的操作。那么eval_steps过大可能会有“漏网之鱼”，过小则可能让您的视野局限在训练过程中的某个小阶段，损失了泛化能力。
在验证集上精调decode_alpha。这个参数对最终结果的影响非常大。一个建议的设置是1.0——您可使用该值在训练阶段对验证集进行BLEU值的观察；而在测试阶段，一定要对该值进行精调，可以调节的范围在0.6~1.4左右。
使用checkpoint averaging。善用checkpoint averaging会带了0.5左右的BLEU值提升。一般是对训练阶段存下的末N个checkpoint进行平均，N的取值可以是5, 10, 20, 40等等，可在开发集上进行精调；
使用model ensemble。model ensemble和checkpoint averaging的区别是，checkpoint averaging是单次训练中最好的一些checkpoint的平均，原理是对checkpoint内部存的网络各权重直接取平均数，构成一个新的checkpoint；而model ensemble是多次训练后最好的各checkpoint进行集成，原理是解码时对各checkpoint产生的输出取平均数，而后用于预测。model ensemble也能带来0.5左右BLEU值提升（当然，具体提升效果可能因不同次训练的初始化不同程度的不同而不同）。建议的流程是，对于多次训练，每次训练都使用checkpoint averaging得到最好的平均checkpoint，然后对这些（不同次训练得到的）平均checkpoint们进行模型集成。

希望能够帮到您！

zl1300012994 commented 5 years ago

感谢你们的回复，还有一项疑问想请教，计算bleu指标时，可能是我没有设置正确，在这份代码中好像是无法正常运行的，全是0，经调试发现在utils/hooks.py中，传入bleu.bleu的reference和candidate格式不一致，我将reference每个词都.decode(utf-8)后，可以正常运行，但是指标不高，我训练了6W个step，同样的reference和candidate，我用opennmt的bleu脚本直接测是27，在这里只有17，请问是我哪里设置不对么？感谢你们的帮助~祝好

GrittyChen commented 5 years ago

么？

感谢你们的回复，还有一项疑问想请教，计算bleu指标时，可能是我没有设置正确，在这份代码中好像是无法正常运行的，全是0，经调试发现在utils/hooks.py中，传入bleu.bleu的reference和candidate格式不一致，我将reference每个词都.decode(utf-8)后，可以正常运行，但是指标不高，我训练了6W个step，同样的reference和candidate，我用opennmt的bleu脚本直接测是27，在这里只有17，请问是我哪里设置不对么？感谢你们的帮助~祝好

您好，感谢您对THUMT的支持，关于您对BLEU计算的疑问，我本人测试过，如果使用python3运行THUMT就会出现BLEU值全为0的问题，目前这份代码是不支持python3，我们会在后续增加对python3的支持，建议您目前使用python2.7+版本进行训练和测试，谢谢，祝好！

zl1300012994 commented 5 years ago

感谢您的回复~那我改成 python2.7试试~ 谢谢~祝好~

Felixgithub2017 commented 5 years ago

么？

感谢你们的回复，还有一项疑问想请教，计算bleu指标时，可能是我没有设置正确，在这份代码中好像是无法正常运行的，全是0，经调试发现在utils/hooks.py中，传入bleu.bleu的reference和candidate格式不一致，我将reference每个词都.decode(utf-8)后，可以正常运行，但是指标不高，我训练了6W个step，同样的reference和candidate，我用opennmt的bleu脚本直接测是27，在这里只有17，请问是我哪里设置不对么？感谢你们的帮助~祝好

您好，感谢您对THUMT的支持，关于您对BLEU计算的疑问，我本人测试过，如果使用python3运行THUMT就会出现BLEU值全为0的问题，目前这份代码是不支持python3，我们会在后续增加对python3的支持，建议您目前使用python2.7+版本进行训练和测试，谢谢，祝好！

我在训练时正好也遇到这个问题，

环境为Ubuntu 16.04, python 3.7

先报以下错误：

Traceback (most recent call last): File "trainer.py", line 508, in main(parse_args()) File "trainer.py", line 342, in main override_parameters(params, args) File "trainer.py", line 200, in override_parameters control_symbols File "/home/felix/Hui_Zeng_Computer_Learning/Natural-Language-Processing/THUNLP-MT/THUMT/thumt/data/vocab.py", line 33, in get_control_mapping if symbol.decode("utf-8") == token.decode("utf-8"): AttributeError: 'str' object has no attribute 'decode'

我去掉两边的.decode("utf-8")，然后可以正常训练。但是validation的BLEU分数全部是0。

zl1300012994 commented 5 years ago

改成python2的环境就没有问题啦

THUNLP-MT / THUMT

关于bleu 在wmt2017 de-en #65