Closed PromptExpert closed 6 years ago
你好,
我用100万的中英平行预料分别训练了THUMT的transformer_base和Tensor2Tensor的transformer_base。 THUMT设置有constant_batch_size=True,batch_size=64,update_cycle=1。t2t也是batch_size=64,他们都在单GPU上训练。
训练时,THUMT每个step的平均时间是0.63秒,t2t每个step的平均时间是0.08秒。 翻译我没有记录准确数字,大概是翻译一万行,THUMT比t2t快十几倍。
我的实验结果合理吗?哪里可能有问题?
抱歉。我不知道t2t的batch_size也是token数,统一成token数后,updata_cycle=1时,THUMT训练每4126个token比t2t略快0.02秒(0.28,0.30)。
我比较好奇你t2t翻译Inference时decode_params是怎么设置的,会慢这么多?
你好,
我用100万的中英平行预料分别训练了THUMT的transformer_base和Tensor2Tensor的transformer_base。 THUMT设置有constant_batch_size=True,batch_size=64,update_cycle=1。t2t也是batch_size=64,他们都在单GPU上训练。
训练时,THUMT每个step的平均时间是0.63秒,t2t每个step的平均时间是0.08秒。 翻译我没有记录准确数字,大概是翻译一万行,THUMT比t2t快十几倍。
我的实验结果合理吗?哪里可能有问题?