Langboat / Mengzi

Mengzi Pretrained Models
Apache License 2.0
534 stars 63 forks source link

batch size究竟是128还是16384 #21

Closed hankcs closed 3 years ago

hankcs commented 3 years ago

我注意到技术报告中2.1节提到:

We limit the length of sentences in each batch to up to 512 tokens, and the batch size is 128.

这一段后面又提到:

The batch sizes for the two stages are 16384 and 32768, respectively

请问究竟batch size究竟是哪个呢?是否前一个是number of sequences,后面一个是number of tokens?还是由于使用了LAMB所以能支持这么大的batch size?LAMB的paper用的是32868。

Ag2S1 commented 3 years ago

感谢提醒,这里的表述可能不够准确。前面的 128 是指单卡 batch size,后面的是 global batch size。 LAMB 使得大 batch size 收敛的更稳定,我们参考其实验编写了对应的规则。实际训练当中,会尽可能从集群资源池中拿到更多的 GPU,但不使 global Batch Size 超过 32768。 下一版报告我们会调整这一部分,避免引起误解。