Closed hankcs closed 3 years ago
我注意到技术报告中2.1节提到:
We limit the length of sentences in each batch to up to 512 tokens, and the batch size is 128.
这一段后面又提到:
The batch sizes for the two stages are 16384 and 32768, respectively
请问究竟batch size究竟是哪个呢?是否前一个是number of sequences,后面一个是number of tokens?还是由于使用了LAMB所以能支持这么大的batch size?LAMB的paper用的是32868。
感谢提醒,这里的表述可能不够准确。前面的 128 是指单卡 batch size,后面的是 global batch size。 LAMB 使得大 batch size 收敛的更稳定,我们参考其实验编写了对应的规则。实际训练当中,会尽可能从集群资源池中拿到更多的 GPU,但不使 global Batch Size 超过 32768。 下一版报告我们会调整这一部分,避免引起误解。
我注意到技术报告中2.1节提到:
这一段后面又提到:
请问究竟batch size究竟是哪个呢?是否前一个是number of sequences,后面一个是number of tokens?还是由于使用了LAMB所以能支持这么大的batch size?LAMB的paper用的是32868。