Closed duLun008 closed 2 years ago
感谢解答。 另外,每组span数量取多少比较合适?
我的实验里取了256,我记得取128效果也只差0.2以内
感谢您的耐心解答,我看您源码的full_attention_mask的长度是1024。预训练模型的输入长度限制一般是512,请问输入是怎么放进去的呢?
可以输入1024的,只需要传入对应position id就行