Open tangjiawei777 opened 2 years ago
我将ms marco document ranking数据集处理成训练集和测试集之后,我发现psg的长度远超512,在这样的情况下使用 from transformers import BertTokenizer好像无法对psg进行BertTokenizer吧?
Have a try.
你好,当psg的长度超过512的时候,是否需要对其截断处理,然后再提取token呀?
不需要
我将ms marco document ranking数据集处理成训练集和测试集之后,我发现psg的长度远超512,在这样的情况下使用 from transformers import BertTokenizer好像无法对psg进行BertTokenizer吧?