Open dr-GitHub-account opened 1 year ago
运行process.py生成数据时,--data_processor默认是'bert',这样生成的是mlm+nsp的数据。我在设置--whole_word_masking时,发现由于mask.py中的create_index函数没有删除src前后句子之间的分隔符[SEP],该函数返回的tokens_index, src并不能准确反映整词掩码,主要原因就是中间的[SEP]被分为了'[', 'sep', ']'。前来确认一下,在设置wwm接口的时候,是不是没有考虑生成mlm+nsp格式的数据,只能用于--data_processor设置为'mlm'的情况?
运行process.py生成数据时,--data_processor默认是'bert',这样生成的是mlm+nsp的数据。我在设置--whole_word_masking时,发现由于mask.py中的create_index函数没有删除src前后句子之间的分隔符[SEP],该函数返回的tokens_index, src并不能准确反映整词掩码,主要原因就是中间的[SEP]被分为了'[', 'sep', ']'。前来确认一下,在设置wwm接口的时候,是不是没有考虑生成mlm+nsp格式的数据,只能用于--data_processor设置为'mlm'的情况?