mask in crf - Githubissues

lonePatient / BERT-NER-Pytorch

Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)

MIT License

2.08k stars 427 forks source link

您好，

请问用attention_mask做crf的mask的话，一个word假设有多个sub tokens，那这些tokens都就都keep了。在bert for ner里面，是用一个词的第一个token做的classification。

此处的mask也是attention mask。那么就会导致从CLS到SEP还有其中的所有token都会被keep，用于做decode。请问此处mask这样设置合理么？还是应该只保留每个word的第一个token呢？谢谢！

lonePatient / BERT-NER-Pytorch