总觉在bert span中start位置提供的信息结合倒end的方式有问题。

如果 start_positions (假设batch size=1, 忽略batch这个纬度) 为 tensor([0, 0, 0, 2, 0, 8, 0, 0, 0, 0]) end_positions 为 tensor([0, 0, 0, 0, 2, 0, 0, 8, 0, 0]) 那么 label_logits = tensor([[1., 0., 0., 0., 0., 0., 0., 0., 0.], [1., 0., 0., 0., 0., 0., 0., 0., 0.], [1., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 1., 0., 0., 0., 0., 0., 0.], [1., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 1.], [1., 0., 0., 0., 0., 0., 0., 0., 0.], [1., 0., 0., 0., 0., 0., 0., 0., 0.], [1., 0., 0., 0., 0., 0., 0., 0., 0.], [1., 0., 0., 0., 0., 0., 0., 0., 0.]])

代码里self.end_fc(sequence_output, label_logits) 会对end 和 label_logits进行拼接这里我觉得对 end端输入 start部分的信息没什么用，因为对于 end中的第5个token id 即2 它要拼接的对象是 label_logits中第5行在我的理解中因为它是end 他应该拼接的是 start中 token_id =2的信息即应该拼接为label_logits中的第4行如果模型是序列的还会有可能把start的信息传递给 end，但是bert后的各个token的fc是独立计算的所以感觉这里并没有把start信息很好的传递给end的

lonePatient / BERT-NER-Pytorch

总觉在bert span中start位置提供的信息结合倒end的方式有问题。 #68

lonePatient / BERT-NER-Pytorch

总觉 在bert span中start位置提供的信息结合倒end的方式有问题。 #68

总觉在bert span中start位置提供的信息结合倒end的方式有问题。 #68