Closed LindgeW closed 4 years ago
请问你用的是什么dataset,正常情况下不可能发生precision低的情况。因为training的时候negative example 的数量是要比positive的多得多的,所以如果F1 低的话一般只可能是recall的问题
您论文里面提到的"non-entity"应该不是"O",而是只要这个span不是指代一个合法的实体标签就当做non-entity ? 可能原因是我忽略了non-entity的更新
对的:)
您论文里面提到的"non-entity"应该不是"O",而是只要这个span不是指代一个合法的实体标签就当做non-entity ? 可能原因是我忽略了non-entity的更新
不好意思,重新打开了问题。 "non-entity"应该不是"O"是什么意思?如果实体分为姓名,地址,组织。那么分类数为5吗?包括三种实体,O和non-entity?
"O" 是用在flat ner里面标注non-entity 部分的,只适用于sequence labeling的方式。 在sequence labeling的方法下label是给到每个token的。 我们的使用的方法是基于span的,所以和“O”label不同。 如果实体分为姓名,地址,组织。那么分类数为4:【姓名,地址,组织,non-entity】 举个例子说 John B-PER met O Mary B-PER at O the B-LOC park I-LOC 这里只有两个“O”, 不过对于我们的系统来说任何除了三个entity “John”,“Mary”,“the park”意外的组合都是non-entity (”John met“,”John met Mary“,”John met Mary at” 。。。。)
谢谢回复,我看到之前回复以为处理不一样,将(start_i, end_j)这种标记为更为特别的类别的。 那没问题了,跟我以前理解的一样的
On May 8, 2021, at 10:47 PM, Juntao Yu @.***> wrote:
"O" 是用在flat ner里面标注non-entity 部分的,只适用于sequence labeling的方式。 在sequence labeling的方法下label是给到每个token的。 我们的使用的方法是基于span的,所以和“O”label不同。 如果实体分为姓名,地址,组织。那么分类数为4:【姓名,地址,组织,non-entity】 举个例子说 John B-PER met O Mary B-PER at O the B-LOC park I-LOC 这里只有两个“O”, 不过对于我们的系统来说任何除了三个entity “John”,“Mary”,“the park”意外的组合都是non-entity (”John met“,”John met Mary“,”John met Mary at” 。。。。)
— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/juntaoy/biaffine-ner/issues/15#issuecomment-835390159, or unsubscribe https://github.com/notifications/unsubscribe-auth/ACXJK5VYCJCNTFJYD4QBJ5LTMVFJZANCNFSM4SQQKD5A.
您在预测(解码)的时候,(取完argmax后的实体) 候选项不多吗?本人复现您的结果,发现候选项挺多的,导致precision拉的很低