关于预测的候选项问题

LindgeW commented 4 years ago

您在预测（解码）的时候，(取完argmax后的实体) 候选项不多吗？本人复现您的结果，发现候选项挺多的，导致precision拉的很低

juntaoy commented 4 years ago

请问你用的是什么dataset，正常情况下不可能发生precision低的情况。因为training的时候negative example 的数量是要比positive的多得多的，所以如果F1 低的话一般只可能是recall的问题

LindgeW commented 4 years ago

您论文里面提到的"non-entity"应该不是"O"，而是只要这个span不是指代一个合法的实体标签就当做non-entity ? 可能原因是我忽略了non-entity的更新

juntaoy commented 4 years ago

对的：）

Fei-Wang commented 3 years ago

您论文里面提到的"non-entity"应该不是"O"，而是只要这个span不是指代一个合法的实体标签就当做non-entity ? 可能原因是我忽略了non-entity的更新

不好意思，重新打开了问题。 "non-entity"应该不是"O"是什么意思？如果实体分为姓名，地址，组织。那么分类数为5吗？包括三种实体，O和non-entity？

juntaoy commented 3 years ago

"O" 是用在flat ner里面标注non-entity 部分的，只适用于sequence labeling的方式。在sequence labeling的方法下label是给到每个token的。我们的使用的方法是基于span的，所以和“O”label不同。如果实体分为姓名，地址，组织。那么分类数为4：【姓名，地址，组织，non-entity】举个例子说 John B-PER met O Mary B-PER at O the B-LOC park I-LOC 这里只有两个“O”，不过对于我们的系统来说任何除了三个entity “John”，“Mary”，“the park”意外的组合都是non-entity （”John met“，”John met Mary“，”John met Mary at” 。。。。）

Fei-Wang commented 3 years ago

谢谢回复，我看到之前回复以为处理不一样，将(start_i, end_j)这种标记为更为特别的类别的。那没问题了，跟我以前理解的一样的

On May 8, 2021, at 10:47 PM, Juntao Yu @.***> wrote:

"O" 是用在flat ner里面标注non-entity 部分的，只适用于sequence labeling的方式。在sequence labeling的方法下label是给到每个token的。我们的使用的方法是基于span的，所以和“O”label不同。如果实体分为姓名，地址，组织。那么分类数为4：【姓名，地址，组织，non-entity】举个例子说 John B-PER met O Mary B-PER at O the B-LOC park I-LOC 这里只有两个“O”，不过对于我们的系统来说任何除了三个entity “John”，“Mary”，“the park”意外的组合都是non-entity （”John met“，”John met Mary“，”John met Mary at” 。。。。）

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/juntaoy/biaffine-ner/issues/15#issuecomment-835390159, or unsubscribe https://github.com/notifications/unsubscribe-auth/ACXJK5VYCJCNTFJYD4QBJ5LTMVFJZANCNFSM4SQQKD5A.

juntaoy / biaffine-ner

关于预测的候选项问题 #15