Spico197 / DocEE

🕹️ A toolkit for document-level event extraction, containing some SOTA model implementations.
https://doc-ee.readthedocs.io/
MIT License
232 stars 36 forks source link

ner 这块的问题 #52

Closed xxllp closed 2 years ago

xxllp commented 2 years ago

1.文本metion 的type 如果不是role type ,是否metion的所有type都是一个默认的类型? 代码运行看起来是这样的。 2.对 标记实体的个数大于 事件里面出现的频率 这种在训练阶段是否是默认支持 ?

Spico197 commented 2 years ago
  1. 不是的,实体有自己的类别,默认一个实体的所有mention都是这个类别。区别:比如mention type对应“时间”,而role type是“冻结开始时间”
  2. 没看懂
xxllp commented 2 years ago

1 我用一个英文数据集里面 最后把这些mention的类型打印出来看都是一样的 只有 0 1
但是原始的类型肯定不是这样

  1. 举个例子:文本里面 标记的entity 一共 10个 但是事件却只有其中5个 ,或者更直接点事件里面一个都没用到 这样训练应该是可以的 但是从感觉上来说 这个多余的实体是否有必须要加入 模型里面
Spico197 commented 2 years ago
  1. 根据您的描述,应该是数据集处理的时候有些问题。因为是您自己的数据集,所以没办法定位到具体的问题;
  2. 都行,实验结果证明加上之后可以提升NER部分的P值。
xxllp commented 2 years ago

我看有些数据里面有othertype 这个是不是就是我说的多余实体是吧 ~~~

Spico197 commented 2 years ago

是的,但不是“多余实体”的全部。可以对数据集做个简单分析,就可以看出哪些是“多余实体”了。

xxllp commented 2 years ago

多谢~~

xxllp commented 2 years ago

我现在发现在英文的数据集上面的ner recall 很低哈 这个我已经将数据的下标改成piece 后的下标 还是这样