ner 这块的问题 - Githubissues

Spico197 / DocEE

🕹️ A toolkit for document-level event extraction, containing some SOTA model implementations.

https://doc-ee.readthedocs.io/

MIT License

234 stars 36 forks source link

Closed xxllp closed 2 years ago

xxllp commented 2 years ago

1.文本metion 的type 如果不是role type ，是否metion的所有type都是一个默认的类型？代码运行看起来是这样的。 2.对标记实体的个数大于事件里面出现的频率这种在训练阶段是否是默认支持？

Spico197 commented 2 years ago

xxllp commented 2 years ago

1 我用一个英文数据集里面最后把这些mention的类型打印出来看都是一样的只有 0 1
但是原始的类型肯定不是这样

举个例子：文本里面标记的entity 一共 10个但是事件却只有其中5个，或者更直接点事件里面一个都没用到这样训练应该是可以的但是从感觉上来说这个多余的实体是否有必须要加入模型里面

Spico197 commented 2 years ago

xxllp commented 2 years ago

我看有些数据里面有othertype 这个是不是就是我说的多余实体是吧 ~~~

Spico197 commented 2 years ago

是的，但不是“多余实体”的全部。可以对数据集做个简单分析，就可以看出哪些是“多余实体”了。

xxllp commented 2 years ago

多谢~~

xxllp commented 2 years ago

我现在发现在英文的数据集上面的ner recall 很低哈这个我已经将数据的下标改成piece 后的下标还是这样