thunlp / PL-Marker

Source code for "Packed Levitated Marker for Entity and Relation Extraction"
MIT License
260 stars 35 forks source link

Conll03数据集处理 #29

Closed Hou-jing closed 2 years ago

Hou-jing commented 2 years ago

你好,请问,为神魔要将Conll03数据集处理为I-label的形式,这样的话, 数据集的labelmap= {'O':0,'I-label':num}了吗?就不存在‘B-label’了吧, 但是,代码中定义的label_map,包括了B-label的呀。 而且,在分类中,模型给出的target-label=9, 所以,数据集,为什么要把B-label替换为I-label呢?

image

YeDeming commented 2 years ago

你好,这个是下载别人处理的数据,没有特地去看这个有没有B-

Hou-jing commented 2 years ago

但是,在你们的模型中是9个类别,如果没有B-label的话,应该是5分类问题吧。 我用了您们提供的数据集和模型,在跑模型的时候,F1惨不忍睹,0.2左右,和论文中0.93差的太多了, 问题归结于是模型还是数据呢?

YeDeming commented 2 years ago

请问你测试的是这个模型吗 https://cloud.tsinghua.edu.cn/d/5e4a117bc0e5407b9cee/?p=%2Fconll03ner-roberta&mode=list

Hou-jing commented 2 years ago

不是,我没有使用您训练好的模型 而是,使用了您们提供的代码,重新做的训练,但是结果,确 不太乐观。 您们提供的模型,是按照9分类还是5分类任务来做的呢?数据集中有无B-label标签,是否会对不同分类数量下的模型的结果产生影响?

YeDeming commented 2 years ago

我们是按按9分类做的,我认为这个应该没有影响。 请问你使用的训练脚本是?

YeDeming commented 2 years ago

看起来暂时没有其他人遇到这个问题,issue暂时关闭