liu-nlper / SLTK

序列化标注工具,基于PyTorch实现BLSTM-CNN-CRF模型,CoNLL 2003 English NER测试集F1值为91.10%(word and char feature)。
362 stars 84 forks source link

利用训练好模型做NER任务时,无hdf5文件问题 #15

Open Biaocsu opened 5 years ago

Biaocsu commented 5 years ago

@liu-nlper 您好,我正在做NER任务,然后用训练好的模型找一份raw数据中实体时,会要求有相应名称的hdf5文件,但是当我把raw数据名称改成已有hdf5文件名时,效果极差,不过测试的数据是另外一个领域的啊,但是也存在相同实体。 不知道原因在于训练数据和最终要找的数据属于不同领域(有交叉实体),还是hdf5文件问题?望解答

carly95 commented 5 years ago

我理解hdf5是根据训练数据和测试数据一起生成的,所以如果没有在训练的时候把raw数据作为测试数据放进去的话,这时候的hdf5是捕捉不到一些词的,不知道是不是这个问题哈。

Biaocsu commented 5 years ago

@carly95 是的,训练时如果没有把raw数据放进去是不会生成hdf5文件。但是真正跑完模型运用的时候,肯定是拿一个文件进行实体识别,这个文件不能参与训练。(但又由于未参与训练会出现无hdf5文件报错,相互矛盾)所以总感觉这代码这个地方有问题,不知道你有没有方法解决?

yt-liang commented 4 years ago

@carly95 是的,训练时如果没有把raw数据放进去是不会生成hdf5文件。但是真正跑完模型运用的时候,肯定是拿一个文件进行实体识别,这个文件不能参与训练。(但又由于未参与训练会出现无hdf5文件报错,相互矛盾)所以总感觉这代码这个地方有问题,不知道你有没有方法解决?

我想问一下您这个跑出结果了吗?最近刚接触,可以的话能分享下代码吗?方便的话可以联系qq642516257(微信同),谢谢您了。