LorrinWWW / two-are-better-than-one

Code associated with the paper **Two are Better Than One: Joint Entity and Relation Extraction with Table-Sequence Encoders**, at EMNLP 2020
196 stars 47 forks source link

自定义数据集的训练 #10

Closed insbread closed 3 years ago

insbread commented 3 years ago

你好,最近我在研读你的论文,想将这篇论文的方法应用在我自己的数据集上,请问如果要使用自己的数据集作为该模型的输入的时候,数据集的标准格式是怎么样的? 谢谢!

LorrinWWW commented 3 years ago

参照"./datasets/unified/"里文件的格式

insbread commented 3 years ago

非常感谢你的回答,我还有一个问题想请教一下: 如果数据集里面包含了嵌套的实体以及EPO类型的关系,请问在构建数据集的时候,这一部分的数据是否需要剔除?

LorrinWWW commented 3 years ago

目前的实现没有考虑嵌套实体和多标签的情况,需要剔除这些数据。或者你可以修改dataloader和model来适应这些情况,不过可能改动就会比较大。

insbread commented 3 years ago

好的,很感谢你抽出时间来解答我的疑惑!