foxlf823 / ADExtractor

1 stars 0 forks source link

ADE relation data #3

Open chiyuan1126 opened 4 years ago

chiyuan1126 commented 4 years ago

非常感谢分享代码,有幸读了您几篇关于Joint extraction methods of ADE data 的论文,想请教下关于ADE关系的实验部分细节 “Only ADE sentences annotated with drug/disease mentions are used in our experiments because we need to evaluate the performance of both entity recognition and relation extraction. ”。

实验里的负(negative)样本是怎么生成的呢?可以告知一下细节么?如果只用DRUG-AE.rel文件中的ADE关系作为positive样本的话,那么几乎每一句里面每两两组合的drug和disease对,都几乎会存在ADE的关系。而我从https://sites.google.com/site/adecorpus/home 下载的ADE-NEG.txt ,好像里面并没有drug和disease的实体标注数据。非常困扰! 如果您知道的话,可否告诉一下?谢谢~

foxlf823 commented 4 years ago

您好, 感谢您对我工作的兴趣。对于ADE数据集,我只用了DRUG-AE.rel里的样本,ADE-NEG.txt里因为没有实体标注,所以做实体关系抽取联合模型是无法使用的。对于实体关系联合抽取,因为关系不但和句子有关,也和实体有关,DRUG-AE.rel里的样本不能像句子分类问题那样,全部看成正样例。但是确实存在大部分实体都有ADE关系的问题,导致数据集比较bias。建议做ADE抽取的话,可以用一些新的语料库(如下)。这些语料库应该包含实体的标注。

Wei, Qiang, et al. "A study of deep learning approaches for medication and adverse drug event extraction from clinical text." Journal of the American Medical Informatics Association 27.1 (2020): 13-21. Karimi, Sarvnaz, et al. "Cadec: A corpus of adverse drug event annotations." Journal of biomedical informatics 55 (2015): 73-81.

chiyuan1126 commented 4 years ago

@foxlf823 非常感谢您的及时回复!是的,我木有当成句子分类做哈,我是尝试对DRUG-AE.rel中按照Drug-AE的出现对(pair),构建那个DRUG-AE.rel关系抽取的集合,Drug - AE 两两组对不存在关系的当作负样例,然后感觉数据集确实比较bias。多谢您关于数据集的建议!