Coopercoppers / PFN

EMNLP 2021 - A Partition Filter Network for Joint Entity and Relation Extraction
MIT License
171 stars 20 forks source link

对于不是一个单词的实体 #4

Closed Wonderson-wpp closed 3 years ago

Wonderson-wpp commented 3 years ago

您好,我将您的模型用于实验室的生物文献数据集上,我的格式是是按照casrel的格式处理的,但是发现您在处理实体的时候默认所有的实体都是一个单词,而我的数据集的实体大部分都是多单词,会在预处理时就报错。 您将许多的多单词实体的最后一个单词作为实体是处于什么样的考虑呢? 还有对于这种存在多单词的实体数据集,您推荐使用哪种启动参数配置才能处理呢?

{ "text": "HES1 as an independent prognostic marker in esophageal squamous cell carcinoma .", "triple_list": [ [ "HES1", "/Gene/Cancer/prognostic_factor_orMarkers", "esophageal squamous cell carcinoma" ] ] }

Coopercoppers commented 3 years ago

因为nyt和webnlg都是用的partial match,其他数据集用的exact match. 你这个需要自己处理一下数据,就是改一下datalounder.py里的nyt_and_webnlg_preprocess函数,把他转成exact match就行了。 另外参数设置看你数据集大小,sample大于4000的用普通的,其他的用scierc的参数设置。要达到最好效果的话得你自己去调整batch size和学习率

Wonderson-wpp commented 3 years ago

谢谢您的解答!

guanxichouqu commented 1 year ago

你好 请问一下我也想要用自己的数据集 可以向你请教一下相关经验吗