对于不是一个单词的实体

Wonderson-wpp commented 3 years ago

您好，我将您的模型用于实验室的生物文献数据集上，我的格式是是按照casrel的格式处理的，但是发现您在处理实体的时候默认所有的实体都是一个单词，而我的数据集的实体大部分都是多单词，会在预处理时就报错。您将许多的多单词实体的最后一个单词作为实体是处于什么样的考虑呢？还有对于这种存在多单词的实体数据集，您推荐使用哪种启动参数配置才能处理呢？

{ "text": "HES1 as an independent prognostic marker in esophageal squamous cell carcinoma .", "triple_list": [ [ "HES1", "/Gene/Cancer/prognostic_factor_orMarkers", "esophageal squamous cell carcinoma" ] ] }

Coopercoppers commented 3 years ago

因为nyt和webnlg都是用的partial match,其他数据集用的exact match. 你这个需要自己处理一下数据，就是改一下datalounder.py里的nyt_and_webnlg_preprocess函数，把他转成exact match就行了。另外参数设置看你数据集大小，sample大于4000的用普通的，其他的用scierc的参数设置。要达到最好效果的话得你自己去调整batch size和学习率

Wonderson-wpp commented 3 years ago

谢谢您的解答！

guanxichouqu commented 1 year ago

你好请问一下我也想要用自己的数据集可以向你请教一下相关经验吗

Coopercoppers / PFN

对于不是一个单词的实体 #4