The research question is how well current NLP methods, especially in the form of word embedding models, perform on extracting and verifying fine-grained relations and knowledge from the comparably small book series corpora.
这个研究的目的是研究现在前沿的NLP语言模型,对于这种相对比较小的书籍语料,抽取fine-grained relations and knowledge的能力如何。
这个研究的贡献:
手工构筑了这两本书的数据,包括analogy (类推) and doesn’t-match tasks (不匹配)
一句话总结:
提出了一个高质量的,数位人文学数据集,用于验证语言模型的好坏。
资源:
论文信息:
Author: ITMO University 俄国的学校
Dataset: 哈利波特,冰与火
keywords:
数位人文学 (英语:Digital humanities, DH)是电脑运算或资讯科技与人文学的交叉学科[2][3] 。可被定义为以合作、跨学科与电脑运算等新方法来进行人文学的研究、教学、出版等学术工作[4] 。数位人文学将数位工具与方法带进人文学中,并认为印刷书不再是知识生产与传布的主要媒体。
笔记:
主要关注文学领域,具体从两个系列中获取数据,一本是冰与火之歌,一本是哈利波特。
The research question is how well current NLP methods, especially in the form of word embedding models, perform on extracting and verifying fine-grained relations and knowledge from the comparably small book series corpora. 这个研究的目的是研究现在前沿的NLP语言模型,对于这种相对比较小的书籍语料,抽取fine-grained relations and knowledge的能力如何。
这个研究的贡献:
我们没打算实现太高的accuracy,而是为将来的工作做一个baseline。
3.3 Word Embedding Models
尝试了下面几种模型:
4.1 Evaluation Setup
4.3 Analogy Task Results
类推的任务可以通过一个例子完美解释,在ASOIF中,淹神对葛雷乔伊,相对于 狮子对XXX。答案是兰尼斯特。
我们发现创建一个用于类推任务,且有高质量关系的数据非常困难。因为歧义问题很严重。在冰与火里,一个人可能有多个名字,或绰号。而且关系也会随时间改变。比如在冰与火里,Jon Snow一开始被认为是私生子,但后来发现并不是。
4.4 Doesn’t match Task Results
输入4个term,其中有一个是不相关的,答案要预测哪个是不相关的。验证的脚本是通过Gensim(基于正确答案)给出 intruder candidate。Gensim计算所有输入的vector,去平均值。然后计算consine距离,拥有最大距离的vector的term,就是不匹配的term。所以随机的baseline是 0.25.
4.7 Impact of Task Difficulty
在冰与火里,family-siblings是比较困难的类别,比如 Jaime Tyrion Cersei
接下来要看的论文:
Kernelized Hashcode Representations for Relation Extraction