sunyilgdx / SIFRank_zh

Keyphrase or Keyword Extraction 基于预训练模型的中文关键词抽取方法(论文SIFRank: A New Baseline for Unsupervised Keyphrase Extraction Based on Pre-trained Language Model 的中文版代码)
417 stars 80 forks source link

是否还有其他类似的工作? #4

Closed wqcabjkcuh closed 4 years ago

wqcabjkcuh commented 4 years ago

您好!拜读了您这篇关于无监督关键词抽取的论文,我看到相关工作以及模型的对比中,您的工作首次将 pretrained model 引入到无监督关键词抽取中来。想向您请教一下目前还有没有其他类似工作出现?您对这一方向的未来发展有怎么的看法呢?

sunyilgdx commented 4 years ago

您好,截止发文前还没看到预训练模型关键词抽取的相关的文献,最相关的是利用词向量模型(Word2Vec和GLoVe),典型的代表是RVA{1],利用被抽取对象训练本地GLoVe向量,没有预训练的步骤,本质上还是基于词共现性的图模型;还有一篇就是EmbedRank[2],简单的基于句向量模型Doc2Vec和Sent2Vec,由于发文较早,没有对近期出现的ELMo、BERT、XLNet等预训练模型进行探讨。 预训练模型由于层数较多,因此我的论文里还没来得及讨论每一层对文章主题关键词抽取的效果,可能还有一定的研究价值,但是大的趋势是有监督方法,或者弱监督、自监督。另外就是要结合句子的结构,我文中提到的位置偏权只是一种简单的方法,应该还有更好地融合句子结构的注意力机制的方法。

[1]E. Papagiannopoulou and G. Tsoumakas, “Local word vectors guiding keyphrase extraction,” Information Processing & Management, vol. 54, no. 6, pp. 888-902, 2018. [2]K. Bennani-Smires, C. Musat, A. Hossmann, M. Baeriswyl and M. Jaggi, “Simple Unsupervised Keyphrase Extraction using Sentence Embeddings,” in Proc CoNLL, 2018, pp. 221-229.

wqcabjkcuh commented 4 years ago

感谢如此耐心的解答,我相信这会是一篇很有影响力的工作,之后会有更多的人关注。期待您新的大作! : )