jianlingl / paper_reading

reading notebook
1 stars 0 forks source link

A Survey of the Model Transfer Approaches to Cross-Lingual Dependency Parsing #5

Open jianlingl opened 2 years ago

jianlingl commented 2 years ago

作者 AYAN DAS and SUDESHNA SARKAR, Indian Institute of Technology Kharagpur

abstract 跨语言依存解析是 用来解决树库少或者没有用其他语言的树库来做依存分析;应用跨语言方法解决问题的语言被称为目标语言,而被应用的语料库被称为源语言。跨语言解析方法分为三种:model transfer, annotation projection 以及树库翻译。本论文从三个方面回顾跨语言方法的model transfer;本调研中,将model transfer分类,讨论跨语言解析和技术面临的挑战和这些挑战的解决。为了解决两种语言的词汇差异问题,一些方法只使用词的非词汇的特征来训练模型,而其他用共享词向量表示。 一些方法解决形态差异,主要通过trunk-level的迁移而不是字级迁移。 源和目标之间的句法差异有人通过转换源树库,有人通过联合源语言和多种源语言。 除此之外,跨语言迁移解析器可以是针对某一特殊语言的或者是解析多种语言语句,针对以上提到的方面,我们观测方法分类的多种方式。我们进一步分类和讨论这些不同方法方面的视角。我们也讨论转换模型在不同设置对应类别层面数据集下的表现。

1 introduction 句法分析是指在明确语法基础上,根据句子构成词之间的关系来分析句法结构。句法解析包括句法结构和词关系。是NLP任务非常重要的作用,因为句法分析可以被应用到很多下游任务,如果SRL,QA和机器翻译。 1.1 何为依存解析 依存语法是一种流行的句法分析的语法形式,其句法解析树由成分词和词之间的二元关系组成,这些二元关系来自一个有限的语法关系集合。依存解析是基于依存语法的句法解析器。

jianlingl commented 2 years ago

model transfer model transfer方法是直接用源语言解析目标语言,通常需要在源和目标语言两侧的POS(词性标注)和形态分析(有时候需要)。而这些词汇特征在投射到一个共同空间后,可以引入到跨语言向量表示中。 而注释投影式一种通过并行语料来映射注释的通用方法。假设源语料和目标语料都可用,而源语料有树库资源。注释投影方法用源语料树库训练的parser来解析平行语料,源语言和目标语言的对齐,和他们之间的翻译被用来投影依存关系。而投影获得的目标语言的树库被用来训练目标语言parser。 树库翻译式讲源树库的信息翻译到目标语句,即获得了平行语料,然后利用注释投影来生成一个目标树库,继续用来训练parser模型。

注释投影和树库翻译用平行语料这些额外信息,其效果由于模型迁移方法。然而,平行语料需要要大量工作,而很多句子无法对齐不能用。另一方面,模型迁移方法只要源树库,可能更适用于low-resource设定。