jianlingl / paper_reading

reading notebook
1 stars 0 forks source link

Cross-Lingual Semantic Role Labeling with High-Quality Translated Training Corpus #2

Open jianlingl opened 2 years ago

jianlingl commented 2 years ago

语义角色标注(SRL)是自然语言理解的重要组成部分,近年来学术界对其进行了大量的研究。当资源丰富的语言(如En english)使用大规模语料库时,监督方法取得了令人印象深刻的性能。而对于没有注释SRL数据集的低资源语言,获得具有竞争力的性能仍然是一个挑战。跨语言的SRL是解决这一问题的一种很有前途的方法,它借助于模型转换和注释投影技术取得了很大的进展。本文提出了一种新的基于语料库翻译的方法,即从源语言的金标SRL注释中构建高质量的目标语言训练数据集。在通用命题库上的实验结果表明,基于翻译的方法是有效的,自动伪数据集可以显著提高目标语言的SRL性能。

jianlingl commented 2 years ago

以往的跨语言语义角色标注可以大致分为两类:模型转换和标注投影。前者基于语言无关特征构建跨语言模型,比如跨语言词表示和通用pos tag,其可以被直接转换到目标语言中。后者基于源语言和目标语言之间的大规模平行关系——其源语言SRL标签自动标注,然后源语言的标注按照词对齐的方式投影到目标语言上。另外,标注投影和模型迁移可以自然结合。

特别是由于源端自动标注的原因,在标注投影中的SRL标签可能含有大量的噪声。直接的方法是基于翻译的方法,该方法已经证明对于跨语言依赖解析有效,其核心思想是通过翻译直接将标签训练数据转换为目标语言,以此来避免低质量源标注问题。幸运的是,由于近期神经网络翻译的进步,使得基于神经网络翻译的方法在跨语言翻译方面有更大的潜力。

为此,本文研究了基于翻译的跨语言SRL方法,将源语言训练语料库中的句子翻译成目标语言,然后将源语言的SRL注释投影到目标测,得到一组高质量的目标语言SRL预料库,用于训练目标SRL模型。进一步,我们将源标签数据和翻译目标数据融合,可以看作是基于翻译的方法和模型转换的方法的结合,我们的baseline是一个简单的BiLSTM CRF模型——使用了多语言上下文词向量表示。为了更好的搜索混合预料库,我们采用参数生成网络PGN来加强BiLSTM,以此来更有效的捕捉语言差异。

我们基于Universal Proposition Bank 语料库跨越七种语言进行实验。首先我们验证了该方法在单一源语言角色标注上的有效性,其中英语作为源语言,其余语言作为目标语言。实验结果显示基于翻译的方法对于跨语言SRL是非常有效的,且加入PGN-BiLSTM可以进一步提高SRL的性能。此外,我们在多种源语言进行角色标注转换实验,其中对于每个目标语言,其余六种语言都被用作源语言,可以观察到与单一源语言角色标注相同的趋势。我们对两种设置进行了详细的分析工作,以全面理解我们提出的方法。总之,我们在这项工作中做出以下两个主要贡献:     本文首次提出了基于翻译的无监督跨语言SRL方法,我们为目标语言构建了高质量的伪训练语料库,并在一定范围内验证了语料库的有效性。

 我们利用了多语言上下文词向量表示,并利用PGN BiLSTM模型增强多语言模型训练。代码和数据已经公布

jianlingl commented 2 years ago

related work 在跨语言迁移学习方面存在着广泛的研究,模型转换和注释投影是实现这一目标的两种主流方法。第一类是基于源语言语料库建立模型,然后根据目标语言进行调整。第二类是通过源语言模型和目标语言平行语句构建一组训练实例,再通过数据集训练目标语言模型。 对于跨语言SRL,很多人研究注释映射,并提出了一系列方法加强目标语言的SRL性能,包括提升映射质量,联合学习语法语义,迭代bootstraping来降低噪音目标语料的影响,以及联合翻译和SRL。 我们的工作主要受到近年来跨语言依存分析树库翻译的启发——即基于翻译的方法。这些方法直接将标准标签数据映射到目标端,缓解了标准标签投射中源注释错误的问题。此外,我们将该方法与模型迁移相结合,这在跨语言SRL中很少被关注,模型迁移得益于最近的跨语言上下文词表示的进步。针对NLP任务的各种注释方法可以极大的促进跨语言SRL,包括POS标注,依存分析,形态学以及角色标注。我们的工作使用公开可用的Universal Proposition Bank (UPB),它遵循了英语命题库3.0 注释谓词和语义角色。 我们的工作也跟有监督角色标注有密切联系,大量工作尝试使用端到端的方法,直接一次性预测谓词和对应的论证角色,也有一些研究旨在适应任务的各种强大的功能。这项工作中,我们利用了一个基于上下文词向量表示的多语言PGN-BiLSTM模型,其达到了跨语言角色标注的SOTA结果。

jianlingl commented 2 years ago

SRL translation 我们首先全翻译源语料,然后通过对齐映射源语料的语义角色标注和论据到目标语料,来自动生成源预料的翻译SRL语料。这种方法对于跨语言依存是有效的,跟注释映射相比,我们可以确保源数据的标注质量,因此生成的目标语料质量更高。除此之外,基于依存的SRL通过这种方法获利更多——因为只预测词和他们的论据,语料只需要映射词和他们的论据,而依存解析只关注所有词。总体的步骤分为两步:翻译和映射。 翻译——首先我们使用一个sota的翻译系统来获取源SRL数据的翻译语句,值得注意的是最近NMT的进步对于我们工作非常有帮助,使得我们的翻译质量更高。 映射——然后我们渐进的将源语句对应的预测或者论据隐射到目标语句,我们用两种信息来辅助映射:1)从源语句到目标语句的对齐概率(用一个对齐工具);2)所有目标词的POS tag分布,可以用一个有监督的POS tagger获得。 我们只关注于源句子种SRL相关的词,并且在谓词级别渐进处理该操作。对于句子中的每个谓词,我们收集谓词和他们的角色词,然后把这些角色标签映射到目标句子中,对于这些词,我们有角色标签r和词性标签t,这两者在UPB中都已经标准好,首先,我们找到具有最高对齐概率的目标词,映射该词对应承载语义角色。然后我们用下面公式计算映射的置信度,其是一个词对齐对应和POS标签的一致性。 目标和源词一对一对齐是映射的理性条件,但是存在多对一的情况,使得目标语言的语义角色有矛盾。对于这些情况,我们优先适用谓词预测,否则只保留最高置信度的预测。最后,我们设置了一个阈值来移除低置信度映射。如果置信度低于阈值,所有谓词对应的角色都被移除,对于论元映射其置信度低于阈值,我们直接移除论元,不影响其他映射。

jianlingl commented 2 years ago

The SRL Model 本工作针对基于依存的SRL——识别给定谓词的角色标签,该工作是一个标准的序列标注任务,这里用了一个简单的多层BiLSTM-CRF模型,结合上下文词向量表示其获得了SOTA结果。我们用一个PGN模型在BiLSTM模型上支持多语言输入。 word representation 给定特定语言的输入语句,wp是谓词,其中p为位置下标,我们适用三种源特征来表示每个词:1) 词形,2)词性,3)谓词指示。 我们比较三种跨语言词形表示:1)多语言词向量,2)多语言ELMO表示,3)多语言BERT表示;注意我们用来自BERT输出的内部词片的平均向量表示作为词的最终表示。 encoding layer 我们用PGN-BiLSTM来编码输入序列,其最开始被用于跨领域迁移学习来获取语言领域特征,这里我们在多语言任务中用它来建模语言特征。跟原版普通BiLSTM相比,PGN-BiLSTM动态选择跟语言相关的BiLSTM参数。让V作为BiLSTM初始参数,跟语言相关的参数VL由PGN-BiLSTM的原版BiLSTM与语言表示向量L乘积得到。 output layer 我们用CRF来计算每个候选项的概率属输出。

jianlingl commented 2 years ago

The SRL Model 本工作针对基于依存的SRL——识别给定谓词的角色标签,该工作是一个标准的序列标注任务,这里用了一个简单的多层BiLSTM-CRF模型,结合上下文词向量表示其获得了SOTA结果。我们用一个PGN模型在BiLSTM模型上支持多语言输入。 word representation 给定特定语言的输入语句,wp是谓词,其中p为位置下标,我们适用三种源特征来表示每个词:1) 词形,2)词性,3)谓词指示。 我们比较三种跨语言词形表示:1)多语言词向量,2)多语言ELMO表示,3)多语言BERT表示;注意我们用来自BERT输出的内部词片的平均向量表示作为词的最终表示。 encoding layer 我们用PGN-BiLSTM来编码输入序列,其最开始被用于跨领域迁移学习来获取语言领域特征,这里我们在多语言任务中用它来建模语言特征。跟原版普通BiLSTM相比,PGN-BiLSTM动态选择跟语言相关的BiLSTM参数。让V作为BiLSTM初始参数,跟语言相关的参数VL由PGN-BiLSTM的原版BiLSTM与语言表示向量L乘积得到。 output layer 我们用CRF来计算每个候选项的概率属输出。

jianlingl commented 2 years ago

experiments 数据集-我们的实验是基于UPB(universal proposition bank),其是基于UDT(universal dependency treebank)和PB(proposition Bank)构建的,UPB中所有语言数据集都是基于同一基于依存的全局注释来构建的,特别是我们收集英语SRL基于英语EWT数据集(来自UDT1.4)和PB3.0英语语料.最后,我们选择了7种语言作为我们的数据集,包括IE.German语系的英语和德语,IE.Romance语系(罗曼语、拉丁语系)的法语,意大利语,西班牙语,和葡萄牙语,以及乌拉尔语族的芬兰语。 SRL Translation-我们专注于无监督跨语言的SRL,假设无可用的标准标签目标语言的SRL语料。我们的目标是通过语料翻译来构建伪训练数据。我们 用谷歌翻译,用fastAlign来获取词对齐,为了获取准确词对齐,我们收集了一组平行语料来扩充fastAlign的对齐语料。而翻译语句的POStag是由有监督单语言pos tagger获取的,其在UDT1.4分别训练而来。 setting-多语言词表示,我们调研了三种多语言词表示:1)word embedding(Emb):MUSE2018;2)ELMo:7种混合语言被用来训练多语言ELMo 2019; 3)BERT直接用官方发布的多语言BERT2019 hyperparameters 对于SRL翻译,只有一个超参数,映射置信度阈值,来过滤低质量SRL翻译句子,根据最初实验结果,我们把阈值设置为0.4. 对于神经SRL模型,多语言词嵌入维度大小为300,1024,768。POS词性,谓词指示和语言ID的嵌入大小分别为100,100和32. LSTM隐藏维度大小为650.我们用batch大小为50来在线训练,用Adam算法来优化参数,学习率为0.0005,训练在整个训练集上进行,木有early-stop,单个语言训练80从迭代,而多语言迁移任务种训练300词迭代。 baseline --basic, MoE,MAN-MoE evaluation -- 每个模型训练五次 cross-lingual transfer from English -- 首先测试三种不同的预训练策略,然后测试不同语料组合时候模型的性能变动。最终表现较强的有首先语言表示为ELMo,模型表现比较好的是PGN和MAN-MoE,且当源语料 和 目标语料结合的时候效果最好。 multilingual word representation -- 比较有意思的是ELMo性能比BERT要好,所以multilingual BERT可以训练的更好,就像BERT一样