Cross-Lingual Semantic Role Labeling with High-Quality Translated Training Corpus

jianlingl commented 3 years ago

语义角色标注(SRL)是自然语言理解的重要组成部分，近年来学术界对其进行了大量的研究。当资源丰富的语言(如En english)使用大规模语料库时，监督方法取得了令人印象深刻的性能。而对于没有注释SRL数据集的低资源语言，获得具有竞争力的性能仍然是一个挑战。跨语言的SRL是解决这一问题的一种很有前途的方法，它借助于模型转换和注释投影技术取得了很大的进展。本文提出了一种新的基于语料库翻译的方法，即从源语言的金标SRL注释中构建高质量的目标语言训练数据集。在通用命题库上的实验结果表明，基于翻译的方法是有效的，自动伪数据集可以显著提高目标语言的SRL性能。

jianlingl commented 3 years ago

以往的跨语言语义角色标注可以大致分为两类：模型转换和标注投影。前者基于语言无关特征构建跨语言模型，比如跨语言词表示和通用pos tag，其可以被直接转换到目标语言中。后者基于源语言和目标语言之间的大规模平行关系——其源语言SRL标签自动标注，然后源语言的标注按照词对齐的方式投影到目标语言上。另外，标注投影和模型迁移可以自然结合。

特别是由于源端自动标注的原因，在标注投影中的SRL标签可能含有大量的噪声。直接的方法是基于翻译的方法，该方法已经证明对于跨语言依赖解析有效，其核心思想是通过翻译直接将标签训练数据转换为目标语言，以此来避免低质量源标注问题。幸运的是，由于近期神经网络翻译的进步，使得基于神经网络翻译的方法在跨语言翻译方面有更大的潜力。

为此，本文研究了基于翻译的跨语言SRL方法，将源语言训练语料库中的句子翻译成目标语言，然后将源语言的SRL注释投影到目标测，得到一组高质量的目标语言SRL预料库，用于训练目标SRL模型。进一步，我们将源标签数据和翻译目标数据融合，可以看作是基于翻译的方法和模型转换的方法的结合，我们的baseline是一个简单的BiLSTM CRF模型——使用了多语言上下文词向量表示。为了更好的搜索混合预料库，我们采用参数生成网络PGN来加强BiLSTM，以此来更有效的捕捉语言差异。

我们基于Universal Proposition Bank 语料库跨越七种语言进行实验。首先我们验证了该方法在单一源语言角色标注上的有效性，其中英语作为源语言，其余语言作为目标语言。实验结果显示基于翻译的方法对于跨语言SRL是非常有效的，且加入PGN－BiLSTM可以进一步提高SRL的性能。此外，我们在多种源语言进行角色标注转换实验，其中对于每个目标语言，其余六种语言都被用作源语言，可以观察到与单一源语言角色标注相同的趋势。我们对两种设置进行了详细的分析工作，以全面理解我们提出的方法。总之，我们在这项工作中做出以下两个主要贡献：　　　本文首次提出了基于翻译的无监督跨语言SRL方法，我们为目标语言构建了高质量的伪训练语料库，并在一定范围内验证了语料库的有效性。

　我们利用了多语言上下文词向量表示，并利用PGN　BiLSTM模型增强多语言模型训练。代码和数据已经公布

jianlingl commented 3 years ago

related work 在跨语言迁移学习方面存在着广泛的研究，模型转换和注释投影是实现这一目标的两种主流方法。第一类是基于源语言语料库建立模型，然后根据目标语言进行调整。第二类是通过源语言模型和目标语言平行语句构建一组训练实例，再通过数据集训练目标语言模型。对于跨语言SRL，很多人研究注释映射，并提出了一系列方法加强目标语言的SRL性能，包括提升映射质量，联合学习语法语义，迭代bootstraping来降低噪音目标语料的影响，以及联合翻译和SRL。我们的工作主要受到近年来跨语言依存分析树库翻译的启发——即基于翻译的方法。这些方法直接将标准标签数据映射到目标端，缓解了标准标签投射中源注释错误的问题。此外，我们将该方法与模型迁移相结合，这在跨语言SRL中很少被关注，模型迁移得益于最近的跨语言上下文词表示的进步。针对NLP任务的各种注释方法可以极大的促进跨语言SRL，包括POS标注，依存分析，形态学以及角色标注。我们的工作使用公开可用的Universal Proposition Bank (UPB),它遵循了英语命题库3.0 注释谓词和语义角色。我们的工作也跟有监督角色标注有密切联系，大量工作尝试使用端到端的方法，直接一次性预测谓词和对应的论证角色，也有一些研究旨在适应任务的各种强大的功能。这项工作中，我们利用了一个基于上下文词向量表示的多语言PGN-BiLSTM模型，其达到了跨语言角色标注的SOTA结果。

jianlingl commented 3 years ago

SRL translation 我们首先全翻译源语料，然后通过对齐映射源语料的语义角色标注和论据到目标语料，来自动生成源预料的翻译SRL语料。这种方法对于跨语言依存是有效的，跟注释映射相比，我们可以确保源数据的标注质量，因此生成的目标语料质量更高。除此之外，基于依存的SRL通过这种方法获利更多——因为只预测词和他们的论据，语料只需要映射词和他们的论据，而依存解析只关注所有词。总体的步骤分为两步：翻译和映射。翻译——首先我们使用一个sota的翻译系统来获取源SRL数据的翻译语句，值得注意的是最近NMT的进步对于我们工作非常有帮助，使得我们的翻译质量更高。映射——然后我们渐进的将源语句对应的预测或者论据隐射到目标语句，我们用两种信息来辅助映射：1）从源语句到目标语句的对齐概率（用一个对齐工具）；2）所有目标词的POS tag分布，可以用一个有监督的POS tagger获得。我们只关注于源句子种SRL相关的词，并且在谓词级别渐进处理该操作。对于句子中的每个谓词，我们收集谓词和他们的角色词，然后把这些角色标签映射到目标句子中，对于这些词，我们有角色标签r和词性标签t，这两者在UPB中都已经标准好，首先，我们找到具有最高对齐概率的目标词，映射该词对应承载语义角色。然后我们用下面公式计算映射的置信度，其是一个词对齐对应和POS标签的一致性。目标和源词一对一对齐是映射的理性条件，但是存在多对一的情况，使得目标语言的语义角色有矛盾。对于这些情况，我们优先适用谓词预测，否则只保留最高置信度的预测。最后，我们设置了一个阈值来移除低置信度映射。如果置信度低于阈值，所有谓词对应的角色都被移除，对于论元映射其置信度低于阈值，我们直接移除论元，不影响其他映射。

jianlingl commented 3 years ago

The SRL Model 本工作针对基于依存的SRL——识别给定谓词的角色标签，该工作是一个标准的序列标注任务，这里用了一个简单的多层BiLSTM-CRF模型，结合上下文词向量表示其获得了SOTA结果。我们用一个PGN模型在BiLSTM模型上支持多语言输入。 word representation 给定特定语言的输入语句，wp是谓词，其中p为位置下标，我们适用三种源特征来表示每个词：1) 词形，2）词性，3）谓词指示。我们比较三种跨语言词形表示：1）多语言词向量，2）多语言ELMO表示，3）多语言BERT表示；注意我们用来自BERT输出的内部词片的平均向量表示作为词的最终表示。 encoding layer 我们用PGN-BiLSTM来编码输入序列，其最开始被用于跨领域迁移学习来获取语言领域特征，这里我们在多语言任务中用它来建模语言特征。跟原版普通BiLSTM相比，PGN-BiLSTM动态选择跟语言相关的BiLSTM参数。让V作为BiLSTM初始参数，跟语言相关的参数VL由PGN-BiLSTM的原版BiLSTM与语言表示向量L乘积得到。 output layer 我们用CRF来计算每个候选项的概率属输出。

jianlingl commented 3 years ago

The SRL Model 本工作针对基于依存的SRL——识别给定谓词的角色标签，该工作是一个标准的序列标注任务，这里用了一个简单的多层BiLSTM-CRF模型，结合上下文词向量表示其获得了SOTA结果。我们用一个PGN模型在BiLSTM模型上支持多语言输入。 word representation 给定特定语言的输入语句，wp是谓词，其中p为位置下标，我们适用三种源特征来表示每个词：1) 词形，2）词性，3）谓词指示。我们比较三种跨语言词形表示：1）多语言词向量，2）多语言ELMO表示，3）多语言BERT表示；注意我们用来自BERT输出的内部词片的平均向量表示作为词的最终表示。 encoding layer 我们用PGN-BiLSTM来编码输入序列，其最开始被用于跨领域迁移学习来获取语言领域特征，这里我们在多语言任务中用它来建模语言特征。跟原版普通BiLSTM相比，PGN-BiLSTM动态选择跟语言相关的BiLSTM参数。让V作为BiLSTM初始参数，跟语言相关的参数VL由PGN-BiLSTM的原版BiLSTM与语言表示向量L乘积得到。 output layer 我们用CRF来计算每个候选项的概率属输出。

jianlingl commented 3 years ago

experiments 数据集-我们的实验是基于UPB(universal proposition bank),其是基于UDT（universal dependency treebank）和PB（proposition Bank）构建的，UPB中所有语言数据集都是基于同一基于依存的全局注释来构建的，特别是我们收集英语SRL基于英语EWT数据集（来自UDT1.4）和PB3.0英语语料.最后，我们选择了７种语言作为我们的数据集，包括IE.German语系的英语和德语，IE.Romance语系（罗曼语、拉丁语系）的法语，意大利语，西班牙语，和葡萄牙语，以及乌拉尔语族的芬兰语。 SRL Translation-我们专注于无监督跨语言的SRL，假设无可用的标准标签目标语言的SRL语料。我们的目标是通过语料翻译来构建伪训练数据。我们用谷歌翻译，用fastAlign来获取词对齐，为了获取准确词对齐，我们收集了一组平行语料来扩充fastAlign的对齐语料。而翻译语句的POStag是由有监督单语言pos tagger获取的，其在UDT1.4分别训练而来。 setting-多语言词表示，我们调研了三种多语言词表示：1）word embedding（Emb）：MUSE2018；2）ELMo：7种混合语言被用来训练多语言ELMo 2019； 3）BERT直接用官方发布的多语言BERT2019 hyperparameters 对于SRL翻译，只有一个超参数，映射置信度阈值，来过滤低质量SRL翻译句子，根据最初实验结果，我们把阈值设置为0.4.　对于神经SRL模型，多语言词嵌入维度大小为300，1024，768。POS词性，谓词指示和语言ID的嵌入大小分别为100，100和32.　LSTM隐藏维度大小为650.我们用batch大小为50来在线训练，用Adam算法来优化参数，学习率为0.0005，训练在整个训练集上进行，木有early-stop，单个语言训练80从迭代，而多语言迁移任务种训练300词迭代。 baseline --basic， MoE，MAN-MoE evaluation -- 每个模型训练五次 cross-lingual transfer from English -- 首先测试三种不同的预训练策略，然后测试不同语料组合时候模型的性能变动。最终表现较强的有首先语言表示为ELMo，模型表现比较好的是PGN和MAN-MoE，且当源语料和目标语料结合的时候效果最好。 multilingual word representation -- 比较有意思的是ELMo性能比BERT要好，所以multilingual BERT可以训练的更好，就像BERT一样

jianlingl / paper_reading

Cross-Lingual Semantic Role Labeling with High-Quality Translated Training Corpus #2