Unsupervised Text Generation by Learning from Search

本文提出一种基于“先搜索后学习”的无监督文本生成方法，通过反复迭代，最终能生成较高质量的文本。

信息

主要作者：Jingjing Li，Lili Mou
单位：香港中文大学、华为诺亚方舟实验室、阿尔伯塔大学
[论文链接] https://arxiv.org/abs/2007.08557

1 学习到的新东西：

本文提出的TGLS（unsupervised Text Generation by Learning from Search），是一种新的无监督文本生成框架。通过启发式的搜索对文本进行编辑可以得到较高质量的文本并用于模型训练，新模型生成的文本又会进行新的搜索，通过这种迭代获得高质量的文本。正模型学习过程中，采用了两种训练目标一种是传统的交叉熵损失训练，还有一种是类似于SVM的句子集Maximum-Margin Learning。前者可以拟合分布，告诉模型大致的正确方向；后者更加重要，通过正负例分类，告诉了模型到底什么才是对的（粗粒度+细粒度）。生成方法可以允许搜索方法的减少其迭代次数，加速模型推理。在这类任务中，启发式目标得分函数的设计非常重要，本文采用：语言模型流畅性得分 语义完整性得分 任务特定得分的方式来作为目标函数。

2 通过Related Work了解到了哪些知识

Search Learning已经被用于的NLP研究中，包括文本简化、文本复述、关键词生成等任务，但是这些任务都几种在生成式任务上（感觉其他文本类任务如：文本匹配这些应该也可以用上，应该会是一个方向），但是无法训练。

3 实验验证任务，如果不太熟悉，需要简单描述

有一个将搜索和生成（包括交叉熵和Maximum-Margin）策略进行不同组合的分解实验，非常有趣。

4 在你认知范围内，哪些其它任务可以尝试

在文本生成类任务上，特别是数据量规模小的任务非常值得尝试，如语法纠错（GEC）任务；或是与Self-Training结合，通过搜索加学习的方式得到高质量的伪语料，用于zero/few-shot任务。

5 好的词语、句子或段落

以句子为单位收集

izhx / paper-reading