[2021] A Recipe For Arbitrary Text Style Transfer with Large Language Models

0. 論文

タイトル	A Recipe For Arbitrary Text Style Transfer with Large Language Models
リンク	https://arxiv.org/abs/2109.03910
著者	Emily Reif, Daphne Ippolito, Ann Yuan, Andy Coenen, Chris Callison-Burch, Jason Wei (Google Research)
投稿日付	2021/9/8 on arxiv

1. どんなもの？

巨大な言語モデルを用いて zero-shot で文の style transfer を可能にする augmented zero-shot learning という手法を提案。prompting を用いてコントロールするため、fine-tuning は不要で、zero-shot なためラベルデータや exemplar データも不要。

スクリーンショット 2021-10-09 16 29 33 (Fig. 1: (c) が提案手法)

2. 先行研究と比べてどこがすごい？

学習不要、ターゲットスタイルのラベルデータ不要でスタイル変換を行う手法を提案。

3. 技術や手法のキモはどこ？

手法
- 図1の通りで、（ターゲットドメインでなくても良い）スタイル変換の例をいくつか primpt として先に入力し、その後にターゲットスタイルに関する prompt を作成する。
- prompting なので学習は必要なく、ターゲットドメインのデータがなくても良いのでラベルフリーな手法。
モデル
- 2つあって、どちらも decoder-only の transformer language model (GPT style?) でパラメータ数約 137B
  - 1) LLM: forum, dialog, wikipedia などの public web document で学習
  - 2) LLM-Dialog: LLM を別で集めた室の高い対話データで fine-tuning したもの
- 上記に加えて、 GPT-3 でも実験
- LLM と GPT-3 では Fig. 1 形式で、LLM-Dialog は対話形式で prompting する

4. どうやって有効だと検証した？

タスク
- non-standard style transfer
  - more descriptive, include a metaphor, include the word "park", include the word "balloon", more comic, more melodramatic の6種類の style transfer
- standard style transfer
  - Yelp polarity dataset for sentiment, Grammarly's Yahoo Answers Formality Corpus (GYAFC) for formality
ベースラインモデル (standard text transfer で使用)
- Unsup MT (Prabhumoye et al., 2018)
- Dual RL (Luo et al., 2019)
- 上記に加えて、複数のその他モデルと人手による文
評価
- non-standard text transfer では次の3点でプロの評価者による人手評価
  - (1) transfer strengfth, (2) semantic preservation (3) fluency
- standard text transfer では、次の自動評価も行う
  - (1) sentiment classifier を用いた transfer strength
  - (2) 人が作った文との BLEU スコアで計算する semantic similartity
  - (3) GPT-2 の Perplexity で計算する fluency
- 提案手法 (augmented zero-shot) 以外にも次の3つの方法で入力文をリライトし比較
  - (1) zero-shot: baseline
  - (2) paraphrase: augmented zero-shot と同じだが、prompt にターゲットスタイルの paraphrase を使う
  - (3) human: 人間がスタイル変換した文
結果
- non-standard style transfer
  - Fig. 2（下図）で赤が提案手法。人間が作成したテキストとほとんど変わらない性能に。
- standard text transfer
  - Table 2（下表）が自動評価の結果。
    - acc と PPL では supervised なベースラインに匹敵する性能。
    - BLEU が比較的低いのは、いろんな表現を元の文に足しているからとのこと。
    - aug zero-shot は zero-shot を大きく改善し、five-shot と大きく変わらないレベルの性能を得ている

5. 議論はある？

巨大言語モデルの prompting において、ターゲットドメインのラベルデータがなくても学習無しでそこそこの性能が得られることが分かったため、今後別タスクでも同様のことができる可能性あり。

6. 次に読むべき論文は？

Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm
- Laria Reynolds, Kyle McDonell, 2021/2/15 on arxiv
- アイディアの基となった研究とのこと

cfiken / paper-reading

[2021] A Recipe For Arbitrary Text Style Transfer with Large Language Models #157