MULTI-TASK SEQUENCE TO SEQUENCE LEARNING[memo]

概要

seq2seqでのマルチタスクラーニングの先駆け

著者

Minh-Thang Luong∗, Quoc V. Le, Ilya Sutskever, Oriol Vinyals, Lukasz Kaiser Google Brain

リンク

論文 https://arxiv.org/pdf/1511.06114.pdf

どんなもの？

seq2seqでのマルチタスクラーニングの提案

the one- to-many setting：機械翻訳や構文解析などのいくつかのタスク間でエンコーダを共有する
the many-to-one setting：翻訳と画像キャプション生成などのタスクの間でデコーダを共有する
the many-to-many setting：複数のエンコーダーとデコーダーが共有されている

注目ポイント

the one- to-many setting：機械翻訳や構文解析などのいくつかのタスク間でエンコーダを共有する

学習をどうやっているか（多分ここがキモ）

学習データのスケールが違うので，Dong et al. (2015)らのように交互にやるというのは微妙かも・・・ →ハイパーパラメータとして各タスクをどのくらい学習するのかというmixing ratio values αiを与える（実験では1.0，0.1，0.01を試している） →タスク間を切り替えるときに確率αi/Σαjを持つ新しいタスクiをランダムに選択（最初のタスク[大きなデータのタスク，例えば翻訳]はα1= 1.0，としている）

例えば大きなデータのタスク＝翻訳（α1= 1.0），小さなデータのタスク＝Parsing（α2= 0.01)なら，one parsing mini-batch per 100 translation mini-batches

（原文はこんな感じ）Dongら（2015年）は、次のタスク（別の言語のペア）に切り替える前に、一定の数のパラメータ更新（またはミニバッチ）に対して各タスクを最適化する、交互のトレーニングアプローチを採用しました。私たちの設定では、私たちの仕事はより多様であり、異なる量のトレーニングデータを含んでいます。その結果、タスクごとに異なる数のパラメータ更新を割り当て、これは混合比値αi（各タスクiに対して）で表される。各パラメータの更新は、1つのタスクからの訓練データのみで構成されます。タスク間を切り替えるとき、確率αi/Σαjを持つ新しいタスクiをランダムに選択する。我々の慣例では、最初のタスクはα1= 1.0の参照タスクであり、そのタスクのトレーニングパラメータ更新の数はNにあらかじめ指定されている。典型的なタスクiはαi/α1*Nパラメータの更新のために訓練される。このような規則により、正確にN個のパラメータを更新するために訓練された単一タスク設定で同じ参照タスクを公正に比較することが容易になります。エンコーダまたはデコーダを共有する場合、再帰的な接続とそれに対応する埋め込みの両方を共有します。

データについて

＜翻訳＞

English⇆German translation：WMT’15 data (Bojar et al., 2015)
newstest2013（3000文）：ハイパーパラメータ混合比値の調整
テスト
- 英語→ドイツ語の翻訳タスクにはnewstest2014（2737文）
- ドイツ語→英語タスクにはnewstest2015（2169文）

＜構文解析＞

a small corpus – the widely used Penn Tree Bank (PTB) dataset (Marcus et al., 1993)：by Wall Street Journal (WSJ) collection ( https://catalog.ldc.upenn.edu/ldc99t42 )
a large corpus – the high-confidence (HC) parse trees provided by Vinyals et al. (2015a).

ただし，テストはPTBの同じもので行う

どうやって有効だと検証した？

BLEUを比較ただし，ベースラインは注意機構なし

議論はある？

注意機構付きの比較か，注意機構のあるMTLが見たい

次に読むべき論文は？

・注意機構付きの比較か，注意機構のあるMTL ・the one- to-many setting：機械翻訳や構文解析などのいくつかのタスク間でエンコーダを共有するパターンのMTL ・MTLの学習スケジュールについての論文

fujiso / papers