Unsupervised Data Augmentation for Consistency Training

論文へのリンク

[arXiv:1904.12848v4] Unsupervised Data Augmentation for Consistency Training

著者・所属機関

Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, Quoc V. Le

Google Research, Brain Team
Carnegie Mellon University

投稿日時（YYYY-MM-DD）

2019-04-29

1. どんなもの？

本論文では、教師あり学習で高精度を達成している複雑なデータ増強手法が、半教師あり学習にも適用できることを示し、新たなデータ増強手法Unsupervised Data Augmentation（UDA）を提案した。

また半教師あり学習において、モデルが少数のラベル付きデータに過剰適合してしまい、多数のラベルなしデータには過少適合してしまうことを防ぐために、それぞれのデータを使用する比率を変化させる学習手法Training Signal Annealing（TSA）を提案した。

半教師ありタスクにおいてSOTAを達成し、BERTなどの事前学習やFine Tuningに応用することで、より高い精度を達成できることを示した。

2. 先行研究と比べてどこがすごいの？

半教師あり学習において、モデルを頑強なものとするために入力データや隠れ層にノイズを導入し、同じ出力になるように学習させる方法がある。従来はこのノイズは、ガウシアンノイズであったりドロップアウトなどであった。

教師あり学習において最新のデータ増強手法を達成した高い精度と、半教師あり学習にも同様の手法を適用した際の精度に相関があることを示し、新たなデータ増強手法を提案した。

3. 技術や手法の"キモ"はどこにある？

3.1 従来の半教師あり学習

通常の半教師あり学習の流れは以下になる。

通常の入力に対して予測を行う（p(y | x)）
入力や隠れ層にノイズを導入して予測を行う（p(y | x, noize)）
この２つの予測分布の距離を最小化する正則化項を計算する

ノイズに影響を受けないモデルを学習させている。

3.2 今回提案する半教師あり学習

教師あり学習で成功を収めている最新のデータ増強手法は、従来の手法よりもより多様性のあるデータを生成し、データを不自然に変化させることもないため、半教師あり学習においても効果を発揮すると考えられる。

学習を行う際は、教師ありタスクと半教師ありタスクを同時に進めていき、損失関数に関しては以下の式のように計算している（本論文ではλ=1で実験している）。

3.3 データ増強手法

画像タスクにおいてはRandAugmentを採用

テキストタスクにおいてはBack-TranslationおよびTF-IDFによる単語置き換えを採用

3.4 Training Signal Annealing (TSA)

半教師あり学習においてはラベル付きデータとラベルなしデータの量の違いにより、量の少ないラベルデータに過剰適合し、ラベルなしデータには過少適合してしまう。

そこで新しい学習方法であるTraining Signal Annealing（TSA）を提案した。これはラベル付きデータに対するモデルの予測確率が、学習ステップtで設けている予測確率の閾値を超えている場合に、そのサンプルから計算された損失を削除する学習方法です。

要は十分にラベル付きデータに適合していると判断できる場合には、そのラベル付きデータを学習には使用しないようにする学習方法です。

この閾値の設定方法としては、以下のように3種類のスケジューリングを試しています。

4. どうやって有効だと検証した？

画像タスクとテキストタスクの両方で、複数のData Augmentation手法を適用した結果を比較した。結果から教師あり学習タスクで優れた性能を発揮した手法は、半教師あり学習においても有効に動作していることがわかる。

ImageNetのデータセットに対して、ラベルを10%だけ使用する場合とすべてのラベルデータを使用する場合を比較してみると、どちらのタスクにおいてもUDAが有効に効いていることがわかる。

shimopino / papers-challenge