Open shimopino opened 4 years ago
Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, Quoc V. Le
2019-04-29
本論文では、教師あり学習で高精度を達成している複雑なデータ増強手法が、半教師あり学習にも適用できることを示し、新たなデータ増強手法Unsupervised Data Augmentation(UDA)を提案した。
また半教師あり学習において、モデルが少数のラベル付きデータに過剰適合してしまい、多数のラベルなしデータには過少適合してしまうことを防ぐために、それぞれのデータを使用する比率を変化させる学習手法Training Signal Annealing(TSA)を提案した。
半教師ありタスクにおいてSOTAを達成し、BERTなどの事前学習やFine Tuningに応用することで、より高い精度を達成できることを示した。
半教師あり学習において、モデルを頑強なものとするために入力データや隠れ層にノイズを導入し、同じ出力になるように学習させる方法がある。従来はこのノイズは、ガウシアンノイズであったりドロップアウトなどであった。
教師あり学習において最新のデータ増強手法を達成した高い精度と、半教師あり学習にも同様の手法を適用した際の精度に相関があることを示し、新たなデータ増強手法を提案した。
通常の半教師あり学習の流れは以下になる。
ノイズに影響を受けないモデルを学習させている。
教師あり学習で成功を収めている最新のデータ増強手法は、従来の手法よりもより多様性のあるデータを生成し、データを不自然に変化させることもないため、半教師あり学習においても効果を発揮すると考えられる。
学習を行う際は、教師ありタスクと半教師ありタスクを同時に進めていき、損失関数に関しては以下の式のように計算している(本論文ではλ=1で実験している)。
画像タスクにおいてはRandAugmentを採用
テキストタスクにおいてはBack-TranslationおよびTF-IDFによる単語置き換えを採用
半教師あり学習においてはラベル付きデータとラベルなしデータの量の違いにより、量の少ないラベルデータに過剰適合し、ラベルなしデータには過少適合してしまう。
そこで新しい学習方法であるTraining Signal Annealing(TSA)を提案した。これはラベル付きデータに対するモデルの予測確率が、学習ステップtで設けている予測確率の閾値を超えている場合に、そのサンプルから計算された損失を削除する学習方法です。
要は十分にラベル付きデータに適合していると判断できる場合には、そのラベル付きデータを学習には使用しないようにする学習方法です。
この閾値の設定方法としては、以下のように3種類のスケジューリングを試しています。
画像タスクとテキストタスクの両方で、複数のData Augmentation手法を適用した結果を比較した。結果から教師あり学習タスクで優れた性能を発揮した手法は、半教師あり学習においても有効に動作していることがわかる。
ImageNetのデータセットに対して、ラベルを10%だけ使用する場合とすべてのラベルデータを使用する場合を比較してみると、どちらのタスクにおいてもUDAが有効に効いていることがわかる。
論文へのリンク
著者・所属機関
Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, Quoc V. Le
投稿日時(YYYY-MM-DD)
2019-04-29
1. どんなもの?
本論文では、教師あり学習で高精度を達成している複雑なデータ増強手法が、半教師あり学習にも適用できることを示し、新たなデータ増強手法Unsupervised Data Augmentation(UDA)を提案した。
また半教師あり学習において、モデルが少数のラベル付きデータに過剰適合してしまい、多数のラベルなしデータには過少適合してしまうことを防ぐために、それぞれのデータを使用する比率を変化させる学習手法Training Signal Annealing(TSA)を提案した。
半教師ありタスクにおいてSOTAを達成し、BERTなどの事前学習やFine Tuningに応用することで、より高い精度を達成できることを示した。
2. 先行研究と比べてどこがすごいの?
半教師あり学習において、モデルを頑強なものとするために入力データや隠れ層にノイズを導入し、同じ出力になるように学習させる方法がある。従来はこのノイズは、ガウシアンノイズであったりドロップアウトなどであった。
教師あり学習において最新のデータ増強手法を達成した高い精度と、半教師あり学習にも同様の手法を適用した際の精度に相関があることを示し、新たなデータ増強手法を提案した。
3. 技術や手法の"キモ"はどこにある?
3.1 従来の半教師あり学習
通常の半教師あり学習の流れは以下になる。
ノイズに影響を受けないモデルを学習させている。
3.2 今回提案する半教師あり学習
教師あり学習で成功を収めている最新のデータ増強手法は、従来の手法よりもより多様性のあるデータを生成し、データを不自然に変化させることもないため、半教師あり学習においても効果を発揮すると考えられる。
学習を行う際は、教師ありタスクと半教師ありタスクを同時に進めていき、損失関数に関しては以下の式のように計算している(本論文ではλ=1で実験している)。
3.3 データ増強手法
画像タスクにおいてはRandAugmentを採用
テキストタスクにおいてはBack-TranslationおよびTF-IDFによる単語置き換えを採用
3.4 Training Signal Annealing (TSA)
半教師あり学習においてはラベル付きデータとラベルなしデータの量の違いにより、量の少ないラベルデータに過剰適合し、ラベルなしデータには過少適合してしまう。
そこで新しい学習方法であるTraining Signal Annealing(TSA)を提案した。これはラベル付きデータに対するモデルの予測確率が、学習ステップtで設けている予測確率の閾値を超えている場合に、そのサンプルから計算された損失を削除する学習方法です。
要は十分にラベル付きデータに適合していると判断できる場合には、そのラベル付きデータを学習には使用しないようにする学習方法です。
この閾値の設定方法としては、以下のように3種類のスケジューリングを試しています。
4. どうやって有効だと検証した?
画像タスクとテキストタスクの両方で、複数のData Augmentation手法を適用した結果を比較した。結果から教師あり学習タスクで優れた性能を発揮した手法は、半教師あり学習においても有効に動作していることがわかる。
ImageNetのデータセットに対して、ラベルを10%だけ使用する場合とすべてのラベルデータを使用する場合を比較してみると、どちらのタスクにおいてもUDAが有効に効いていることがわかる。
5. 議論はあるか?
6. 次に読むべき論文はあるか?
論文情報・リンク