Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks

e4exp commented 3 years ago

https://arxiv.org/abs/2010.02394
2021

Mixupは，入力例とそれに対応するラベルを線形に補間する最新のデータ補強技術である． Mixupは、入力例と対応するラベルを線形補間する最新のデータ拡張技術であり、画像をピクセルレベルで補間することで、画像分類に強い効果を示している。この研究に触発され、本稿では、 i) テキストデータは生のフォーマットではほとんど混合できないため、mixupを自然言語処理タスクにどのように適用するか、 ii) BERTなどの変換器ベースの学習モデルにおいてmixupが依然として有効であるかどうかを調査する。この目的を達成するために、我々は、エンド・ツー・エンドの学習システムを維持しつつ、広範囲のNLPタスクのために、「mixup-transformer」と名付けた変換器ベースの事前学習アーキテクチャにmixupを組み込む。本研究では，GLUEベンチマークを用いた大規模な実験を行い，提案するフレームワークを評価する．さらに、学習データを一定の比率で削減することで、低リソースのシナリオにおけるmixup-transformerの性能を検証することも行った。我々の研究により、mixupは事前に学習された言語モデルに対するドメインに依存しないデータ補強技術であり、結果としてトランスフォーマーベースのモデルの大幅な性能向上につながることが示された。

e4exp commented 3 years ago

4 結論と今後の課題

本論文では，NLPタスクのための変換器ベースのモデルに，mixupと呼ばれるデータ補強技術を組み込むmixup-transformerを提案する．従来の手法では静的なmixupを用いていたが，本手法ではテキスト分類のための新しい入力を動的に構築することができる．広範な実験結果から、mixup-transformerを事前に学習されたモデルと共に動的に使用することで、GLUEベンチマークにおいてより良い性能を達成できることが示された。今後の方向性として、テキストデータを対象とした2つの方向性を検討する価値がある。 1つ目は、zero-shot、few-shot、meta-learningタスクなど、他の困難なNLP問題にmixupを使用する方法です。第二に、パラグラフのような文書レベルのテキストデータに対して、どのようにmixupを行うかである。 mixupを直接使うのではなく、学習過程でデータから適切な情報を抽出する必要があるかもしれません。テキスト分類のためにミックスアップする適切な情報を選択することは、エキサイティングでやりがいのある分野になるでしょう。

e4exp / paper_manager_abstract

Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks #331