e4exp / paper_manager_abstract

0 stars 0 forks source link

BERT memorisation and pitfalls in low-resource scenarios #456

Open e4exp opened 3 years ago

e4exp commented 3 years ago

最新の学習済みモデルは、事実を記憶し、限られた量の学習データで十分に機能することが示されている。 これらのモデルがどのように学習するかを理解するために、我々はノイズの多い低リソースのシナリオにおけるモデルの一般化と記憶能力を研究した。 その結果、これらのモデルの学習はラベルノイズの影響をほとんど受けず、非常にノイズの多いデータセットであっても、ほぼ最適なパフォーマンスを得ることができることがわかった。 一方で、少数ショット学習や希少実体認識などのリソースの少ないタスクでは、モデルが完全に失敗することもわかった。 このような限界を緩和するために、BERTとプロトタイプネットワークに基づいた新しいアーキテクチャを提案し、低リソースの名前付き実体認識タスクにおける性能を向上させる。

e4exp commented 3 years ago

1 はじめに

近年、事前に学習された言語モデルの進歩により(Petersら、2018年、HowardとRuder、2018年、Devlinら、2019年)、自然言語処理の分野では、幅広い実世界のアプリケーションで改善が見られます(Ruderら、2019年)。 大量のラベルなしデータから汎用的な知識を獲得したこのような手法は、下流のタスクのために限られたラベル付きデータで効果的に学習し(Howard and Ruder, 2018)、分布外の例にうまく一般化することが示されています(Hendrycks et al, 2020)。 これまでの研究では、このようなモデルが何を学習するのか、例えば、関係性や言語的知識の種類などが広く研究されてきた(Rogers et al.、2020)。 しかし、これらのモデルが下流のデータからどのように学習するのかというプロセスや、学習ダイナミクスの質的な性質については、まだ明らかになっていない。 学習中に起こる2つの重要なイベントは、パターンの記憶と、すでに獲得した情報の忘却の可能性である(Zhang et al.、2017a; Toneva et al.、2019)。

これらの学習ダイナミクスを,ラベルノイズがある場合と,少数ショットの場合に分けて研究した. どちらの設定でも、モデルの動作の頑健性を調べることができます。 我々の知る限り,本研究は,ラベルが極端に少ない場合やラベルノイズがある場合の,事前学習された変換器ベースの言語モデルの学習挙動に関する初めての定性的な研究である. 標準的な名前付き実体認識(NER)データセットにおいて、BERTのようなモデルは、学習の第2段階を示します。 これは、ゼロから学習したモデルや他のモダリティでは見られないもので、モデルがノイズを記憶し始める前の数エポックの間、学習および検証性能の両方が停滞します。 トランスフォーマーを使わないモデルや事前に学習していないモデル、また画像で学習したモデル(Toneva et al.2019)と比較して、事前に学習したBERTモデルは学習した例を忘れる割合が劇的に低いことが分かりました。 また、ほとんどの例は最初の数エポックを通して学習されるのに対し、BERTはトレーニングの後半でほとんどがノイズを記憶することがわかりました。

記憶は、極端なクラスの不均衡を伴う少数回のシナリオにおいて特に重要です。 我々は、クラスの出現回数が25回未満の場合、BERTは完全に失敗し、NERについてはクラスの出現回数が約100回の場合にのみ妥当な性能を達成することを見出した。 この限界に対処するために、我々は、プロトタイプのネットワークに触発された層でBERTを補強する方法を提案する(Snell et al. この層は、特徴空間においてクラスごとに例を明示的にクラスタリングし、最も近いクラスセントロイドを見つけることでテスト例を分類する。 本手法は、希少なエンティティに焦点を当てた挑戦的なWNUT17(Derczynski et al.2017)NERデータセットではBERTをかなり上回り、CoNLL03(Sang and De Meulder, 2003)データセットでは少数派クラスの例が100未満であり、CoNLL03のフルデータセットではわずかに上回った。

我々の貢献は以下の通りである。 1)BERTがノイズの多いデータセットに過剰適合しない学習の第2段階を特定した。 2) BERTがラベルノイズに対して極めて頑健であり、極めて強いラベルノイズがあっても、ほぼ最適な性能に到達できるという実験的証拠を示す。 3) BERTにおける忘却を調査し、いくつかの代替方法よりも劇的に忘却が少ないことを検証する。 4)例数が制限されている場合、BERT は少数クラスの認識に完全に失敗することを経験的に観察し、 CoNLL03 および JNLPBA の数ショット版、ならびに WNUT17 データセットにおいて BERT を決定的に上回る新モデル ProtoBERT を提案する。

e4exp commented 3 years ago

8 結論

本研究では、ニューラルネットワークが苦戦することが知られている状況における BERT の性能を分析した。 これを行うために、我々は、訓練プロセスにノイズを追加する実験を行った。 その結果、BERTは、訓練セットのラベルの大部分が破損している場合でも、ほぼ最適な性能に達することができることがわかりました。 この能力は、BERT が学習を「適合」、「定着」、「記憶」の 3 つの異なる段階に分ける傾向があることによるもので、これによりモデルは、初期のエポックにおけるノイズの多い例を無視することができます。 さらに、BERT は、極端な少数ショット設定の例からの学習に失敗し、試験時に少数クラスを完全に無視することを示します。 この限界を克服するために、我々は、BERTをプロトタイプネットワークで補強することができる。 このアプローチは、BERTが極めてリソースの少ないシナリオで良好に動作することを可能にすることで、BERTの限界を部分的に解決し、また、リソースの少ない設定でも同等の性能を達成することができます。