Neural Unsupervised Domain Adaptation in NLP—A Survey

soyamash commented 4 years ago

https://arxiv.org/abs/2006.00632

soyamash commented 4 years ago

ターゲットドメインのラベルありデータを必要としないニューラル教師なしドメイン適応のサーベイ

soyamash commented 4 years ago

soyamash commented 4 years ago

『ドメイン』という語の定義については長年議論があった。近年では『variety space』という語が代わりに用いられることがある。

variety space（多様空間）では、コーパスは多様空間のサンプルである部分空間（サブ領域）と見なされます。コーパスは，基礎となる未知の高次元の多様空間から抽出されたインスタンスの集合であり，その次元（または潜在因子）は言語とアノテーションのファジーな側面である．これらの潜在因子は、ジャンル（例えば、科学、ニュース、日常）、サブドメイン（例えば、金融、免疫学、政治学、環境法、分子生物学）、社会的・人口統計学的側面（例えば、ジェンダー）などの概念と関連している可能性がある。他の未知の因子としては、文体やデータサンプリングの影響（例えば、文の長さ、注釈者のバイアス）もある。

soyamash commented 4 years ago

Feature-centric

Pivots-based DA：structural correspondence learning (SCL)(Blitzer et al., 2006)やspectral feature alignment (SFA) (Pan et al., 2010)を含む。ドメイン固有の素性とドメイン共通の素性を分ける手法 Autoencoder-based DA：Auto-encoderを使用しドメイン問わず良い潜在表現を抽出する手法

Loss-centric methods

Domain adversaries ：補助タスクとしてドメイン分類器のLossを最大化しながら，タスクの予測器を学習することで、ドメインに依存しない共通表現を得る手法 Reweighting：ターゲットドメインに対する類似性に比例して、各学習インスタンスに重みを割り当てる手法

Data-centric methods

Pseudo-labeling：教師モデル・アンサンブルなどでラベルなしデータにラベルを付け、学習する Data selection：ドメイン間の類似距離やトピック分布に基づいて、新しいドメインに最適な学習データ（ドメイン）を選択する。 Pre-training：BERTなど。Adaptive pre-trainingとして、多段的に複数回、よりターゲットドメインに近いラベルなしコーパスでpre-trainingを行う手法。これらの他にもmulti-task learning (MTL) (Peng and Dredze, 2017)やintermediate-task transfer (Phang et al., 2018; Phang et al., 2020)を用いる手法も提案されている。

soyamash commented 4 years ago

2020-11-14_104930

soyamash / read_paper