[2021] Adapt-and-Distill: Developing Small, Fast and Effective Pretrained Language Models for Domains

tossyi commented 3 years ago

Paper Link

https://arxiv.org/abs/2106.13474 https://github.com/microsoft/unilm/tree/master/adalm

Upload

2021/06/25

What is paper about?

Paper Contributions

Key Points

Validate advantages and Effectiveness

Points to discuss

Related Work

tossyi commented 3 years ago

Abstract

大規模な事前学習モデルは、多くのNLPタスクで大きな成功を収めている。しかし、これらのモデルを特定のドメインに適用した場合、レイテンシや容量の制約のため、fine-tuningやonlineでの提供に課題がある。

この論文では、特定のドメインに適用するために、小型で高速かつ効果的な事前学習済みモデルを開発するアプローチを提案する。具体的には、ドメインに特化した語彙の拡張を行い、コーパスでの出現確率を利用し、語彙の増分を自動で選択する。特定ドメインに適用するため、事前学習済みモデルを圧縮する。

この論文では、生物医学とコンピュータサイエンス領域で実験を行った。結果、BERTbaseより3.3倍少なく、5.1倍高速でありながら、ドメイン固有のタスクでBERTbaseより優れた性能を達成した。

tossyi commented 3 years ago

Introduction

大規模な事前学習済モデルを特定のエッジデバイスに直接展開するのは困難
対象となるドメインが一般的なドメインと異なる場合、ドメイン固有のタスクにおいて　一般的な事前学習済みモデルをfine-tuningするのは、最適ではない
多くのドメインが一般的な事前学習済みモデルの語彙に含まれない特殊な用語が含まれている

最近の研究(Lee et al., 2020; Gururangan et al., 2020)では、一般的な事前学習済みモデルを特定のドメインに適用させるための継続的な再事前学習が行われている。しかし、特定ドメインには多くの共通のドメイン内の用語が含まれており、bytesizeに分割される可能性がある。 Gu et al.(2020)らは、事前に学習したモデルのドメイン適用において、ドメイン固有の語彙が重要な役割を果たすと言われている。具体的には、ドメインに適用する段階でドメイン固有の語彙を拡張する手法を提案している。

本研究では、一般的な事前学習済みモデルを特定のドメインに適用させるための手法を紹介する

(a): From Scrach: スクラッチからの学習
(b): Distill-then-Adapt: 大きいモデルを小モデルに蒸留し、それを特定のドメインに適用させる
(c): Adapt-then-Distill: 最初に特定のドメインに適用させ、モデルを小サイズに蒸留する
(d): Adapt-and-Distill: 大モデルと小モデルの両方を適用させ、2つのモデルを蒸留し、教師モデルと生徒モデルをそれぞれ初期化する

tossyi / paper-reading