tossyi / paper-reading

Summary for myself when reading a paper
0 stars 0 forks source link

[2021] Adapt-and-Distill: Developing Small, Fast and Effective Pretrained Language Models for Domains #3

Open tossyi opened 2 years ago

tossyi commented 2 years ago

Paper Link

https://arxiv.org/abs/2106.13474 https://github.com/microsoft/unilm/tree/master/adalm

Upload

2021/06/25

What is paper about?

Paper Contributions

Key Points

Validate advantages and Effectiveness

Points to discuss

Related Work

tossyi commented 2 years ago

Abstract

大規模な事前学習モデルは、多くのNLPタスクで大きな成功を収めている。 しかし、これらのモデルを特定のドメインに適用した場合、レイテンシや容量の制約のため、fine-tuningやonlineでの提供に課題がある。

この論文では、特定のドメインに適用するために、小型で高速かつ効果的な事前学習済みモデルを開発するアプローチを提案する。 具体的には、ドメインに特化した語彙の拡張を行い、コーパスでの出現確率を利用し、語彙の増分を自動で選択する。 特定ドメインに適用するため、事前学習済みモデルを圧縮する。

この論文では、生物医学とコンピュータサイエンス領域で実験を行った。 結果、BERTbaseより3.3倍少なく、5.1倍高速でありながら、ドメイン固有のタスクでBERTbaseより優れた性能を達成した。

tossyi commented 2 years ago

Introduction

最近の研究(Lee et al., 2020; Gururangan et al., 2020)では、一般的な事前学習済みモデルを特定のドメインに適用させるための継続的な再事前学習が行われている。 しかし、特定ドメインには多くの共通のドメイン内の用語が含まれており、bytesizeに分割される可能性がある。 Gu et al.(2020)らは、事前に学習したモデルのドメイン適用において、ドメイン固有の語彙が重要な役割を果たすと言われている。具体的には、ドメインに適用する段階でドメイン固有の語彙を拡張する手法を提案している。

本研究では、一般的な事前学習済みモデルを特定のドメインに適用させるための手法を紹介する