Open himkt opened 4 years ago
解きたいタスクに有効なpretrainコーパスを、定量的に評価する方法について考察。 手法はまだ改良の余地があるが、目の付け所が良い。
pretrainingにつかうコーパスをどう選ぶかは職人芸なので、スコア化したい。 本研究では三つのシンプルな指標でpretrainに使うコーパス(source)と、実際のタスクで使うコーパス(target)のsimilarityを測り、これらが後段タスクの性能と相関があることを示した。
どのコーパスでpretrainingするか、という選択を数値化した最初の研究。
以下の三つの指標でsourceとtargetの関係を数値化する。
どの指標も後段タスクの性能と相関が出た。 特にTVcCが最も強く相関していた。
面白い。 ニューラル時代のfeature selectionという感じがして良い。 TVcCとVCcRというタームが混在していてわかりづらい。恐らく同じものを指している。表で使われるTVcCというタームは本文中で一切言及がないし、同じ章の中でこの二つ両方を使うのやめてほしい。ちゃんと読み直してくれ。
Using Similarity Measures to Select Pretraining Data for NER