himkt / survey

3 stars 0 forks source link

[Reading] Using Similarity Measures to Select Pretraining Data for NER #21

Open himkt opened 4 years ago

himkt commented 4 years ago

Using Similarity Measures to Select Pretraining Data for NER

tatHi commented 4 years ago

一言でいうと

解きたいタスクに有効なpretrainコーパスを、定量的に評価する方法について考察。 手法はまだ改良の余地があるが、目の付け所が良い。

概要

pretrainingにつかうコーパスをどう選ぶかは職人芸なので、スコア化したい。 本研究では三つのシンプルな指標でpretrainに使うコーパス(source)と、実際のタスクで使うコーパス(target)のsimilarityを測り、これらが後段タスクの性能と相関があることを示した。

貢献

どのコーパスでpretrainingするか、という選択を数値化した最初の研究。

手法

以下の三つの指標でsourceとtargetの関係を数値化する。

結果

どの指標も後段タスクの性能と相関が出た。 特にTVcCが最も強く相関していた。

コメント

面白い。 ニューラル時代のfeature selectionという感じがして良い。 TVcCとVCcRというタームが混在していてわかりづらい。恐らく同じものを指している。表で使われるTVcCというタームは本文中で一切言及がないし、同じ章の中でこの二つ両方を使うのやめてほしい。ちゃんと読み直してくれ。

関連