Open keimoriyama opened 1 year ago
Entity Linking(EL)の学習データの作成にはコストがかかるため、限られたデータしかないケースでしか活用ができていない。 Entity Linkingタスクに用いるデータセットを作成する際のアノテーション支援を行うためのモデルをHuman-In-The-Loopで学習させる手法を提案した。
ELの推薦までのシステム構成はfig2のようにしてやる。
アノテーターが過去にアノテーションした単語に対してマッチングアルゴリズムを使って、同じ文字列を検索し、Detectionを行う。 実験の中では、Levenshtein距離を使った場合も比較されていた。
既存の知識ベースからMention Detectionで引っかかった単語に対して検索を行う。 その単語に対して関連がありそうな単語を列挙していく。
Candidate generationで列挙された単語をランク付けしていく。 ここでHuman-In-The-Loopを採用していて、候補の中から選択された単語が最も好ましいとして学習を行う。 使用するモデルはLightGBMとRankSVMを用いる(DNNは遅いので用いない)
ユーザー実験を用いて、実験を行った。 10個のエンティティについて推薦なしでアノテーションをしてもらい、RankSVMとLightGBMの学習を行った。 その後、推薦ありでアノテーションを行い、いくつかのエンティティをアノテーションした後、モデルの学習を行いパフォーマンスを集計した。
Accuracy@kはランキングの上位k位いないに正解が含まれていた割合を表している。
アノテーション数が少ない段階でも、Accuracy@1とAccuracy@5が高いことがわかった。 データが少なくても、良い候補を提示できていることがわかった。
過去にアノテーションした単語についてのランクを改善していく感じだと思った。 新しくリンクしたい単語があると、それについてのランキングも学習させ直すことを考えると、そこまで良くなるのか疑問に思った。
From Zero to Hero: Human-In-The-Loop Entity Linking in Low Resource Domains
背景&目的:なぜその問題を解決したいのか、どのように解決したのか?
Entity Linking(EL)の学習データの作成にはコストがかかるため、限られたデータしかないケースでしか活用ができていない。 Entity Linkingタスクに用いるデータセットを作成する際のアノテーション支援を行うためのモデルをHuman-In-The-Loopで学習させる手法を提案した。
提案:解決に向けたキーアイデアは何か
ELの推薦までのシステム構成はfig2のようにしてやる。
Mention Detection
アノテーターが過去にアノテーションした単語に対してマッチングアルゴリズムを使って、同じ文字列を検索し、Detectionを行う。 実験の中では、Levenshtein距離を使った場合も比較されていた。
Candidate generation
既存の知識ベースからMention Detectionで引っかかった単語に対して検索を行う。 その単語に対して関連がありそうな単語を列挙していく。
Candidate ranking
Candidate generationで列挙された単語をランク付けしていく。 ここでHuman-In-The-Loopを採用していて、候補の中から選択された単語が最も好ましいとして学習を行う。 使用するモデルはLightGBMとRankSVMを用いる(DNNは遅いので用いない)
結果:結局問題は解決されたのか.新しくわかったことは?
ユーザー実験を用いて、実験を行った。 10個のエンティティについて推薦なしでアノテーションをしてもらい、RankSVMとLightGBMの学習を行った。 その後、推薦ありでアノテーションを行い、いくつかのエンティティをアノテーションした後、モデルの学習を行いパフォーマンスを集計した。
Accuracy@kはランキングの上位k位いないに正解が含まれていた割合を表している。
アノテーション数が少ない段階でも、Accuracy@1とAccuracy@5が高いことがわかった。 データが少なくても、良い候補を提示できていることがわかった。