keimoriyama / archive-paper_management

0 stars 0 forks source link

From Zero to Hero: Human-In-The-Loop Entity Linking in Low Resource Domains #23

Open keimoriyama opened 1 year ago

keimoriyama commented 1 year ago

From Zero to Hero: Human-In-The-Loop Entity Linking in Low Resource Domains

背景&目的:なぜその問題を解決したいのか、どのように解決したのか?

Entity Linking(EL)の学習データの作成にはコストがかかるため、限られたデータしかないケースでしか活用ができていない。 Entity Linkingタスクに用いるデータセットを作成する際のアノテーション支援を行うためのモデルをHuman-In-The-Loopで学習させる手法を提案した。

提案:解決に向けたキーアイデアは何か

ELの推薦までのシステム構成はfig2のようにしてやる。

Screenshot 2023-02-28 at 12 17 23

Mention Detection

アノテーターが過去にアノテーションした単語に対してマッチングアルゴリズムを使って、同じ文字列を検索し、Detectionを行う。 実験の中では、Levenshtein距離を使った場合も比較されていた。

Candidate generation

既存の知識ベースからMention Detectionで引っかかった単語に対して検索を行う。 その単語に対して関連がありそうな単語を列挙していく。

Candidate ranking

Candidate generationで列挙された単語をランク付けしていく。 ここでHuman-In-The-Loopを採用していて、候補の中から選択された単語が最も好ましいとして学習を行う。 使用するモデルはLightGBMとRankSVMを用いる(DNNは遅いので用いない)

結果:結局問題は解決されたのか.新しくわかったことは?

ユーザー実験を用いて、実験を行った。 10個のエンティティについて推薦なしでアノテーションをしてもらい、RankSVMとLightGBMの学習を行った。 その後、推薦ありでアノテーションを行い、いくつかのエンティティをアノテーションした後、モデルの学習を行いパフォーマンスを集計した。

Screenshot 2023-03-01 at 11 09 13

Accuracy@kはランキングの上位k位いないに正解が含まれていた割合を表している。

アノテーション数が少ない段階でも、Accuracy@1とAccuracy@5が高いことがわかった。 データが少なくても、良い候補を提示できていることがわかった。

keimoriyama commented 1 year ago

過去にアノテーションした単語についてのランクを改善していく感じだと思った。 新しくリンクしたい単語があると、それについてのランキングも学習させ直すことを考えると、そこまで良くなるのか疑問に思った。