tossyi / paper-reading

Summary for myself when reading a paper
0 stars 0 forks source link

A note on using the F-measure for evaluating data linkage algorithms #5

Open tossyi opened 1 year ago

tossyi commented 1 year ago

Paper Link

Upload(yyyy/mm/dd)

What is paper about?

Paper Contributions

Key Points

Validate advantages and Effectiveness

Points to discuss

Related Work

tossyi commented 1 year ago

Abstract

レコード連結は、1つまたは複数のデータベースから同じエンティティに関するレコードを識別し、連結するプロセスである。レコード連結は分類問題とみなすことができ、その目的はレコードの組が一致(すなわち、二つのレコードが同じ実世界の実体を参照している)か非一致(二つのレコードが二つの異なる実体を参照している)かを決定することである。レコードリンケージには、教師あり、教師なし、半教師あり、能動学習ありなど、様々な分類技術が採用されている。既知の真のマッチと非マッチの形のグランドトゥルースデータが利用可能であれば、分類されたリンクの品質を評価することができる。レコードリンケージ問題では一般にクラスの不均衡が大きいため、標準的な精度や誤判定率はリンクされたレコード群の品質を評価する上で意味をなさない。その代わりに、情報検索や機械学習でよく使われる精度と再現率が使われる。これらはしばしば、精度と想起の調和平均である一般的なFメジャーにまとめられる。我々は、F値が精度と再現率の加重和としても表現できることを示す。加重は使用するリンク手法に依存する。この再定式化は、F尺度が概念的に大きな弱点を持っていることを明らかにした:精度と再現率に割り当てられた相対的重要性は、問題や研究者またはユーザーの側面であるべきで、使用される特定の連結方法には当てはまらない。我々は、この基本的な欠点を克服した代替指標を提案する。