hakubishin3 / papers

3 stars 0 forks source link

Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Comparison #14

Closed hakubishin3 closed 3 years ago

hakubishin3 commented 4 years ago

https://whova.com/portal/webapp/recsy_202009/Agenda/1243609/

hakubishin3 commented 4 years ago

それは、評価のための有効なベンチマークが存在しないことである。本論文では、暗黙的フィードバックに基づくtop-N推薦アルゴリズムについて、厳密な(再現性と公平性のある)評価を行うことを目的としている。まず、8つのトップレベルの学会(RecSys, SIGIRなど)で発表された85の推薦論文を体系的にレビューし、データ分割やパラメータチューニング戦略などの重要な評価要素をまとめた。さらに、全体的な実証研究を通じて、さまざまな要因がレコメンデーション性能に与える影響を詳細に分析します。その後、標準化された手順でベンチマークを作成し、後の研究のための参考として、広く利用されている6つのデータセットにおいて、6つのメトリクスにまたがる7つのよく調整された最先端のパフォーマンスを提供します。さらに、ユーザーフレンドリーなPythonツールキットをリリースし、既存のツールキットとは異なり、推奨のための厳格な評価の広い範囲に対応している。全体として、本研究は推薦評価の問題点を明らかにし、さらなる研究のための基礎を築くものである。コードとデータセットはGitHub (https://github.com/AmazingDD/daisyRec)で公開しています