Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Comparison

それは、評価のための有効なベンチマークが存在しないことである。本論文では、暗黙的フィードバックに基づくtop-N推薦アルゴリズムについて、厳密な（再現性と公平性のある）評価を行うことを目的としている。まず、8つのトップレベルの学会(RecSys, SIGIRなど)で発表された85の推薦論文を体系的にレビューし、データ分割やパラメータチューニング戦略などの重要な評価要素をまとめた。さらに、全体的な実証研究を通じて、さまざまな要因がレコメンデーション性能に与える影響を詳細に分析します。その後、標準化された手順でベンチマークを作成し、後の研究のための参考として、広く利用されている6つのデータセットにおいて、6つのメトリクスにまたがる7つのよく調整された最先端のパフォーマンスを提供します。さらに、ユーザーフレンドリーなPythonツールキットをリリースし、既存のツールキットとは異なり、推奨のための厳格な評価の広い範囲に対応している。全体として、本研究は推薦評価の問題点を明らかにし、さらなる研究のための基礎を築くものである。コードとデータセットはGitHub (https://github.com/AmazingDD/daisyRec)で公開しています。

hakubishin3 / papers

Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Comparison #14