issues
search
matsuken92
/
molecular
0
stars
0
forks
source link
コンペ出題検討
#14
Open
matsuken92
opened
4 years ago
matsuken92
commented
4 years ago
データ入手
基礎データ分析 - テーブル構成、テーブル間紐付き確認 - データの分布 - データの意味 - データのボリューム - データの公開可能範囲の確認(サニタイズの度合いなど検討)
問題作成 - 予測対象の選定 - 評価指標の選定 - コンペの目標決定(リクルーティング、ソリューションの業務活用、マーケティングなど。 ソリューション活用の場合は意味のある問題であるかが重要、などコンペ設計に影響する)
コンペデータの抽出 - コンペに使うデータの抽出(期間、対象データ、対象IDなどの選定) - データクレンジング(リークしないように、も気をつけて確認)指標の選定 - 分割方式検討(Train/ Test, Public/Private)
テストプレイ - 社内メンバーでテストプレイを実施。リークや問題に無理がないか、などを確認。
その他最終確認 - 開催期間の決定(2〜3ヶ月がおおい) - 通常コンペ、Kernelコンペ、2stageコンペ - 賞金額の決定 - 日本語データの扱い(英語化するか、ドキュメントを添付するか、などリクルートコンペが参考になるかも) - データの解説ページの内容作成 参考1:
https://www.kaggle.com/c/ieee-fraud-detection
参考2:
https://www.kaggle.com/c/ieee-fraud-detection/discussion/101203
- 外部データ利用可否の決定 - 特別賞の設定要否(スコア以外に何か表彰したいものがあるか検討) - Team人数のmaxの決定(通常max 5名だが、少なく設定もできる) - 1日何submitを許すか(多くの場合5 submit/day、たまに2 submit/dayもある) - 表彰式をやるか(メルカリの例:
https://tech.mercari.com/entry/2018/11/14/172509
)