matsuken92 / molecular

0 stars 0 forks source link

コンペ出題検討 #14

Open matsuken92 opened 4 years ago

matsuken92 commented 4 years ago
  1. データ入手
  2. 基礎データ分析  - テーブル構成、テーブル間紐付き確認  - データの分布  - データの意味  - データのボリューム  - データの公開可能範囲の確認(サニタイズの度合いなど検討)
  3. 問題作成  - 予測対象の選定  - 評価指標の選定  - コンペの目標決定(リクルーティング、ソリューションの業務活用、マーケティングなど。   ソリューション活用の場合は意味のある問題であるかが重要、などコンペ設計に影響する)
  4. コンペデータの抽出  - コンペに使うデータの抽出(期間、対象データ、対象IDなどの選定)  - データクレンジング(リークしないように、も気をつけて確認)指標の選定  - 分割方式検討(Train/ Test, Public/Private)
  5. テストプレイ  - 社内メンバーでテストプレイを実施。リークや問題に無理がないか、などを確認。
  6. その他最終確認  - 開催期間の決定(2〜3ヶ月がおおい)  - 通常コンペ、Kernelコンペ、2stageコンペ  - 賞金額の決定  - 日本語データの扱い(英語化するか、ドキュメントを添付するか、などリクルートコンペが参考になるかも)  - データの解説ページの内容作成     参考1: https://www.kaggle.com/c/ieee-fraud-detection     参考2: https://www.kaggle.com/c/ieee-fraud-detection/discussion/101203  - 外部データ利用可否の決定  - 特別賞の設定要否(スコア以外に何か表彰したいものがあるか検討)  - Team人数のmaxの決定(通常max 5名だが、少なく設定もできる)  - 1日何submitを許すか(多くの場合5 submit/day、たまに2 submit/dayもある)  - 表彰式をやるか(メルカリの例:https://tech.mercari.com/entry/2018/11/14/172509