Closed dichika closed 9 years ago
明らかに0になるであろう人をヒューリスティックに修正 →スコア下がった
train結果のデータ確認
Rによるfeature hashingの記事 http://amunategui.github.io/feature-hashing/
https://github.com/wush978/FeatureHashing 下記は有用だがfeature hashing 0.8のコード as.dgCmatrixとか含まれているので注意 http://amunategui.github.io/feature-hashing/
sessionの開始時間
スコアが下がった場合、変化した人間のみをヒューリスティックに修正 →0.0002向上程度なのでやる必要なし
feature hashingに加えてPer-Coordinate FTRL-Proximalも掲載されている http://cran.r-project.org/web/packages/FeatureHashing/README.html
FTRLは以下の通り
FTRL-Proximal is equivalent to Online (Stochastic) Gradient Descent when no regularization is used [1] http://courses.cs.washington.edu/courses/cse599s/14sp/kdd_2013_talk.pdf
GBDTについてovefittingの説明含めて非常にわかりやすい http://nbviewer.ipython.org/urls/s3.amazonaws.com/datarobotblog/notebooks/gbm-tutorial.ipynb
ntree 300 interaction 15でgbmがglmの結果を下回っている。 gbmの結果を最適化する必要あり。
GLMとGBMでいくつかモデルを作ってみてその結果の変化を比較してみる
caretでAUCが計算できていないときはpROCをアップデートすること
feature engineering http://ufal.mff.cuni.cz/~zabokrtsky/courses/npfl104/html/feature_engineering.pdf
sparse.matrixを作る際fnames == names(mf)というエラーが出たら列名が数字で始まっている可能性あり。
infotheoのdiscretize http://cran.r-project.org/web/packages/infotheo/infotheo.pdf
h2oのensembleコード、おそらくこのままでは動かない https://github.com/h2oai/h2o-2/tree/master/R/ensemble
hidden の数を多くするならepochも増やさないと収束しないとかいろいろコツがある https://www.kaggle.com/c/afsis-soil-properties/forums/t/10568/ensemble-deep-learning-from-r-with-h2o-starter-kit
blending/stackingについてottoコンテストの結果から http://blog.kaggle.com/2015/06/09/otto-product-classification-winners-interview-2nd-place-alexander-guschin/ こっちは網羅的でより詳しい http://mlwave.com/kaggle-ensembling-guide/
calibration https://medium.com/@chris_bour/6-tricks-i-learned-from-the-otto-kaggle-challenge-a9299378cd61 ここではscikit-learnを使っているがcaretにもcalibration plotの形で実装されている。 Platt scalingは同義のようだがSVMでは当然のように使われていた方法 https://en.wikipedia.org/wiki/Platt_scaling
http://stats.stackexchange.com/questions/5196/why-use-platts-scaling http://fastml.com/classifier-calibration-with-platts-scaling-and-isotonic-regression/ http://stackoverflow.com/questions/27927420/calibration-and-liftchart-with-caret-r-package
lasagneのチューニングとその考え方が参考になりそう https://github.com/christophebourguignat/notebooks/blob/master/Tuning%20Neural%20Networks.ipynb
ガウス過程の説明これも良かった http://heartruptcy.blog.fc2.com/blog-entry-142.html
キャリブレーションはPythonだとscikit-learnだけどRだとCORElearnパッケージか http://cran.r-project.org/web/packages/CORElearn/index.html
data leakage https://www.kaggle.com/wiki/Leakage
Feature Weighted Linear Stackingについて簡潔で分かりやすい http://d.hatena.ne.jp/jetbead/20150514/1431612867
BellKorチームの論文 Global Effectについてチェック http://www.netflixprize.com/assets/GrandPrize2009_BPC_BigChaos.pdf
クラソルコンペの提出結果を使った集団学習。 blendingする際に、過学習を避けるためにコンペ時のテストデータの一部を検証用データとして用いていること(いわゆるblendingのProbeデータセット)に注意。 https://kaigi.org/jsai/webprogram/2014/pdf/265.pdf
ただの平均ではうまくいっていない例 相関が小さい結果を平均しましょうとは書いてある http://www.isif.org/fusion/proceedings/fusion99CD/C-169.pdf
mlrを使ってみたいけどxgboostがcranから削除されたという理由でremoveされている。 https://github.com/mlr-org/mlr/issues/263
kddcupのサイトはkaggleの職員が作った? http://www.reddit.com/r/MachineLearning/comments/34uvub/kdd_cup_2015_mooc_dropout_prediction/
0.841504:old 0.8428461 0.851 rm filter 0.8529791 source 0.8519965 source count 0.8630154 start yearmonth 0.8688813 start date 0.8693542 interval 0.87072 unique obj 0.8727769 browser_flag 0.8726645 obj_category 0.8726432 wday 0.8725883 year 0.8732568 first last 0.8739745 session 0.873695 -keep_median, -keep_mean 0.8738611 session 0.87535 bug fix 0.8749137 bug fix 0.8738832 -year 0.8749045 day>1 -browser, -server 0.874532 -day>1 -browser, -server 0.8742906 day>=1 -browser, -server 0.8743647 -first 0.8741762 day>2 0.8744576 add session_first_last 0.8741655 scaled_session_first_last 0.874472 object top20 0.8747894 last action 0.8750612 -all -browser 0.8750528 -browser_page_close,-all_0, -browser, -server, -all, -all_lastday 0.8752374 categoryprop