issues
search
Atsuhiko
/
AAMLP
0
stars
3
forks
source link
第2回 教師ありvs教師なし 交差検証 Cross-validation 2020/10/03
#4
Open
yuyuyuriko78
opened
3 years ago
yuyuyuriko78
commented
3 years ago
本日の勉強会
2020/10/03 19:00-20:40
p7-
参加者:井伊さん、Pekoさん、kawadaさん、柿ピー
発表者:井伊さん
yuyuyuriko78
commented
3 years ago
ルール等
基本写経でOK
井伊さんはちょっと発展的なこともする(インプットを設けてみるとか)
コメントも英語で
補助資料を用意してもOK
勉強会の目的
1 2 あとから振り返る、参照するコードとして持っておく
yuyuyuriko78
commented
3 years ago
01 教師あり VS 教師なし Surperviserd vs unsupervised learning
次元削減(教師なし学習)
mnistの28*28次元を2次元にする
t-SNE
ガウス分布をランダムに配置して分類している(?)
t分布を使っている(SNEより良い感じに!)
t-SNE最近(4,5年前)に考案された
良い感じに次元削減できた!
PCA
相関する軸
あんまり上手く行かなかった
k-means
データの重心をとる作業を繰り返す
あんまり上手く行かなかった
yuyuyuriko78
commented
3 years ago
02 交差検証 Cross-validation
学習データとテストデータに分割させて、学習データで学習させ(内装)、テストデータで試す(外装)
↑これがうまくいく条件:学習データとテストデータの分布がほとんど一緒であること
学習データとテストデータの分布の差が大きいと・・? →過学習が起こる
過学習: overfitting
学習データ「だけ」に合いすぎたモデルになってしまっている状態
過学習を見積もるための方法:交差検証 Cross validation
実験
決定木のハイパーパラメータであるmax-depthを変えるとどうなる?
3回目以降、train accuracyとtest accuracyの値がどんどん離れていく…
ディープラーニングのエポックでもこういう事あるよね
Gradientブーストでもやってみた
k-分割交差検証 k-fold cross validation
交差検証の技術のひとつ。
データをk回分割し、繰り返し学習・検証を行う
値の分類の比率がtest,trainに均等にいくようにk個に分ける
k-foldが効く場合
データ量が多い
時系列分析
回帰問題(連続値)でもcross validationできるよ!
bin(連続値を閾値でグルーピング)を設定すればOK。「1+log2(N)」という式でbin数出せる
binのカラムを目的変数にしてcross validationする
yuyuyuriko78
commented
3 years ago
03 Evaluation metrics(予習)
肺の画像から病気かどうかを判定する(なんとタイムリーな)
混合行列 p58
classification_report便利
本日の勉強会