機械学習 - Githubissues

mizukihiraishi commented 2 years ago

機械学習前半

プロローグ

ディープラーニングを学習するためには応用数学、機械学習を理解することが大事 E資格では応用数学、機械学習が４０～５０％講義の目標 ①機械学習の基本的な手法を理解し実装する ②機械学習モデリングの流れを理解する機械学習のプロセス(P.4) 実務上は1.問題設定が一番大事課題によっては機械学習を使う必要がないこともある→ルールベースでもよいこともある 2.データの選定データをたくさん集められるかどうか、テータが適合しているか GIGO(Garbage In, Garbage Out) https://www.intersystems.com/jp-pulse-blog/garbage-in-gospel-out/ 3.データの前処理時間がかかる、データの解析にはkaggleが役立つ機械学習のデメリット・・・技術的ハードルの高さ（技術者のレベルが低い場合）、デバッグ・テストが難しいディープラーニング（深層学習）は手法の一つ

講義で扱う内容教師あり学習・・・インプットとアウトプットのペアがある教師なし学習・・・インプットのみたくさんある状態半教師学習・・・インプットとアウトプットのペアとインプットのみのデータが混在している教師あり→予測・分類、教師なし→クラスタリング・次元削減教師なし学習にも指標が存在する

機械学習とは

機械学習参考図書：深層学習（イアングッドフェロー）スライド(P.13)はかっこ書きで分かりやすいように注釈しているトム・ミッチェルの機械学習の定義は覚えておくことコンピュータプログラムは機械にさせたいこと（出力）Tを性能指標Pで測定し、その出力がデータEを入力する（食わせる）ことによって改善される場合、TはPに関してEから学習するといわれる
線形回帰モデル　その１

線形とは・・・簡単に言えば比例関係直線(2次元)・・・y = Ax + B 平面(3次元)・・・z = Ax + By + C 超平面(n次元)・・・y = a0 + a1x1 + a2x2 + … + a n-1xn-1 　　　　　　　　　 = a0 + n-1Σi=1 aixi 　　　　　　　　　 = n-1Σi=0 aixi , where x0 = 1 　　　　　　　　　 = a.T x 　　　　　　　　　 a.T=(a0 a1 ・・・ an-1)　← n次元ベクトル　　　　　　　　　 x** = (x0 x1 ・・・xn-1).T　← n次元ベクトル

回帰問題ある入力（離散あるいは連続値）から出力（連続値）を予測する問題 e.g. 来場者から売り上げを予測する、データから順位予想（Vapnikの原理→ある問題を解くとき，その問題よりも難しい問題を途中の段階で解いてはならない e.g. 密度比推定）回帰で扱うデータ入力（各要素を説明変数または特徴量と呼ぶ）・・・m次元のベクトル（m=1のときはスカラー）出力（目的変数）・・・スカラー値（ベクトルを返すことも可能）説明変数　x = (x1, x2, ... , xm).T ∈ Rm (Rは実際は白抜きのR、m次元空間の実数全体、複素数をとってはならない) 目的変数　y ∈ R1

線形回帰モデル　その２

線形回帰モデル教師あり学習入力とm次元パラメータの線形結合を出力するモデルパラメータのw(m個、w0を入れればm+1個) 予測値yにはハットを付ける → ハットは学習したモデルから予測・推定したもの
線形回帰モデル　その３

線形結合（入力とパラメータの内積）入力ベクトルと未知のパラメータの各要素を掛け算して足し合わせたもの切片も足し合わせるモデルのパラメータ特徴量が予測値に対してどのように影響を与えるかを決定する重みの集合
線形回帰モデル　その４

説明変数が1次元の場合、単回帰モデルと呼ぶ（m=1）データには回帰直線に誤差εが加わっていると仮定する（P.20） y = w0 + w1x1 + ε 誤差は必ずしも偶発誤差(自然に発生する摩擦・空気抵抗等)だけではなく、誤差があまりにも大きすぎる場合、違う説明変数が作れるかどうかを考察する連立方程式それぞれのデータをモデル式へ当てはめるとn個の式が導出されるうまく実装できないとき、xの列数とwの行数があっているかを確認する説明変数が多次元の場合、線形重回帰モデルと呼ぶ（m>1）データには回帰曲面(正確には平面)に誤差が加わっていると仮定する（P.22） xが増えるごとにwが増えていく yはn×1の行列、Xはn×(m+1)の行列、wは(m+1)×1の行列 Xのことを計画行列・係数行列と呼んだりする(matrix) 行列が分かり辛かったりしたら連立方程式に直してみるとわかりやすくなるかも？連立方程式ベースで考えると、データの数nはパラメータの数m+1以上でないと説くのが難しいことがわかる（例外あり）→ ディープラーニングの場合、パラメータが膨大な数になるので、データをたくさん用意しなければならない

E資格の参考文献：機械学習のエッセンス(数学について書かれている、最新版を買う)

データ分割・学習　その１

データの分割データを学習用(7,80%ぐらい)と検証用に分割するなぜ分割するかモデルの汎化性能を測るため→未知のデータに対しての精度の高さを測るため学習用データはx(train)、y(train) 検証用データはx(test)、y(test)
データ分割・学習　その２

データの分割とモデルの汎化性能測定線形モデルのパラメータは最小二乗法で推定平均二乗誤差（残差平方和、MSE）・・・全てのデータとモデル出力の二乗誤差の和、一般的にはJ(w)と書かれるが、yはwが含まれているのでwの関数誤差：予測と実測値のズレ二乗損失は一般に外れ値に弱い、外れ値に強い損失関数・・・Huber損失、Tukey損失損失関数の参考書籍・・・イラストで学ぶ機械学習最小二乗法・・・学習データの平均二乗誤差を最小にするパラメータを探索する平均二乗誤差の最小化はその勾配が0になる点を求める
データ分割・学習　その３

ｗ^(回帰係数)・・・MSEを最小にするようなｗ arg min・・・最小にする入力 MSEをwに関して微分したものが0になるwがMSEを最小にするようなw ベクトルの微分・・・一度ばらしてから微分する微分の参考書籍・・・Matrix Cook Book どこからどこまで行列か、どこまでベクトルかを把握する回帰の場合は最尤法と最小二乗法の解は一致する X*・・・新たな入力点（検証データなど）射影行列

mizukihiraishi commented 2 years ago

ハンズオン（住宅価格予測）その１

ボストンの住宅データセットを線形回帰モデルで分析課題・・・部屋数が4で犯罪係数が0.3の物件はいくらになるか？
ハンズオン（住宅価格予測）その２

skl_ml → skl_regression.ipynbを開く bostonの中身 data・・・部屋数、犯罪率など target ・・・それぞれの家の価格 future_names・・・どのカラムがどのヘッダーを持っているか DESCR・・・説明が記載されている実務では前処理をする、目視ではなく、要約統計量Max・Minなどを出す targetは上限が50で切られているかも？ 外挿問題には機械学習やディープラーニングは弱い
ハンズオン（住宅価格予測）その３

loc・・・単独および複数の要素の値を選択、取得・変更（行名、列名で位置を指定） : で全てのデータを表示 model・・・ひな形、fit・・・学習をさせるためのメソッド
ハンズオン（住宅価格予測）その４

モデルが出来上がったら入力に色々な値を入れて妥当性を検証する（犯罪率が高ければ安くなるか、部屋を減らせば安くなるか、出力はマイナスにならないかなど）
演習の結果

部屋数が4で犯罪率が0.3の物件は4240ドルと予測できた https://github.com/mizukihiraishi/Study-AI/blob/baad46f5a76d4974daf5f592eaf28c00a90ef010/hands-on_Boston_house-prices.ipynb

mizukihiraishi commented 2 years ago

機械学習（後半）

単回帰／重回帰→非線形な回帰を考える(動画参照) xの代わりに非線形なxに関する関数Φ(x)が入っている(x二乗、三角関数、log) xからΦ(x)に代えても、パラメータwについては線形のまま 非線形回帰モデル・・・線形モデルについて非線形回帰を行っている(wは線形のままでxが非線形)

非線形回帰モデル　

Φ(x)のことを基底関数と呼ぶガウス型基底関数 μ・・・関数の頂点 xがμから離れると値が小さくなる（exp(-x)の性質） MSEを最小化するwの求め方は線形回帰と同様になる P.36の多項式のグラフは１～９次すべてのグラフが書かれているが、4次以上はほぼ重なっている → 4次関数で十分表せるオッカムの剃刀 → ある事柄を説明するためには、必要以上に多くを仮定するべきでない過学習対策に不要な基底関数を削除とあるが、実務上は特徴選択やAICモデルを用いる実装 https://github.com/mizukihiraishi/Study-AI/blob/1c38111994f68079777a2f8a4b722b47ebad8ee2/skl_nonlinear_regression.ipynb
正則化法

wを調節する不等式条件：min MSE s.t. R(w) < r ←R(w)がrより小さいという条件のMSE(s.t.・・・Such　That) ↑を回避したいモデルの複雑さに伴ってその値（w）が大きくなる正則化項(罰則項)を課した関数 → 正則化項を入れることによって不等式条件を回避 P.41の図の軸はw0、w1などパラメータだと考える → パラメータがRidgeであれば円、Lassoであれば正方形の中になる → 不等式制約黒い丸がMSEを最小とするwだが、その場合wが大きすぎるので、等高線をだんだんと引いて行ってRidgeやLassoの図形と交わる点をパラメータwとする LassoのようなLPノルムのP≦1のノルムは1つのパラメータが0になる基底関数の数を増やしても正則化項を入れることによって過学習を回避する正則化をすることによってサンプル数100個でもサンプル数を10000個とったものと同じようなモデルが作れる
モデル選択

検証誤差でモデルを選択する一般的に過学習はよくない（P.48右図）がディープラーニングでは一度上がった検証誤差が下がってくることもあるホールドアウト法検証データと学習データを一括に決めて一切入れかえない（精度検証を一回のみ行う）ホールドアウト法の欠点手元にデータが少ない場合・・・入力ミスなどの外れ値がテスト用（検証）データに入ってしまった場合、外れ値にフィットしたモデルが選ばれてしまうクロスバリデーションデータを分割し、学習用と検証用の組み合わせを全て行い、CV値(制度の平均)が最も低いものを採用する(精度検証を分割した数行う) 精度の計算誤差・・・二乗平均誤差(MSE) → trainとtestについてそれぞれ行う 精度は検証誤差で報告・発表を行う → 論文で100％予測されたものがあったりする（学習データに過学習している）グリッドサーチ・・・実装の練習はした方がいいが、最近はベイズ最適化でハイパーパラメータの調整が行われる
ロジスティック回帰

PRL 分類問題に対するアプローチ識別的アプローチ → ロジスティック回帰 P(Ck|x)を直接モデル化 P(Ck|x)・・・xが与えられたときクラスCkに割り当てられる確率生成的アプローチ ベイズの定理を用いる・・・復習生成的アプローチであれば外れ値対応などできる yが０，１に対して、実数全体をとるのは如何か → シグモイド関数で実数全体を０，１につぶす シグモイド関数の微分 → 手を動かして一度計算する結論：シグモイド関数の部分はシグモイド関数で表すことができる P.60 確率が0.5以上ならばとあるが、確率は何でもよい（精度が必要なら0.8とか）分布のパラメータを考える場合データからPを推定する P.64 1回の試行の場合、y=1のときp、y=0のとき1-p　n回の試行の場合はn回分かけ合わせればよい（各試行が独立であれば）　尤度関数はyが既知の場合に未知のpを推定する尤度関数Lを最大化するwを探索 P.67 なぜ-logを付けるのか → logは単調増加関数なのでLが最大になるときにlogLも最大になる、最小化を考えるためにーを付けている(二行目のΣの式はーが抜けている)、1より小さい値pを何度もかけると桁落ちするためlogを入れる 最尤法はシグモイド関数があるため、解析解を求めることが困難になる P.68の右側の式は傾きを引いていく重みパラメータを更新していく際の傾き対数尤度関数の微分を手を動かして計算する 微分の連鎖律・・・復習　確率Piはシグモイド関数であることを頭に入れるロジスティック回帰のsklはC=1.0やL2ノルム
ハンズオン（タイタニックの乗客データ）

課題：年齢が30歳で男の乗客は生き残れるか？結果：ロジスティック回帰により、30歳の男性は20%程度の生存率であることが分かった。 https://github.com/mizukihiraishi/Study-AI/blob/f134c992db20382da3933d2226a55801113c1646/skl_logistic_regression.ipynb
主成分分析（PCA）

高次元のデータを低次元に落とす PCAは分散が最大になるように削減を行う P.86のグラフの太い部分がデータの散らばっている領域右上がりのグラフが一番データの散らばりが保存されている実装 https://github.com/mizukihiraishi/Study-AI/blob/1c38111994f68079777a2f8a4b722b47ebad8ee2/skl_pca.ipynb
k近傍法

クラスタリングのための機械学習手法
k-means

クラスタリングの手法与えられたデータをk個のクラスに割り当てる
k-means実装

https://github.com/mizukihiraishi/Study-AI/blob/e772a5baa7f68c441a40993af2cad3fd0b7b7d83/skl_kmeans.ipynb

参考文献：機械学習アルゴリズム辞典・・・ざっと学習するのにはよい

mizukihiraishi / Study-AI

機械学習 #2