yuyuyuriko78 commented 3 years ago

先生：川田さん

yuyuyuriko78 commented 3 years ago

SHAP

SHapley Additive exPlanations
モデルの予測結果に対する各変数（特徴量）の寄与を求めるための手法

yuyuyuriko78 commented 3 years ago

井伊さんの自慢話

GAN　1日半で攻略
tensorflowじゃなくてpytorchを使用
画像系はpytorchがおすすめ

yuyuyuriko78 commented 3 years ago

Feature Engineering

yuyuyuriko78 commented 3 years ago

ポイント

欠損値の処理も特徴量エンジニアリングに含まれる
ドメイン知識を持っているほどよい

購買データセット

dtメソッド

参考
Seriesに対してしか使えないので、必要なカラムを選んでそれに対して行う
datetime型のカラムにしか使えないので、to_datetimeメソッドでdatetime型にしておく
日付の操作を行う

特徴量の辞書

特徴量のカラムを辞書にまとめておく
XGBoostで利用しやすいらしい

aggregate(集計)

pandasのaggregate
aggregateはカテゴリカル変数でも使える
カスタマーIDでgroup byして、各カラムの合計やユニーク数を計算できる

yuyuyuriko78 commented 3 years ago

Numerical variablesのfeature engineering

カテゴリカル変数でグルーピングした後などに使われる

統計学的なアプローチ

統計量の例

歪度、尖度
min,max
percentile ※pandasのmath VS numpy

scipy

統計の指数はscipyがほとんどカバーしている。
numpy、math、pandasは基本的な統計量しか出してくれない

tsfreshモジュール

時系列データの特徴量変換
abs_energy：二乗値の合計である時系列の絶対エネルギー(?)
count_above_mean 等。

多項式によるfeature engineering

交互作用（40代、男性　→　40代男性）
線形分離できない形状を非線形にする

2次の多項式特徴量生成

2次の多項式：X^2(二乗) + xy(交互作用) + y^2(二乗)
pandasのapplyに複数の引数を入れる方法でも実現できる
(interaction_only: False, include_bias: Falseの場合) a,b,ab,a^2,b^2という5次元のデータが出力される
説明変数が4つ(abcd)あるデータで、いちぶの変数だけ使いたい時→行ごとに処理できるapplymapと独自の関数を使用
変数の数が増えるほど、特徴量の「増分が増える」（2変数では5個、3変数では9個）。計算量が膨大になるので注意
LASSO：いらない変数に関して、回帰係数を０にしてくれる（by張さん）
- とりあえず特徴量作りまくって、LASSOで間引こう！
kernel trick：3次元を二乗して線形分離できるようにする

binning　ビン分割

特徴量の入力範囲を等間隔の区間（ビンと呼ぶ）に区切り、個々のデータポイントがどのビンに入るかを表現したカテゴリ特徴量に置き換える
連続値を離散値にする
pandas cut関数を使用。Seriesとビン数を引数に指定。
対数変換
目的：分散が大きいデータ（外れ値があるデータ）・歪度が高いデータを慣らし、正規分布に近づけ、精度を上げる
logをとると値が小さくなる
標準化・正規化

yuyuyuriko78 commented 3 years ago

欠損値処理

欠損値がある行を消す方法はあるけど、欠損値が多い場合全体データ数がかなり減ってしまうので不向き
どう埋めるかはドメイン知識が必要な部分もある

特徴量にない値で埋める
unique()でデータに入っている値を確認し、fillna(なかった値)で埋める
デメリット：特徴を捉えることにつながらない。

平均値で埋める
scikit-learnのSimpleInputer
```
imp=SinpleImputer(strategy='mean')
imp.fit(x)
X_mean=imp.transform(x)
```
中央値で埋める

上のstrategyをmedianにする

k近傍法で埋める

ユークリッド距離でもにょもにょするやつ（難しい） scikit-learnのKNNImputer
欠損値が複数あるレコードのベクトルの配置方法？

yuyuyuriko78 commented 3 years ago

Feature Selection

yuyuyuriko78 commented 3 years ago

目的

次元の呪いの解除（データ解釈性、過学習、計算量）
ポイント
「データが多い」の定義はない
データによって適切なものは変わる
特徴量エンジニアリング（特徴量を作成する）より特徴量選択（少ない重要な特徴量を作成する）を優先しましょう。

種類

種類	説明
フィルター	人間の手でフィルタリング。統計量を調べる。速度◎、精度×
ラッパー	逐次的に特徴量を増減し、すべてのパターンを自動で確認していく。速度×、精度◎
埋め込み	ランダムフォレスト、LASSOを利用。特徴量の重要度をみて選択。速度○、精度○

フィルター法

分散が低い（0.1未満）特徴量を削除

相関の高い２つの変数のうち、ひとつを削除。

相関係数0.9とか、、データセットによる。多重共線性。
削除したときの説明変数がどれくらい残っているかも考慮する。説明変数が少ない中で、相関が高い２つの変数がある場合、過学習しやすくなる。
説明変数の数を1/3くらいにするのが目安。（by張さんの知り合いのデータサイエンティスト）
MLextend：forward selection, backward selection
単変量統計による特徴量選択
個々の特徴量と目的変数の関係を調べ、重要な特徴量を選択する
特徴量どうしのことは考えないので、交互作用で結果がでるものが捨てられたりする
重要度の指標：相互情報量、F値(分散)、χ二乗検定
Percentile: 離散値につかう。25%, 50%, 75%。（連続値はビン）

ラッパー法

貪欲特徴選択

特徴量をどれかひとつ選択、学習、スコアを出す
そこに特徴量をひとつ追加して積み上げ
追加してくごとに精度が頭打ちになったらそこで終了
毎回モデルをつくるので計算量が多い、ちゃんとしないと過学習しやすい
再帰的特徴量削減 RFE
ひとつずつ減らしていく
ランキング：どの特徴量を使ったか
n_features_to_select：いくつの特徴量を使うか

埋め込み法

ランダムフォレストの重要度などを使用して特徴量を選択
同じデータセットに関してもアルゴリズムごとに重要な特徴量が異なる
ベイズ系のモデル KNNなどは精度が出ない

Atsuhiko / AAMLP

第6回　Feature engineering p142 / Feature selection p155 #12

SHAP

井伊さんの自慢話

Feature Engineering

ポイント

購買データセット

dtメソッド

特徴量の辞書

aggregate(集計)

Numerical variablesのfeature engineering

統計学的なアプローチ

統計量の例

scipy

tsfreshモジュール

多項式によるfeature engineering

2次の多項式特徴量生成

binning　ビン分割

対数変換

欠損値処理

特徴量にない値で埋める

平均値で埋める

中央値で埋める

k近傍法で埋める

Feature Selection

目的

ポイント

種類

フィルター法

分散が低い（0.1未満）特徴量を削除

相関の高い２つの変数のうち、ひとつを削除。

単変量統計による特徴量選択

ラッパー法

貪欲特徴選択

再帰的特徴量削減 RFE

埋め込み法

Atsuhiko / AAMLP

第6回 Feature engineering p142 / Feature selection p155 #12

SHAP

井伊さんの自慢話

Feature Engineering

ポイント

購買データセット

dtメソッド

特徴量の辞書

aggregate(集計)

Numerical variablesのfeature engineering

統計学的なアプローチ

統計量の例

scipy

tsfreshモジュール

多項式によるfeature engineering

2次の多項式特徴量生成

binning ビン分割

対数変換

欠損値処理

特徴量にない値で埋める

平均値で埋める

中央値で埋める

k近傍法で埋める

Feature Selection

目的

ポイント

種類

フィルター法

分散が低い（0.1未満）特徴量を削除

相関の高い２つの変数のうち、ひとつを削除。

単変量統計による特徴量選択

ラッパー法

貪欲特徴選択

再帰的特徴量削減 RFE

埋め込み法

第6回　Feature engineering p142 / Feature selection p155 #12

binning　ビン分割