Kimuksung / bigdata

0 stars 0 forks source link

Linear regression / logistic regression / decision tree #23

Open Kimuksung opened 4 years ago

Kimuksung commented 4 years ago

Linear regression 1) Simple Linear regression Independent X1 dependent Y1 Y = WX + B W - 가중치 B - 편향

2) Multiple Linear regression Independent X1,X2, ..Xn dependent Y1 Y = W1X1 +W2X2+WnXn+B Cost function = 평균 제곱 오차 (MSE) Optimizer = Cost와 W를 비교하여 최적의 값을 찾아낸다. Data 중 70% train 30% test predict하여 비교하여 본다.

Logistic regression 1) binary classfication Independent X1 dependent Y -> 0,1 discrete sigmoid function -> 0~1 이내의 값으로 만들어준다. threshold를 지정하여 특정 값 이상이면 1, else 0 1/(1+e^-(WX+B) 의 형태 2) multiple Logistic Y=sigmoid(W1X1+W2X2+...WnXn+B) X1,X2,...Xn -> Model -> Y1 cost function : entrophy 인공 신경망 구조 3)SoftMax regression Independent Xn+ dependent Yn Y1+Y2+Y3.. Yn = 1 3개 이상의 다중 classfication Xn-> Zm->softMax -> Ym cost function : cross entrophy(오차를 줄이기 위해 X와 Z사이 / 예측값과 실제값 사이에 재반영) One-Hot-Vector : Y의 형태를 말하는 것으로 각각의 classfication된 것들은 하나의 vector로 나타낸다. [1,0,0] [0,1,0] [0,0,1]

One-Hot-Vector vs 정수 인코딩 균등하게 분포 / 순서에 의미를 둔다.

Decision Tree 계층화, 분할, 가지치기에 유용 / 3개 이상의 Input에 다차원 구조를 제공해준다. 불순도를 측정하는 지니 불순도 측정 -> 순수도는 같은 클래스끼리 얼마나 많이 포함 Y dependent descrete -> 분류 Y dependent continous -> 회기나무