KaggleBreak / databreak-blog

DataBreak Official Blog
https://databreak.netlify.com/
MIT License
3 stars 0 forks source link

Normalization vs Standardization — Quantitative analysis #12

Closed RyanYS closed 5 years ago

RyanYS commented 5 years ago

Title & Topic

Normalization vs Standardization — Quantitative analysis

Upload schedule

업로드계획 : 5/6

Reference

https://www.kdnuggets.com/2019/04/normalization-vs-standardization-quantitative-analysis.html

syleeie2310 commented 5 years ago

여기 Gradient descendent method(신경 네트워크와 같은)를 사용하여 훈련 한 classifier를 처리 할 때 feature scaling의 필요성에 대한 Hinton의 훌륭한 설명이 있습니다. => 원본 글이 오타(잘못)된 것 같은데 gradient descent로 수정해야 될 것 같습니다.

https://sebastianraschka.com/faq/docs/evaluate-a-model.html => https://sebastianraschka.com/faq/docs/evaluate-a-model.html 느낌표 빼시면 될 것 같아요

NB, RF, LDA, CART는 일부 scaling 방법의 영향을받지 않습니다.  => NB, RF, LDA, CART는 일부 scaling 방법의 영향을 받지 않습니다. 

NB는 모델의 선수가 실제 값이 아닌 각 클래스의 개수로 결정되기 때문에 영향을받지 않습니다.  => NB는 모델의 선수가 실제 값이 아닌 각 클래스의 개수로 결정되기 때문에 영향을 받지 않습니다. 

PCA가 scaling의 이점을 제공하는 알려진 Component 임에도 불구하고 단일 scaling 방법은 항상 결과를 향상시키지는 않으며 그 중 일부는 해를 끼칠 수 있다고 결론 지을 수 있습니다 (StandardScaler에서 RF-PCA). 데이터 집합도 여기에 큰 요소입니다. PCA에서 scaling 방법의 결과를 더 잘 이해하기 위해서는 보다 다양한 데이터 세트 (클래스 불균형, 다양한 기능 척도 및 수치 및 범주 형 기능이있는 데이터 세트)를 실험해야합니다. 저는 5 절에서이 분석을하고 있습니다. => 여기만 글씨 크기가 너무 큰데, 글씨 크기 한개 줄여주세요.

모든 데이터 세트는 Kaggel에서 가져 왔습니다. => 모든 데이터 세트는 Kaggle에서 가져 왔습니다.

편의상 각 데이터 세트의 숫자 열만 선택했습니다.
다 변수 데이터 세트 (숫자 및 범주 형 기능)에서 feature scaling하는 방법에 대한 지속적인 논의가 있습니다. => 편의상 각 데이터 세트의 숫자열만 선택했습니다. 다변수 데이터 세트 (숫자 및 범주형 기능)에서 feature scaling하는 방법에 대한 지속적인 논의가 있습니다.

또 다른 흥미로운 결과는, 대부분의 모델에서 모든 scaling 방법이 그다지 영향을 미치지 않는다는 것입니다 (일반적으로 1 % -3 % 개선). => 또 다른 흥미로운 결과는, 대부분의 모델에서 모든 scaling 방법이 그다지 영향을 미치지 않는다는 것입니다 (일반적으로 1 % - 3 % 개선)

이 데이터 세트에서 PCA 고유 벡터를 이동시키는 많은 이상 값 때문일 수 있습니다. 반면에, 우리가 PCA를 사용하지 않을 때 그러한 이상 치는 영향을 미치지 않습니다. 이를 확인하기 위해 데이터 탐색을해야합니다. => 이 데이터 세트에서 PCA 고유 벡터를 이동시키는 많은 이상값 때문일 수 있습니다. 반면에, 우리가 PCA를 사용하지 않을 때 그러한 이상치는 영향을 미치지 않습니다. 이를 확인하기 위해 데이터 탐색을 해야합니다.

따라서 여러 가지 scaling 기법을 사용하여 실험해야하는 또 다른 지표입니다. => 따라서 여러 가지 scaling 기법을 사용하여 실험해야 하는 또 다른 지표입니다.

고생하셨습니다 영승님! 전반적으로 띄어쓰기 한번 확인해주시면 좋을 것 같습니다.

수정 완료하시면 페이스북 올려주세요.!

syleeie2310 commented 5 years ago

아.. 위에다가 썼는데 이미지가 바로 들어가네요;;;

아래 이미지 https://sebastianraschka.com/faq/docs/evaluate-a-model.html](https://www.kdnuggets.com/wp-content/uploads/cross-validation.png

블로그 글에 링크 이미지가 제대로 안들어가 있어서 확인하시면 됩니다.

RyanYS commented 5 years ago

리뷰 반영 후 Facebook 에 게시했습니다!