datascienceschool / book

23 stars 23 forks source link

03%20machine%20learning/05.03%20%EB%A0%88%EB%B2%84%EB%A6%AC%EC%A7%80%EC%99%80%20%EC%95%84%EC%9B%83%EB%9D%BC%EC%9D%B4%EC%96%B4 #53

Open utterances-bot opened 2 years ago

utterances-bot commented 2 years ago

5.3 레버리지와 아웃라이어 — 데이터 사이언스 스쿨

https://datascienceschool.net/03%20machine%20learning/05.03%20%EB%A0%88%EB%B2%84%EB%A6%AC%EC%A7%80%EC%99%80%20%EC%95%84%EC%9B%83%EB%9D%BC%EC%9D%B4%EC%96%B4.html

Jiksun-Ramen commented 2 years ago

안녕하세요. 올려주신 글들이 회귀분석 공부하는데 정말 도움이 되는 것 같습니다.

여기 올려주신 레버리지와 이상값이 공부하기 정말 어려웠던 부분이었는데, 이론이랑 데이터가 적절히 섞여있어서 더욱 보기 좋았던 것 같습니다.

그리고 이 포스팅에서 질문 하나 드리고 싶은 것이 있는데요,

"만약 hii 값이 1이 되고 나머지 성분들이 모두 0이 될 수만 있다면 모든 표본 데이터에 대해 실제 결과값과 예측값이 일치하게 될 것이다.

hii=1,hij=0(for i≠j)→y^i=yi

하지만 곧 알 수 있듯이 이러한 일은 발생하지 않는다. 레버리지값은 다음과 같은 특성을 가진다는 것을 수학적으로 증명할 수 있다."

이러한 일이 발생하지 않는 이유를 조금 더 풀어서 알려주실 수 있으신가요?

Hanks0405 commented 2 years ago

ㄴ 보통 변수의 갯수(위에서 N이라고 표현함)는 독립변수의 갯수(위에서 K라고 표현) 보다 훨씬 많죠. 즉 가지고 있는 데이터의 shape이 (1000,5) 라고 하면 5개의 독립변수, 1000개의 데이터 수를 가지고 있는 것입니다. 즉 N=1000, K=5가 되죠. 그런데 회귀를 하면 상수항이 포함되게 되므로 K=5+1 =6 이 될겁니다. 위의 예시에서는 변수가 하나일때를 예시로 들었기 때문에 K=2가 된거구요. 레버리지는 모형에 따라 달라지지만 어쨋든 레버리지의 합은 6이 되어야 합니다. 그런데 행의 갯수가 1000이니 6을 1000개가 나눠먹었겠죠? 그러므로 레버리지는 1이 될 수 없다고 한 것입니다. 변수가 하나일 때 상수항 때문에 K=2가 되는데, 레버리지가 모두 1이 되려면 N이 2가 되어야만 합니다. N이 2이면 데이터 개수가 2개라는 의미이고, 점이 두 개라는 뜻이므로 그 데이터셋은 회귀할 의미가 없는 것입니다. 그러므로 설명에서 레버리지가 모두 1이 될 일은 없다라고 한 것이죠.