[펭귄] 회귀 분석의 손실함수 L2 Norm과 예측 오차의 분산

boost-devs / peer-session

🚀 부스트캠프 AI Tech 1기 U-Stage 4조 피어 세션 자료/질문 모음 (archived)

8 stars 2 forks source link

Closed CoodingPenguin closed 3 years ago

CoodingPenguin commented 3 years ago

회귀 분석에서 손실함수로 사용되는 L2-Norm은 예측오차의 분산을 가장 최소화하는 방향으로 학습하도록 유도합니다.

확률론 맛보기 p.3에 위와 같은 말을 볼 수가 있는데, 예측오차라고 한 게 아니라 예측오차의 분산으로 설명한 이유가 있을까요? 왜 예측오차 최소화가 아니라 예측오차의 분산을 최소화하는지 궁금합니다.

mj950425 commented 3 years ago

확률의 관점에서 바라보았을 때 분산으로 말씀해주신 것 같습니다.

CoodingPenguin commented 3 years ago

@mj950425 혹시 설명을 조금 더 해주실 수 있을까요? 확률의 관점이라는 부분이 잘 이해가 가질 않아서요ㅠㅠ

mj950425 commented 3 years ago

L2norm을 최소화 시키는 방식으로 학습시킨다면, 확률론 적으로 봐라봤을 때 저 확률분포가 의 분산이 점점 좁아지고 빨간점에 가까워진다 라고 이해했습니다!

CoodingPenguin commented 3 years ago

@mj950425 그림으로 보니까 훨씬 이해가 잘 되네요. 감사합니다!

그럼 위의 그림에서 오차의 분산이 작아질수록 오차가 줄어드는 걸 볼 때, 예측 오차의 분산을 최소화시킨다는 말이 결국은 예측 오차를 줄인다는 말과 같은 것이 맞나요?

mj950425 commented 3 years ago

강의 해당부문을, 저는 그렇게 이해했습니다.

CoodingPenguin commented 3 years ago

@mj950425 감사합니다!

CoodingPenguin commented 3 years ago

L2norm을 최소화 시키는 방식으로 학습시킨다면, 확률론 적으로 봐라봤을 때 저 확률분포가 의 분산이 점점 좁아지고 빨간점에 가까워진다 라고 이해했습니다!

jjerry-k commented 3 years ago

@CoodingPenguin

해당 질문은 해결이 된 듯 하군요...!

어제 @mj950425 님과 슬랙에서 얘기를 나눴었는데요!

스레드를 참고하시면 좋을 것 같습니다!

CoodingPenguin commented 3 years ago

L2norm을 최소화 시키는 방식으로 학습시킨다면, 확률론 적으로 봐라봤을 때 저 확률분포가 의 분산이 점점 좁아지고 빨간점에 가까워진다 라고 이해했습니다!

@jjerry-k 엠제이님 쓰레드보면서 나름대로 정리를 해보았는데요.

회귀문제의 경우 조건부 기대값 E[y|x]를 추정한다. 근데 조건부 기대값 E[y|x]는 E||y - f(x)||_2를 최소화하는 함수 f(x)와 일치한다.

y는 데이터 x에 대한 예측값을 말하며, 그래프에서 파란점을 의미한다.
E[y|x]는 이렇게 찍은 파란점들의 평균이며, 이 값은 빨간함수에 근사한다.
E[y|x]가 분포가 퍼져있는 y값들의 평균으로 분포를 줄여 근사하는 것이므로 이를 E||y-f(x)||_2를 최소화시키는 함수 f(x)로 볼 수 있다.

로 이해했는데 제대로 이해한 것이 맞을까요?

jjerry-k commented 3 years ago

y 보다는 y(x0) 라고 표현하는게 더 나을 것 같네요! 아니면 반대로 파란 점은 x에 대한 예측값 y(x0)를 의미한다

잘 이해하셨습니다!

CoodingPenguin commented 3 years ago

@jjerry-k 그러네요 그럼 저 파란점은 x_0를 입력으로 받아 나온 여러 예측값이군요. 친절한 설명 감사드립니다!