Closed eubinecto closed 2 years ago
참 / 거짓을 판별하는 이진분류 모델의 성능을 평가하는 지표에 대해서.. 배우긴 했는데 당연히 다 잊어먹었다. 이번 기회에 다시 복습해서, 실제 분석 업무에 써먹어보자. 이번에 썸네일 분류 모델의 성능을 평가하기 위해 사용할 지표는 다음의 4가지 지표이다:
주의 - 여기선 classification 문제에서 precision과 recall가 갖는 의미를 설명한다. Information retrieval 문제에서 두 지표가 가지는 의미 와 헷갈리지 않도록 주의. IR 문제에서는 두 지표를 retrieved document와 relevant document의 개수의 관계로서 정의하지만, classification 문제에서는 두 지표를 confusion matrix 속 4개의 값들(TN, TP, FN, FP)의 관계로서 정의한다.
참 예측을 남발하는 것도 아니며, 거짓 예측을 남발하는 것도 아닌데, 정답은 또 기가막히게 잘 맞추는 모델이 가장 이상적이다. 즉 F1 score도, accuracy도 모두 1에 가까우면 성능이 매우 이상적인 이진분류 모델이라고 평가할 수 있다.
Why?
네이버에서 인턴으로 일할 때, 분류모델의 평가를 위해 공부하면서 정리했던 것. 여기에 다시 아카이브를 해본다.