지표

참 / 거짓을 판별하는 이진분류 모델의 성능을 평가하는 지표에 대해서.. 배우긴 했는데 당연히 다 잊어먹었다. 이번 기회에 다시 복습해서, 실제 분석 업무에 써먹어보자. 이번에 썸네일 분류 모델의 성능을 평가하기 위해 사용할 지표는 다음의 4가지 지표이다:

accuracy (정확도)
precision (정밀도)
recall (재현률)
F1 score

주의 - 여기선 classification 문제에서 precision과 recall가 갖는 의미를 설명한다. Information retrieval 문제에서 두 지표가 가지는 의미 와 헷갈리지 않도록 주의. IR 문제에서는 두 지표를 retrieved document와 relevant document의 개수의 관계로서 정의하지만, classification 문제에서는 두 지표를 confusion matrix 속 4개의 값들(TN, TP, FN, FP)의 관계로서 정의한다.

정의/ 의미/성질

accuracy
- 정의: TP + TN / TP + TN + FP + FN
- 의미: 정답을 맞춘 경우의 수 / 전체 경우의 수
- 성질: 정답을 잘 맞추기만 할수록 값이 높아진다.
- 단, 정답을 잘 맞추는지만 보여주며, 정답을 어떻게 맞추었는지에 대한 경향성은 보여주지 않는다는 문제점이 있다.
  - 거짓이라는 예측을 남발해도 정답만 맞추면 값이 높게 나온다.
  - 참이라는 예측을 남발해도 정답만 맞추면 값이 높게 나온다.
precision (i.e. PPR - Positive Predictive Rate)
- 정의: TP / TP + FP
- 의미: 참으로 정답을 맞춘 경우의 수 / 참이라고 예측한 경우의 수
- precision이 높으면 참인 예측의 신뢰도가 높다고 볼 수 있다. (hence "precise" prediction)
- 성질: 참이라는 확신이 분명히 들때만 참이라 예측하고, 그렇지 않을 경우 거짓이라는 예측을 남발하면 값이 높아진다. False by Positive가 0 이면 값은 TP / TP + 0 = 1.0, 최대값이 나온다. 즉 사람인줄 알았는데 알고보니 사람이 아닌 경우(FP)만 회피하면 값이 높아진다.
- FP의 회피는 어떻게?: 조금이라도 자신이 없으면 그냥 전부 사람이 아니야!! 라는 대답을 남발하면, FN은 높아질지언정 FP는 회피할 수 있다. 즉 거짓이라는 대답을 남발하면 FP down, FN up. 결과적으로, 거짓이라는 대답을 남발하면 TP / TP + (FP down) = precision up.
recall (i.e. sensitivity)
- 정의: TP / TP + FN
- 의미: 참으로 정답을 맞춘 경우의 수 / 정답이 참인 경우의 수. recall이 높으면, 실제로 참인 것들을 참으로 예측하는 것을 잘한다고 볼 수 있다.
- 성질: 확신이 들던 안들던 그냥 참이라는 예측을 남발하면 값이 높아진다. FN이 0이면 TP / TP + 0 = 1.0, 최대값이 나온다. 즉 사람이 아닌줄 알았는데 알고보니 사람인 경우(FN)만 회피하면 값이 높아진다.
- FN의 회피는 어떻게?: 어떤 케이스든 그냥 전부 사람이야!! 라는 대답을 남발하면, FP은 높아질지언정 FN은 회피할 수 있다. 즉 참이라는 대답을 남발하면 FN down, FP up . 결과적으로, 참이라는 대답을 남발하면 TP / TP + (FN down) = recall up.
f1 score
- 정의: 2 precision recall / precision + recall
- 의미: precision과 recall의 harmonic mean (조화 평균)
- 성질: precision과 recall값이 모두 높아야 값이 높다. 두 값을 경계로 하는 구간에서만 값이 존재하고, 두 값중 더 작은 값에 가까워지는 조화평균의 성질 때문. precision과 recall이 모두 낮으면, 그 구간에서만 존재하기 때문에 F1값도 낮다. precision이 높더라도 recall이 낮으면 F1 값은 둘 중 더 낮은 값인 recall 가깝게 나온다. 결국 F1은 낮게 나온다. 어느 한쪽만 높은게 아니라 두 값이 모두 높아야 F1값이 높아진다! (hence "harmonic")

그럼 좋은 모델의 기준은?

참 예측을 남발하는 것도 아니며, 거짓 예측을 남발하는 것도 아닌데, 정답은 또 기가막히게 잘 맞추는 모델이 가장 이상적이다. 즉 F1 score도, accuracy도 모두 1에 가까우면 성능이 매우 이상적인 이진분류 모델이라고 평가할 수 있다.

references

IR에서, Classification에서의 precision & recall
구글 머신러닝 단기 집중과정: 정밀도와 재현율 그럼 좋은 모델의 기준은? 참 예측을 남발하는 것도 아니며, 거짓 예측을 남발하는 것도 아닌데, 정답은 또 기가막히게 잘 맞추는 모델이 가장 이상적이다. 즉 F1 score도, accuracy도 모두 1에 가까우면 성능이 매우 이상적인 이진분류 모델이라고 평가할 수 있다.

eubinecto / train-of-thoughts

accuracy, precision, recall, f1 score의 차이가 무엇일까? #10

Why?

지표

정의/ 의미/성질

그럼 좋은 모델의 기준은?

references