1. Accuracy
- 전체 샘플 중 올바르게 예측된 샘플의 비율
- 데이터가 균형적인 경우에 유용
2. Precision
- 양성으로 예측한 샘플 중 실제 양성인 비율
- 위양성(FN)이 중요한 경우에 유용, 즉 음성을 양성으로 잘못 예측했을 때 큰 문제가 되는 경우.
3. Recall
- 실제 양성인 샘플 중 모델이 올바르게 양성을 예측한 비율
- 위음성(FN)이 중요한 경우에 유용, 즉 실제 양성을 찾아내지 못했을 때 큰 문제가 되는 경우.
4. F1-Score
- Precision과 Recall의 조화 평균
- 모델이 양성을 잘 찾아내면서도, 음성을 양성으로 잘못 예측하는 것을 최소화하고 싶을 때 적합.
5. AUC
- ROC 아래 면적. 0.5 ~ 1 사이값
- 1에 가까울수록 좋음
- 모델이 양성과 음성을 얼마나 잘 구별하는지를 평가.
- 불균형 데이터에서 모델 성능을 평가할 때 매우 유용.
6. Specificity
- 실제 음성인 샘플 중 모델이 음성으로 정확히 예측한 비율
- 위양성(FP)이 중요한 경우에 유용.
- e.g., 법적 소송에서 무고한 사람(음성)을 범죄자(양성)로 잘못 분류하는 것을 방지하는 것이 중요할 때
7. Logarithmic Loss (Log Loss)
- 모델이 예측한 확률과 실제 값의 차이를 기반으로 한 손실 함수.
- 모델이 예측하는 확률의 품질을 평가하고 싶을 때 유용.
8. 정리
1) 데이터가 불균형할 때: AUC, F1-Score
2) 잘못된 양성 예측(음성을 양성으로 잘못 예측)이 문제일 때: Precision
3) 놓치는 양성 에측이 치명적인 경우: Recall
4) 정확도만으로는 부족할 때: F1-Score, AUC
5) 확률 기반 예측 평가: Log Loss