-
Notifications
You must be signed in to change notification settings - Fork 0
성능 평가
성능 평가 지표로는 Confusion Matrix
를 사용
n=5018 | Predicted Positive | Predicted Negative |
---|---|---|
Actual Positive | 374 | 25 |
Actual Negative | 420 | 4199 |
- TP(True Positive) = 374
- TN(True Negative) = 4199
- FP(False Positive) = 420
- FN(False Negative) = 25
TP + TN / TP + TN + FP + FN = 374 + 4199 / 5018 ≒ 0.9
TP / TP + FP = 374 / 374 + 420 ≒ 0.47
TP / TP + FN = 374 / 374 + 25 ≒ 0.93
Accuracy
는 모델이 전체 문제 중 정답을 맞춘 비율인데, Accurracy
가 0.9이므로 종합적으로 성능은 괜찮다고 생각한다.
Precision
이 0.47로 조금 낮게 나왔는데 Precision은 모델이 positive라고 예측한 것 중 실제로 정답이 positive인 비율인데 이 수치가 낮게 나왔다는 것은 다른 사람을 target으로 인식한 경우가 많다는 것이다. 이 부분은 의도했던 것인데 parameter중 similarity threshold
(유사도)가 있는데 이 값을 최대값 100 중 20만 주었다. 이유는 유사도를 높히면 엄격하게 비교하여 오히려 놓치는 사진들이 존재할 수 있기 때문이다. 추후 적절히 유사도를 조절하면 더 나은 성능을 기대할 수 있을 것같다.
Recall
은 0.93이 나왔는데 이는 유사도가 낮아 조금이라도 비슷한 것들을 positive라고 분류하여 높게 나온 것으로 추정된다.
종합적인 성능은 괜찮게 나온 것같다. 실제로 수작업으로 이루어졌던 사진수집방법이 자동화되어 정확하게 수집되었고 시간은 단축되었다고 생각한다. FP으로 분류되었던 사진들은 안경이 비슷한 경우, 특정 인물과 비슷한 사람 3명의 사진들이 섞여서 나왔다. FN의 경우 옆모습, 뒷모습의 경우가 대부분이었고 육안으로 확인해봤을 때도 자세히 봐야 식별할 수 있는 정도였다. Discussion에서 언급한 것처럼 적절하게 유사도 값을 조절하면 더 높은 성능을 기대할 수 있을 것같다.