Skip to content

성능 평가

suk kyun hong edited this page Mar 19, 2024 · 2 revisions

Result

성능 평가 지표로는 Confusion Matrix를 사용

n=5018 Predicted Positive Predicted Negative
Actual Positive 374 25
Actual Negative 420 4199
  • TP(True Positive) = 374
  • TN(True Negative) = 4199
  • FP(False Positive) = 420
  • FN(False Negative) = 25

Accuracy

TP + TN / TP + TN + FP + FN = 374 + 4199 / 5018 ≒ 0.9

Precision

TP / TP + FP = 374 / 374 + 420 ≒ 0.47

Recall

TP / TP + FN = 374 / 374 + 25 ≒ 0.93

Discussion

Accuracy는 모델이 전체 문제 중 정답을 맞춘 비율인데, Accurracy가 0.9이므로 종합적으로 성능은 괜찮다고 생각한다.
Precision이 0.47로 조금 낮게 나왔는데 Precision은 모델이 positive라고 예측한 것 중 실제로 정답이 positive인 비율인데 이 수치가 낮게 나왔다는 것은 다른 사람을 target으로 인식한 경우가 많다는 것이다. 이 부분은 의도했던 것인데 parameter중 similarity threshold(유사도)가 있는데 이 값을 최대값 100 중 20만 주었다. 이유는 유사도를 높히면 엄격하게 비교하여 오히려 놓치는 사진들이 존재할 수 있기 때문이다. 추후 적절히 유사도를 조절하면 더 나은 성능을 기대할 수 있을 것같다.
Recall은 0.93이 나왔는데 이는 유사도가 낮아 조금이라도 비슷한 것들을 positive라고 분류하여 높게 나온 것으로 추정된다.

Conclusion

종합적인 성능은 괜찮게 나온 것같다. 실제로 수작업으로 이루어졌던 사진수집방법이 자동화되어 정확하게 수집되었고 시간은 단축되었다고 생각한다. FP으로 분류되었던 사진들은 안경이 비슷한 경우, 특정 인물과 비슷한 사람 3명의 사진들이 섞여서 나왔다. FN의 경우 옆모습, 뒷모습의 경우가 대부분이었고 육안으로 확인해봤을 때도 자세히 봐야 식별할 수 있는 정도였다. Discussion에서 언급한 것처럼 적절하게 유사도 값을 조절하면 더 높은 성능을 기대할 수 있을 것같다.

Clone this wiki locally