인공지능과 머신러닝

머신러닝 모델 평가: 정확도, 정밀도, 재현율, F1 점수란?

Ainsight 2024. 10. 12. 08:20

머신러닝 모델 평가: 정확도, 정밀도, 재현율, F1 점수란?
머신러닝 모델 평가: 정확도, 정밀도, 재현율, F1 점수란?

 

머신러닝 모델을 만들었다면, 이제 그 모델이 얼마나 잘 작동하는지 평가해야 합니다. 모델의 성능을 제대로 평가하려면, 다양한 지표를 활용하는 것이 중요합니다. 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), 그리고 F1 점수(F1-Score)는 대표적인 평가 지표입니다. 이 글에서는 각각의 지표가 무엇을 의미하는지, 언제 중요한지, 그리고 어떻게 계산되는지 쉽게 설명하겠습니다.

 

정확도(Accuracy): 전체 예측 중 얼마나 맞췄는가?

정확도(Accuracy)는 모델이 예측한 것 중에서 얼마나 많이 맞췄는지를 나타냅니다. 쉽게 말해, 전체 데이터에서 맞춘 비율을 보는 것이죠. 계산 방법은 다음과 같습니다.

 

공식:

 

여기서, 각각의 단어를 아래를 의미합니다.

  • TP(True Positive): 모델이 실제로 참인 것을 참으로 예측한 경우
  • TN(True Negative): 모델이 실제로 거짓인 것을 거짓으로 예측한 경우
  • FP(False Positive): 실제로는 거짓인데 참으로 잘못 예측한 경우
  • FN(False Negative): 실제로는 참인데 거짓으로 잘못 예측한 경우

예를 들어, 100개의 데이터 중 90개를 맞췄다면, 정확도는 90%입니다. 하지만 데이터가 불균형할 때, 즉 한쪽 클래스(예: 정상과 비정상 중 정상)가 훨씬 많을 때는 정확도만으로 성능을 평가하는 것이 적절하지 않을 수 있습니다. 예를 들어, 전체 데이터의 99%가 정상이라면, 모든 데이터를 정상으로 예측해도 정확도가 99%가 될 수 있기 때문입니다.

 

정밀도(Precision): 참이라고 예측한 것 중 실제로 맞춘 비율

정밀도(Precision)는 모델이 참(True)이라고 예측한 것 중에서 실제로 참인 비율을 말합니다. 쉽게 말해, 모델이 긍정(Positive)으로 예측한 결과 중 실제로 맞춘 비율을 보여줍니다.

 

공식:

 

  • TP(True Positive): 모델이 실제로 참인 것을 참으로 예측한 경우
  • FP(False Positive): 실제로는 거짓인데 참으로 잘못 예측한 경우

정밀도는 특히 거짓 경고(False Positive)를 줄여야 할 때 중요한 지표입니다. 예를 들어, 이메일 스팸 필터링에서 정밀도가 높으면, 스팸이라고 예측한 이메일 중에서 실제로 스팸이 아닌 경우가 적다는 뜻입니다. 반대로, 정밀도가 낮으면 스팸으로 분류했지만 실제로는 정상 메일이 많다는 것을 의미합니다. 따라서 스팸 필터에서 정상 메일을 스팸으로 잘못 분류하는 것을 최소화하려면 정밀도를 높이는 것이 중요합니다.

 

재현율(Recall): 실제 참인 것 중 얼마나 많이 맞췄는가?

재현율(Recall)은 실제로 참(True)인 것 중에서 모델이 얼마나 많이 찾아냈는지를 나타냅니다. 즉, 참 데이터를 놓치지 않고 얼마나 잘 맞췄는지 보여줍니다.

 

공식:

 

  • TP(True Positive): 모델이 실제로 참인 것을 참으로 예측한 경우
  • FN(False Negative): 실제로는 참인데 거짓으로 잘못 예측한 경우

재현율은 참 데이터를 놓치면 안 되는 경우에 중요합니다. 예를 들어, 암 진단 모델에서 재현율이 높다는 것은 실제 암 환자를 놓치지 않고 많이 찾아냈다는 뜻입니다. 반면, 재현율이 낮으면 실제 암 환자가 많지만, 모델이 이를 잘 찾아내지 못하는 상황을 의미합니다. 따라서 중요한 질병을 놓치지 않아야 하는 상황에서는 재현율을 높이는 것이 중요합니다.

 

F1 점수(F1-Score): 정밀도와 재현율의 균형

F1 점수(F1-Score)정밀도(Precision)와 재현율(Recall) 사이의 균형을 평가하는 지표입니다. 두 지표가 모두 중요할 때, F1 점수는 이 둘의 조화 평균을 계산해 어느 한쪽으로 치우치지 않도록 합니다.

 

공식:

 

F1 점수는 정밀도와 재현율이 균형을 이루어야 할 때 특히 유용합니다. 예를 들어, 스팸 필터에서 정밀도와 재현율을 모두 고려해야 할 때, F1 점수는 두 지표 간의 균형을 평가해 줍니다. 정밀도는 높지만 재현율이 낮거나, 그 반대의 경우에도 F1 점수는 중간 균형을 맞추어 더 종합적인 평가를 가능하게 합니다.

 

실생활 적용 사례: 이메일 스팸 필터링
실생활 적용 사례: 이메일 스팸 필터링

실생활 적용 사례: 이메일 스팸 필터링

이메일 스팸 필터를 통해 머신러닝 평가 지표들을 쉽게 이해해 봅시다. 이메일 서비스에서 우리는 매일 수많은 메일을 받습니다. 이 중에서 원하지 않는 광고나 피싱 이메일 같은 스팸을 걸러내는 것이 중요합니다. 스팸 필터는 머신러닝 모델을 통해 메일을 '스팸' 또는 '정상'으로 분류합니다. 이 과정에서 다양한 성능 평가 지표가 어떻게 쓰이는지 살펴보겠습니다.

 

1. 정밀도(Precision)와 스팸 필터

정밀도는 스팸 필터가 스팸이라고 예측한 메일 중 실제로 스팸인 메일의 비율을 나타냅니다. 예를 들어, 스팸 필터가 10개의 메일을 스팸이라고 분류했는데, 그 중 7개가 실제로 스팸이고, 3개는 정상 메일이었다면, 정밀도는 70%가 됩니다.

정밀도가 중요한 이유는 우리가 정상 메일을 스팸으로 잘못 분류하지 않는 것이 매우 중요하기 때문입니다. 예를 들어, 친구가 보낸 중요한 이메일이 스팸으로 분류되어서 확인하지 못하게 된다면 문제가 될 수 있습니다. 따라서, 스팸 필터의 정밀도가 높다는 것은 정상 메일을 잘 보호하고 있다는 뜻입니다.

 

2. 재현율(Recall)과 스팸 필터

재현율전체 스팸 메일 중에서 스팸 필터가 얼마나 많이 찾아냈는지를 보여줍니다. 예를 들어, 실제로 받은 스팸 메일이 100개인데, 그 중 80개를 스팸으로 잘 잡아냈다면, 재현율은 80%가 됩니다.

 

재현율이 중요한 이유는, 스팸 메일을 놓치지 않고 최대한 잘 찾아내는 것이 중요하기 때문입니다. 재현율이 낮으면 실제로 스팸 메일이 많이 들어와도 필터가 이를 제대로 걸러내지 못하게 됩니다. 예를 들어, 피싱 이메일이 스팸 필터에 의해 걸러지지 않고 중요한 메일함에 들어오면 큰 위험을 초래할 수 있습니다. 재현율이 높다는 것은 많은 스팸 메일을 잡아내는 것을 의미합니다.

 

3. F1 점수와 스팸 필터

F1 점수정밀도재현율 간의 균형을 평가하는 지표입니다. 다시 말해, 스팸 필터가 정확하게 스팸을 걸러내면서도 최대한 놓치지 않고 스팸을 잘 잡아내고 있는지를 종합적으로 평가합니다. 정밀도만 높고 재현율이 낮거나, 그 반대일 때는 스팸 필터가 제대로 작동하지 않는다는 뜻이기 때문에, F1 점수가 높아야 정확성과 포괄성 사이의 균형을 잘 잡고 있다는 것을 의미합니다.

 

예를 들어, 만약 정밀도는 90%인데 재현율이 50%라면, 스팸 필터는 스팸을 정확히 찾아내는 경우가 많지만 많은 스팸을 놓치고 있다는 뜻입니다. 반대로 재현율이 90%인데 정밀도가 50%라면, 많은 스팸을 잡아내지만 많은 정상 메일도 스팸으로 잘못 분류된다는 의미입니다. F1 점수는 이런 상황에서 정밀도와 재현율 모두를 고려해 종합적인 성능을 평가할 수 있습니다.

 

실생활에서의 적용

이메일 스팸 필터는 정밀도, 재현율, F1 점수를 잘 활용해 메일을 분류합니다. 우리가 매일 사용하는 이메일에서 스팸 메일을 걸러내는 것은 아주 중요한 문제입니다. 정밀도가 너무 낮으면 중요한 메일이 스팸으로 분류되어 놓칠 수 있고, 재현율이 낮으면 스팸 메일이 제대로 걸러지지 않아 불편하거나 위험한 메일을 받을 수 있습니다. F1 점수는 이 두 가지를 모두 고려하여 스팸 필터의 종합적인 성능을 평가하고 개선할 수 있도록 돕습니다.

 

 

머신러닝 모델의 성능을 평가할 때, 단순히 정확도만 보는 것은 때로는 불완전할 수 있습니다. 특히, 데이터가 불균형하거나, 참과 거짓 간의 결과를 구분하는 것이 중요한 상황에서는 정밀도, 재현율, F1 점수와 같은 다양한 지표를 함께 고려해야 합니다. 각각의 지표는 다른 상황에서 중요해질 수 있으며, 문제의 특성과 목표에 맞는 지표를 선택하는 것이 중요합니다.