Diki 검색중...
#개념
혼동 행렬(Confusion Matrix)은 분류(Classification) 모델의 성능을 평가하기 위해 사용되는 표이다. 실젯값(Actual Value)과 예측값(Predicted Value) 간의 관계를 보여주며, 모델이 얼마나 정확하게 분류했는지, 그리고 어떤 유형의 오류를 주로 발생하는지를 분석하는 데 유용하다. 혼동 행렬은 특히 불균형 데이터셋(Imbalanced Dataset)에서 모델의 성능을 더 정확하게 평가하는 데 도움이 된다. 예를 들어, 질병 진단 모델에서 양성(Positive) 환자 수가 음성(Negative) 환자 수보다 훨씬 적을 경우, 정확도(Accuracy)만으로는 모델의 실제 성능을 파악하기 어렵다. 이 때 혼동 행렬을 사용하면 모델이 양성 환자를 얼마나 잘 예측하는지, 그리고 음성 환자를 얼마나 잘 예측하는지를 구체적으로 확인할 수 있다. 혼동 행렬은 일반적으로 다음과 같은 네 가지 값을 포함한다.혼동 행렬의 네 가지 값
- 참 긍정(True Positive, TP) : 실젯값이 긍정(Positive)인 데이터를 모델이 긍정으로 정확하게 예측한 경우이다. 예를 들어, 실제 환자가 질병에 걸렸고 모델도 질병에 걸렸다고 예측한 경우다.
- 참 부정(True Negative, TN) : 실젯값이 부정(Negative)인 데이터를 모델이 부정으로 정확하게 예측한 경우다. 예를 들어, 실제 환자가 건강하고 모델도 건강하다고 예측한 경우다.
- 거짓 긍정(False Positive, FP) : 실젯값이 부정인 데이터를 모델이 긍정으로 잘못 예측한 경우이며, 1종 오류(Type-1 Error)라고도 한다. 예를 들어, 실제 건강한 환자를 모델이 질병에 걸렸다고 오진한 경우다.
- 거짓 부정(False Negative, FN) : 실젯값이 긍정인 데이터를 모델이 부정으로 잘못 예측한 경우이며, 2종 오류(Type-2 Error)라고도 한다. 예를 들어, 실제 질병에 걸린 환자를 모델이 건강하다고 오진한 경우다.
#관련 용어
전체 예측 중에서 올바르게 예측한 비율
모델이 긍정으로 예측한 것 중에서 실제로 긍정인 비율
실제 긍정 클래스 중에서 모델이 긍정으로 예측한 비율
정밀도와 재현율의 조화 평균
실제 부정 클래스 중에서 모델이 부정으로 예측한 비율
#직무 연관도
DA | Data Analyst밀접
모델의 성능을 분석하고, 비즈니스 의사 결정을 지원
DS | Data Scientist밀접
데이터를 기반으로 모델의 성능을 평가하고 개선하는 연구를 수행
DE | Data Engineer높음
모델을 실제 시스템에 통합하고, 모델의 성능을 모니터링하며 유지보수
#사용 사례
혼동 행렬은 다양한 산업 분야에서 분류 모델의 성능을 평가하고 개선하는 데 사용된다. 의료 분야에서는 질병 진단 모델의 정확도를 평가하고, 금융 분야에서는 신용 평가 모델의 위험 예측 능력을 평가하는 데 활용된다. 마케팅 분야에서는 고객 반응 예측 모델의 효과를 분석하고, 보안 분야에서는 침입 탐지 시스템의 성능을 평가하는 데 사용된다.
신용 카드 사기 탐지 모델에서 혼동 행렬을 사용하여 사기 거래를 정확하게 식별하고, 오탐(False Alarm)을 최소화
#참고 자료
#추천 포스트
© 2024 diki All rights reserved.