진단 성능 평가 지표

혼동행렬(Confusion Matrix)

진단 장비의 성능을 파악하기 위하여 질병의 유무를 알고 있는 사람들을 대상으로 진단을 수행하고 아래와 같이 혼동행렬을 작성합니다.

A: 진양성(True Positive) 수
B: 위양성(False Positive) 수
C: 위음성(False Negative) 수
D: 진음성(True Negative) 수

성능 평가

민감도(Sensitivity)

질병이 있는 사람을 양성으로 판정하는 정도를 민감도(sensitivity)라고 하며 아래와 같이 구합니다.

민감도 = $\frac{ A } { A+C }$

특이도(Specificity)

질병이 없는 사람을 음성으로 판정하는 정도를 특이도(specificity)라고 하며 아래와 같이 구합니다.

특이도 = $\frac{ D }{ B+D }$

재현율(Recall)

민감도와 같습니다.

재현율 = $\frac{ A }{ A+C }$

정밀도(Precision)

정밀도 = $\frac{ A }{ A+B }$

정확도(Accuracy)

정확도 = $\frac{ A+D }{ A+B+C+D }$

성능 지표

AUC ROC

양성, 음성 판단 기준을 변경하면 혼동행렬에서 A, B, C, D의 값이 달라지고 이것은 민감도와 특이도가 변한다는 것을 의미합니다. 그래서 양성, 음성 판단 기준을 조정해 가면서 아래와 같은 민감도, 특이도 그래프를 그릴 수 있습니다.

TP 비율(True Positive Rate) = 민감도
FP 비율(False Positive Rate) = 1 - 특이도

그래프 곡선 아래의 면적을 구함으로써 성능 평가 지표인 AUC(Area Under the Curve) ROC(Receiver Operating Characteristic)를 구합니다. 아래 그림의 그래프를 살펴 보면 AUC가 클수록 낮은 FP 비율을 유지하면서도 더 높은 TP 비율을 보여줍니다. 즉 서로 다른 두 장비의 진단 성능을 비교할 때 AUC가 큰 쪽의 진단 성능이 더 좋다고 말할 수 있습니다.

F1 Score

양성, 음성 판단 기준을 변경하면 혼동행렬에서 A, B, C, D의 값이 달라지고 이것은 Recall과 Precision이 변한다는 것을 의미합니다. 위양성과 위음성을 모두 고려하여 성능을 평가할 때 아래와 같이 계산한 F1 Score를 사용할 수 있습니다.

F1 Score = $2 \times \frac{ Recall \times Precision }{ Recall+Precision }$

이것은 재현율과 정밀도의 조화평균과 같습니다.

Written with StackEdit.

천천히, 제대로

이 블로그 검색