유방암 양성예측도와 베이지안 추론

이 글에서는 유방암 진단 결과가 양성으로 나올 경우 실제로 유방암에 걸렸을 확률을 계산하는 식을 유도합니다. 또한 진단을 전후하여 달라지는 확률에 대하여 베이지안 추론 방식으로 설명해 보고자 합니다.

문제 정의

관심 대상군에 속하는 여성의 1%가 유방암에 걸린다고 알려져 있습니다. 병원을 방문한 어떤 여성의 진단 결과가 양성으로 나왔고 진단에 사용한 장비의 민감도는 90 %, 특이도는 85% 입니다. 그렇다면 그 여성이 실제로 유방암에 걸렸을 확률은 얼마입니까?

민감도와 특이도에 대해서는 다음 장에서 설명합니다.

진단 장비의 성능 평가

혼동행렬(Confusion Matrix)

진단 장비의 성능을 파악하기 위하여 질병의 유무를 알고 있는 사람들을 대상으로 진단을 수행하고 아래와 같이 혼동행렬을 작성합니다.

진단	질병(숫자)	정상(숫자)
양성(숫자)	A	B
음성(숫자)	C	D

A: 진양성(True Positive) 수
B: 위양성(False Positive) 수
C: 위음성(False Negative) 수
D: 진음성(True Negative) 수

민감도(Sensitivity)

질병이 있는 사람을 양성으로 판정하는 정도를 민감도(sensitivity)라고 하며 아래와 같이 구합니다.

민감도 = $\frac{ A } { A+C }$

특이도(Specificity)

질병이 없는 사람을 음성으로 판정하는 정도를 특이도(specificity)라고 하며 아래와 같이 구합니다.

특이도 = $\frac{ D }{ B+D }$

진단 성능 지표 AUC ROC

진단 장비의 양성, 음성 판단 기준을 변경하면 혼동행렬에서 A, B, C, D의 값이 달라지고 이것은 민감도와 특이도가 변한다는 것을 의미합니다. 그래서 양성, 음성 판단 기준을 조정해 가면서 아래와 같은 민감도, 특이도 그래프를 그릴 수 있습니다.

TP 비율(True Positive Rate) = 민감도
FP 비율(False Positive Rate) = 1 - 특이도

그래프 곡선 아래의 면적을 구함으로써 성능 평가 지표인 AUC(Area Under the Curve) ROC(Receiver Operating Characteristic)를 구합니다. 아래 그림의 그래프를 살펴 보면 AUC가 클수록 낮은 FP 비율을 유지하면서도 더 높은 TP 비율을 보여줍니다. 즉 서로 다른 두 장비의 진단 성능을 비교할 때 AUC가 큰 쪽의 진단 성능이 더 좋다고 말할 수 있습니다.

질병에 걸렸을 확률

유병율(Prevalence)

대상 집단 중에서 질병을 가지고 있는 사람의 비율을 나타내는 유병율은 아래와 같이 구합니다.

유병율 = $\frac{A+C}{A+B+C+D}$

양성예측도(Positive Predictive Value)

진단 결과가 양성으로 나왔을 때 실제로 질병에 걸렸을 확률을 나타내는 양성예측도는 아래와 같이 구합니다.

양성예측도 = $\frac{ A }{ A + B }$

장비의 성능 평가 단계 이후에는 민감도, 특이도, 그리고 유병율을 사용하여 양성예측도를 계산할 수 있습니다.

조사 대상군 크기( $N_{sample}$ )
질병 보유군 크기( $N_{disease}$ )= $N_{sample} \times prevalence$
정상군 크기( $N_{non\textnormal{-}disease}$ ) = $N_{sample} \times (1-prevalence)$
진양성 수( $A$ ) = $N_{disease} \times sensitivity$
위양성 수( $B$ ) = $N_{non\textnormal{-}disease} \times (1-specificity)$

위의 표현을 사용하여 양성예측도 수식을 전개하면 아래와 같이 민감도, 특이도, 그리고 유병율로 표현한 계산식을 얻게 됩니다.

양성예측도 = $\frac{ A }{ A + B } = \frac{sensitivity \times prevalence}{sensitivity \times prevalence + (1-specificity) \times (1-prevalence)}$

양성예측도 계산

문제 정의 단원에서 제시한 값들을 사용하여 양성예측도 값을 구합니다.

$prevalence=0.01$
$sensitivity=0.9$
$specificity=0.85$

위의 값들을 양성예측도 계산식에 대입합니다.

양성예측도= $\frac { 0.9\times 0.01 }{ 0.9\times 0.01 + (1-0.85)\times (1-0.01) }\cong 0.057$

위의 계산 결과는 진단 장비에서 양성이 나왔을 때 실제로 유방암에 걸렸을 확률은 5.7%임을 말해 줍니다.

베이지안 추론

양성예측도를 민감도, 특이도, 그리고 유병율로 표현하는 식을 베이즈 정리를 사용하여 유도할 수 있습니다. 이를 토대로 질병에 걸렸을 확률을 계산하는 과정을 베이지안 추론으로 설명하는 것이 가능합니다.

베이즈 정리

베이즈 정리는 아래의 식으로 표현됩니다.

$P(C|E) = \frac{P(E|C)\times P(C)}{P(E)}$

위의 식을 양성예측도에 적용하기 위하여 C와 E를 다음과 같이 정의합니다.

C: 질병 보유 여부(disease, non-disease)
E: 진단 결과 (positive, negative)

진단 결과가 양성일 경우 질병에 걸렸을 확률을 나타내는 양성예측도를 아래와 같이 조건부확률로 표현할 수 있습니다.

양성예측도 = $P(disease|positive)$

이를 베이즈 정리에 따라 표현하면 아래와 같습니다.

$P(disease|positive)=\frac { P(positive|disease)\times P(disease) }{ P(positive) }$

양성예측도 계산식 유도

베이즈 정리에 따라 표현한 양성예측도 계산식을 민감도, 특이도, 그리고 유병율로 표현한 식으로 유도합니다.

$P(disease) = prevalence$
$P(non\textnormal{-}disease) = 1 - prevalence$
$P(positive|disease) = sensitivity$
$P(positive|non\textnormal{-}disease) = 1 - specificity$

양성으로 판정할 확률인 $P(positive)$ 를 아래와 같이 표현할 수 있습니다.

$P(positive)=P(positive|disease)\times P(disease)+P(positive|non\textnormal{-}disease)\times P(non\textnormal{-}disease)$

이를 민감도, 특이도, 그리고 유병율로 나타내면 다음과 같습니다.

$P(positive) = sensitivity\times prevalence + (1-specificity)\times (1-prevalence)$

이로부터 민감도, 특이도, 그리고 유병율로 표현한 양성예측도 계산식을 얻을 수 있습니다.

$P(disease|positive)=\frac { sensitivity\times prevalence }{ sensitivity\times prevalence + (1-specificity)\times (1-prevalence)}$

베이지안 추론 방식의 설명

문제 정의 단원에서 제시한 내용과 양성예측도 계산 단원에서 얻은 값을 사용하여 베이지안 추론 방식으로 설명할 수 있습니다.

기존 믿음(Prior)
- 진단을 하기 전 상태에서는 유병율 1%를 참고하여 어떤 여성이 유방암에 걸렸을 확률을 1%로 간주합니다.
새로운 증거(New Evidence)
- 민감도가 90%, 그리고 특이도가 85%인 진단 장비로 시험한 결과는 양성이었습니다.
믿음 수정(Posterior)
- 기존의 믿음, 그리고 새로운 증거를 고려하여 해당 여성이 유방암에 걸렸을 확률을 5.7%로 수정합니다.

Written with StackEdit.

천천히, 제대로

이 블로그 검색