새로운 측정기기의 유효성 판단 방법

이 글에서는 새로운 측정기기의 측정값과 표준 측정기기의 측정값간의 상관계수로 새로운 측정기기의 유효성을 판단할 수 있음을 베이지안 추론 방식으로 보여줍니다.

상식적인 결론을 수학적으로 뒷받침하기 위해 작성하는 글입니다. 본문에서 요구하는 수학 지식은 조건부확률과 베이즈 정리입니다.

이 글에 대한 구체적인 구현 사례는 아래 노트북에서 확인하실 수 있습니다.

새로운 측정기기의 유효성 판단 방법 - 히스토그램 모델

문제 정의

현재 표준으로 사용하고 있는 기기(이하 표준기기)는 정밀도가 높기는 하지만 부피가 크고 고가이기 때문에 자주 이용하기는 어렵습니다. 이번에 가나다 업체에서 새롭게 개발한 기기(이하 신규기기)는 소형인데다가 가격도 저렴하여 가정에 구비해 놓고 사용할 수 있을 정도입니다.

그런데 신규기기가 측정하는 값과 표준기기가 측정하는 값의 종류가 서로 다릅니다. 이러한 경우에는 신규기기의 측정값을 토대로 표준기기의 측정값을 추정하는 모델을 개발하고 이의 유효성을 검증해야 합니다.

표준기기 예시 - 컴퓨터단층촬영(CT)으로 복부 지방량 측정
신규기기 예시 - 줄자로 허리 둘레 길이 측정

데이터 세트

신규기기의 유효성을 검증하기 위하여 조사대상군을 정하고 임상시험을 진행하여 아래와 같은 데이터 세트를 확보하였습니다.

#	신규기기 측정값	표준기기 측정값
$1$	$m_1$	$a_1$
$2$	$m_2$	$a_2$
$3$	$m_3$	$a_3$
…	…	…
$N$	$m_n$	$a_n$

표준기기의 측정값을 실제값으로 간주합니다.

베이지안 추론

베이즈 정리에 기반하여 다음과 같이 세 단계를 거쳐 추론하는 것을 베이지안 추론이라고 합니다.

기존의 믿음 (prior belief)
새로운 증거 (new evidence)
믿음의 수정 (update belief -> posterior belief)

베이즈 정리

베이즈 정리는 아래의 식으로 표현됩니다.

$P(H|E) = \frac{P(E|H)\times P(H)}{P(E)}$

위 식에서 각 항목의 의미는 다음과 같습니다.

$E$ : 사건 (event)
$H$ : 추론하고자 하는 값 (hypothesis)
$P(H)$ : E가 발생하기 전의 H에 대한 확률분포 (prior probability distribution)
$P(E|H)$ : H를 알고 있을 때 E의 발생 가능도 (likelihood)
$P(E)$ : H에 관계없이 E의 발생 가능도 (marginal likelihood)
$P(H|E)$ : E가 발생한 후의 H에 대한 확률분포 (posterior probability distribution)

위의 식을 신규기기의 유효성 판단 문제에 적용하기 위하여 E와 H를 다음과 같이 정의합니다.

E: 신규기기의 측정값 ( $v_{measured}$ )
H: 신규기기의 측정값으로부터 추정하는 실제값 ( $v_{actual}$ )

측정값이 $v_{measured}$ 일때 추정하는 실제값 $v_{actual}$ 의 확률분포를 아래와 같이 조건부확률로 표현할 수 있습니다.

$P(v_{actual}|v_{measured})$

이를 베이즈 정리에 따라 표현하면 아래와 같습니다.

$P(v_{actual}|v_{measured})=\frac { P(v_{measured}|v_{actual})\times P(v_{actual}) }{ P(v_{measured}) }$

위 식의 각 항목에 대한 의미는 다음과 같습니다.

$P(v_{actual})$ : 측정값을 알기 전의 실제값 $v_{actual}$ 에 대한 확률분포
$P(v_{measured}|v_{actual})$ : 실제값이 $v_{actual}$ 일때 측정값 $v_{measured}$ 을 얻을 가능도
$P(v_{measured})$ : 실제값이 무엇이냐에 관계없이 측정값 $v_{measured}$ 을 얻을 가능도
$P(v_{actual}|v_{measured})$ : 측정값이 $v_{measured}$ 일때 추정하는 실제값 $v_{actual}$ 에 대한 확률분포

실제값 추정

임상시험을 통해서 수집한 데이터 세트로부터 아래의 항목들을 구합니다.

$P(v_{actual})$ : 표준기기 측정값에 대한 확률분포
$P(v_{measured}|v_{actual})$ : 표준기기 측정값이 $v_{actual}$ 일때 신규기기 측정값 $v_{measured}$ 에 대한 확률분포
$P(v_{measured})$ : 신규기기 측정값에 대한 확률분포

측정값이 $v_{measured}$ 일때 $v_{actual}$ 전 구간에 대하여 사후 확률분포 $P(v_{actual}|v_{measured})$ 값들을 구합니다.

$P(v_{actual_1}|v_{measured})=\frac { P(v_{measured}|v_{actual_1})\times P(v_{actual_1}) }{ P(v_{measured}) }$
$P(v_{actual_2}|v_{measured})=\frac { P(v_{measured}|v_{actual_2})\times P(v_{actual_2}) }{ P(v_{measured}) }$
$...$
$P(v_{actual_k}|v_{measured})=\frac { P(v_{measured}|v_{actual_k})\times P(v_{actual_k}) }{ P(v_{measured}) }$
$...$
$P(v_{actual_{m-1}}|v_{measured})=\frac { P(v_{measured}|v_{actual_{m-1}})\times P(v_{actual_{m-1}}) }{ P(v_{measured}) }$
$P(v_{actual_m}|v_{measured})=\frac { P(v_{measured}|v_{actual_m})\times P(v_{actual_m}) }{ P(v_{measured}) }$

위의 사후확률 값들 중에서 $v_{actual_k}$ 일 때 최대가 된다면 실제값은 $v_{actual_k}$ 일 가능성이 가장 크다고 추정합니다. 이것을 Maximum A Posteriori (MAP) 추정이라고 부릅니다.

$P(v_{actual})$ 은 조사대상군에 따라 달라질 수 있습니다.
$P(v_{measured})$ 값은 위의 값들을 구하는 과정에서 변하지 않기 때문에 무시해도 됩니다.
$P(v_{measured}|v_{actual})$ 항목은 표준기기 측정값과 신규기기 측정값과의 관계를 나타냅니다.

신규기기의 유효성 판단

실제값과 측정값과의 관계를 나타내는 아래 항목을 통해서 신규기기의 유효성 판단 방법을 도출할 수 있습니다.

$P(v_{measured}|v_{actual})$

유효성 판단 과정은 다음과 같습니다.

1. 데이터 분석

데이터 세트의 ( $v_{actual}$ , $v_{measured}$ )로 산포도를 그립니다.
두 값의 상관관계를 표현할 수 있는 모델(예를 들어 선형 회귀 모델)을 정의합니다.
$v_{actual}$ 과 $v_{measured}$ 의 상관계수를 구합니다.

2. 유효성 판단

측정값으로부터 실제값을 추정함에 있어서 위에서 구한 상관계수의 크기는 다음과 같은 의미를 가집니다.

낮은 상관계수: $P(v_{measured}|v_{actual})$ 이 $P(v_{actual}|v_{measured})$ 계산에 미치는 영향이 작고 이는 측정값이 실제값에 대한 추정에 크게 기여하지 못한다는 것을 의미함
높은 상관계수: $P(v_{measured}|v_{actual})$ 이 $P(v_{actual}|v_{measured})$ 계산에 미치는 영향이 크고 이는 측정값이 실제값의 추정에 크게 기여하다는 것을 의미함

따라서 신규기기의 유효성을 아래와 같이 판단할 수 있습니다.

상관계수가 작다 ==> 신규기기의 유효성이 낮다
상관계수가 크다 ==> 신규기기의 유효성이 높다

Written with StackEdit.

천천히, 제대로

이 블로그 검색