기본 콘텐츠로 건너뛰기

새로운 측정기기의 유효성 판단 방법

새로운 측정기기의 유효성 판단 방법

이 글에서는 새로운 측정기기의 측정값과 표준 측정기기의 측정값간의 상관계수로 새로운 측정기기의 유효성을 판단할 수 있음을 베이지안 추론 방식으로 보여줍니다.

상식적인 결론을 수학적으로 뒷받침하기 위해 작성하는 글입니다. 본문에서 요구하는 수학 지식은 조건부확률베이즈 정리입니다.

이 글에 대한 구체적인 구현 사례는 아래 노트북에서 확인하실 수 있습니다.

문제 정의

현재 표준으로 사용하고 있는 기기(이하 표준기기)는 정밀도가 높기는 하지만 부피가 크고 고가이기 때문에 자주 이용하기는 어렵습니다. 이번에 가나다 업체에서 새롭게 개발한 기기(이하 신규기기)는 소형인데다가 가격도 저렴하여 가정에 구비해 놓고 사용할 수 있을 정도입니다.

그런데 신규기기가 측정하는 값과 표준기기가 측정하는 값의 종류가 서로 다릅니다. 이러한 경우에는 신규기기의 측정값을 토대로 표준기기의 측정값을 추정하는 모델을 개발하고 이의 유효성을 검증해야 합니다.

  • 표준기기 예시 - 컴퓨터단층촬영(CT)으로 복부 지방량 측정

  • 신규기기 예시 - 줄자로 허리 둘레 길이 측정

데이터 세트

신규기기의 유효성을 검증하기 위하여 조사대상군을 정하고 임상시험을 진행하여 아래와 같은 데이터 세트를 확보하였습니다.

# 신규기기 측정값 표준기기 측정값
11 m1m_1 a1a_1
22 m2m_2 a2a_2
33 m3m_3 a3a_3
NN mnm_n ana_n
  • 표준기기의 측정값을 실제값으로 간주합니다.

베이지안 추론

베이즈 정리에 기반하여 다음과 같이 세 단계를 거쳐 추론하는 것을 베이지안 추론이라고 합니다.

  1. 기존의 믿음 (prior belief)
  2. 새로운 증거 (new evidence)
  3. 믿음의 수정 (update belief -> posterior belief)

베이즈 정리

베이즈 정리는 아래의 식으로 표현됩니다.

  • P(HE)=P(EH)×P(H)P(E)P(H|E) = \frac{P(E|H)\times P(H)}{P(E)}

위 식에서 각 항목의 의미는 다음과 같습니다.

  • EE : 사건 (event)
  • HH : 추론하고자 하는 값 (hypothesis)
  • P(H)P(H) : E가 발생하기 전의 H에 대한 확률분포 (prior probability distribution)
  • P(EH)P(E|H) : H를 알고 있을 때 E의 발생 가능도 (likelihood)
  • P(E)P(E) : H에 관계없이 E의 발생 가능도 (marginal likelihood)
  • P(HE)P(H|E) : E가 발생한 후의 H에 대한 확률분포 (posterior probability distribution)

위의 식을 신규기기의 유효성 판단 문제에 적용하기 위하여 E와 H를 다음과 같이 정의합니다.

  • E: 신규기기의 측정값 (vmeasuredv_{measured})
  • H: 신규기기의 측정값으로부터 추정하는 실제값 (vactualv_{actual})

측정값이 vmeasuredv_{measured}일때 추정하는 실제값 vactualv_{actual}의 확률분포를 아래와 같이 조건부확률로 표현할 수 있습니다.

  • P(vactualvmeasured)P(v_{actual}|v_{measured})

이를 베이즈 정리에 따라 표현하면 아래와 같습니다.

  • P(vactualvmeasured)=P(vmeasuredvactual)×P(vactual)P(vmeasured)P(v_{actual}|v_{measured})=\frac { P(v_{measured}|v_{actual})\times P(v_{actual}) }{ P(v_{measured}) }

위 식의 각 항목에 대한 의미는 다음과 같습니다.

  • P(vactual)P(v_{actual}) : 측정값을 알기 전의 실제값 vactualv_{actual}에 대한 확률분포
  • P(vmeasuredvactual)P(v_{measured}|v_{actual}) : 실제값이 vactualv_{actual}일때 측정값 vmeasuredv_{measured}을 얻을 가능도
  • P(vmeasured)P(v_{measured}) : 실제값이 무엇이냐에 관계없이 측정값 vmeasuredv_{measured}을 얻을 가능도
  • P(vactualvmeasured)P(v_{actual}|v_{measured}) : 측정값이 vmeasuredv_{measured}일때 추정하는 실제값 vactualv_{actual}에 대한 확률분포

실제값 추정

임상시험을 통해서 수집한 데이터 세트로부터 아래의 항목들을 구합니다.

  • P(vactual)P(v_{actual}) : 표준기기 측정값에 대한 확률분포
  • P(vmeasuredvactual)P(v_{measured}|v_{actual}) : 표준기기 측정값이 vactualv_{actual}일때 신규기기 측정값 vmeasuredv_{measured}에 대한 확률분포
  • P(vmeasured)P(v_{measured}) : 신규기기 측정값에 대한 확률분포

측정값이 vmeasuredv_{measured}일때 vactualv_{actual} 전 구간에 대하여 사후 확률분포 P(vactualvmeasured)P(v_{actual}|v_{measured}) 값들을 구합니다.

  • P(vactual1vmeasured)=P(vmeasuredvactual1)×P(vactual1)P(vmeasured)P(v_{actual_1}|v_{measured})=\frac { P(v_{measured}|v_{actual_1})\times P(v_{actual_1}) }{ P(v_{measured}) }
  • P(vactual2vmeasured)=P(vmeasuredvactual2)×P(vactual2)P(vmeasured)P(v_{actual_2}|v_{measured})=\frac { P(v_{measured}|v_{actual_2})\times P(v_{actual_2}) }{ P(v_{measured}) }
  • ......
  • P(vactualkvmeasured)=P(vmeasuredvactualk)×P(vactualk)P(vmeasured)P(v_{actual_k}|v_{measured})=\frac { P(v_{measured}|v_{actual_k})\times P(v_{actual_k}) }{ P(v_{measured}) }
  • ......
  • P(vactualm1vmeasured)=P(vmeasuredvactualm1)×P(vactualm1)P(vmeasured)P(v_{actual_{m-1}}|v_{measured})=\frac { P(v_{measured}|v_{actual_{m-1}})\times P(v_{actual_{m-1}}) }{ P(v_{measured}) }
  • P(vactualmvmeasured)=P(vmeasuredvactualm)×P(vactualm)P(vmeasured)P(v_{actual_m}|v_{measured})=\frac { P(v_{measured}|v_{actual_m})\times P(v_{actual_m}) }{ P(v_{measured}) }

위의 사후확률 값들 중에서 vactualkv_{actual_k}일 때 최대가 된다면 실제값은 vactualkv_{actual_k}일 가능성이 가장 크다고 추정합니다. 이것을 Maximum A Posteriori (MAP) 추정이라고 부릅니다.

  • P(vactual)P(v_{actual})은 조사대상군에 따라 달라질 수 있습니다.
  • P(vmeasured)P(v_{measured}) 값은 위의 값들을 구하는 과정에서 변하지 않기 때문에 무시해도 됩니다.
  • P(vmeasuredvactual)P(v_{measured}|v_{actual}) 항목은 표준기기 측정값과 신규기기 측정값과의 관계를 나타냅니다.

신규기기의 유효성 판단

실제값과 측정값과의 관계를 나타내는 아래 항목을 통해서 신규기기의 유효성 판단 방법을 도출할 수 있습니다.

  • P(vmeasuredvactual)P(v_{measured}|v_{actual})

유효성 판단 과정은 다음과 같습니다.

1. 데이터 분석

  1. 데이터 세트의 (vactualv_{actual}, vmeasuredv_{measured})로 산포도를 그립니다.
  2. 두 값의 상관관계를 표현할 수 있는 모델(예를 들어 선형 회귀 모델)을 정의합니다.
  3. vactualv_{actual}vmeasuredv_{measured}의 상관계수를 구합니다.

2. 유효성 판단

측정값으로부터 실제값을 추정함에 있어서 위에서 구한 상관계수의 크기는 다음과 같은 의미를 가집니다.

  • 낮은 상관계수: P(vmeasuredvactual)P(v_{measured}|v_{actual})P(vactualvmeasured)P(v_{actual}|v_{measured}) 계산에 미치는 영향이 작고 이는 측정값이 실제값에 대한 추정에 크게 기여하지 못한다는 것을 의미함
  • 높은 상관계수: P(vmeasuredvactual)P(v_{measured}|v_{actual})P(vactualvmeasured)P(v_{actual}|v_{measured}) 계산에 미치는 영향이 크고 이는 측정값이 실제값의 추정에 크게 기여하다는 것을 의미함

따라서 신규기기의 유효성을 아래와 같이 판단할 수 있습니다.

  • 상관계수가 작다 ==> 신규기기의 유효성이 낮다
  • 상관계수가 크다 ==> 신규기기의 유효성이 높다

Written with StackEdit.

댓글

이 블로그의 인기 게시물

Windows에 AMP와 MediaWiki 설치하기

1. 들어가기     AMP는 Apache + MySQL +  Perl/PHP/Python에 대한 줄임말이다. LAMP (Linux + AMP)라고 하여 Linux에 설치하는 것으로 많이 소개하고 있지만 Windows에서도 간편하게 설치하여 사용할 수 있다.       이 글은 Windows 7에 Apache + MySQL + PHP를 설치하고 그 기반에서 MediaWiki를 설치하여 실행하는 과정을 간략히 정리한 것이다. 2. MySQL     * 버전 5.6.12     1) 다운로드         http://dev.mysql.com/downloads/installer/         MySQL Installer 5.6.12         Windows (x86, 32-bit), MSI Installer         (mysql-installer-web-community-5.6.12.0.msi)     2) 다운로드한 MSI 파일을 더블클릭하여 설치를 진행한다.           설치 위치:                   C:\Program Files\MySQL               선택 사항:                       Install MySQL Products             Choosing a Se...

MATLAB Rutime 설치하기

MATLAB Rutime 설치하기 미설치시 에러 MATLAB Runtime 을 설치하지 않은 환경에서 MATLAB 응용프로그램이나 공유 라이브러리를 사용하려고 하면 아래와 같은 에러 메시지가 표시될 것입니다. 처리되지 않은 예외: System.TypeInitializationException: 'MathWorks.MATLAB.NET.Utility.MWMCR'의 형식 이니셜라이저에서 예 외를 Throw했습니다. ---> System.TypeInitializationException: 'MathWorks.MATLAB.NET.Arrays.MWArray'의 형식 이니셜라이저에서 예외를 Throw했습니다. ---> System.DllNotFoundException: DLL 'mclmcrrt9_3.dll'을(를) 로드할 수 없습니다. 지정된 모듈을 찾을 수 없습니다. (예외가 발생한 HRESULT: 0x8007007E) 위치: MathWorks.MATLAB.NET.Arrays.MWArray.mclmcrInitialize2(Int32 primaryMode) 위치: MathWorks.MATLAB.NET.Arrays.MWArray..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR.processExiting(Exception exception) 해결 방법 이 문제를 해결하기 위해서는 MATLAB Runtime 을 설치해야 합니다. 여러 가지 방법으로 MATLAB Runtime 을 설치할 수 있습니다. MATLAB 이 설치되어 있는 경우에는 MATLAB 설치 폴더 아래에 있는 MATLAB Runtime 설치 프로그램을 실행하여 설치합니다. ...

Wi-Fi 카드 2.4GHz로만 동작시키기

Wi-Fi 카드 2.4GHz로만 동작시키기 별도의 Wi-Fi AP 장치를 두지 않고 아래와 같은 기기들로만 Wi-Fi 네트워크를 구성하고자 할 때 주변 기기들이 2.4GHz만 지원하기 때문에 PC에서 실행하는 AP가 항상 2.4GHz를 사용하도록 Wi-Fi 카드를 설정해 주어야 합니다. 기기 Wi-Fi 카드 주파수 대역 Wi-Fi Direct 지원 PC (Windows 10) 2.4GHz, 5GHz O 주변 기기들 2.4GHz X Wi-Fi 카드별 주파수 대역 선택 방법 Windows 시작 메뉴에서 설정 을 클릭합니다. Windows 설정 화면에서 네트워크 및 인터넷 을 클릭합니다. 설정 화면의 왼쪽 메뉴바에서 Wi-Fi 를 클릭합니다. 화면 오른쪽 관련 설정 구역에 있는 어댑터 옵션 변경 을 클릭합니다. 설정을 바꾸고자 하는 Wi-Fi 카드 항목을 선택하고 마우스 오른쪽을 누른 다음 속성 메뉴를 클릭합니다. 대화상자의 네트워킹 탭 화면에 있는 구성 버튼을 클릭합니다. 장치 속성 대화상자의 고급 탭 화면으로 이동합니다. 제시되는 속성 항목들은 제품별로 다르며 자세한 사항은 아래의 제품별 설명을 참고하여 값을 설정하시기 바랍니다. Intel Dual Band Wireless-AC 7265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 선택합니다. Wireless Mode 1. 802.11a => 5GHz 4. 802.11b/g => 2.4GHz (이 항목 선택) 6. 802.11a/b/g => 2.4GHz, 5GHz Intel Dual Band Wireless-AC 8265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 ...