기본 콘텐츠로 건너뛰기

확률(Probability)과 우도(Likelihood): 명확한 개념 비교

통계학을 공부할 때 가장 혼동하기 쉬운 개념 중 하나가 바로 확률(Probability)과 우도(Likelihood)입니다. 두 용어는 일상적으로 비슷하게 사용되지만, 통계적 추론의 세계에서는 근본적으로 다른 관점을 가집니다.

예시를 통한 개념 비교:

  • 확률 (모수로부터 관찰값 추정):
    • 상황: 불투명한 주머니 속에 노란공 6개, 파란공 4개가 들어 있다는 사실을 알고 있다.
    • 질문: 한 개의 공을 꺼낼 때 노란공일 가능성은?
  • 우도 (관찰값으로부터 모수 추정):
    • 상황: 불투명한 주머니 속에 노란공과 파란공이 함께 들어 있다는 사실을 알고는 있지만 몇 개씩인지는 모른다.
    • 질문: 한 개의 공을 꺼냈다가 다시 집어 넣는 동작을 10번 반복했더니 노란공이 4번 나왔다. 그렇다면 주머니 속 노란공과 파란공의 비율이 4:6일 가능성은, 또는 5:5일 가능성은?

1. 확률 (Probability)

"특정 모델(확률 분포나 모수)이 주어졌을 때, 특정 데이터가 관측될 가능성"을 의미합니다.

여기서 핵심은 모델이 이미 정해져 있고(고정), 그 모델로부터 어떤 데이터가 나올지를 예측하는 것입니다.

  • 관점: 연역적 (Deductive)
  • 고정된 값: 모델의 모수(parameter) (예: 동전이 앞면이 나올 확률 p=0.5)
  • 알고 싶은 값(변수): 데이터(결과) (예: 동전을 10번 던졌을 때 앞면이 7번 나올 결과)
  • 질문: "이 공정한 동전(p=0.5)을 10번 던졌을 때, 앞면이 7번 나올 확률은 얼마인가?"
  • 수식 표현: P(데이터 | 모수) -> P(앞면=7 | p=0.5)
  • 특징: 모든 가능한 결과에 대한 확률의 총합은 항상 1입니다.

예시:

주머니에 파란 공 8개와 빨간 공 2개가 들어있는 모델이 있습니다. 이 주머니에서 공을 하나 뽑을 때, 그 공이 빨간 공일 확률은 2/10 = 0.2 입니다. 모델이 고정되어 있고, 결과를 예측합니다.

2. 우도 (Likelihood)

"특정 데이터가 관측되었을 때, 어떤 모델(확률 분포나 모수)이 이 데이터를 가장 잘 설명하는가"에 대한 정도를 나타냅니다.여기서 핵심은 데이터가 이미 주어져 있고(고정), 이 데이터를 가장 그럴싸하게 설명하는 모델이 무엇인지를 추론하는 것입니다.

  • 관점: 귀납적 (Inductive)
  • 고정된 값: 데이터(결과) (예: 동전을 10번 던지니 앞면이 7번 나왔다)
  • 알고 싶은 값(변수): 모델의 모수(parameter) (예: 이 동전의 앞면이 나올 확률 p는 얼마일까?)
  • 질문: "동전을 10번 던져 앞면이 7번 나왔다는 결과가 있을 때, 이 동전이 공정할(p=0.5) 우도는 얼마인가? 혹은 p=0.7일 우도는 얼마인가?"
  • 수식 표현: L(모수 | 데이터) -> L(p | 앞면=7)
  • 특징:
    • 우도는 확률이 아닙니다. 따라서 모든 가능한 모수에 대한 우도의 총합이 1이 될 필요가 없습니다.
    • 우리는 p=0.5, p=0.6, p=0.7 등 가능한 여러 모수 값(가설)들 중에서, 주어진 데이터를 가장 잘 설명하는 값, 즉 우도를 최대로 만드는 값을 찾고 싶어 합니다. 수학적으로 계산 값은 L(모수|데이터) = P(데이터|모수)로 동일하지만, 해석은 완전히 다릅니다. 확률 P(데이터|모수)는 모수가 고정된 상태에서 데이터가 변하는 함수인 반면, 우도 L(모수|데이터)는 데이터가 고정된 상태에서 모수가 변하는 함수입니다. 즉, 어떤 모수가 이 데이터를 만들어냈을 '가능성' 또는 '그럴듯함'의 정도로 해석해야 합니다.

예시:

어떤 주머니에서 공을 10번 뽑았더니 파란 공 8개, 빨간 공 2개가 나왔습니다 (데이터 고정). 이 결과를 가장 잘 설명하는 모델을 찾는다고 해봅시다. '공의 실제 비율이 5:5'라는 가설보다 '8:2'라는 가설이 이 관측 결과를 만들어낼 가능성이 훨씬 높습니다. 따라서 우리는 '8:2' 가설의 우도가 더 높다고 말합니다.

3. 한눈에 보는 확률과 우도의 비교

  • 확률
    • 관점: 모델이 주어졌을 때, 데이터 예측
    • 고정값(Fixed): 모수 (θ)
    • 변수(Variable): 데이터 (D)
    • 핵심 질문: "이 모델에서 이 데이터가 나올 가능성은?"
    • 수식: P(D|θ)
    • 값의 의미: 모든 결과에 대한 확률의 합은 1
  • 우도
    • 관점: 데이터가 주어졌을 때, 모델 추정
    • 고정값(Fixed): 데이터 (D)
    • 변수(Variable): 모수 (θ)
    • 핵심 질문: "이 데이터는 어떤 모델에서 나왔을 가능성이 가장 높은가?"
    • 수식: P(θ|D)
    • 값의 의미: 상대적인 그럴듯함. 합이 1이 아님.

4. 왜 이 구분이 중요한가? - 최대우도추정법 (MLE)

우도라는 개념은 현대 통계학의 핵심인 최대우도추정법 (Maximum Likelihood Estimation, MLE)의 기반이 됩니다.

MLE란, 우리가 관측한 데이터가 있을 때, 이 데이터가 나타날 확률을 가장 크게 만드는 모수(parameter)를 찾는 방법입니다. 즉, 우도 함수(Likelihood Function)를 최댓값으로 만드는 모수를 추정치로 삼는 것입니다.

앞선 동전 던지기 예시에서, 10번 중 7번 앞면이 나왔다면, p 값의 변화에 따른 우도 함수의 값을 그래프로 그릴 수 있습니다. 이 그래프는 p=0.7일 때 봉우리가 가장 높은 종 모양의 곡선이 되며, 이 지점이 우도를 최대로 만드는 모수입니다. 따라서 MLE 방법은 이 동전의 앞면이 나올 확률 p를 0.7이라고 추정하게 됩니다.

결론

간단히 비유하자면,

  • 확률: "일기 예보 모델이 주어졌을 때, 내일 비가 올 가능성"을 계산하는 것.
  • 우도: "밖에 비가 오고 있는 것을 보았을 때, 여러 일기 예보 모델 중 어떤 모델이 가장 정확했는지"를 평가하는 것.

이처럼 확률은 미래의 불확실한 사건을 예측하는 데, 우도는 이미 발생한 사건을 바탕으로 최적의 설명을 찾아내는 데 사용되는 핵심적인 통계 도구입니다.

댓글

이 블로그의 인기 게시물

Windows에 AMP와 MediaWiki 설치하기

1. 들어가기     AMP는 Apache + MySQL +  Perl/PHP/Python에 대한 줄임말이다. LAMP (Linux + AMP)라고 하여 Linux에 설치하는 것으로 많이 소개하고 있지만 Windows에서도 간편하게 설치하여 사용할 수 있다.       이 글은 Windows 7에 Apache + MySQL + PHP를 설치하고 그 기반에서 MediaWiki를 설치하여 실행하는 과정을 간략히 정리한 것이다. 2. MySQL     * 버전 5.6.12     1) 다운로드         http://dev.mysql.com/downloads/installer/         MySQL Installer 5.6.12         Windows (x86, 32-bit), MSI Installer         (mysql-installer-web-community-5.6.12.0.msi)     2) 다운로드한 MSI 파일을 더블클릭하여 설치를 진행한다.           설치 위치:                   C:\Program Files\MySQL               선택 사항:                       Install MySQL Products             Choosing a Se...

MATLAB Rutime 설치하기

MATLAB Rutime 설치하기 미설치시 에러 MATLAB Runtime 을 설치하지 않은 환경에서 MATLAB 응용프로그램이나 공유 라이브러리를 사용하려고 하면 아래와 같은 에러 메시지가 표시될 것입니다. 처리되지 않은 예외: System.TypeInitializationException: 'MathWorks.MATLAB.NET.Utility.MWMCR'의 형식 이니셜라이저에서 예 외를 Throw했습니다. ---> System.TypeInitializationException: 'MathWorks.MATLAB.NET.Arrays.MWArray'의 형식 이니셜라이저에서 예외를 Throw했습니다. ---> System.DllNotFoundException: DLL 'mclmcrrt9_3.dll'을(를) 로드할 수 없습니다. 지정된 모듈을 찾을 수 없습니다. (예외가 발생한 HRESULT: 0x8007007E) 위치: MathWorks.MATLAB.NET.Arrays.MWArray.mclmcrInitialize2(Int32 primaryMode) 위치: MathWorks.MATLAB.NET.Arrays.MWArray..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR..cctor() --- 내부 예외 스택 추적의 끝 --- 위치: MathWorks.MATLAB.NET.Utility.MWMCR.processExiting(Exception exception) 해결 방법 이 문제를 해결하기 위해서는 MATLAB Runtime 을 설치해야 합니다. 여러 가지 방법으로 MATLAB Runtime 을 설치할 수 있습니다. MATLAB 이 설치되어 있는 경우에는 MATLAB 설치 폴더 아래에 있는 MATLAB Runtime 설치 프로그램을 실행하여 설치합니다. ...

Wi-Fi 카드 2.4GHz로만 동작시키기

Wi-Fi 카드 2.4GHz로만 동작시키기 별도의 Wi-Fi AP 장치를 두지 않고 아래와 같은 기기들로만 Wi-Fi 네트워크를 구성하고자 할 때 주변 기기들이 2.4GHz만 지원하기 때문에 PC에서 실행하는 AP가 항상 2.4GHz를 사용하도록 Wi-Fi 카드를 설정해 주어야 합니다. 기기 Wi-Fi 카드 주파수 대역 Wi-Fi Direct 지원 PC (Windows 10) 2.4GHz, 5GHz O 주변 기기들 2.4GHz X Wi-Fi 카드별 주파수 대역 선택 방법 Windows 시작 메뉴에서 설정 을 클릭합니다. Windows 설정 화면에서 네트워크 및 인터넷 을 클릭합니다. 설정 화면의 왼쪽 메뉴바에서 Wi-Fi 를 클릭합니다. 화면 오른쪽 관련 설정 구역에 있는 어댑터 옵션 변경 을 클릭합니다. 설정을 바꾸고자 하는 Wi-Fi 카드 항목을 선택하고 마우스 오른쪽을 누른 다음 속성 메뉴를 클릭합니다. 대화상자의 네트워킹 탭 화면에 있는 구성 버튼을 클릭합니다. 장치 속성 대화상자의 고급 탭 화면으로 이동합니다. 제시되는 속성 항목들은 제품별로 다르며 자세한 사항은 아래의 제품별 설명을 참고하여 값을 설정하시기 바랍니다. Intel Dual Band Wireless-AC 7265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 선택합니다. Wireless Mode 1. 802.11a => 5GHz 4. 802.11b/g => 2.4GHz (이 항목 선택) 6. 802.11a/b/g => 2.4GHz, 5GHz Intel Dual Band Wireless-AC 8265 기술 사양 주파수 대역: 2.4GHz, 5GHz 무선 표준: 802.11ac 주파수 대역 선택 장치 속성 대화상자에서 아래와 같이 ...