통계학을 공부할 때 가장 혼동하기 쉬운 개념 중 하나가 바로 확률(Probability)과 우도(Likelihood)입니다. 두 용어는 일상적으로 비슷하게 사용되지만, 통계적 추론의 세계에서는 근본적으로 다른 관점을 가집니다.
예시를 통한 개념 비교:
- 확률 (모수로부터 관찰값 추정):
- 상황: 불투명한 주머니 속에 노란공 6개, 파란공 4개가 들어 있다는 사실을 알고 있다.
- 질문: 한 개의 공을 꺼낼 때 노란공일 가능성은?
- 우도 (관찰값으로부터 모수 추정):
- 상황: 불투명한 주머니 속에 노란공과 파란공이 함께 들어 있다는 사실을 알고는 있지만 몇 개씩인지는 모른다.
- 질문: 한 개의 공을 꺼냈다가 다시 집어 넣는 동작을 10번 반복했더니 노란공이 4번 나왔다. 그렇다면 주머니 속 노란공과 파란공의 비율이 4:6일 가능성은, 또는 5:5일 가능성은?
1. 확률 (Probability)
"특정 모델(확률 분포나 모수)이 주어졌을 때, 특정 데이터가 관측될 가능성"을 의미합니다.
여기서 핵심은 모델이 이미 정해져 있고(고정), 그 모델로부터 어떤 데이터가 나올지를 예측하는 것입니다.
- 관점: 연역적 (Deductive)
- 고정된 값: 모델의 모수(parameter) (예: 동전이 앞면이 나올 확률 p=0.5)
- 알고 싶은 값(변수): 데이터(결과) (예: 동전을 10번 던졌을 때 앞면이 7번 나올 결과)
- 질문: "이 공정한 동전(p=0.5)을 10번 던졌을 때, 앞면이 7번 나올 확률은 얼마인가?"
- 수식 표현: P(데이터 | 모수) -> P(앞면=7 | p=0.5)
- 특징: 모든 가능한 결과에 대한 확률의 총합은 항상 1입니다.
예시:
주머니에 파란 공 8개와 빨간 공 2개가 들어있는 모델이 있습니다. 이 주머니에서 공을 하나 뽑을 때, 그 공이 빨간 공일 확률은 2/10 = 0.2 입니다. 모델이 고정되어 있고, 결과를 예측합니다.
2. 우도 (Likelihood)
"특정 데이터가 관측되었을 때, 어떤 모델(확률 분포나 모수)이 이 데이터를 가장 잘 설명하는가"에 대한 정도를 나타냅니다.여기서 핵심은 데이터가 이미 주어져 있고(고정), 이 데이터를 가장 그럴싸하게 설명하는 모델이 무엇인지를 추론하는 것입니다.
- 관점: 귀납적 (Inductive)
- 고정된 값: 데이터(결과) (예: 동전을 10번 던지니 앞면이 7번 나왔다)
- 알고 싶은 값(변수): 모델의 모수(parameter) (예: 이 동전의 앞면이 나올 확률 p는 얼마일까?)
- 질문: "동전을 10번 던져 앞면이 7번 나왔다는 결과가 있을 때, 이 동전이 공정할(p=0.5) 우도는 얼마인가? 혹은 p=0.7일 우도는 얼마인가?"
- 수식 표현: L(모수 | 데이터) -> L(p | 앞면=7)
- 특징:
- 우도는 확률이 아닙니다. 따라서 모든 가능한 모수에 대한 우도의 총합이 1이 될 필요가 없습니다.
- 우리는 p=0.5, p=0.6, p=0.7 등 가능한 여러 모수 값(가설)들 중에서, 주어진 데이터를 가장 잘 설명하는 값, 즉 우도를 최대로 만드는 값을 찾고 싶어 합니다. 수학적으로 계산 값은 L(모수|데이터) = P(데이터|모수)로 동일하지만, 해석은 완전히 다릅니다. 확률 P(데이터|모수)는 모수가 고정된 상태에서 데이터가 변하는 함수인 반면, 우도 L(모수|데이터)는 데이터가 고정된 상태에서 모수가 변하는 함수입니다. 즉, 어떤 모수가 이 데이터를 만들어냈을 '가능성' 또는 '그럴듯함'의 정도로 해석해야 합니다.
예시:
어떤 주머니에서 공을 10번 뽑았더니 파란 공 8개, 빨간 공 2개가 나왔습니다 (데이터 고정). 이 결과를 가장 잘 설명하는 모델을 찾는다고 해봅시다. '공의 실제 비율이 5:5'라는 가설보다 '8:2'라는 가설이 이 관측 결과를 만들어낼 가능성이 훨씬 높습니다. 따라서 우리는 '8:2' 가설의 우도가 더 높다고 말합니다.
3. 한눈에 보는 확률과 우도의 비교
- 확률
- 관점: 모델이 주어졌을 때, 데이터 예측
- 고정값(Fixed): 모수 (θ)
- 변수(Variable): 데이터 (D)
- 핵심 질문: "이 모델에서 이 데이터가 나올 가능성은?"
- 수식: P(D|θ)
- 값의 의미: 모든 결과에 대한 확률의 합은 1
- 우도
- 관점: 데이터가 주어졌을 때, 모델 추정
- 고정값(Fixed): 데이터 (D)
- 변수(Variable): 모수 (θ)
- 핵심 질문: "이 데이터는 어떤 모델에서 나왔을 가능성이 가장 높은가?"
- 수식: P(θ|D)
- 값의 의미: 상대적인 그럴듯함. 합이 1이 아님.
4. 왜 이 구분이 중요한가? - 최대우도추정법 (MLE)
우도라는 개념은 현대 통계학의 핵심인 최대우도추정법 (Maximum Likelihood Estimation, MLE)의 기반이 됩니다.
MLE란, 우리가 관측한 데이터가 있을 때, 이 데이터가 나타날 확률을 가장 크게 만드는 모수(parameter)를 찾는 방법입니다. 즉, 우도 함수(Likelihood Function)를 최댓값으로 만드는 모수를 추정치로 삼는 것입니다.
앞선 동전 던지기 예시에서, 10번 중 7번 앞면이 나왔다면, p 값의 변화에 따른 우도 함수의 값을 그래프로 그릴 수 있습니다. 이 그래프는 p=0.7일 때 봉우리가 가장 높은 종 모양의 곡선이 되며, 이 지점이 우도를 최대로 만드는 모수입니다. 따라서 MLE 방법은 이 동전의 앞면이 나올 확률 p를 0.7이라고 추정하게 됩니다.
결론
간단히 비유하자면,
- 확률: "일기 예보 모델이 주어졌을 때, 내일 비가 올 가능성"을 계산하는 것.
- 우도: "밖에 비가 오고 있는 것을 보았을 때, 여러 일기 예보 모델 중 어떤 모델이 가장 정확했는지"를 평가하는 것.
이처럼 확률은 미래의 불확실한 사건을 예측하는 데, 우도는 이미 발생한 사건을 바탕으로 최적의 설명을 찾아내는 데 사용되는 핵심적인 통계 도구입니다.
댓글
댓글 쓰기