정보 이론은 불확실성을 측정하고 정보를 정량화하는 방법을 다루는 학문입니다. 클로드 섀넌이 제안한 두 가지 핵심 개념, '정보량'과 '엔트로피'에 대해 알아보겠습니다.
1. 개별 사건의 정보량 (Self-Information)
정보량은 어떤 특정 사건이 발생했을 때 우리가 얻게 되는 정보의 양을 의미합니다. 직관적으로 생각해보면, 발생할 확률이 매우 낮은 사건이 실제로 일어났을 때 우리는 더 많은 정보를 얻었다고 느낍니다. 예를 들어, "내일 동쪽에서 해가 뜬다"는 소식보다 "내일 혜성이 지구와 충돌한다"는 소식이 훨씬 더 놀랍고 많은 정보를 담고 있는 것처럼 말이죠.
이러한 직관을 바탕으로, 한 사건 $x$의 정보량 $I(x)$는 해당 사건이 발생할 확률 $p(x)$에 반비례하며, 다음과 같이 정의됩니다.
$$ I(x) = -\log_2(p(x)) $$
여기서,
- $I(x)$: 사건 $x$의 정보량 (단위: 비트(bit))
- $p(x)$: 사건 $x$가 발생할 확률
- $\log_2$: 밑이 2인 로그를 사용하는 것은 정보의 단위를 '비트'로 표현하기 위함입니다. 1비트는 두 가지 불확실한 경우의 수 중 하나를 특정하는 데 필요한 정보량입니다.
예시: 동전 던지기
- 공정한 동전 (앞면이 나올 확률 0.5)
- 앞면이 나왔을 때의 정보량: $I(앞면)=−\log_2(0.5)=−\log_2(2^{-1})=1 비트$
- 조작된 동전 (앞면이 나올 확률 0.9)
- 앞면이 나왔을 때의 정보량: $I(앞면)=−\log_2(0.9)≈0.15 비트$
- 뒷면이 나왔을 때의 정보량: $I(뒷면)=−\log_2(0.1)≈3.32 비트$
- 결과에서 볼 수 있듯이, 발생 확률이 낮은 '뒷면'이 나왔을 때 얻는 정보량이 훨씬 큰 것을 확인할 수 있습니다.
2. 엔트로피 (Entropy)
엔트로피는 어떤 정보원(Random Variable)으로부터 얻을 수 있는 정보량의 기댓값(평균)을 의미합니다. 즉, 특정 사건 하나가 아니라, 해당 정보원에서 발생할 수 있는 모든 사건들의 평균 정보량을 나타냅니다. 엔트로피는 그 정보원의 불확실성 또는 무작위성을 측정하는 척도로 사용됩니다.
확률 변수 $X$가 $x_1,x_2,...,x_n$이라는 값을 가질 수 있고, 각각의 확률이 $p(x_1), p(x_2), ..., p(x_n)$일 때, 엔트로피 $H(X)$는 다음과 같이 계산됩니다.
$$ H(X) = \sum_{i=1}^{n} p(x_i)I(x_i) = -\sum_{i=1}^{n} p(x_i)\log_2(p(x_i)) $$
여기서,
- $H(X)$: 확률 변수 $X$의 엔트로피
- $p(x_i)$: 각 사건 $x_i$가 발생할 확률
- $I(x_i)$: 각 사건 $x_i$의 정보량
엔트로피가 높다는 것은 결과가 어떻게 나올지 예측하기 어렵다는 뜻이고(불확실성이 높음), 엔트로피가 낮다는 것은 결과가 예측하기 쉽다는 의미입니다(불확실성이 낮음).
예시: 동전 던지기 (다시 보기)
- 공정한 동전 (P(앞면)=0.5, P(뒷면)=0.5)
- $H(X)=−[0.5\log_2(0.5)+0.5\log_2(0.5)]=−[0.5×(−1)+0.5×(−1)]=1 비트$
- 결과를 전혀 예측할 수 없으므로 불확실성이 최대이며, 엔트로피 값도 최댓값인 1이 됩니다.
- 조작된 동전 (P(앞면)=0.9, P(뒷면)=0.1)
- $H(X)=−[0.9\log_2(0.9)+0.1\log_2(0.1)]≈−[0.9×(−0.15)+0.1×(−3.32)]≈0.47 비트$
- 결과가 '앞면'으로 나올 가능성이 높아 예측이 쉬우므로 불확실성이 낮고, 엔트로피 값도 1보다 작게 나옵니다.
만약 동전의 앞면만 나온다면(P(앞면)=1, P(뒷면)=0), 엔트로피는 0이 되며, 이는 불확실성이 전혀 없음을 의미합니다.
요약
- 정보량: 단일 사건에 대한 정보의 양. 희귀한 사건일수록 정보량은 크다.
- 엔트로피: 확률 변수 전체에 대한 정보량의 평균(기댓값). 해당 정보원이 얼마나 불확실한지를 나타내는 척도이다.
이 두 개념은 데이터 압축, 통신 시스템, 그리고 머신러닝의 결정 트리(Decision Tree) 등 다양한 분야에서 핵심적인 역할을 합니다.
댓글
댓글 쓰기