찌그러진 동전 던지기로 정보량, 기댓값, 엔트로피 쉽게 설명
1. 찌그러진 동전 던지기
던지면 백 번 중 한 번의 확률로 뒷면이 나오는 찌그러진 동전이 있습니다.
ph=10099pt=1001
여기서,
- ph: 앞면(head)이 나올 확률
- pt: 뒷면(tail)이 나올 확률
이 글 전체에서 위의 동전을 예로 사용하였습니다.
2. 특정 사건의 정보량(Information Content)
정보량의 정의는 다음과 같습니다.
Ix=−log2px
여기서,
- x: 개별 사건(동전 앞면, 뒷면)
- px: 특정 사건 x가 발생할 확률
- Ix: 특정 사건 x가 발생함을 알았을 때 얻게 되는 정보량
동전 던지기 결과를 알았을 때 그 정보의 가치에 대하여 다음과 같은 평가가 가능합니다.
- 결과가 앞면임을 알았을 때:
- 뒷면보다는 자주 발생하는 사건이라서 정보의 가치는 뒷면이 나왔을 때보다 작다.
- 결과가 뒷면임을 알았을 때:
- 앞면보다는 드물게 발생하는 사건이라서 정보의 가치는 앞면이 나왔을 때보다 크다.
정보량을 정보의 가치라고 해석할 수 있으며 다음과 같은 관계가 성립합니다.
Ih<It
여기서,
- Ih: 앞면이 나온 것을 알았을 때의 정보량
- It: 뒷면이 나온 것을 알았을 때의 정보량
3. 정보량에 대한 기댓값
동전 던지기 결과를 알게 된다면 얻게 될 정보량에 대한 기댓값은 개별 사건으로부터 얻게 될 정보량에 그 사건이 일어날 확률을 곱한 값을 모두 더하여 계산합니다.
E[I]=phIh+ptIt
여기서,
- E[I]: 정보량에 대한 기댓값
동전 던지기 결과로부터 얻을 정보량에 대한 기댓값을 계산할 때 지배적인 영향을 미치는 것은 뒷면일 수도 있고 앞면일 수도 있습니다.
- 앞면의 경우 정보량은 작겠지만 사건 발생 확률이 크다.
- 뒷면의 경우 정보량은 크겠지만 사건 발생 확률이 작다.
각 사건이 정보량에 대한 기댓값에 미치는 영향이 어느 정도인지는 아래 두 값을 계산하면 알 수 있습니다.
- phIh: 앞면의 경우
- ptIt: 뒷면의 경우
엔트로피에 대한 정의는 정보량에 대한 기댓값과 같습니다.
H=E[I]
이 글에서 예로 든 동전을 던져서 나오는 결과 맞추기 게임을 한다면 다음과 같이 말할 수 있습니다.
- 동전 던지기 결과를 앞면이라고 예측하면 맞을 가능성이 높다.
- 예측 불확실성이 작다.
- 정보 부재에 대한 아쉬움이 작다.
- 정보의 가치에 대한 기대가 작다.
- 엔트로피가 작다.
5. 정보량, 기댓값, 엔트로피 계산 결과
ph=10099인 동전에 대하여 정보량, 기댓값, 엔트로피를 계산하면 아래와 같습니다.
Ih=−log2ph=−log210099=0.0145It=−log2pt=−log21001=6.6439
H=E[I]=phIh+ptIt=10099×0.0145+1001×6.6439=0.0144+0.0664=0.0808
위 계산 결과와 비교할 수 있도록 ph=21인 동전에 대하여 정보량, 기댓값, 엔트로피를 계산해 보았습니다.
Ih=−log2ph=−log221=1.0It=−log2pt=−log221=1.0
H=E[I]=phIh+ptIt=21×1.0+21×1.0=0.5+0.5=1.0
Written with StackEdit.
댓글 없음:
댓글 쓰기