특정 사건의 정보량(Information Content)
정보량은 발생 가능한 여러 가지 사건들 중에서 특정 사건 가 발생하였을 때 해당 사건을 지칭하기 위해 필요로 하는 비트 수로 정의할 수 있습니다.
여기서,
- 는 개별 사건(값)
- 는 사건 가 발생할 확률
예시:
- 동전 던지기에서 발생할 수 있는 사건은 다음 두 가지이며 각각의 사건을 구분하여 지칭하기 위해서는 1 비트가 필요합니다.
- 앞면
- 뒷면
- 다음 네 가지 색깔의 공이 들어 있는 바구니에서 한 개의 공을 집을 때 그 공의 색깔을 구분하여 지칭하기 위해서는 2 비트가 필요합니다.
- 빨강
- 노랑
- 파랑
- 보라
비트 수 이외에도 다음 두 가지를 정보량의 단위로 사용하기도 합니다.
- 냇(nats): 자연 상수(e)를 로그의 밑으로 사용
- 하틀리(hartleys) 또는 딧(dits): 10을 로그의 밑으로 사용
다음은 사건 발생 확률에 따른 정보량를 그래프로 표시한 것입니다.
정보원으로부터 얻을 수 있는 정보량에 대한 기댓값
정보원으로부터 얻을 수 있는 정보량에 대한 기댓값은 각 사건 의 정보량 에 해당 사건이 발생할 확률 을 곱한 값을 모두 더하여 계산합니다.
가 이산 확률 변수라면 정보량에 대한 기댓값은 다음과 같이 정의됩니다.
특정 사건 의 발생 확률이 달라질 때 해당 사건이 정보량에 대한 기댓값에 기여하는 정도를 계산하여 그래프로 표시하면 다음과 같습니다.
정보원의 엔트로피(Entropy)
엔트로피는 정보량에 대한 기댓값을 지칭하는 또 하나의 이름입니다.
다음은 동전 앞면 발생 확률이 달라짐에 따라 정보원의 엔트로피가 어떻게 변하는지 계산하여 그래프로 표시한 것입니다.
- : 동전 앞면 발생 확률
- : 동전 뒷면 발생 확률 ()
엔트로피 계산 예시:
- 두 번 중 한 번 앞면이 나오는 동전의 엔트로피 계산:
- 네 번 중 세 번 앞면이 나오는 동전의 엔트로피 계산:
- 무조건 앞면이 나오는 동전의 엔트로피 계산:
위 그래프와 예시에서 보듯이 앞면 발생 확률 가 0.5일 때 동전 던지기 결과를 예측하는 것이 가장 어렵습니다. 여러 가지 동전들 중에서 이러한 상태의 동전이 가장 높은 엔트로피를 가진다고 말합니다.
Written with StackEdit.
댓글 없음:
댓글 쓰기