상세 컨텐츠

본문 제목

정보 엔트로피 (Information Entropy)

수학

by Simple Runner 2018. 12. 4. 11:38

본문

어떤 시스템(System)의 상태(State)를 나타내는 방법 중에 엔트로피(Entropy)라는 것이 있다. 열역학을 배운 사람들은 "S = k ln W" 라는 수식을 본 적이 있을 것이고, 그게 아닌 사람들도 "무질서도"라는 말로 한번쯤은 들어 봤을 것이다.

역학이 아닌 정보를 다룰 때도 엔트로피라는 개념을 사용할 수 있다. 1948년에 섀넌이 수학적 통신이론이라는 논문에서 정보 엔트로피라는 개념을 도입하였다. 그 의미는 무질서도, 불확실성로 유사하다.

 

#정보 (Information)

정보란 무엇인가? 어떤 정보가 가치가 있는가? 이것을 어떻게 정량화하여 수식으로 표현할 수 있을까?

어떤 사건이 발생했을 때, 그것이 자주 일어나는 것이어서 관심도가 떨어지는 것은 정보로서의 가치가 떨어지고, 어쩌다 일어나거나, 평생에 한번 정도 일어날 것이라면 정보로서의 가치가 매우 높은 것이다. 이것을 다음과 같이 정리할 수 있다.

  • 발생할 확률이 높은 사건은 정보량이 적다.
  • 발생할 확률이 낮은 사건은 정보량이 많다.
  • 두 개의 사건이 서로 독립적(Independent)으로 발생하면, 각각의 정보를 더하는 것과 같다.
    (이것은 약간 작위적인 것 같은데, 우리 인간이 정보를 받아들이는 방식이다. 예를 들어 소음의 크기를 나타내는 데이벨이라는 정의와 유사하다.)

위의 두 정리로 부터 확률(Probability, P(x))과 정보(Information, I(x))는 반비례 관계가 있다는 것을 알 수 있다. 세번째 정리로 부터는 독립적인 두 사건이 동시에 일어날 확률은 각각의 확률을 곱하는 것인데, 정보는 각각의 정보의 합과 같다는 것이므로, 로그(log)라는 수학적 기법을 도입할 필요성이 있다는 것을 짐작할 수 있다.

예를 들어 동전 1개을 던졌을 때 앞면이 나온 사건은, 확률이 1/2이므로, 그것의 정보는 -log(1/2)이고, 밑이 2인 로그를 사용하면 그 값이 1이 된다. 동전 2개를 던졌을 때 둘다 앞이 나올 사건은, 확률이 1/4이므로, 정보는 -log(1/4) = 2 이다. 즉 동전 1개를 던지는 정보가 2번 들어온 것이어서 1 + 1 = 2로 생각할 수 있다.

참고로 섀넌은 밑이 2인 로그를 사용했고, 그 정보 값을 비트 또는 섀넌이라고 부른다.

정규분포의 확률을 따르는 사건의 정보량에 대해 생각해 보자. 여기서는 편의상 자연로그를 사용하자

평균이 0이고 표준편차가 1인 표준정규분포라고 하면,

 
 

그래프에서 보면 어떤 사건이 평균값으로 일어나면 정보량은 1.33 bit이고, 평균에서 3시그마 이상 벗어나는 사건의 정보량은 적어도 7.82 bit 임을 알 수 있다. 99%의 확률내에서 일어나는 사건은 정규분포에서 평균과 2.6시그마 이내에 있는데 그때의 정보량은 6.2 bit이다.

#정보 엔트로피 (Information Entropy)

사건 개개의 정보량을 위와 같이 나타낼 수 있지만, 일반적으로 우리는 이런 사건들이 발생할 상황(시스템)의 평균적인 정보량(불확실성)을 알고 싶다.

정보량이 많지만 일어날 확률이 낮은 사건과 정보량은 적지만 일어날 확률이 높은 사건은 전체 시스템에 기여하는 바를 어떻게 반영할 수 있을까? 정보 엔트로피(Information Entropy, H(x))를 정보의 기대치(Expectation of Information)로 정의할 수 있다.

위의 정의는 볼쯔만이 정의한 엔트로피와 동일하다. 다만 시스템을 구성하는 입자의 개수(N)와 열역학적 정의와 일치 시키기 위한 볼쯔만 상수(k)가 더 있을 뿐이다. 위의 수식을 이용하면 정규분포로 일어나는 사건의 엔트로피를 계산할 수 있다. 즉, 아래 그래프에서의 파란색 부분의 면적이 H(x)이다.

 

이 값은 표준편차가 1일 때에 1.919 (bit로 환산하면 1.919/ln(2) = 2.769)이 된다. 다시 말해서 어떤 상황에서 사건들이 표준정규분포의 확률로 일어나면 그 때의 엔트로피(불확실성)은 2.77bit이다.

위의 수식을 음미해보면, 어떤 사건들이 일어날 확률과 그 사건의 정보량의 곱을 모든 경우의 수에 대해 더한 것이다. 또 다른 중요한 의미는 어떤 확률분포를 한개의 수치값으로 나타낼 수 있는 방법이기도 하다. 정규분포는 평균과 표준편차, 즉 2가지 값을 알면 그 형상을 알 수 있어 1개의 값으로 나타낸다는 것의 획기적인 의미가 다가오지 않을 수 있다. 하지만 일반적인 확률분포를 가지는 상황에서는 매우 중요한 의미를 갖는다. 예를 들어 어떤 확률분포가 정규분포와 얼마나 가깝나를 수치로 나타내고 싶을 때, 이 정보 엔트로피 값을 사용할 수 있다.

'수학' 카테고리의 다른 글

SNE (Stochastic Neighbor Embedding)  (0) 2018.12.09
쿨백-라이블러 발산 (KL Divergence)  (0) 2018.12.04
행렬의 고유값 구하기  (0) 2018.11.25
SVD (특이값 분해)  (0) 2018.11.18
지수의 확장  (1) 2018.11.11

관련글 더보기