상세 컨텐츠

본문 제목

이산 확률 분포 (#2)

수학

by Simple Runner 2018. 12. 24. 09:47

본문

2018/12/16 - [수학/확률 통계] - 이산 확률 분포 (#1)


이산확률분포의 기본이 되는 2가지 분포에 대해 앞선 글에서 이야기 하였다.


  1. 베르누이 분포
  2. 이항 분포

이번 글에서는 이항 분포의 확장인 다항 분포(Multinomial Distribution)와 포아송 분포(Poisson Distribution)에 대해 다루고자 한다.



#다항 분포

이항 분포는 사건의 결과가 성공 또는 실패로 2가지인 경우에 대한 것이다. 만약 사건의 결과가 2개 이상인 k개이고, 그 각각의 확률이 pk로 주어진다고 하면 그때의 확률 분포는 어떻게 될 것인가? 예를들어 주사위 1개를 던질 때 나오는 눈의 값은 6개(k)이고 각각의 확률은 1/6인데, 주사위를 n번 던질 때의 1은 x1번, 2는 x2번, ..., 6은 x6번 나올 확률은? 좀더 복잡하게 주사위 두개를 동시에 던지는 경우는?


다항 분포의 상황을 수학적으로 구체화 시켜보면 다음과 같다. k개의 결과의 확률을 우선 아래와 같이 정의하자.



독립적인 시행을 n번 했을 때의 각각의 결과가 X1은 x1번, ..., Xk는 xk번 나올 확률밀도 함수는 다음과 같다.



위의 확률을 따르면 다항분포라고 하고, 아래와 같이 간단히 나타내기도 한다.



확률 변수가 k개로 정의 되었지만, 제약조건이 있기 때문에 k-1개의 독립적인 확률 변수가 결합된 분포이다. 그리고 k=2가 되면 이항분포가 된다. 또, Xi일 때를 성공으로 그 외의 경우를 모두 실패로 간주해도 이항 분포가 된다.

이항 분포를 이해하는데 이항 정리가 중요하듯이, 다항 분포를 이해하는데 다항 정리를 활용하면 좀 더 쉽게 이해할 수 있다.


#포아송 분포

지금까지는 시간의 개념이 없이 단지 시행 회수에 따른 결과의 확률에 대한 것이었다. 그런데 현실에서는 시간의 개념이 매우 중요하다. 예를 들어 1시간에 평균 2번 발생하는 사건이 하루 동안에 10번 발생할 확률은 얼마인가? 위의 질문에 어떻게 답할 수 있을 것인가?

포아송 분포가 위에 대한 답이다. 단위 시간에 어떤 사건이 평균적으로 번 발생한다고 할 때, 그 단위 시간에 발생할 사건의 수를 나타내는 확률밀도 함수는 다음과 같다.



위의 확률를 따르는 분포를 포아송 분포라고 하고 간단히 아래와 같이 나타낸다.



포아송 분포의 평균과 분산은 모두 이다. 그런데 확률밀도함수는 어떻게 나온 것이며, 그 평균과 분산은 어떻게 구한 것인가란 의문이 당연히 들 것이다.


포아송 분포의 유도

단위시간에 번 발생한다는 것의 의미는 무엇일까? 베르누이 시행을 단위시간동안 무한이 반복하여 번 성공했다는 것과 같지 않을까? 포아송 분포는 이항 분포에서 시행 회수인 n이 무한대인 경우와 같다.



위의 이항분포에서 n번 시행해서 평균적으로 번 성공했다는 것은 아래와 같은 의미이다.



위의 식을 이항분포 식에 p 대신에 넣으면,



위의 수식에서 n!은 n부터 1까지 n개를 곱하는 것이고, (n-x)!은 (n-x)부터 1까지 (n-x)개 연속해서 곱하는 것이므로, n!/(n-x)!은 n부터 (n-x+1)까지 x개의 숫자를 연속해서 곱하는 것이다. 그리고 n의 x승은 n을 x번 곱하는 것이다. 따라서 다음과 같이 정리할 수 있다.



n이 x보다 매우 크면, 위 수식의 앞의 x개의 분수는 모두 1에 수렴한다. 그리고 맨 뒤쪽의 항을 약간 변형하면 아래와 같이 나타낼 수 있다.



마찬가지로 n이 x보다 매우 크면 마지막 항은 1이 되고, 자연 상수의 정의와 유사한 수식만 남게 된다. 따라서 최종 수식은 위에서 정의한 포아송 분포 수식과 동일해 진다.



이항 분포의 무한 시행에서 특정 확률로 나타나는 사건이라는 것만 가지고 정확하게 유도할 수 있다니 놀랍다. 이항 분포는 이해 하기 쉽지만 n이 커지면 계산이 쉽지 않은데, 그것을 쉽게 할 수 있도록 수학적 변환을 한 것이다.


포아송 분포의 평균과 분산

이제 평균과 분산을 구해보자. 아래 수식을 보면 평균이 이다. 그리고 분산도 구해보면 동일하게 임을 알 수 있다(여기서 유도는 생략함).




포아송 분포가 이항 분포로 부터 유도가 되었으므로 이항 분포의 평균과 분산으로 부터 쉽게 생각해 볼 수 있다. 이항 분포의 평균은 np이므로 포아송 분포의 평균도 np이고 이것이 정의에 의해 가 된다. 분산은 np(1-p)이므로 아래와 같이 쉽게 유도가 된다(p << 1 이므로).



이항 분포에서 시행회수가 많아지면 정규분포와 같아진다는 것이 알려져 있듯이, 포아송 분포도 이항분포에서 유도되었기 때문에 정규분포로 근사할 수 있다. 특히 발생회수가 많을 때 근사가 정확해 진다. 아래 그래프는 포아송 분포를 그래프로 나타낸 것이다.


단위 시간당 발생 회수를 입력하세요.

  • 단위 시간당 발생 회수()


'수학' 카테고리의 다른 글

푸리에(Fourier) 급수 및 변환  (0) 2019.02.09
조건부 확률과 베이즈 정리  (0) 2019.01.14
이산 확률 분포 (#1)  (0) 2018.12.16
SNE (Stochastic Neighbor Embedding)  (0) 2018.12.09
쿨백-라이블러 발산 (KL Divergence)  (0) 2018.12.04

관련글 더보기