이항분포와 정규분포

앞글의 동전 던지기 놀이를 통해 이항분포에 대해 알아보았다. 시행횟수가 많아지면 이항분포가 정규분포와 같아지는 것을 수학적으로 엄밀하게 유도해 보자. 이번에 대수의 성질에 대해 간단히 생각할 기회를 갖고, 통계 역학의 기본을 다져보자.

앞서 동전 던지기를 많이 반복하면 정규분포로 근사할 수 있다고 했는데, 진짜 그럴까? 남이나 책에서 그렇다고 해서 무조건 받아들이면 안된다. 정규분포에 대해서 배우긴 했지만 왜 그런 복잡한 수식이 나왔는지에 대해서는 그냥 그런가 했다. 1733년에 아브라함 드무아브르가 시행회수(N)가 클 때의 이항분포의 근사치를 계산하기 위해 유도하였다고 한다.

이항분포

특정 사건이 일어날 확률이 \(p\), 일어나지 않을 확률이 \(q\) 라 할 때, \(N\) 번 시행하여 그 사건이 \(r\) 번 일어날 확률은 다음과 같다.

\begin{align}P(r) =\frac{N!}{r!(N-r)!}{p^r}{q^{N-r}}\end{align}

정규분포로의 근사

\(N\) 이 매우 커지면 이 확률 분포의 변수인 \(r\) 은 연속값으로 생각할 수 있고, 최대값을 갖는 \(r\) 를 \(k\) 이라고 하면,

\begin{align}\left ( \frac{\partial P(r)}{\partial r}\right )_{r=k} = 0\end{align}

log함수는 단조증가 함수이므로 로그를 취한 뒤에 미분을 해도 동일한 수식을 만족한다.

\begin{align}\left ( \frac{\partial \ln P(r)}{\partial r}\right )_{r=k} = 0\end{align}

1차 미분값 구하기

위의 수식(1)의 양변에 \(ln\) 을 취하면

\begin{align}\begin{split}\ln P(r) &= \ln N! - \ln r! - \ln (N-r)! \\ &+ r \ln p + (N-r) \ln q\end{split}\end{align}

이고, 스털링 근사를 적용하면 아래와 같다.

\begin{align}\begin{split}\ln P(r) &= \ln N! - r \ln r - (N-r) \ln (N-r) \\ &+ r \ln p + (N-r) \ln q \end{split}\end{align}

위의 수식을 \(r\) 에 대해 미분하면,

\begin{align}\frac{\partial \ln P}{\partial r} = -\ln r + \ln (N-r) + \ln p - \ln q\end{align}

상기 수식에서 \(r = k\) 일때 0이므로

\begin{align}-\ln k + \ln (N-k) + \ln p - \ln q = 0\end{align}

정리하면

\begin{align}k = Np\end{align}

즉 이항분포의 평균값 \(m = Np\) 일 때 최대값을 갖는것을 알 수 있다.

2차 미분값 구하기

이제 로그를 취한 \(P(r)\) 을 \(r=k\) 일 때 테일러 급수 전개를 해보자.

\begin{align}\begin{split}\ln P(r) &= \ln P(k) + \left (\frac{\partial \ln P}{\partial r} \right )_k (r-k) \\ &+ \frac{1}{2} \left (\frac{\partial^2 \ln P}{\partial r^2} \right )_k (r-k)^2 + \cdots\end{split}\end{align}

\(r = k\) 일 때 1차 미분은 0이고(위에서 유도함), 2차 미분을 구해보면,

\begin{align}\frac{\partial^2 \ln P}{\partial r^2} = -\frac {1}{r} - \frac {1}{N-r}\end{align}

\(r=k\) 일 때 정리하고, 이항분포의 분산이 \(Npq\) 이므로

\begin{align}\left (\frac{\partial^2 \ln P}{\partial r^2} \right )_k &= -\frac {1}{k} - \frac {1}{N-k} \\ &= -\frac {1}{Np} - \frac {1}{N-Np} \\ &= -\frac {1}{Npq} \\ &= -\frac {1}{\sigma^2}\end{align}

근사값 구하기

따라서 테일러 급수로 전개한 수식을 2차항까지만으로 근사하면 다음과 같다.

\begin{align}\ln P(r) = \ln P(m) - \frac{1}{2} \left (\frac{r-m}{\sigma} \right )^2\end{align}

로그를 제거하면,

\begin{align}P(r) = P(m) e^{-\frac{(r-m)^2}{2\sigma^2}}\end{align}

모든 r에 대해서 위의 함수값을 더하면 1일 되도록 하여 \(P(m)\) 을 구하면, 즉 표준화 시켜 확률밀도 함수를 구할 수 있고 이 함수를 표준정규분포라고 한다.

\begin{align}\red{P(r) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(r-m)^2}{2\sigma^2}}}\end{align}

마지막으로 좀 단순화하여 표현하면, \(B(N,p)\) 는 \(N\) 이 충분히 크면 \(Z(Np, Npq)\) 로 나타낼 수 있다. B는 이항분포, Z는 표준정규분포, 정규분포의 평균은 \(Np\) 이고 분산은 \(Npq\) 이다 (이에 대한 증명은 생략).

저작자표시 비영리 변경금지

'수학' 카테고리의 다른 글

FFT (Fast Fourier Transform)의 원리에 대해 (0)	2021.06.06
정사영과 직교에 대해 (0)	2021.06.06
자연 상수가 무리수라는 것 증명하기 (0)	2021.06.06
수학적 증명 방법에 대해 (0)	2021.06.04
72의 법칙 고찰 (0)	2021.02.10

하고 싶은 일을 하자

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문