2018/12/24 - [수학/확률 통계] - 이산 확률 분포 (#2)
확률(Probability)에 대해 생각해 보자. 주사위의 눈의 개수의 확률과 같이 나타나는 사건이 연속(Continuous)이 아닌 값인 경우 이산(Discrete) 확률이라고 한다. 본격적인 전개에 앞서 우선 용어를 먼저 정의하자. 사건의 가능한 값들을 나타내는 변수를 확률 변수(Probability or Random Variable, X)라고 하고
확률 변수 X가 가능한 집합을 다음과 같이 나타낼 수 있다.
확률 밀도 함수(Probability Density Function, f(x))는 다음과 같이 정의된다.
확률밀도함수은 다음의 성질을 만족해야 한다.
누적분포함수(Cumulative Distribution Function, F(x))의 정의는 다음과 같다.
이산 확률의 평균(Mean)과 분산(Variance)은 다음과 같이 정의할 수 있다. 평균은 기대값(Expectation)이라고도 한다.
가장 단순한 것부터 시작해 보자. 사건이 성공 또는 실패 중의 하나의 주어지는 경우(베르누이 시행, Bernoulli or Binomial Trial), 한 번 시행했을 때의 성공을 X = 1, 실패를 X = 0으로 나타내고 그 성공 확률이 p라고 하자. 이 때의 확률 분포를 베르누이 분포(Bernoulli Distribution)라고 한다. 너무 단순해서 분포라고 할 것도 없는 것 같다. 이것을 어떻게 하나의 수학적 수식으로 나타낼까? 가장 쉬운 것부터 확실하게 이해해야 한다.
위와 같이 정의할 때 확률변수 X가 베르누이 분포를 따른다고 하고, 간단히 아래와 같이 나타낼 수 있다.
베르누이 분포의 평균과 분산은 어떻게 될까? 아래 수식을 보면 알겠지만, 평균은 p이고 분산은 p(1-p)이다. 즉 성공확률이 1/2인 베르누이 분포는 평균이 1/2이고 분산은 1/4 (표준편차는 1/2)이다.
성공확률이 p인 베르누이 시행을 독립적으로 n번 반복했을 때 그 성공 회수를 X라고 하면 그 확률 분포는 아래와 같이 나타낼 수 있고, 이 확률 분포를 이항 분포(Binomial Distribution)라고 한다. 실제적인 예인 동전 던지기에 관한 글을 보면 이해가 쉬울 수 있다.
위를 만족하는 X를 이항분포를 따르는 확률 변수라고 하고, 간단히 아래와 같이 나타낸다.
추가로 이항 분포의 평균과 분산을 구해보자. 먼저 f(x)가 진짜로 확률밀도함수 인지 확인해 보자. 모든 x에 대해 f(x)를 합하면 1이 되는지?
위의 계산에 이항정리(Binomial Theorem)를 활용하였다.
이제 평균을 구해 보자. 정의에 의해 아래와 같이 쓸 수 있다. 계산을 위한 기본 아이디어는 이항정리를 활용하는 것이다.
위의 수식에서 x - 1 = y, n - 1 = m로 치환하면
조금 더 복잡하긴 하지만 분산도 유사하게 계산하여 아래와 같음을 증명할 수 있다.
이전의 베르누이 분포와 비교해 보면, 평균과 분산에 각각 독립시행 회수인 n이 곱해져 있다. 독립적인 시행을 n회 반복하고, 성공의 회수를 X라고 정의했기 때문에 당연한 결과로 보인다. 계산은 복잡했지만. 아래 그래프는 이항 분포를 그래프로 나타내 본 것이다.
한번 시행할 때의 성공 확률과 시행 회수를 입력하세요.
조건부 확률과 베이즈 정리 (0) | 2019.01.14 |
---|---|
이산 확률 분포 (#2) (0) | 2018.12.24 |
SNE (Stochastic Neighbor Embedding) (0) | 2018.12.09 |
쿨백-라이블러 발산 (KL Divergence) (0) | 2018.12.04 |
정보 엔트로피 (Information Entropy) (8) | 2018.12.04 |