상세 컨텐츠

본문 제목

[CS109] 9 - Continuous Distributions

수학

by Simple Runner 2019. 8. 4. 18:03

본문

지금까지 본 확률 변수는 이산(Discrete)이었다. 즉 변수로써 정수만 허용되었다. 이제 연속 확률 변수(Continuous Random Variable)에 대해 배워보자. 몸무게, 키, 시간 처럼 변수는 실수값을 가질 수 있다.

 

1. 이산에서 연속으로 (From Discrete to Continuous)

 

버스를 기다리는 것을 예로 들어 보자. 오후 2시 15분에 버스 정류장에 도착할 때 5분이하로 기다릴 확률은 얼마인지 알 수 있을깨? 오후 2시부터 2시 30분 사이에 적어도 버스가 1번은 도착한다고 가정하면 버스가 도착하는 시각을 확률로 나타내 보자. 정확히 2시 15분에 버스가 도착할 확률은 얼마일까? 0일 것이다. 하지만 2시 15분과 20분사이에 버스가 도착할 확률은 특정 값을 가지고 있을 것이다.

 

2시 이후의 분 단위 시간 T를 확률 변수로 정의하면 우리가 구하고자 하는 값은 아래와 같다.

 

 

바로 위에서도 언급하였지만, 실수를 변수로하는 확률 변수는 특정 값에서의 확률 값, 정확히는 확률 질량 함수값(Probability Mass Function)은 0이다. 뭔가 다른 정의가 필요하다. 우선 시간을 5분 단위로 나눠서 생각해 보자. 2시부터 5분단위로 버스가 도착할 확률은 구할 수 있을 것이다. 예를 들어 일년 동안 도착시간을 기록을 보면 될 것이다. 예를 들어 아래 그래프와 같이 나타날 수 있다.

 

 

 

2시 15분에서 20분 사이에 버스가 도착할 확률은 24.1%이다. 위의 시간 단위를 절반인 2.5분으로 줄여보자. 좀 더 자세한 확률을 계산할 수 있을 것이다.

 

 

 

2시 15분에서 17.5분까지는 12.4%, 17.5분에서 20분까지는 11.7%이다. 이렇게 계속 시간 단위를 줄이면 정확한 확률값을 구할 수 있겠지만, 그 값은 0에 가까워져 수렴할 것이다.

 

 

위의 식에서 처럼 확률을 구하는 구간을 줄이면 그 구간내에서 발생할 확률은 계속 줄어든다. 확률과 그 구간의 비는 어떻게 될까?

 

2. 확률 밀도 함수 (Probability Density Function)

 

이산 확률 변수에는 확률 질량 함수가 있듯이, 연속 확률 변수에는 확률 밀도 함수가 있고. 다음과 같이 정의할 수 있다.

 

 

 

 

위의 그래프는 버스 도착시간에 대한 확률 밀도 함수를 나타낸 것이다. 미적분의 정의를 이용하면, 확률 밀도 함수로 부터 특정 구간의 확률을 다음과 같이 구할 수 있다.

 

 

위의 수식을 이용하면, 연속 확률 변수에서의 특정 값에 대한 확률이 0임을 쉽게 알 수 있다.

 

 

3. 누적 분포 함수 (Cumulative Distribution Function)

 

확률 밀도 함수를 이용하여 특정 구간의 확률의 구하려면 매번 적분을 해야 한다. 적분할 수 있는 함수 형태로 주어지면 별 문제가 없겠지만, 적분이 어렵거나 함수 형태가 아닌 그래프로 주어지는 경우는 매우 난감하다. 이를 해결하기 위한 방법이 바로 누적 분포 함수이다. 누적 분포 함수의 정의 아래와 같다.

 

 

누적 분포 함수(CDF)로 부터 확률을 구하는 몇 가지 예는 다음과 같다.

 

 

확률 밀도 함수는 연속 확률 변수에서만 정의할 수 있지만, 누적 분포 함수는 연속 뿐만 아니라 이산 확률 변수에서도 아래와 같이 정의가 가능하다.

 

 

4. 기대값과 분산 (Expectation and Variance)

 

이산 확률 변수에서 배웠던 기대값 , 분산 를 연속 확률 변수로 확장해 보자.

 

 

 

 

다음 수식은 이산 및 연속 확률 변수에서 모두 성립하는 것을 쉽게 알 수 있다.

 

 

 

 

5. 균등 확률 변수 (Uniform Random Variable)

 

가장 일반적인 연속 확률 변수를 몇가지 배워보자. 그 첫번째가 균등 확률 변수이다. 특정구간에서 일정한 확률값을 갖고 그 이외의 구간에서는 확률값이 0인 확률 분포이다.

 

 

 

이 분포의 주요 성질은 다음과 같음은 쉽게 증명할 수 있다.

 

 

 

 

6. 지수 확률 변수 (Exponential Random Variable)

 

특정 시간 동안 일정 비율(람다)로 발생하는 사건의 경우, 그 특정 시간동안 그 사건이 x번 발생할 확률이 포아송 확률 분포(이산)인 반면, 그 사건이 일어날 때까지 걸린 시간의 확률이 지수 확률 분포(연속)이다.

 

 

위에서 람다는 포아송 분포 의 람다와 같다.

 

 

뜬금없이 위와 같이 정의된 이유는 나중에 다시 다루기로 하고, 지수 확률 변수의 성질는 다음과 같음을 알 수 있다.

 

 

 

누적 분포 함수(CDF)는 다음과 같다. (적분을 통해 쉽게 증명 가능함)

 

 

이 누적 분포 함수의 의미를 되새겨 보자. 1 - F(x)는 x라는 시간까지 한번도 사건이 발생하지 않을 확률이다. 지수 확률 분포에 대해서는 다시 자세히 다룰 예정이다.

 

'수학' 카테고리의 다른 글

머신 러닝을 위한 확률 강좌 소개  (0) 2019.09.22
[CS109] 10 - Gaussian  (0) 2019.08.25
제곱근 구하기 (바빌로니아 방법)  (1) 2019.07.23
루트 2 값 구하기  (1) 2019.07.20
[CS109] 8 - Poisson Distribution  (0) 2019.07.14

관련글 더보기