상세 컨텐츠

본문 제목

체비쇼프 부등식 (Chebyshev's Theroem)

수학

by Simple Runner 2019. 2. 17. 11:51

본문

체비쇼프 부등식 (Chebyshev's Inequality)


어떤 수치 데이터가 주어졌을 때, 그것을 나타내는(Measure) 방법으로 평균(Mean)과 분산(Dispersion)을 배웠을 것이다. 간단히 리뷰해 보자.



위의 수식을 x에 대한 기대값이라고 하고, E(X)는 평균이 된다.



분산(Variance)는 아래와 같이 정의되고, 기대값의 함수로 변환이 가능하다.






예측


여기까지는 단순 산수이고, 이 두가지(평균, 분산) 정보를 이용하여 예측을 해보자.


어떤 데이터가 주어졌을 때, 평균에서 z 표준편차 이내에 있는 데이터의 비율은 적어도 다음보다 크다.

체비쇼프 부등식

예를 들어 데이터 분포가 어떻든 간에 다음과 같이 말할 수 있다. 2시그마(표준편차)내에는 1 - 1/4 = 0.75 이므로 적어도 75% 데이터가 존재하고, 3시그마내에 88.9%의 데이터가 존재한다.


고등학교 때 표준정규분포를 배운 기억을 떠올려 보면, 1시그마내에 있을 비율은 68%, 2시그마는 95%, 3시그마는 99.7%라고 알고 있을 것이다. 표준정규분포는 종모양의 이상적인 데이터 세트라서 이 비율들이 체비쇼프 부등식에서 제시하는 값보다 크다.


증명 해보자. 랜덤 변수를 X, 평균를 mu, 표준편차를 sigma라고 하자. 그리고 평균에서 z 표준편차 밖에 있는 데이터 세트를 A라고 하자.




데이터 세트 A의 정의에 의해 이므로, 위의 수식에 넣으면





따라서 최종적으로 다음과 같은 수식을 얻을 수 있다.


'수학' 카테고리의 다른 글

[CS109] 1 - Counting  (0) 2019.05.26
확률 분포의 모멘트  (2) 2019.02.24
푸리에(Fourier) 급수 및 변환  (0) 2019.02.09
조건부 확률과 베이즈 정리  (0) 2019.01.14
이산 확률 분포 (#2)  (0) 2018.12.24

관련글 더보기