중심극한정리를 통한 표본 비율 분포 근사와 모비율의 검정


비율의 분포 


당신이 정책 담당자이고 전체 국민들 중 대상으로 새로운 교육 개혁에 대해 찬성하는 사람들의 비율을 알고 싶다고 해보자. 그리고 그 비율을 p 라고 할 때, p > 0.5 임을 보이고 싶다고 하자. 하지만 현실적으로 전체 국민에 대해 찬반 여부를 조사하는 것은 불가능에 가깝다. 따라서 전체 인구 집단에서 샘플링한 표본에서 구한 비율을 통해 위 가설 (p > 0.5) 을 보이고 싶다. 


예를 들어, 1000명을 조사해서 p=0.48 을 얻었다고 하자. 이 때, p > 0.5 라고 할 수 있을까? 이 표본에서는 p 가 0.5를 넘지 못했지만, 0.5 에 매우 근접했기 때문에 다른 1000 명을 조사하면 0.5가 넘을 수 있을 것을 기대할 수 있을 법하다. 한 가지 방법은, 1000 명을 여러번 뽑아서 p가 0.5를 넘는 비율을 보는 것일 것이다. 예를 들어, 1000 명을 100번 뽑았는데, 95번이 p>0.5 일 경우, p > 0.5 라고 결론내려볼 수 있을 것이다. 


하지만 1000 명을 100 번 뽑는 것도 마찬가지로 시간과 비용이 많이 든다. 따라서 현실적으로 비율의 분포를 이용한다. 표본을 통해 비율의 분포를 구할 수 있다면 더욱 쉬운 방법을 통해 가설을 검정할 수 있을 것이다. 표본 안에서 뽑은 값이 분포 안에서 어디에 위치해 있는 가를 보는 것이다. 가설이 분포 흔히 관찰할 수 있는 것이라면 그 가설이 맞는 것이고, 그렇지 않다면 가설이 틀린 것이다. 우선, 모집단의 일부를 샘플링하여 찬성 비율을 보는 것은 다음과 같이 모델링 해볼 수 있다. 모집단의 정책에 대한 찬반여부를 확률변수 X 라 할 때, 다음과 같은 베르누이 분포를 갖는다. 


$$ X \sim Be(P) $$ 


이 때, 1000의 크기를 갖는 표본 X1,...,X1000 이 존재하면, 찬성 비율은 다음과 같이 계산할 수 있다. 


$$ \tilde P = \frac{\sum_{i=1}^{i=1000}{X_i}}{n} $$ 


중심극한정리에 의해 p^ 은 정규근사가 가능하다. 왜냐하면 p^ 은 베르누이 분포의 표본 평균이기 때문이다. 


$$\tilde P \sim N(P, \frac{p(1-p)}{n}) $$ 


비율의 검정


중심극한정리를 통해 p^ 의 분포는 구했는데, 이것을 통해 p > 0.5 인지 아닌지를 어떻게 검정할 수 있을까? 사실 좋은 방법은 앞서 언급했듯, 1000 명을 여러번 뽑아서 p가 0.5를 넘는 비율을 보는 것일 것이다. 이 경우 분포를 모르더라도 결론을 내려볼 수 있다. 하지만 우리는 통계적, 근사적으로 이 문제를 해결하려고 한다. 


검정의 방법은 크게 두 가지로 나누어볼 수 있다. 


1. 가설검정을 이용한 방법

2. 신뢰구간을 이용한 방법 


가설검정을 이용한 방법


가설검정을 이용한 방법의 절차는 다음과 같다. 


1. 귀무가설 및 대립가설의 설정 


양측 검정, 단측 검정 둘 중 하나를 선택해 수행한다. 


$$ H_0 = 0.5 $$

$$ H_1 > 0.5 $$ 


2. 검정 통계량 계산 


아래분포를 이용해 검정통계량을 계산

$$ \tilde P \sim N(0.5, \frac{0.5*0.5}{1000}) = N(0.5, 0.00025) $$ 


> x = seq(0.01, 1, 0.001)

> y = dnorm(x=seq(0.01, 1, 0.001), mean=0.5, sd=sqrt(0.00025))

> plot(x, y)


검정통계량은 아래와 같다. 


$$ \frac{0.48-0.5}{\sqrt{0.00025}} = -1.26 $$ 


3. 유의수준 설정 


일반적으로 5 %의 유의수준을 설정한다. 


4. 기각역 (또는 p-value) 계산 


검정통계량과 유의수준을 통해 기각역을 결정한다.


기각역은 아래와 같은 절차로 계산한다. 


$$ P(\tilde p > R) = 0.05 $$ 


위 식에서 R 이 기각역인데, R = 0.526 이다. 


>qnorm(p=0.95, mean=0.5, sd=sqrt(0.00025)) 

0.526


유의수준을 통한 기각여부 결정은 아래와 같이한다. 유의수준 계산에는 검정통계량을 이용한다.


> 1-pnorm(-1.26)

0.89

 

$$ P(X > -1.26) = 0.89 $$ 


5. 기각역 포함 여부를 통해 의사 결정을 수행한다. 


p-value 가 0.05 보다 큰 0.89 이고, 기각역 (X > 0.526) 에 포함되지 않으므로, (사실 두 개는 같은 정보이다.) 귀무가설을 기각할 수 없다. 


신뢰구간을 이용하는 방법


신뢰구간을 이용한 검정 방법의 절차는 다음과 같다. 신뢰구간을 이용한 방법은 양측 검정을 위해 사용할 수 있다. 


귀무가설 및 대립가설의 설정 


$$ H_0 = 0.5 $$

$$ H_1 != 0.5 $$ 


신뢰수준을 정하고 p 의 구간추정을 통해 신뢰구간을 구한다. 95% 신뢰구간은 다음과 같이 구할 수 있다. 


$$ \tilde P \sim N(p, \frac{p(1-p)}{n}) $$ 

$$ P[\tilde p - 1.96* \sqrt{p(1-p)/n} < p < \tilde p+ 1.96 * \sqrt{p(1-p)/n}] = 0.95 $$

$$ (\tilde p - 1.96* \sqrt{p(1-p)/n}, \tilde p+ 1.96 * \sqrt{p(1-p)/n}) $$


위 식에서 n,p,sd 를 대입하면 다음과 같은 신뢰구간을 얻을 수 있다. p 대신의 p의 추정량 p^을 넣는다. 


(0.469, 0.531)


따라서 p^ 은 0.48 이고, 위 구간에 들어가기 때문에 귀무가설을 기각할 수 없다. 


모비율의 신뢰구간을 구할 때, 한가지 알아두면 좋은 테크닉은, p 에 표본 비율 p^을 대입하지 않고, 0.5를 대입하면 가장 보수적인 신뢰구간을 구할 수 있다는 것이다. 


$$ (\tilde p - 1.96* \sqrt{0.5(1-0.5)/n}, \tilde p+ 1.96 * \sqrt{0.5(1-0.5)/n}) $$


p를 0.5로 추정할 때, 신뢰구간의 길이가 가장 넓어지기 때문에 만약 표본 수가 충분한다면 신뢰구간의 타당성을 확보하기 좋은 방법이라고 할 수 있고, 표본수가 적어 표본비율의 변동이 큰 상황에서도 대략적인 신뢰구간을 구할 수 있다는 장점이 있다.