중심극한정리를 통한 표본 비율 분포 근사와 모비율의 검정
비율의 분포
당신이 정책 담당자이고 전체 국민들 중 대상으로 새로운 교육 개혁에 대해 찬성하는 사람들의 비율을 알고 싶다고 해보자. 그리고 그 비율을 p 라고 할 때, p > 0.5 임을 보이고 싶다고 하자. 하지만 현실적으로 전체 국민에 대해 찬반 여부를 조사하는 것은 불가능에 가깝다. 따라서 전체 인구 집단에서 샘플링한 표본에서 구한 비율을 통해 위 가설 (p > 0.5) 을 보이고 싶다.
예를 들어, 1000명을 조사해서 p=0.48 을 얻었다고 하자. 이 때, p > 0.5 라고 할 수 있을까? 이 표본에서는 p 가 0.5를 넘지 못했지만, 0.5 에 매우 근접했기 때문에 다른 1000 명을 조사하면 0.5가 넘을 수 있을 것을 기대할 수 있을 법하다. 한 가지 방법은, 1000 명을 여러번 뽑아서 p가 0.5를 넘는 비율을 보는 것일 것이다. 예를 들어, 1000 명을 100번 뽑았는데, 95번이 p>0.5 일 경우, p > 0.5 라고 결론내려볼 수 있을 것이다.
하지만 1000 명을 100 번 뽑는 것도 마찬가지로 시간과 비용이 많이 든다. 따라서 현실적으로 비율의 분포를 이용한다. 표본을 통해 비율의 분포를 구할 수 있다면 더욱 쉬운 방법을 통해 가설을 검정할 수 있을 것이다. 표본 안에서 뽑은 값이 분포 안에서 어디에 위치해 있는 가를 보는 것이다. 가설이 분포 흔히 관찰할 수 있는 것이라면 그 가설이 맞는 것이고, 그렇지 않다면 가설이 틀린 것이다. 우선, 모집단의 일부를 샘플링하여 찬성 비율을 보는 것은 다음과 같이 모델링 해볼 수 있다. 모집단의 정책에 대한 찬반여부를 확률변수 X 라 할 때, 다음과 같은 베르누이 분포를 갖는다.
$$ X \sim Be(P) $$
이 때, 1000의 크기를 갖는 표본 X1,...,X1000 이 존재하면, 찬성 비율은 다음과 같이 계산할 수 있다.
$$ \tilde P = \frac{\sum_{i=1}^{i=1000}{X_i}}{n} $$
중심극한정리에 의해 p^ 은 정규근사가 가능하다. 왜냐하면 p^ 은 베르누이 분포의 표본 평균이기 때문이다.
$$\tilde P \sim N(P, \frac{p(1-p)}{n}) $$
비율의 검정
중심극한정리를 통해 p^ 의 분포는 구했는데, 이것을 통해 p > 0.5 인지 아닌지를 어떻게 검정할 수 있을까? 사실 좋은 방법은 앞서 언급했듯, 1000 명을 여러번 뽑아서 p가 0.5를 넘는 비율을 보는 것일 것이다. 이 경우 분포를 모르더라도 결론을 내려볼 수 있다. 하지만 우리는 통계적, 근사적으로 이 문제를 해결하려고 한다.
검정의 방법은 크게 두 가지로 나누어볼 수 있다.
1. 가설검정을 이용한 방법
2. 신뢰구간을 이용한 방법
가설검정을 이용한 방법
가설검정을 이용한 방법의 절차는 다음과 같다.
1. 귀무가설 및 대립가설의 설정
양측 검정, 단측 검정 둘 중 하나를 선택해 수행한다.
$$ H_0 = 0.5 $$
$$ H_1 > 0.5 $$
2. 검정 통계량 계산
아래분포를 이용해 검정통계량을 계산
$$ \tilde P \sim N(0.5, \frac{0.5*0.5}{1000}) = N(0.5, 0.00025) $$
> x = seq(0.01, 1, 0.001)
> y = dnorm(x=seq(0.01, 1, 0.001), mean=0.5, sd=sqrt(0.00025))
> plot(x, y)
검정통계량은 아래와 같다.
$$ \frac{0.48-0.5}{\sqrt{0.00025}} = -1.26 $$
3. 유의수준 설정
일반적으로 5 %의 유의수준을 설정한다.
4. 기각역 (또는 p-value) 계산
검정통계량과 유의수준을 통해 기각역을 결정한다.
기각역은 아래와 같은 절차로 계산한다.
$$ P(\tilde p > R) = 0.05 $$
위 식에서 R 이 기각역인데, R = 0.526 이다.
>qnorm(p=0.95, mean=0.5, sd=sqrt(0.00025))
0.526
유의수준을 통한 기각여부 결정은 아래와 같이한다. 유의수준 계산에는 검정통계량을 이용한다.
> 1-pnorm(-1.26)
0.89
$$ P(X > -1.26) = 0.89 $$
5. 기각역 포함 여부를 통해 의사 결정을 수행한다.
p-value 가 0.05 보다 큰 0.89 이고, 기각역 (X > 0.526) 에 포함되지 않으므로, (사실 두 개는 같은 정보이다.) 귀무가설을 기각할 수 없다.
신뢰구간을 이용하는 방법
신뢰구간을 이용한 검정 방법의 절차는 다음과 같다. 신뢰구간을 이용한 방법은 양측 검정을 위해 사용할 수 있다.
귀무가설 및 대립가설의 설정
$$ H_0 = 0.5 $$
$$ H_1 != 0.5 $$
신뢰수준을 정하고 p 의 구간추정을 통해 신뢰구간을 구한다. 95% 신뢰구간은 다음과 같이 구할 수 있다.
$$ \tilde P \sim N(p, \frac{p(1-p)}{n}) $$
$$ P[\tilde p - 1.96* \sqrt{p(1-p)/n} < p < \tilde p+ 1.96 * \sqrt{p(1-p)/n}] = 0.95 $$
$$ (\tilde p - 1.96* \sqrt{p(1-p)/n}, \tilde p+ 1.96 * \sqrt{p(1-p)/n}) $$
위 식에서 n,p,sd 를 대입하면 다음과 같은 신뢰구간을 얻을 수 있다. p 대신의 p의 추정량 p^을 넣는다.
(0.469, 0.531)
따라서 p^ 은 0.48 이고, 위 구간에 들어가기 때문에 귀무가설을 기각할 수 없다.
모비율의 신뢰구간을 구할 때, 한가지 알아두면 좋은 테크닉은, p 에 표본 비율 p^을 대입하지 않고, 0.5를 대입하면 가장 보수적인 신뢰구간을 구할 수 있다는 것이다.
$$ (\tilde p - 1.96* \sqrt{0.5(1-0.5)/n}, \tilde p+ 1.96 * \sqrt{0.5(1-0.5)/n}) $$
p를 0.5로 추정할 때, 신뢰구간의 길이가 가장 넓어지기 때문에 만약 표본 수가 충분한다면 신뢰구간의 타당성을 확보하기 좋은 방법이라고 할 수 있고, 표본수가 적어 표본비율의 변동이 큰 상황에서도 대략적인 신뢰구간을 구할 수 있다는 장점이 있다.
'Data science > Statistics' 카테고리의 다른 글
두 모집단의 모비율의 차이에 대한 검정 (2) | 2019.10.24 |
---|---|
두 정규분포 모양의 모집단의 모평균의 차이에 대한 검정: Two sample t-test (0) | 2019.10.24 |
Model calibration 의 개념과 Calibration plot (0) | 2019.06.21 |
Adaptive Histogram Equalization 이란 무엇인가? (0) | 2019.06.01 |
Histogram Equalization 이란 무엇인가? (0) | 2019.06.01 |