중심극한정리를 통한 표본 비율 분포 근사와 모비율의 검정

Data science/Statistics

중심극한정리를 통한 표본 비율 분포 근사와 모비율의 검정

2019. 10. 24. 13:34

중심극한정리를 통한 표본 비율 분포 근사와 모비율의 검정

비율의 분포

당신이 정책 담당자이고 전체 국민들 중 대상으로 새로운 교육 개혁에 대해 찬성하는 사람들의 비율을 알고 싶다고 해보자. 그리고 그 비율을 p 라고 할 때, p > 0.5 임을 보이고 싶다고 하자. 하지만 현실적으로 전체 국민에 대해 찬반 여부를 조사하는 것은 불가능에 가깝다. 따라서 전체 인구 집단에서 샘플링한 표본에서 구한 비율을 통해 위 가설 (p > 0.5) 을 보이고 싶다.

예를 들어, 1000명을 조사해서 p=0.48 을 얻었다고 하자. 이 때, p > 0.5 라고 할 수 있을까? 이 표본에서는 p 가 0.5를 넘지 못했지만, 0.5 에 매우 근접했기 때문에 다른 1000 명을 조사하면 0.5가 넘을 수 있을 것을 기대할 수 있을 법하다. 한 가지 방법은, 1000 명을 여러번 뽑아서 p가 0.5를 넘는 비율을 보는 것일 것이다. 예를 들어, 1000 명을 100번 뽑았는데, 95번이 p>0.5 일 경우, p > 0.5 라고 결론내려볼 수 있을 것이다.

하지만 1000 명을 100 번 뽑는 것도 마찬가지로 시간과 비용이 많이 든다. 따라서 현실적으로 비율의 분포를 이용한다. 표본을 통해 비율의 분포를 구할 수 있다면 더욱 쉬운 방법을 통해 가설을 검정할 수 있을 것이다. 표본 안에서 뽑은 값이 분포 안에서 어디에 위치해 있는 가를 보는 것이다. 가설이 분포 흔히 관찰할 수 있는 것이라면 그 가설이 맞는 것이고, 그렇지 않다면 가설이 틀린 것이다. 우선, 모집단의 일부를 샘플링하여 찬성 비율을 보는 것은 다음과 같이 모델링 해볼 수 있다. 모집단의 정책에 대한 찬반여부를 확률변수 X 라 할 때, 다음과 같은 베르누이 분포를 갖는다.

$$ X \sim Be(P) $$

이 때, 1000의 크기를 갖는 표본 X1,...,X1000 이 존재하면, 찬성 비율은 다음과 같이 계산할 수 있다.

$$ \tilde P = \frac{\sum_{i=1}^{i=1000}{X_i}}{n} $$

중심극한정리에 의해 p^ 은 정규근사가 가능하다. 왜냐하면 p^ 은 베르누이 분포의 표본 평균이기 때문이다.

$$\tilde P \sim N(P, \frac{p(1-p)}{n}) $$

비율의 검정

중심극한정리를 통해 p^ 의 분포는 구했는데, 이것을 통해 p > 0.5 인지 아닌지를 어떻게 검정할 수 있을까? 사실 좋은 방법은 앞서 언급했듯, 1000 명을 여러번 뽑아서 p가 0.5를 넘는 비율을 보는 것일 것이다. 이 경우 분포를 모르더라도 결론을 내려볼 수 있다. 하지만 우리는 통계적, 근사적으로 이 문제를 해결하려고 한다.

검정의 방법은 크게 두 가지로 나누어볼 수 있다.

1. 가설검정을 이용한 방법

2. 신뢰구간을 이용한 방법

가설검정을 이용한 방법

가설검정을 이용한 방법의 절차는 다음과 같다.

1. 귀무가설 및 대립가설의 설정

양측 검정, 단측 검정 둘 중 하나를 선택해 수행한다.

$$ H_0 = 0.5 $$

$$ H_1 > 0.5 $$

2. 검정 통계량 계산

아래분포를 이용해 검정통계량을 계산

$$ \tilde P \sim N(0.5, \frac{0.5*0.5}{1000}) = N(0.5, 0.00025) $$

> x = seq(0.01, 1, 0.001)

> y = dnorm(x=seq(0.01, 1, 0.001), mean=0.5, sd=sqrt(0.00025))

> plot(x, y)

검정통계량은 아래와 같다.

$$ \frac{0.48-0.5}{\sqrt{0.00025}} = -1.26 $$

3. 유의수준 설정

일반적으로 5 %의 유의수준을 설정한다.

4. 기각역 (또는 p-value) 계산

검정통계량과 유의수준을 통해 기각역을 결정한다.

기각역은 아래와 같은 절차로 계산한다.

$$ P(\tilde p > R) = 0.05 $$

위 식에서 R 이 기각역인데, R = 0.526 이다.

>qnorm(p=0.95, mean=0.5, sd=sqrt(0.00025))

0.526

유의수준을 통한 기각여부 결정은 아래와 같이한다. 유의수준 계산에는 검정통계량을 이용한다.

> 1-pnorm(-1.26)

0.89

$$ P(X > -1.26) = 0.89 $$

5. 기각역 포함 여부를 통해 의사 결정을 수행한다.

p-value 가 0.05 보다 큰 0.89 이고, 기각역 (X > 0.526) 에 포함되지 않으므로, (사실 두 개는 같은 정보이다.) 귀무가설을 기각할 수 없다.

신뢰구간을 이용하는 방법

신뢰구간을 이용한 검정 방법의 절차는 다음과 같다. 신뢰구간을 이용한 방법은 양측 검정을 위해 사용할 수 있다.

귀무가설 및 대립가설의 설정

$$ H_0 = 0.5 $$

$$ H_1 != 0.5 $$

신뢰수준을 정하고 p 의 구간추정을 통해 신뢰구간을 구한다. 95% 신뢰구간은 다음과 같이 구할 수 있다.

$$ \tilde P \sim N(p, \frac{p(1-p)}{n}) $$

$$ P[\tilde p - 1.96* \sqrt{p(1-p)/n} < p < \tilde p+ 1.96 * \sqrt{p(1-p)/n}] = 0.95 $$

$$ (\tilde p - 1.96* \sqrt{p(1-p)/n}, \tilde p+ 1.96 * \sqrt{p(1-p)/n}) $$

위 식에서 n,p,sd 를 대입하면 다음과 같은 신뢰구간을 얻을 수 있다. p 대신의 p의 추정량 p^을 넣는다.

(0.469, 0.531)

따라서 p^ 은 0.48 이고, 위 구간에 들어가기 때문에 귀무가설을 기각할 수 없다.

모비율의 신뢰구간을 구할 때, 한가지 알아두면 좋은 테크닉은, p 에 표본 비율 p^을 대입하지 않고, 0.5를 대입하면 가장 보수적인 신뢰구간을 구할 수 있다는 것이다.

$$ (\tilde p - 1.96* \sqrt{0.5(1-0.5)/n}, \tilde p+ 1.96 * \sqrt{0.5(1-0.5)/n}) $$

p를 0.5로 추정할 때, 신뢰구간의 길이가 가장 넓어지기 때문에 만약 표본 수가 충분한다면 신뢰구간의 타당성을 확보하기 좋은 방법이라고 할 수 있고, 표본수가 적어 표본비율의 변동이 큰 상황에서도 대략적인 신뢰구간을 구할 수 있다는 장점이 있다.

저작자표시 (새창열림)

'Data science > Statistics' 카테고리의 다른 글

두 모집단의 모비율의 차이에 대한 검정 (2)	2019.10.24
두 정규분포 모양의 모집단의 모평균의 차이에 대한 검정: Two sample t-test (0)	2019.10.24
Model calibration 의 개념과 Calibration plot (0)	2019.06.21
Adaptive Histogram Equalization 이란 무엇인가? (0)	2019.06.01
Histogram Equalization 이란 무엇인가? (0)	2019.06.01

Deepplay interested in data analytics and ML modeling

admin write link

notice

블로그 운영 정보

my link

statistics

total :
today :
yesterday :

Data science/Statistics