두 모집단의 모비율의 차이에 대한 검정


앞선 포스트에서 중심극한정리에 의한 정규 근사를 통해 표본 비율의 분포를 구하고 검정하는 방법을 다루었다. 이번에는 두 모집단에 대해서 비율에 차이가 있는지를 검정하는 방법에 대해서 정리해보려고 한다. 앞선 one sample 비율 검정과 다른점은 one sample 검정에서는 가설검정을 할 때, 귀무가설 하에서의 모비율을 검정 통계량 계산에 활용할 수 있었던 반면, two sample 비율 검정에서는 귀무가설이 두 모비율이 같다고 정의되는 경우가 일반적이기 때문에 모비율이 정의되지 않아 모비율을 다른 방법을 통해 추정해야 한다는 것이다. 


모델 


각각 n_1, n_2 명 존재하는 집단 A, B 에서 어떤 법안에 찬성하는지 여부를 투표를 통해 결정하는 상황을 예로 들어보자. 집단 A, B 에서 사람의 찬성 여부를 각각 확률변수 X, Y 라 할 때 다음과 같이 모델링할 수 있다. 


$$ X \sim Be(p_1) $$

$$ Y \sim Be(p_2) $$ 

 

표본 비율은 아래와 같이 정의된다. 


$$ \tilde p_1 = \frac{\sum^{n_1}_{i=1} X_i}{n_1} $$

$$ \tilde p_2 = \frac{\sum^{n_2}_{i=1} Y_i}{n_2}$$


표본비율은 베르누이 분포의 표본 평균이라고 볼 수 있기 때문에 중심극한 정리에 의해 표본비율은 아래 분포로 근사된다. 


$$ \tilde p_1 \sim N(p_1, p_1(1-p_1)/n_1) $$

$$ \tilde p_2 \sim N(p_2, p_2(1-p_2)/n_2) $$


가설 검정


$$ H_0 : p_1 = p_2 $$

$$ H_1 : p_1 \ne p_2 $$


검정 통계량 


아래 분포를 통해 검정한다. 

$$ \tilde p_1 - \tilde p_2 \sim N(p_1 - p_2, p_1(1-p_1)/n_1 + p_2(1-p_2)/n_2)  $$


검정 통계량은 다음과 같다. 

$$ \frac{(\tilde p_2 - \tilde p_2) - (p_1-p_2)}{\sqrt{p_1(1-p_1)/n_1 + p_2(1-p_2)/n_2}} $$


이 때, p_1-p_2 는 귀무가설 하에서 0이 되는데, 분모의 p_1, p_2는 사라지지 않는다. 이 모비율을 추정하는 방법에 따라 검정통계량은 아래 2가지 정도로 계산해볼 수 있다. 


1. 표본비율을 통해 모비율을 추정 


$$ \frac{(\tilde p_1 - \tilde p_2)}{\sqrt{\tilde p_1(1-\tilde p_1)/n_1 + \tilde p_2(1-\tilde p_2)/n_2}} $$


2. 합동 비율을 추정 


$$ \tilde p = \frac{\sum^{n_1}_{i=1} X_i+ \sum^{n_2}_{i=1} Y_i}{n_1+n_2} $$

$$ \frac{(\tilde p_1 - \tilde p_2)}{\sqrt{\tilde p(1-\tilde p)/n_1 + \tilde p(1-\tilde p)/n_2}} = \frac{(\tilde p_1 - \tilde p_2)}{\sqrt{(1/n_1+1/n_2)\tilde p(1-\tilde p)}} $$


예제


문제: 실험 참여자 (암 환자) 에 대해 대조약 (기존약) 과 시험약을 투약하고, 12개월 간 관찰아혀 사망한 환자의 수를 관찰한다. 이 때, 처리집단이 대조집단에 비해 더 사망자가 적다는 것을 비율의 차이를 검정하는 방법을 통해 확인해보자.  


 

 표본 크기 

사망자 환자 수 

 대조집단

 300  

50 

 처리집단

 200 

20  


$$ n_1 = 300, \tilde p_1 = 1/6 $$

$$ n_2 = 200, \tilde p_2 = 1/10 $$


검정 통계량은 아래와 같다. 


$$ \frac{(\tilde p_1 - \tilde p_2)}{\sqrt{\tilde p_1(1-\tilde p_1)/n_1 + \tilde p_2(1-\tilde p_2)/n_2}} $$

$$ \frac{(1/6 - 1/10)}{\sqrt{1/6(1-1/6)/300 + 1/10(1-1/10)/200}} =  0.0666/0.0302 = 2.205 $$

$$ P(Z > 2.205) = 0.013 $$ 


양측검정을 하기위해 곱하기 2를 해주면 p-value 가 0.026 으로 0.05 보다 작으므로 두 모비율은 다르다고 결론 내릴 수 있다. 마지막으로 R 의 stat 패키지를 통해 구한 p-value 가 손으로 구한 값과 같은지를 확인해보자.


prop.test(n=c(300,200), x=c(50,20), correct=F)


correct option 은 R 의 기본옵션인 연속성 보정을 사용하지 않는다는 것을 의미한다. 


> prop.test(n=c(300,200), x=c(50,20), correct=F)


        2-sample test for equality of proportions without continuity

        correction


data:  c(50, 20) out of c(300, 200)

X-squared = 4.4297, df = 1, p-value = 0.03532

alternative hypothesis: two.sided

95 percent confidence interval:

 0.007445812 0.125887521

sample estimates:

   prop 1    prop 2

0.1666667 0.1000000


이 때, X-squared 값에 root 를 씌우면 Z-score 를 계산할 수 있다. Z-score는 4.4297에 sqrt를 하면, 2.104685 이다. 1. 표본비율을 통해 모비율을 추정 하는 방법을 통해 구한 Z-score 와 다르다는 것을 알 수 있다. 2. 합동 비율을 추정 방법을 통해 Z-score 를 구하면, Z-score 가 2.10468 로 R 의 결과와 같다는 것을 확인할 수 있다. 


(1/6-1/10)/sqrt((1/300+1/200)*0.14*0.86) = 2.10468


R 에서는 합동 비율을 추정하는 방법을 통해 비율의 차이를 검정한다는 것을 확인할 수 있다.