모분산의 추정과 검정


어떤 공장에서 일정 크기의 볼트를 만든다고 해보자. 제조 공정에서 볼트의 지름이 일정해야 품질 기준을 만족할 수 있다. 볼트의 지름이 10mm 여야하는데, 평균적으로는 10mm 이지만, 분산이 존재해  불량품이 일정 부분 존재한다. 이런 상황에서 볼트 지름의 분산을 확인하는 방법으로 모분산에 대한 추론을 할 수 있다. 


모분산의 추정에는 카이제곱 분포를 이용한다. 카이제곱분포는 표준정규분포에서 n개의 샘플을 뽑아서 그것들의 제곱을 모두 합한 것을 하나의 확률 변수 Q 로 정의하자. 카이제곱분포는 Q 가 따르는 분포이다. 카이제곱 분포는 하나의 모수 n 을 갖고, 이를 자유도라 한다.


$$ Q = \sum^{n}_{i=1} Z_i $$

$$ Q \sim \chi (n) $$


이 때,  아래와 같은 확률 변수를 정의하자. 


$$ X \sim N(\mu, \sigma^2) $$


모분산은 아래 통계량이 자유도가 n-1 인 통계량을 따른다는 것으로부터 추정된다. 


$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi(n-1) $$


증명은 아래와 같다. 


$$ \sum^{n}_{i=1} \frac{(X_i - \mu)^2}{\sigma^2} = \frac{(n-1)s^2}{\sigma^2} + \frac{(\tilde X-\mu)^2}{\sigma^2/n} $$

$$ \sum^{n}_{i=1} \frac{(X_i - \mu)^2}{\sigma^2} \sim \chi(n) $$

$$ \frac{(\tilde X-\mu)^2}{\sigma^2/n} \sim \chi(1) $$


따라서 chi-square 분포의 additivity 에 의해 아래와 같다. 


$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi(n-1) $$ 


한 가지 유의할점은 모집단 X 가 정규분포를 따라야 이러한 분포가 타당하다는 것이다. 


예제 


1) 공장에서 볼트의 분산이 1mm 보다 작아야 현재 생산 공정을 유지하기로 했다. n=100 개의 샘플을 고른 후, 표본 분산을 추정했을 때, 1.2mm 가 나왔다면, 모분산이 1mm 보다 크다고 볼 수 있는지 유의수준 0.05 하에서 검정하라  


검정 통계량은 아래와 같이 계산된다.


$$ \frac{(99)1.2}{1} = 111.8 $$

$$ Q \sim \chi(99) $$

$$ P (Q > 111.8) = 0.178 $$


p-value 가 0.178로 0.05 보다 크므로 모분산이 1mm 보다 크다고 할 수 없다. 


2) 모분산의 95% 신뢰구간을 구하라


모분산의 신뢰구간은 아래와 같은 식으로 구할 수 있다. 아래 신뢰구간은 통계량이 카이제곱 분포를 따른다는 사실을 통해 쉽게 확인할 수 있다. 


$$ [\frac{(n-1)s^2}{\chi_{0.025}(n-1)}, \frac{(n-1)s^2}{\chi_{0.975}(n-1)}] $$


이 때, n=100, s^2 = 1.2, chi_0.975 = 73.36, chi_0.025 = 128.422 를 대입하면 신뢰구간은 아래와 같다.


[0.92, 1.61] 


이 신뢰구간은 양측 검정을 할 때에도 활용할 수 있다. 


참고

http://www.uniwise.co.kr/pdfupload/lecture_upload/R201500241/stlsm_30.pdf