모분산의 추정과 검정
어떤 공장에서 일정 크기의 볼트를 만든다고 해보자. 제조 공정에서 볼트의 지름이 일정해야 품질 기준을 만족할 수 있다. 볼트의 지름이 10mm 여야하는데, 평균적으로는 10mm 이지만, 분산이 존재해 불량품이 일정 부분 존재한다. 이런 상황에서 볼트 지름의 분산을 확인하는 방법으로 모분산에 대한 추론을 할 수 있다.
모분산의 추정에는 카이제곱 분포를 이용한다. 카이제곱분포는 표준정규분포에서 n개의 샘플을 뽑아서 그것들의 제곱을 모두 합한 것을 하나의 확률 변수 Q 로 정의하자. 카이제곱분포는 Q 가 따르는 분포이다. 카이제곱 분포는 하나의 모수 n 을 갖고, 이를 자유도라 한다.
$$ Q = \sum^{n}_{i=1} Z_i $$
$$ Q \sim \chi (n) $$
이 때, 아래와 같은 확률 변수를 정의하자.
$$ X \sim N(\mu, \sigma^2) $$
모분산은 아래 통계량이 자유도가 n-1 인 통계량을 따른다는 것으로부터 추정된다.
$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi(n-1) $$
증명은 아래와 같다.
$$ \sum^{n}_{i=1} \frac{(X_i - \mu)^2}{\sigma^2} = \frac{(n-1)s^2}{\sigma^2} + \frac{(\tilde X-\mu)^2}{\sigma^2/n} $$
$$ \sum^{n}_{i=1} \frac{(X_i - \mu)^2}{\sigma^2} \sim \chi(n) $$
$$ \frac{(\tilde X-\mu)^2}{\sigma^2/n} \sim \chi(1) $$
따라서 chi-square 분포의 additivity 에 의해 아래와 같다.
$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi(n-1) $$
한 가지 유의할점은 모집단 X 가 정규분포를 따라야 이러한 분포가 타당하다는 것이다.
예제
1) 공장에서 볼트의 분산이 1mm 보다 작아야 현재 생산 공정을 유지하기로 했다. n=100 개의 샘플을 고른 후, 표본 분산을 추정했을 때, 1.2mm 가 나왔다면, 모분산이 1mm 보다 크다고 볼 수 있는지 유의수준 0.05 하에서 검정하라
검정 통계량은 아래와 같이 계산된다.
$$ \frac{(99)1.2}{1} = 118.8 $$
$$ Q \sim \chi(99) $$
$$ P (Q > 111.8) = 0.085 $$
p-value 가 0.085로 0.05 보다 크므로 모분산이 1mm 보다 크다고 할 수 없다.
2) 모분산의 95% 신뢰구간을 구하라
모분산의 신뢰구간은 아래와 같은 식으로 구할 수 있다. 아래 신뢰구간은 통계량이 카이제곱 분포를 따른다는 사실을 통해 쉽게 확인할 수 있다.
$$ [\frac{(n-1)s^2}{\chi_{0.025}(n-1)}, \frac{(n-1)s^2}{\chi_{0.975}(n-1)}] $$
이 때, n=100, s^2 = 1.2, chi_0.975 = 73.36, chi_0.025 = 128.422 를 대입하면 신뢰구간은 아래와 같다.
[0.92, 1.61]
이 신뢰구간은 양측 검정을 할 때에도 활용할 수 있다.
참고
http://www.uniwise.co.kr/pdfupload/lecture_upload/R201500241/stlsm_30.pdf
'Data science > Statistics' 카테고리의 다른 글
변수 종류별 시각화 및 검정 방법 (0) | 2019.11.03 |
---|---|
통계적 검정의 종류와 신뢰구간과 가설검정의 관계 (0) | 2019.10.26 |
두 모집단의 모비율의 차이에 대한 검정 (2) | 2019.10.24 |
두 정규분포 모양의 모집단의 모평균의 차이에 대한 검정: Two sample t-test (0) | 2019.10.24 |
중심극한정리를 통한 표본 비율 분포 근사와 모비율의 검정 (0) | 2019.10.24 |