모분산의 추정과 검정
어떤 공장에서 일정 크기의 볼트를 만든다고 해보자. 제조 공정에서 볼트의 지름이 일정해야 품질 기준을 만족할 수 있다. 볼트의 지름이 10mm 여야하는데, 평균적으로는 10mm 이지만, 분산이 존재해 불량품이 일정 부분 존재한다. 이런 상황에서 볼트 지름의 분산을 확인하는 방법으로 모분산에 대한 추론을 할 수 있다.
모분산의 추정에는 카이제곱 분포를 이용한다. 카이제곱분포는 표준정규분포에서 n개의 샘플을 뽑아서 그것들의 제곱을 모두 합한 것을 하나의 확률 변수 Q 로 정의하자. 카이제곱분포는 Q 가 따르는 분포이다. 카이제곱 분포는 하나의 모수 n 을 갖고, 이를 자유도라 한다.
Q=n∑i=1Zi
Q∼χ(n)
이 때, 아래와 같은 확률 변수를 정의하자.
X∼N(μ,σ2)
모분산은 아래 통계량이 자유도가 n-1 인 통계량을 따른다는 것으로부터 추정된다.
(n−1)s2σ2∼χ(n−1)
증명은 아래와 같다.
n∑i=1(Xi−μ)2σ2=(n−1)s2σ2+(˜X−μ)2σ2/n
n∑i=1(Xi−μ)2σ2∼χ(n)
(˜X−μ)2σ2/n∼χ(1)
따라서 chi-square 분포의 additivity 에 의해 아래와 같다.
(n−1)s2σ2∼χ(n−1)
한 가지 유의할점은 모집단 X 가 정규분포를 따라야 이러한 분포가 타당하다는 것이다.
예제
1) 공장에서 볼트의 분산이 1mm 보다 작아야 현재 생산 공정을 유지하기로 했다. n=100 개의 샘플을 고른 후, 표본 분산을 추정했을 때, 1.2mm 가 나왔다면, 모분산이 1mm 보다 크다고 볼 수 있는지 유의수준 0.05 하에서 검정하라
검정 통계량은 아래와 같이 계산된다.
(99)1.21=118.8
Q∼χ(99)
P(Q>111.8)=0.085
p-value 가 0.085로 0.05 보다 크므로 모분산이 1mm 보다 크다고 할 수 없다.
2) 모분산의 95% 신뢰구간을 구하라
모분산의 신뢰구간은 아래와 같은 식으로 구할 수 있다. 아래 신뢰구간은 통계량이 카이제곱 분포를 따른다는 사실을 통해 쉽게 확인할 수 있다.
[(n−1)s2χ0.025(n−1),(n−1)s2χ0.975(n−1)]
이 때, n=100, s^2 = 1.2, chi_0.975 = 73.36, chi_0.025 = 128.422 를 대입하면 신뢰구간은 아래와 같다.
[0.92, 1.61]
이 신뢰구간은 양측 검정을 할 때에도 활용할 수 있다.
참고
http://www.uniwise.co.kr/pdfupload/lecture_upload/R201500241/stlsm_30.pdf
'Data science > Statistics' 카테고리의 다른 글
변수 종류별 시각화 및 검정 방법 (0) | 2019.11.03 |
---|---|
통계적 검정의 종류와 신뢰구간과 가설검정의 관계 (0) | 2019.10.26 |
두 모집단의 모비율의 차이에 대한 검정 (2) | 2019.10.24 |
두 정규분포 모양의 모집단의 모평균의 차이에 대한 검정: Two sample t-test (0) | 2019.10.24 |
중심극한정리를 통한 표본 비율 분포 근사와 모비율의 검정 (0) | 2019.10.24 |