CMH 검정과 통계량 계산 방법
범주형 자료 분석에서 코크란-멘텔-헨젤(Cochran-Mantel-Haenszel) 검정의 목표는 Z 가 주어질 때, X와 Y가 조건부 독립인지를 검정하는 것이다. 즉, Z를 고려했을 때, X-Y의 연관성이 존재하는지를 판단하는 검정이라고 할 수 있다. 이는 인과추론에서 말하는 X,Y가 조건부 독립 (conditional independence) 인지를 확인하는 검정이라고 할 수 있다. 보통 Z는 confounder 로 설정하는 경우가 많다. 만약, conditional independence 가 아니라고 한다면, Z 를 고려함에도 X-Y 연관성이 존재하는 것이고, 이는 X,Y 의 인과성에 대해 조금 더 근거를 더해준다고 할 수 있다. CMH 검정은 2 X 2 X K 표에 대해서 활용할 수 있다. (K 는 Z의 수준 개수)
그룹 i 에서의 흡연과 폐암의 연관성
폐암X | 폐암O | |
흡연X | a | b |
흡연O | c | d |
주요 지표
n = a+b+c+d
p1 = (a+b)/n (흡연X 비율)
p2 = (a+c)/n (폐암X 비율)
m = n*p1*p2
CMH 통계량의 계산
그룹 i 에서의 CMH 통계량은 아래와 같다.
$$ \frac{(a-m)^2}{m(1-p_1)(1-p_2)} $$
최종적인 CMH 통계량은 모든 그룹 i에서 위 값을 다 구해서 더한 것이다. 이 값은 자유도가 1인 카이제곱분포를 따른다는 것을 이용해 검정한다. 만약, 충분히 이 값이 큰 경우 그룹을 고려했을 때, 흡연과 폐암에 연관성이 있다고 결론을 낼 수 있다.
위 수식에서 a-m 은 관측값에서 기대값 (평균) 을 빼준 것이고, 분모는 a의 분산을 의미한다. 이 분산은 초기하분포의 분산이다. 즉, cmh 통계량에서는 a가 초기하분포를 따른다고 가정한다. 즉, 수식은 a 에서 평균을 빼주고 표준편차로 나눈 값에 제곱이라고 할 수 있다.
MH 공통 오즈비
그룹1
X | O | |
X | 10 | 20 |
O | 30 | 40 |
=> OR = 10*40 / 20*30 = 2/3
그룹2
X | O | |
X | 4 | 1 |
O | 1 | 4 |
=> OR = 4*4 = 16
1) 두 그룹의 공통 오즈비를 구하는 방법에는 단순히 두 그룹의 오즈비의 평균을 구하는 방법이 있을 수 있다. 이 경우 그룹2의 샘플수가 적음에도 불구하고 평균 오즈비는 8에 가깝게 높게 나온다.
2) a*d 의 값을 모두 더한 값을 b*c 를 모두 더한 값으로 나누어주는 방법이 있다. 이러면 (10*40 + 4*4) / (20*30+1) = 0.69 가 나오게 된다. 이 값은 샘플수가 많은 그룹의 값으로 지나치게 치우친다.
3) MH 공통 오즈비는 중도적인 방법으로 두 방법의 단점을 보완한다. 2) 방법에서 샘플수의 역수로 가중치를 줌으로써, 샘플수가 많은 그룹이 계산에 미치는 영향력을 의도적으로 줄여준다.
(10*40/100 + 4*4/10) / (20*30/100 + 1/10) = 0.91
즉, MH 공통 오즈비를 사용하면, 지나치게 그룹1에 치우치지 않으면서 적당한 공통 오즈비가 추정된다. 또한, 로그 MH 공통 오즈비의 분산을 계산할 수 있기 때문에, 공통 오즈비의 신뢰구간 및 오즈비가 유의미한지를 추론할 수 있다는 장점이 있따.
예를 들어, 공통 오즈비가 0.91인 경우 로그 공통 오즈비는 -0.094이다. 그리고, 로그 공통 오즈비의 표준편차를 예를 들어 0.02라고 하자. 그러면 공통 오즈비의 95% 신뢰구간은 아래와 같이 계산된다.
[exp(-0.094-1.96*0.02), exp(-0.094+1.96*0.02) ] = [0.88, 0.95]
'Data science > Statistics' 카테고리의 다른 글
일반화 선형 모형의 개념 및 회귀 계수의 의미 (0) | 2024.05.07 |
---|---|
선택 편항과 Collider bias 에 대한 설명 (0) | 2024.05.07 |
범주형 분석 - 교차표에서 효과를 추정하는 방법 (0) | 2024.03.30 |
omitted variable bias 의 방향을 알 수 있는 팁 (0) | 2024.03.05 |
충분 통계량의 기초 개념 (0) | 2023.12.12 |