Data science/Statistics
범주형 자료분석 - 코크란-멘텔-헨젤 추정량(Cochran-Mantel-Haenszel Estimates)
2017. 11. 16. 05:02
범주형 자료에서 RR, OR을 구할 때, 혼란 변수를 보정하는 한 가지 방법 - 코크란 멘텔 헨젤 방법
앞서 혼란변수가 변수간의 관계를 추론할 때 어떠한 문제를 일으키는 지 알아보았습니다. (http://3months.tistory.com/228) 이러한 혼란 변수는 다양한 방법으로 보정할 수 있습니다. 이번 포스팅에서는 2x2 테이블에서 Relative Risk와 Odds Ratio를 구할 때, 혼란 변수를 보정하여 구하는 방법인 코크란 멘텔 헨젤 방법에 대해 알아보겠습니다.
|
CVD |
No CVD |
Total |
Obese |
46 |
254 |
300 |
Not Obese |
60 |
640 |
700 |
Total |
106 |
894 |
1000 |
OR = Odds(Obes)/Odds(Not Obese) = (46/254) / (60/640) = 1.93
나이가 혼란변수로 의심되 나이에 따라 Stratification 합니다.
Age < 50
|
CVD |
No CVD |
Total |
Obese |
10 |
90 |
100 |
Not Obese |
35 |
465 |
500 |
Total |
45 |
555 |
600 |
Age >= 50
|
CVD |
No CVD |
Total |
Obese |
36 |
164 |
200 |
Not Obese |
25 |
175 |
200 |
Total |
61 |
339 |
400 |
Age < 50 : OR = (10/90) / (35/465) = 1.476
Age >= 50 : OR = (36/164) / (25/175) = 1.53
Stratification 후에 각각 계산된 OR 값을 통해 혼란 변수로 인해 OR 값이 과추정 되었음을 알 수 있습니다. 이를 감안하여 두 OR 값을 합치기 위한 방법이 바로 코크란-멘텔-헨젤 방법을 통해 공통 OR을 구하는 것입니다.
RR과 OR에 대한 코크란-멘텔-헨젤 추정량은 위와 같습니다. 위 공식에 넣어 공통 OR을 계산하면 1.52를 얻을 수 있습니다.
위에서는 나이 50살을 기준으로해서 단지 2개의 그룹으로 나누었습니다. 하지만 이 기준은 모호하고, 그룹을 세분화하지 않았기 때문에 아직 confounding effect가 남아있을 수 있습니다. 이를 더욱 제거하기위해 아래와 같이 더 세분화하여 그룹을 나눌 수도 있습니다. 이 경우에도 마찬가지로 코크란-멘텔-헨젤 방법의 공식을 통해 공통 OR, RR을 구할 수 있습니다.
또한 혼란 변수가 보정 된 코크란 멘텔 헨젤 추정량을 얻기 전 OR 또는 RR에 대한 동질성 검정(homogeneity test)을 실행하는 것도 좋습니다. 위 경우에는 두 그룹의 OR 값이 비슷했기에 이를 합쳐 공통 OR을 구하는 것이 합리적인 방법이였지만, 만약 두 그룹의 OR의 차이가 많이 난다면, 따로따로 관계를 해석하는 것이 바람직할 것입니다. 이를 테스트하기위해 사용하는 한가지 방법이 breslow-day test입니다. 이 검정의 p-value가 작으면, 두 그룹의 OR 값이 유의하게 다른것이며, 이 경우에는 코크란 멘텔 헨젤 추정량을 이용하기보다 그룹별로 따로 구한 OR을 각각 해석하는 것이 좋습니다.
참고
'Data science > Statistics' 카테고리의 다른 글
PBC(primary biliary cirrhosis) 데이터를 통한 생존분석 (0) | 2017.11.25 |
---|---|
범주형 자료분석 - 맥니마 검정(McNemar Test) (4) | 2017.11.16 |
심슨의 역설과 혼란 변수 (0) | 2017.11.16 |
생태학적 오류 (Ecological Fallacy) (0) | 2017.10.17 |
임상실험(RCT)에서 나타날 수 있는 Bias (0) | 2017.06.14 |