범주형 자료분석 - 맥니마 검정
맥니마 검정은 1947년 Psychometrika 이라는 학술지에 처음 발표된 것으로 미국의 심리학자이자 통계학자인 Quinn McNemar에 의해 만들어졌습니다. 맥니마 검정이 어떤 상황에서 쓰이고 무엇을 검정하기 위한 것인지 알아보겠습니다.
맥니마 검정은 짝지은 명목형 데이터에서 Column과 Row의 marginal probability가 같은지를 검정하는데에 쓰입니다. 2x2 테이블일 때 적용가능한 방법으로, 즉 변수가 2개일 때 쓸 수 있는 방법입니다. '짝지은' 이라는 말은 두 변수의 값이 서로 연관되어있으며, (동일한 사람에 대해 두 번 측정하거나, 부모-자식 처럼 관련있는 사람들에 대해 측정함) 두 변수의 값을 측정할 때 총 n수가 변하지 않았다는 의미로 볼 수 있습니다. 예를 들어 다음의 데이터를 봅시다.
표1
|
After: present |
After: absent |
Row total |
Before: present |
59 (a) |
6 (b) |
65 |
Before: absent |
16 (c) |
80 (d) |
96 |
Column total |
75 |
86 |
161 |
위 데이터의 161명의 환자를 대상으로 약을 처방하기 전의 질병의 상태(present, absent)와 처방한 후의 질병의 상태를 나타내는 집계 데이터입니다. 이 집계 데이터의 row 데이터는 아래와 같이 생겼을 것입니다.
Before |
After |
present |
present |
present |
absent |
.... |
.... |
이러한 모양의 행이 161개인 데이터를 집계한 결과가 위의 2x2테이블인 셈입니다. 짝지었다(paired)는 말은 이 경우에는 동일한 사람에 대해 Before와 After을 측정하였으니 이를 짝지은 데이터라고 할 수 있습니다. 또 Before와 After이 범주형이기 때문에 맥니마 검정은 범주형 자료분석의 범위에 속해있는 것입니다. 만약 Before와 After의 변수의 값이 연속형이라면 paired t-test를 통해 before와 after의 모평균의 차가 0인지를 검정할 수 있습니다.
맥니마 검정에서의 귀무가설과 대립가설은 무엇인가?
맥니마 검정에서 검정하고자하는 것은 marginal probability가 같은지를 검정하는 것입니다. 즉, 식으로 pa + pb = pa + pc , pc + pd = pb + pd 으로 표현할 수 있습니다. (이 때 p(a) = a/(a+b), p(b) = b/(b+c) ... 입니다. ) 식을 정리하면 결국, 귀무가설은 pb = pc가 됩니다. 이 귀무가설을 말로 표현해보면 "전체에서 Before:present의 비율과, After:present의 비율이 같은가?" 또한 "Before:absent와 After:present의 비율이 같은가?" 로 표현할 수 있습니다. 공교롭게도 이것은 하나의 식으로 표현가능합니다. 바로 pb = pc 이죠. 이 케이스에서는 약 처방 후 환자의 상태가 유의하게 변했는가? 라고 표현할 수도 있습니다.
귀무가설과 대립가설
검정통계량
맥니마 검정의서의 귀무가설과 대립가설, 검정통계량은 위와 같습니다. 이해를 돕기 위해 극단적인 케이스를 살펴보겠습니다.
표2
|
After: present |
After: absent |
Row total |
Before: present |
65 |
0 |
65 |
Before: absent |
0 |
96 |
96 |
Column total |
65 |
96 |
161 |
데이터가 이렇게 생겼다고 해봅시다. 이 경우에 환자는 약의 처방과 관계 없이 이전과 이후의 상태가 완벽하게 같습니다. 따라서 Pb와 Pc의 추정량이 같으며, 검정통계량은 0이 됩니다. p-value를 계산하면 1이되며, 귀무가설을 기각할 수 없게됩니다.
표1
|
After: present |
After: absent |
Row total |
Before: present |
59 (a) |
6 (b) |
65 |
Before: absent |
16 (c) |
80 (d) |
96 |
Column total |
75 |
86 |
161 |
다시 원래의 표로 돌아가 검정 통계량을 계산해보겠습니다. b=6, c=16이므로 검정통계량은 100/22 = 4.55입니다. p-value는 카이제곱분포에서 4.55이상의 값을 관측할 확률이므로 0.033으로 계산할 수 있습니다. 따라서 marginal probability가 같다는 귀무가설을 기각할 수 있습니다.
참고
http://www.statisticssolutions.com/non-parametric-analysis-mcnemars-test/
'Data science > Statistics' 카테고리의 다른 글
False Discovery Rate(FDR)이란? (5) | 2018.01.25 |
---|---|
PBC(primary biliary cirrhosis) 데이터를 통한 생존분석 (0) | 2017.11.25 |
범주형 자료분석 - 코크란-멘텔-헨젤 추정량(Cochran-Mantel-Haenszel Estimates) (0) | 2017.11.16 |
심슨의 역설과 혼란 변수 (0) | 2017.11.16 |
생태학적 오류 (Ecological Fallacy) (0) | 2017.10.17 |