심슨의 역설(Simpon's Paradox)
심슨의 역설로 유명한 영국 통계학자 에드워드 심슨(1922~)
통계학에서의 심슨의 역설이란 그룹을 나누어서 봤을 때는 나타나는 경향이 그룹을 합쳤을 때는 사라지거나 오히려 경향이 역전되는 것을 말합니다. 이는 경향이 역전된다니 그것이 무슨 말일까요?
예를 들어, 신장 결석을 치료하는 두 가지 수술 방법이 있다고 해봅시다. 수술방법 A는 가격이 비싼 대신 치료 성공률이 높습니다. 하지만 가격이 비싸 기 때문에 결석이 큰 중증 환자만 수술방법 A를 택합니다. 반면, 수술 방법 B는 가격이 싸서 비교적 증상이 약하고 결석의 크기가 작은 환자들이 많이 하는 수술방법입니다. 하지만 가격이 싼 만큼 A에 비해서는 치료 성공률도 낮습니다. 이 때, 신장 결석의 크기 별로 수술방법 A와 수술방법B의 치료율을 알아보겠습니다.
작은 결석
|
수술방법 A |
수술방법B |
치료 |
81 |
234 |
미치료 |
6 |
46 |
|
87 |
270 |
수술방법 A의 치료율 = 81/87 = 93%
수술방법 B의 치료율 = 234/270 = 87%
큰 결석
|
수술방법 A |
수술방법B |
치료 |
192 |
55 |
미치료 |
71 |
25 |
|
263 |
80 |
수술방법 A의 치료율 = 192/263 = 73%
수술방법 B의 치료율 = 55/80 = 69%
결과를 보면 작은결석과 큰 결석 모두에서 수술방법 A의 치료율이 조금씩 높습니다. 그러므로 결론적으로 수술방법 A의 치료율이 높습니다.
작은 결석 + 큰결석
|
수술방법 A |
수술방법B |
치료 |
273 |
289 |
미치료 |
77 |
61 |
|
350 |
350 |
수술방법 A의 치료율 = 273/350 = 78%
수술방법 B의 치료율 = 289/350 = 83%
하지만 결석의 크기에 따라 치료율을 알아보지 않고 합쳐서 봤을 때는 어떨까요? 이 때, 수술방법 A의 치료 성공률은 273/350 = 0.78, 수술방법 B의 치료 성공률은 289/350 = 0.83입니다. 합치고 보니 오히려 수술방법 B가 더 좋은 것입니다. 이처럼 그룹(결석)을 나누었을 때, 보였던 경향(수술방법A의 치료율이 더 좋다)이 그룹을 합쳤을 때는 오히려 역전(수술방법 B의 치료율이 더 좋다)되는 것을 심슨의 역설이라고 합니다.
그렇다면 왜 이런 현상이 나타날 것일까요? 바로 수술을 받는 환자들의 결석 크기의 분포가 다르기 때문입니다. 서두에도 말했든 수술방법 A는 중증 환자가 받는 수술이기 때문에 큰 결석을 갖고 있는 환자가 많이 받았고, 수술 방법 B는 작은 결석 환자가 많이 받았습니다. 그래서 수술방법 A는 대부분 치료가 어려운 환자를 상대했기 때문에 치료율이 낮을 수 밖에 없는 것입니다.
이를 변수를 도입하여 모델링 해봅시다. 수술방법을 X1, 결석 크기를 X2, 치료 여부를 Y라고 놓아봅시다. 우리가 알고 싶은 것은 X1과 Y의 관계입니다. 하지만 X2는 X1과 Y에 모두 영향을 주면서, (즉 X2<->X1과 X2<->Y가 독립이 아닙니다.) X1와 Y의 인과관계 판단에 영향을 줍니다. 이러한 변수 X2를 우리는 혼란변수(confounding variable)이라고 합니다.
심슨의 역설은 데이터를 해석할 때는 주의를 기울여야 한다는 교훈을 주었습니다. 왜냐하면 이 경우에는 작은 결석과 큰 결석으로 나눈 데이터를 먼저 보았기 때문에 이러한 결론을 내릴 수 있지만, 실제로 우리가 보는 데이터가 그룹별로 나뉘어진 데이터가 아닐 수도 있기 때문입니다. 그럴 경우에 우리는 '수술방법 B가 더 낫다' 라는 잘못된 결론을 내릴 수도 있습니다. 따라서 데이터를 해석하고 그 안에 숨겨진 인과관계를 추론할 때는 이러한 혼란 변수를 반드시 고려하여 결론을 내려야 합니다.
참고
'Data science > Statistics' 카테고리의 다른 글
범주형 자료분석 - 맥니마 검정(McNemar Test) (4) | 2017.11.16 |
---|---|
범주형 자료분석 - 코크란-멘텔-헨젤 추정량(Cochran-Mantel-Haenszel Estimates) (0) | 2017.11.16 |
생태학적 오류 (Ecological Fallacy) (0) | 2017.10.17 |
임상실험(RCT)에서 나타날 수 있는 Bias (0) | 2017.06.14 |
적합도 검정 비교 (카이제곱 검정, K-S 검정) (0) | 2017.06.12 |