벅슨의 역설 (Berkson's Paradox)
벅슨의 역설은 병원 기반 데이터로 case-control 연구를 할 때 발생하는 현상으로 1946년 Joseph Berkson이 보고한 역설입니다.
벅슨의 역설이 생기는 이유
A와 B 둘다 있는 사람이나, A와 B 둘다 없는 사람이 연구 대상에서 제외되었을 때, A-B 간의 가짜 관계가 생깁니다. 벅슨의 역설을 병원 기반 데이터로 보여줄 때는 주로, A, B 둘다 없는 사람이 연구 대상에서 제외되었기 때문에 발생합니다.
간단한 예
이 예를 통해 전혀 상관 없어보이는 두 가지 질병, 인플루엔자와 맹장염의 가짜 연관성(spurious association)이 어떻게 생기는지를 보입니다. (이미지 출처)
우선, 병원에 입원한 환자가 100명이라고 했을 때 다음과 같이 가정합니다.
1. 전체 인구집단에서 인플루엔자의 유병률은 10% 이다.
2. 병원에 온 사람 중 인플루엔자로 입원한 사람은 30%이다.
3. 병원에 온 사람 중 맹장염으로 입원한 사람은 10%이다.
4. 인플루엔자와 맹장염은 독립적이다. 즉, 맹장염으로 입원한 사람중 10%가 인플루엔자를 가졌다고 가정. (맹장염의 유병률이 매우 낮다고 가정)
(파란색=인플루엔자, 빨간색=맹장염, 검은색=기타, 빨간색+파란색=인플루엔자, 맹장염을 동시에 가진 사람)
이 상황에서 인플루엔자 따른 맹장염의 발생 양상을 파악하기 위해, 인플루엔자를 가진사람과 안 가진 사람으로 나뉘어 맹장염에 걸린 사람을 나눠봅니다. 총 30명의 인플루엔자를 가진 사람 중 1명이 맹장염에 걸렸습니다. 총 70명의 인플루엔자를 안 가진 사람중 9명이 맹장염에 걸렸습니다.
위 노란박스는 70명의 인플루엔자를 안 가진 사람 중 9명이 맹장염에 걸린 상황을 나타냅니다.
이 때, 인플루엔자를 기준으로 한 맹장염의 상대위험도는 (1/30)/(9/70) = 0.004 로 인플루엔자가 맹장염에 보호적인 효과가 있는 것으로 나옵니다. 이 때, 이런 가짜 연관성이 생긴 이유는 병원 데이터의 특성 때문입니다. 즉, 인플루엔자와 맹장염이 둘 다 없는 사람이 일반 인구집단과 비교하여 더 적기 때문에, 인플루엔자가 없는 사람 중 맹장염에 걸린 사람이 9/70 = 12% 로 과추정되었습니다.
참고
'Data science > Statistics' 카테고리의 다른 글
생존분석 - 생존분석의 목적과 생존함수, 위험함수의 정의 (0) | 2018.11.01 |
---|---|
고급통계 - case/control 연구 디자인에서 샘플 수를 계산하는 방법 (0) | 2018.10.09 |
로지스틱 회귀분석의 원리와 장점 (0) | 2018.08.30 |
Matching 데이터와 Conditional Logistic Regression (0) | 2018.08.13 |
쉽게 이해하는 민감도, 특이도, 양성예측도 (12) | 2018.08.08 |