쉽게 이해하는 민감도, 특이도, False Positive, False Negative, 양성예측도
민감도 (Sensitivity), 특이도(Specificity), 양성 예측도(Positive Predictive Value, PPV) 는 바로 무언가를 예측하는 상황에서 쓰이는 통계적인 지표입니다. 이 지표들이 가장 많이 쓰이는 곳이 바로 검진(Diagnostic)인데요.
우선 검진의 정의에 대해서 명확히 짚고 넘어가보겠습니다. 검진이란 "건강 상태와 질병의 유무를 알아보기 위하여 증상이나 상태를 살피는 일" 입니다. 이처럼 검진은 그 사람의 병의 유무를 알기 위해 일종의 검사를 하여 병의 유무를 예측하는 것입니다. 중요한 건, 검진은 실제와 다를 수 있다는 것입니다.
예를 들어, 폐암 검진을 위해 흉부를 X-ray로 촬영한다고 해봅시다. X-ray는 저비용으로 폐암 여부를 알아보는 효과적인 방법입니다. 하지만 문제는 X-ray 결과로 그 사람의 폐암 여부가 결정이 나는 것이 아니라는 것입니다. X-ray에서 폐암이 의심이 가는 경우, MRI, CT 등의 더 정밀한 검사를 통해 폐암의 실제 여부를 결정하게 됩니다.
이 때, X-ray가 "폐암 여부를 정확하게 가려내는 정도" 를 수치화할 수 있겠죠. 이렇게 수치화하는 지표 중에 유명한 것이 바로 민감도, 특이도, 양성 예측도입니다. 이를 이해하기 쉽게 설명하기 위해 다음과 같은 표로 많이 설명합니다.
폐암 X-ray 검진 예제
|
폐암 O |
폐암 X |
|
X-Ray 양성 |
90 |
100 |
190 |
X-Ray 음성 |
10 |
800 |
810 |
|
100 |
900 |
1000 |
총 1000명이 X-ray 검사를 받았고, 이 중에 폐암환자는 10%인 100명, 비환자는 90% 입니다. 폐암환자 100명 중 90명이 X-ray 양성 판정을 받았고, 비환자 900명중 800명이 X-ray 음성 판정을 받았습니다. X-ray가 꽤 잘 맞춘 것이죠.
이 때, 폐암환자 중 양성 판정을 받은 사람의 비율을 민감도,
비환자 중 음성 판정을 받은 사람의 비율을 특이도라고 합니다.
이 예에서, 민감도는 90/100 = 0.9, 특이도는 800/900 = 0.89 입니다. 이 때 1-0.9=0.1 = False Negative Rate, 1-0.89 = False Positive Rate 라고 합니다.
즉, False Negative는 환자인데 검진에서 가려내지 못한 사람의 수, False Positive는 정상인인데 검진에서 환자로 판단한 사람의 수입니다. Rate가 붙으면 분모로 나누어 0과 1 사이의 값으로 나타내게 되는 것입니다. 민감도, 특이도, False Negative, False Positive는 이렇게 세트로 묶어서 이해할 수 있습니다.
그렇다면 양성 예측도, 음성예측도는 무엇일까요?
민감도와 특이도는 검진을 받은 "사람"의 관점에서 그 기기의 검진의 정확도를 판단한 것입니다. 반면, 양성 예측도, 혹은 음성 예측도의 경우 "기기의 관점"에서 검진의 정확도를 판단하게 됩니다. X-ray가 양성이라고 판단했을 때, 실제 폐암 환자일 확률은 90/190 = 0.47 입니다. 바로 이것을 양성 예측도라고 합니다. 반대로, X-ray가 음성이라고 판단했을 때, 진짜 정상인일 확률은 음성 예측도라고 하며, 800/810=0.98 입니다.
문제는 양성 예측도가 왜이렇게 작게 나왔는가? 하는 것입니다. 양성 예측도는 민감도(0.9)와 특이도(0.89)처럼 그 값이 크지 않다는 것을 확인할 수 있습니다. 관찰력이 좋으신 분들은 직감으로 이걸 이해할 수 있으실 것입니다. 문제는 바로 "데이터의 불균형" 때문인데요. 비환자 900명중에 단지 100명만이 X-ray 양성으로 잘못 판단되었지만 (False Positive) 상대적으로 비환자가 1:9로 많기 때문에 그 값이 상대적으로 크게 잡혔다는 것을 볼 수 있습니다.
이를 식으로 살펴보면, 양성 예측도 = 90 / 190 = 90 / 90+100 으로 풀어쓸 수 있겠죠. 이 때, 비환자가 환자와 마찬가지로 100명이었다면 90/90+100/9 = 약 0.9가 되었어야합니다. 하지만, 비환자가 환자에 비해 상대적으로 많기 때문에 False Positive가 많아져서 양성 예측도가 적게 나왔다는 것을 이해할 수 있습니다.
이를 두고, 양성 예측도는 유병률이 작을 수록 작다. 라고 표현합니다. 이 예제에서 폐암 유병률은 0.1이겠죠. 이 값이 작으면 작을 수록 False Positive에 의해 양성 예측도, PPV 는 작아지게 됩니다. 이를 보통 아래 식을 통해서 이해를 하게 되는데요.
이 식은 위 테이블에서 변수를 놓고 방정식을 풀면 나오게 됩니다. (시간이 되시는 분들은 직접 손으로 풀어보시면 나옵니다.) 이 식을 보면, 분모는 검진의 양성 판단 횟수이며, 분자는 환자를 양성으로 판단한 횟수임을 알 수 있습니다.
근데, sensitivity*prevalance는 분모, 분자에 같이 있으므로, (1-specificity)*(1-prevalence)가 실제 PPV 값에 영향을 주게 되겠죠. specificity가 고정되어있을 경우, prevalence, 유병률이 작아질 수록 분모가 커져 PPV 값은 작아진다는 것을 쉽게 알 수 있습니다.
민감도, 특이도, 양성 예측도 중 어떤 지표로 검진 기기를 판단해야 할까요?
명확하게 무엇이 절대적인 기준이라는 것은 없습니다. 다만, 민감도의 경우 환자의 생명과 직접적인 관련이 있을 수 있습니다. 민감도가 낮은 검진의 경우, False Negative(환자인데 정상으로 판단)가 많아지게 되겠죠. 환자인데 정상으로 판단하여 적절한 치료를 받지 못하면, 환자의 생명에 지장이 있을 수도 있습니다. 이것이 많은 사람들이 민감도를 중요시하는 이유입니다. 반면, 특이도의 경우 불필요한 비용의 낭비와 관련이 있습니다. 특이도가 낮으면, False Positive(정상인데 환자로 판단)가 많아지게 되겠죠. 정상인이 환자로 판단되면, 환자가 불안감에 시달리거나, 불필요한 정밀한 추가검사를 받아 환자가 아니라는 것을 밝혀야합니다. 따라서 불필요한 손실이 일어나게 됩니다. 하지만 민감도와 특이도는 현실적인 관점에서 trade off의 관계에 있습니다. 민감도를 높이면 특이도는 보통 낮아지게 되죠. 따라서 적절한 수준에서 검진의 민감도와 특이도를 설정할 필요가 있습니다. 양성 예측도의 경우 유병률이 매우 낮은 질병에서는 높은 것을 기대하기가 힘듭니다. 위 식에서 봤듯이 유병률이 매우 낮으면, 데이터의 불균형으로 인해 False positive가 많아지고 양성 예측도는 낮아지게 됩니다. 이를 방지하기 위해서는 검진의 특이도를 매우 높여야하는데, 현실적으로 민감도를 포기할 수 없기 때문에 양성 예측도는 유병률이 낮은 질병에서 보통 낮은 경향이 있습니다.
'Data science > Statistics' 카테고리의 다른 글
로지스틱 회귀분석의 원리와 장점 (0) | 2018.08.30 |
---|---|
Matching 데이터와 Conditional Logistic Regression (0) | 2018.08.13 |
Nested case-control study와 Retrospective cohort study (0) | 2018.04.23 |
역학 연구에서의 스터디 디자인 (0) | 2018.01.30 |
False Discovery Rate(FDR)이란? (5) | 2018.01.25 |