딥러닝을 통한 5년 뒤 유방암 발생 예측

A Deep Learning Mammography-based Model for Improved Breast Cancer Risk Prediction



딥러닝의 응용분야 중 대표적인 분야가 바로 Computer-aided diagnosis (CAD) 라고 하는 자동 진단 분야일 것이다. 대표적인 예로는 구글의 당뇨병 망막증 진단 시스템을 들 수 있다. 딥러닝을 통한 진단 시스템이 하는 일은 의료 영상에서 병변이 발생한 부위를 찾고 질병이 있는지 없는지를 판단하는 것인데, 핵심은 사람이 이미 하고 있는 것을 딥러닝에게 시켜서 사람과 동일한 수준, 혹은 '조금 더 높은 수준' 을 얻고자 하는 것이다. 


하지만 이 논문에서 구현한 딥러닝 모델은 진단을 넘어 미래에 유방암이 발생할지 안할지를 예측하는 모델이다. 미래 유방암 발생 예측이 진단 시스템과 다른 점은 사람이 아직까지 사람이 하기 힘든 분야, 즉 정확도가 높지 않은 분야라는 것이다. 영상의학전문의는 의료 영상을 보고 현재 병 여부에 대해 진단할 수는 있지만, 미래에 유방암이 발생할 확률이 높은지 낮은지에 대해서 판단하는 것은 상대적으로 매우 힘들다고 할 수 있다. 


지금까지 유방암의 위험도 예측에 있어서 임상 정보, 예를 들어, BMI, 나이, 가족력, 과거력, 호르몬 치료 여부, 폐경 나이, 첫출산 나이 등을 통해 미래의 유방암이 발생할 확률이 어느정도일 것이다를 예측하고, 고위험군에 속하는 사람들에게 주의를 주는 식으로 예방이 이루어졌다. 이 논문의 내용은 이러한 임상정보 기반 유방암 예측에 비해 유방 영상 기반의 위험도 평가가 더 정확하다는 것이다. 


데이터 수집


이 논문에서는 2009년 1월 -  2012년 12월 31일에 수집된 60886 명의 환자 (134924 개의 검진자료)에 대해서 연구가 수행되었다. 이 환자들 중, 5년 안에 유방암 (ductal carcinoma in situ or invasive breast carcinoma) 이 발생한 환자를 case 로, 또한 최소 5년 이상 follow-up 이 되었고, 5년 안에 유방암이 발생하지 않은 환자를 control 로 정의하였다. 


데이터 분할 및 분포


위 기준에 맞는 총 39558 명 (89112 개 검진자료) 을 트레이닝 셋 31,806 명, 검증 셋 3,804 명, 테스트셋 3,978 명으로 7:1.5:1.5  의 비율로 나누었다.


이미지 전처리


의영상 데이터 포맷은 Dicom 포맷이 주로 활용된다. Python 에서는 Dicom 포맷을 다룰 수 있는 패키지로는 pydicom 패키지가 많이 사용되는데, 이 논문에서는 DCMTK 이라는 프로그램을 통해 이미지 전처리를 수행했다. Dicom 파일을 PNG16 형태로 바꾸는 작업을 수행하였는데, 이 때 PNG16은 각 픽셀을 최대 16bit 로 나타내는 방법을 의미한다. 즉, gray-scale 이미지로서 각 픽셀이 0~65535 의 값을 갖는 이미지의 형태이다. 


위험도 예측 모형


이 논문에서는 총 4개의 유방암 위험도 예측 모형을 구축한 뒤 그 예측력을 비교한다. 한 가지 유의할 점은, 이 논문에서는 사람을 단위로 위험도 예측력을 비교한 것이아니라, 검진자료를 기준으로 위험도 예측력을 비교하였다. 


(1) Tyrer-Cuzick Model 


Tyrer-Cuzick Model (TC model) 은 Tyrer와 Cuzick 이라는 사람이 개발한 유방암 위험도 예측 모형으로, 일반적인 임상 정보 기반의 모형이다 (링크). GUI 프로그램 형태로 이용할 수 있는데, 이 논문은 연구자용 Command-line 프로그램을 이용해 유방암 위험도를 예측했다. 이 프로그램은 크게 세 가지 결과를 내준다. 


1) 85세까지 유방암 발생 위험을 동일한 나이의 일반 여성과 비교한 결과 

2) 10년 위험도 

3) 평생 위험도 


이 논문에서 따로 언급을 하고 있지는 않지만, 아마 10년 위험도를 결과로 이용했을 것으로 추정된다. 


(2) Risk Factor Logistic Regression Model (RF-LR)


두 번째로는, Risk factor 기반 Logistic regression model 을 만들었다. 이것이 Tyrer-Cuzick Model 과 다른점은 크게 두 가지로 볼 수 있다. 


1) RF-LR 모델은 현재 데이터를 통해 LR model 의 계수를 추정한다. 

2) TC 모델에 사용된 변수에 Prior history of breast cancer, Race 두 가지 변수를 추가하였다. 


일반적으로, 외부 데이터의 계수를 이용한 예측 모형의 경우 예측력이 높기는 쉽지 않다. TC model 은 유명한 유방암 위험도 예측모형이긴 하지만, 현재 데이터를 통해 모형을 구축하는 것이 더 예측력이 높을 것임을 예측해볼 수 있다. 이 때, Feature engineering 방법으로 연속형 변수를 포함한 모든 변수를 범주화한 후, one-hot encoding 을 이용하였다. 이렇게 한 이유는 아마 missing value 가 많았기 때문으로 예측된다. one-hot encoding 의 장점은 missing value 에 대해 모든 값을 0으로 주면 되기 때문에, imputation 등의 step 이 필요없이, 간단히 missing 을 고려한 데이터의 패턴을 찾을 수 있기 때문이다. 



위 표처럼 모든 변수를 범주화하였다. 논문에서 범주를 나누는 기준에 대한 언급은 없었다. 


(3) Image-only model


이 모델에 딥러닝 모델인 Resnet18 이 이용되었다. Resnet18 은 18 개의 레이어를 가진 Resnet 을 말하며 Imagenet 데이터로 트레이닝된 pretrained model을 이용하였다고 한다. 아래는 일반 CNN 과 비교하여 Resnet 의 아이디어를 나타낸 그림이다. Resnet 관련해서는 다른 포스트에서 한 번 다루어 보려고한다. 


일반적인 Resnet 의 인풋사이즈는 224 x 224 인데, 이 논문의 이미지의 사이즈는 1664 x 2048 를 사용하였다. 어떻게 이미지를 resizing 해서 사용했는지에 대해서 자세한 설명은 언급하고 있지 않다. 딥러닝 모델은 앞서 데이터 수집 부분에서 정의한 기준에 따라 "유방암 5년 이내 발생 여부" 를 class 로 하여 트레이닝 되었다. 보통 유방암 검진에서는 한 사람당 총 4장의 이미지 (RCC,RMLO,LCC,LMLO)를 촬영하게 되는데, 이 모델에서는 이 중에 가장 위험도가 높게 나온 이미지를 이용해 위험도 평가를 하였다. 그리고 한 사람당 여러번의 검진을 받을 수 있는데, 만약 2번의 검진을 받았으면 총 8장의 이미지 중 가장 위험도가 높게 나온 이미지를 이용했다고 보면 된다.  


(4) Hybrid DL model


다음은 RF-LR 와 Image-only model 을 결합하여 Hybrid DL model 을 구축하였다. 이 모델의 Input은 Risk factors 파트와 Image features 파트로 나누어 볼 수 있다. Risk factors 파트는 (2) 에서 이용한 feature 들을 그대로 가져왔고, image features 파트는 (3) 에서 구축한 image-only model 을 feature extractor 로 이용해서 이미지를 수백개의 feature (일반적으로 resnet 의 최종 feature 는 512개) 로 요약해 이를 risk factor 와 concatenate 시켜 모델의 인풋으로 투입했다. 


그 뒤로는 일반적인 Supervised neural network 를 구축해 "유방암 5년 이내 발생 여부" 를 예측했다. 



모델 평가


이 논문에서는 크게 3가지의 지표로 모델을 평가하였다. 


1) AUC (Area under curve) : AUC 의 경우, Future risk 를 구하기 위해 검진 이후 최소 3년 ~ 5년 내 유방암 발생을 case 로 하여 예측력을 구했다. 전체 테스트셋에 대한 AUC 를 4개의 위험도 모형에서 비교하였고, 또한 (인종, 가족력, 폐경여부) 로 층화하여, 각각 4개의 위험도 모형을 비교하였다. 

2) Confusion Matrix 

3) Top-decile, bottom-decile Hazard ratio & incidence 



결과


- 전체 테스트셋 (15%) 에 대한 위험도 평가 결과 


샘플 수 : 총 3937명 중 269명 case 

  • Hybrid DL 모델은 TC 모델, RF-LR 모델에 비해 AUC 가 유의하게 높았다. (DeLong test 결과)
  • Image-only 모델은 TC 모델에 비해 AUC 가 유의하게 높았다. 
  • Decile 분석에서 Hybrid 가장 좋은 성능을 보여주었다. (특히 classic model 인 TC 모델에 비해 Top decile 과 Bottom decile 에서의 성능이 매우 좋다.)

- 하위그룹 단위 (인종, 가족력, 폐경 여부) 위험도 평가 결과


  • 인종별 분석 : 백인 (총 3157명 중 233명 case) 과 아프리카계 미국인 (총 202명 중 11명 case)에 Hybrid DL 모델을 적용해 AUC 는 각각 0.71, 0.71 이였고, TC 모델의 경우, 0.62, 0.45 였다. TC 모델의 경우 인종별로 예측력이 상당한 차이를 보이는 잔면, Hybrid 모델은 인종에 상관없이 비슷한 예측력을 갖는다는 것을 알 수 있다. 또한 RF-LR 모델로 비교를 해보아도 AUC가 0.66, 0.58 로 Risk factor 기반의 모델에서 아프리카계 미국인은 예측력이 떨어지는 경향이 있는데, Image-only 모델과 Hybrid 모델은 이와 반대로 인종 별로 Robust 한 결과를 보여준다. 하지만 아프리카계 미국인의 샘플 수가 매우 작기 때문에, 다소 confidence interval 이 크다는 것을 알 수 있다. 
  • 가족력별 분석 : 가족력이 있는 사람 (총 1767 명 중 141명 case) 과 가족력이 없는 사람 (총 2170명 중 128명 case) 에 대해 예측력을 비교하였다. 가족력이 있는 사람의 경우, TC 와 Hybrid DL 의 AUC 증가값을 유의했다. 하지만 가족력이 없는 사람의 경우, TC 와 Hybrid DL 의 AUC 증가값은 유의하지 않았다.
  • 폐경 여부 별 분석 : 폐경전 여성 (1649 명 중 62명 case, figure에 오류가 있음), 폐경 여성 (2513명 중 207명  case) 별로 나누어 분석을 한 결과, Hybrid 모델은 각각 0.79, 0.70 의 AUC 를 보인 반면, TC 모델의 경우 각각 0.73, 0.58 로 폐경후 여성에 대해서는 예측력이 낮게 나타났다. 


Confusion matrix 를 통한 분석에서는 Hybrid model 의 예측력을 density 와 TC model 과 비교하여 보여주고 있다.  


Hybrid DL vs. breast density. 


결과를 보면 Hybrid DL 이 Breast density 에 비해 더욱 유방암 위험도에 관한 많은 정보를 준다는 것을 알 수 있다. row 별로 변하는 incidence 의 차이보다, column 별로 변하는 차이가 더 크다는 것을 볼 수 있다. 현재까지 맘모그램에서 확인할 수 있는 유방암 발생의 위험요인으로 가장 잘 알려진 것이 유방 밀도인데, 딥러닝 모델이 유방밀도를 넘어서는 유방의 특성을 찾아냈다고 해석할 수 있다. 왼쪽에서 두 번째 그림, High Risk, Non Dense 그림을 보면, breast density 가 낮은데도 불구하고 높은 위험도를 보이는 유방 영상의 예를 보여주고 있다. 

Hybrid vs. versus TC. 


TC 모델에 의해 높은 위험도를 갖는다고 예측되고, Hybrid DL 모델에 의해 낮은 위험도를 갖는다고 예측된 그룹은 1.6 %의 incidence 를 보였다. 반면, Hybrid 모델에 의해 높은 위험도를 갖는다고 예측되고, TC 모델에 의해 낮은 위험도를 갖는다고 예측된 그룹은 3.7 % 의 incidence 를 보여주었다. 단지 이 결과만 보더라도, Hybrid 모델이 TC 보다 유방암 위험도를 더 잘 예측한다는 것을 직관적으로 알 수 있다. 


고찰


요약 

  • Hybrid DL (딥러닝 기반 이미지 분석+Risk factor) 모형이 기존 클래식한 유방암 위험도 평가 모델에 비해 좋았다 (AUC 0.70 vs. 0.62). 
  • Hybrid DL 을 사용하면 고위험군을 효과적으로 선별할 수 있다. 
  • 또한 기존 유방암 예측모형의 경우 대부분 백인을 대상으로 구축된 것이기 때문에, 다른 인종에 대해 유방암을 예측할 때 한계가 있었는데, Hybrid DL 모델 또는 Image-only model 모두 인종에 robust 한 유방암 예측력을 보여주었다. 

연구의 의미 

  • 굳이 Hybrid LD 이 아니더라도 이미지만을 통해서 유방암 위험도를 예측했을 때, Risk factor 기반 모형보다 예측력이 좋았다.
  • Image-only 모델은 임상정보를 모두 번거롭게 수집할 필요가 없이, 유방암 검진 과정에서 유방 영상에 즉각적으로 사용할 수 있기 때문에 실제 적용이 어렵지 않다.
  • 현재 미국에서는 유방암 검진을 받는 여성에게 유방밀도를 의무적으로 공지해야하는 법안이 있는데, 50 % 정도의 여성이 치밀유방이기 때문에 유방암 위험도가 더 높다고 전달받는다. Image 기반의 위험도 예측모형이 적용된다면 보다 정밀한 위험도 공지가 가능할 것이다. 
  • 만약 다른 위험인자들을 수집할 수 있다면, 이미지 모델과 결합해 Hybrid model 처럼 더 정밀하게 위험도를 예측할 수 있을 것이다. 


향후 연구 과제


  • 이 연구에서 BRCA1/2 유전자를 변수로 포함하기는 했으나, 대부분의 경우 값이 없었다. 따라서 대규모 유전자 정보 (gene panel) 를 결합을 했을 때도 이러한 이미지 기반 위험도 평가가 가능할지에 대한 것도 향후 연구 과제이다. 
  • 이 연구로 알 수 있는 것은 이미지가 무언가 유방암 위험도 예측에 상보적인 정보를 준다는 것인데, 이것이 무엇인지가 중요한 주제이다. 논문에서는 단순히 유방 밀도을 통해서 딥러닝이 위험도를 예측하지 않는다고 주장하고 있고, 매우 세밀한 조직 패턴에 의존하는 것이 아닌가 추측하고 있다. 
  • 최근 딥러닝 연구에서 어떤 부분이 딥러닝의 판단에 영향을 주는지 localiazation 하는 것이 중요한 연구 주제이며, 이와 관련된 다양한 방법들이 많이 제시가 되고 있기 때문이 이를 이용하여 맘모그램의 어떤 부분이 informative 한지를 연구하는 것이 향후 연구 과제이다. 

연구 한계 및 결론

  • 이 연구의 한계는 한 기관의 데이터, 그리고 한 제조사의 유방 영상만 이용한 것이다. 실제로 임상에서 활용되기 위해서는 더 많은 기관, 더 많은 유방영상 촬영기기 제조사 데이터를 이용해서 검증될 필요가 있다.  
  • 이 연구의 새롭게 찾은 결론으로 볼 수 있는 것은, 유방 영상에는 traditional risk factor 에서 찾을 수 없는 미래 유방암 발생을 예측할 수 있는 정보가 있고, 이러한 패턴을 딥러닝이 찾아낼 수 있었다는 것이다.
  • 또한 결과로 미루어보아 유방영상 기반 모델이 전통적인 위험도 예측모형을 대체 혹은 보완할 수 있는 잠재력이 있다고 할 수 있다.