Domains/Biomedical Science (7)

임상 시험의 설계


앞선 포스팅에서 임상시험의 단계에 대해 다루었다. 임상 시험 단계에서 가장 많은 시간과 비용이 소모되는 제 3상에서는 임상시험 디자인을 결정하고, 이에 따른 적절한 대상자의 수를 결정한 후, 디자인에 맞게 병원별 대상자를 모집하여 임상 시험을 실시한다. 실제로 임상 시험을 실시하는 과정은 엄청난 시간과 비용이 들고 다기관이 참여하며 고려해야할 사항이 매우 많다. 본 포스팅에서는 그 중 임상 시험에서 일반적으로 쓰이는 설계 방법에 대해 정리하였다. 


1. 평행 설계 (Parallel Design)

  • 평행 설계는 가장 일반적인 형태의 임상시험이다. 연구대상자는 무작위 배정에 의해서 서로 다른 처리군으로 배정이 되며, 연구의 종료시까지 처음 배정된 군을 유지하며 진행된다. 평행 설계의 장점은 그 방법이 이해하기 쉽고 간단하다는 점이다. 하지만 두 그룹이 각각 서로 다른 집단이기 때문에 두 집단이 완벽하게 randomization 이 되어있지 않으면 bias 가 발생하기도 한다. 이로 인해 혼란 변수의 보정, stratified randomization 등이 필요할 수 있다. 
  • 평행 설계에서 발생할 수 있는 bias 를 줄이려는 목적으로 대응 평행 설계 (Matched pairs parallel design) 을 실시하기도 한다. 이 방법은 비슷한 특성을 가진 2명의 참여자를 하나의 블록으로 하여 각각 대조약과 시험약을 처리하는 실험 디자인이다. 
  • 평행 설계에 의해 연구를 수행할 때, 준비기간 (run-in periods) 이 필요하다. 준비기간은 무작위 배정을 받기 전 다른 약물을 투여하지 않는 기간으로 이전 치료의 효과를 없애는 휴약 기간 (Washout period) 이다. 

2. 교차 설계 (Crossover design)

  • 교차 설계는 한 연구대상자에게 처리, 대조 모두 각각 한 번 씩 두 번 적용하는 설계 방법이다. 연구 대상자는 처리 또는 대조군에 배정되어 결과를 평가하고, 일정 시간이 지난 후 반대 처리를 받게 된다. 
  • 이 방법은 한 명의 연구 대상자에게 두 번 처리하여 직접 비교할 수 있기 때문에 총 연구 대상자의 수를 줄일 수 있다는 장점이 있다. 
  • 또한 피험자간 변이를 줄일 수 있기 때문에 검정력이 높아진다 -> 이로인해 또 특정 검정력 하에서의 연구 대상자의 수를 줄일 수 있다. 
  • 교차 설계에서 유의해야할 점은 연속적으로 두 처리를 하는 방법이기 때문에 두 처리 간에 충분한 시간 (Washout period) 을 두고 진행해야 한다는 점이다. 그렇지 않다면 잔류효과에 의해 시험이 제대로 되지 않을 수 있다. 
  • 또한 교차 설계는 그만큼 연구 기간이 늘어나기 때문에 처리->결과 관찰의 시간이 짧은 약 또는 의료기기에 대해 실행할 수 있다. 예를 들어, 말기암 환자에게 처리약을 투여 후, 예후를 관찰하는 실험에 있어 중도 탈락의 우려가 크기 때문에 평행 설계가 더 나은 방법일 수 있다. 

교차설계가 가능한 임상 시험의 예 

  • 비교적 짧은 반감기를 갖고 예방적 목적의 약물을 이용한 시험
  • 휴약기간을 둘 수 있는 임상 시험 
  • 약물 효과를 치료 기간 중 충분히 볼 수 있는 약물 


교차설계는 세부적으로 기본 교차 설계 (2x2 교차설계)와 다차원적 교차설계 (high-order design) 으로 나눌 수 있다. 다차원적 설계는 단순히 A-B, B-A 두 순서로 대상자를 배정하는 것이 아니라 A-A, B-B 등으로도 배정하여 분석의 타당성을 높이기 위한 방법이다. 


<2x2 교차설계>


교차설계시 중요하게 고려해야할 부분

  • 잔류 효과를 반드시 없애야 통계적 타당성이 높다. (이를 검증하기 위해 period 2 에서 이전 약물의 효과가 남았는지를 verification 하는 과정이 있으면 좋다.)
  • 교차설계시 평행설계에 비해 결측의 영향이 크다. 결측을 최소화하는 방법에 대한 고려가 필요하다.


3. 요인 설계 (Factorial design)

  • 요인설계는 두 개 이상의 처리군의 조합의 효과를 확인하기 위한 설계 방법이다. 조합의 효과는 교호작용 (interaction) 이라고 부른다. 

 

 약물 A 처리

 약물 A 미처리

 약물 B 처리

 A,B 모두 투여 (n)

 B 만 투여 (n)

 약물 B 미처리

 A만 투여 (n)

 A, B 모두 미투여 (n)


기본 2x2 요인 설계는 위처럼 대상자를 네 군으로 나누어 시험을 실시하는 방법이다. 평행 설계에서는 A만 투여한 군과 B 만투여한 군으로 배정하여 비교하는 것으로 볼 수 있다. 하지만 평행 설계에서는 새로운 약물 1개에 대해서만 검증할 수 있다. 하지만 요인 설계에서는 새로운 약물 2개에 대해 한 번에 검증할 수 있다는 점이 평행설계와 요인설계의 차이점이다. 또한 새로운 약물 2개의 대한 교호작용도 볼 수 있다. 따라서 특정 상황에서는 요인설계가 평행설계에 비해 효율적일 것이다. 


요인설계의 장점
  • 한 시험으로 두 개의 약물의 치료 효과 파악 가능하므로 경제적이다.
  • 피험자 수를 줄일 수 있다. 
  • 상호작용을 검정할 수 있다. 

요인설계가 평행설계에 비해 적절한 상황

  • 두 개 이상의 치료 효과를 한 번에 보고 싶을 때
  • 두 치료 효과의 상호작용이 중요할 때 


참고자료

식약처 식품의약품안전평가원에서 임상시험의 통계원칙이라는 public book 을 작성하였습니다. 이 책에 임상 시험에 사용되는 통계 관련하여 개괄적으로 참고할 부분이 많습니다. (https://asancpt.github.io/book-stat/design.html)

임상시험의 단계 정리 



1. 전임상 단계


임상시험을 실제로 시작하기 전에 가장 먼저 시작하는 단계로 연구실 내 안전성 시험 및 동물 실험, 선행 논문 조사 등이 이 단계에 포함된다. 한국의 경우, 전임상 단계를 거쳐 임상시험계획서 (Investigational New Drug, IND) 를 식품의약품안전처에 제출하여 임상시험의 허가를 받아야한다. 


2. 제 1상 


목적 : 안정성 검증 및 최대 투약량 결정

  • 본격적인 임상시험의 단계이다. 소수의 건강한 참여자 (예를 들어, 20~80명) 를 대상으로 독성, 부작용 등의 중요한 반응만을 관찰한다. 제 1상의 한 가지 목적은 최대 허용량 (Maximum Tolerated Dose, MTD) 을 결정하는 것이다. MTD 를 결정하는 방법은 참여자를 대상으로 점점 투약량을 높여가며 이상 반응 및 약물동력학적 검사를 통해 결정한다. 즉, 1상의 목적은 크게 안정성 검증 및 최대 투약량 결정이다. 


3. 제 2상 


목적 : 3상 진입 가능 여부 판단 (효율성 판단), 투약량 결정 

  • 특정 질환의 환자를 대상으로 임상 효과를 처음 관측하는 단계이다. 건강한 사람만을 대상으로한 1상과는 대상자의 구성이 다르다. 1상을 통해 새로 개발된 약이 안전한 건 알겠고, 실제로 효과가 있는지를 검증해야하는 단계로 넘어가야하는데, 1상은 그 단계로 넘어갈만한 가치가 있는지를 검증한다. 일종의 사전 검증이라 할 수 있다. 왜 바로 효과성 검증 단계로 넘어가지 않고, 사전 검증을 하냐면 다음 단계인 3상은 엄청난 시간과 비용의 소모가 있기 때문이다. 2상은 3상을 넘어가기전 근거를 기반으로 넘어가도 될만한지 판단하는 단계라고 볼 수 있다. 또한 3상에서 쓰일 투약 용량을 결정한다. 


2상-A 단계

  • 2상을 A, B 단계로 구분하기도 한다. 2상 A 단계는 투약 용량을 결정하도록 고안된 임상시험이다. 


2상-B 단계

  • 2상 B 단계는 효율성을 평가하도록 고안된 임상시험이다. 


이렇게 A, B 단계로 세부적으로 나누기도 하지만 이 구분이 반드시 필요한 것은 아니다. 


4. 3상 


목적 : 약 효과 확증

  • 3상은 확증 임상시험 (Confirmatory Clinical Trial) 이다. 데이터를 바탕으로 해당 약이 효과가 있는지를 확증하는 단계이다. 2상에서는 단지 3상으로 넘어갈만한 근거를 확보하기 위한 단계였다면, 3상은 실제로 이 약이 효과가 있다는 것을 확증하는 단계로, 3상에서 효과가 확증되면 그 약은 실제로 효과가 있는 것으로 간주된다. 3상은 임상시험에서 가장 시간과 비용이 많이 소모되는 단계이다. 일반적으로 3상에서만 수백억원 이상이 든다. 
  • 제약회사는 임상 시험을 디자인 하고, 2상의 결과, 법 등을 고려하여 연구자가 정한 연구자가 원하는 차이의 정도 (델타), 유의수준(알파), 검정력(베타, 파워) 를 바탕으로 샘플 사이즈를 계산한다. 샘플 사이즈는 연구 디자인에 따라서도 달라진다. 

5. 4상 

목적 : 장기간 투약시 약효, 부작용 평가
  • 3상 결과 해당 약이 실제로 효과가 있다는 것이 확증되면 4상으로 넘어간다. 4상은 시판 후 조사과정(Post-marketing Surveillance; PMS) 이라고도 부른다. 유통 과정에서 약의 효과와 부작용 등을 평가하고 개선점을 찾기 위한 과정이다. 3상에서 보기 힘든 장기간 투약 효과를 확인할 수 있다. 



의생명 분야에서의 신경망 모델 (Deep learning in biomedicine)

본 포스팅에서는 Nation biotechnology에서 publish된 논문을 기반으로 하여 의생명 분야에서 적용되고 있는 신경망 모델 (Deep learning) 에 대해서 살펴보려고합니다. (https://www.nature.com/articles/nbt.4233)

자율 주행차, 게임, 음성 인식, 텍스트 인식 등 Deep learning은 인공지능 연구자들과 일반 대중들의 마음을 사로잡고 있습니다. 최근에는 Deep learning은 임상 의사들의 관심도 끌고 있습니다. 지금까지의 많은 분야에서의 AI를 통한 모델링의 목표는 인간 레벨의 인공지능 (human-level AI)였습니다. 이미 사람이 잘 하는 것들을 높은 정확도로 모방하는 것입니다. 

이러한 분야들과 의생명 분야 (Biomedical) 데이터의 차이점은 의생명 분야의 데이터는 사람도 이해하기 힘들다는 것입니다. 예를 들어, genome 데이터는 사람이 맨눈으로 보고 바로 이해하기 어렵습니다. Biomedical 분야에 AI를 적용하는 것의 한가지 목표는 이렇게 사람이 쉽게 하기 힘든 분야에서 AI가 추론을 통해 사람에게 통찰력을 전해줄 수 있을까 하는 것입니다. 

딥러닝과 Biomedical 분야의 간략한 역사


실제로 이러한 것들을 실현 가능하도록하는 기회가 만들어지고 있습니다. 큰 규모의 Biomedical dataset들이 수집되고 있기 때문입니다. 예를 들어, NGS 데이터를 들 수 있습니다. Biomedical 분야에 Deep learning을 적용한다는 것은, 다양한 분야에서 각광 받고 있는 AI의 방법론인 Deep learning 라는 도구를 이용해서 이 데이터들로부터 유용한 가치를 이끌어내고, 과학적인 발견을 하고자 하는 것입니다. 


NGS (Next-generation sequencing) 데이터의 증가




머신러닝과 Deep learning의 핵심 아이디어를 간단하게 이야기해보겠습니다. 간단한 모델, 예를 들어, Linear regression과 다르게 Deep learning은 조금 더 복잡하고 유연한 모델링을 할 수 있습니다. Label을 Input feature로 바로 mapping 하는 것이 아니라 intermediate variable을 만들고, 이 intermediate variable의 function으로 output을 예측하는 모델을 만드는 것입니다. Deep learning의 강점은 이러한 Feature (독립변수)와 Label(종속변수) 사이의 어떠한 복잡한 함수관계도 유연하게 모델링할 수 있다는 것이며, 이론적으로도 이것이 가능하다는 것입니다 (Universal approximation theorem). 1980-90년대쯤 이러한 복잡한 모델링이 대한 이론적이 이미 정립이 되어있었지만, 이를 실현 가능한 하드웨어 기술이 부족해 실현할 수 없었습니다. 현 시대에서는 이러한 복잡한 모델에서 계수를 찾는 것이 계산적으로 가능합니다. 이는 이러한 Deep learning model의 수많은 계수 추정을 효율적으로 할 수 있는 다양한 알고리즘 및 라이브러리들 (Pytorch, tensorflow) 의 등장과 GPU 등의 발전으로 인한 컴퓨팅 파워의 발전의 결과입니다.  


Shallow model vs. Deep model.
 


우선 Shallow model과 Deep model의 차이에 대해 간단하게 설명을 하고 넘어가려고 합니다. Linear regression의 경우, Input feature와 Label 사이의 Linear 한 관계를 가정합니다. 그래서 예측값은 Input feature와 Weight의 linear combination으로 만들어 집니다. (여기에 bias를 더해준 값이 됩니다.) 

하지만 딥러닝의 한 종류인 Multi-layer perceptron의 경우, Layer라는 개념을 도입해서 output을 바로 예측하지 않고, Intermediate variable들을 만듭니다. Deep learning 이란 이러한 Layer 구조를 도입하여 Input feature와 Label 사이의 복잡한 함수관계를 모델링 하는 것을 말합니다. 이러한 구조를 도입하면, X와 Y의 관계가 linear한 관계가 아닌 경우, 혹은 다양한 형태의 Interaction이 존재하는 경우에, Y를 Linear regression 보다 더 잘 예측할 수 있게 됩니다. 즉, Deep model은 bias를 줄인다고 할 수 있습니다. 반면, Overfitting 등의 문제로 variance가 커질 수 있다는 것이 Deep model의 단점이기도 합니다. 


Genome sequencing 데이터에 대한 신경망 모델의 응용


다음으로는 Biomedical 데이터의 한 종류라고 할 수 있는 Genome sequencing 데이터에 어떻게 Deep learning이 어떻게 적용되는지를 알아보겠습니다. 예를 들어, motif detection (transcription factor binding site detection) 같은 분야를 예로 들어보면, 이 분야에는 Bioinformatics 분야에서 전통적으로 자주 사용되었던 Position weight matrix라는 방법이 있습니다. 어떤 문제에 대해 이러한 DNA Sequence들이 알려져 있을 때, 이것에 기반하여 아래와 같은 matrix를 만듭니다. 

Position weight matrix (position probability matrix)


이 Matrix는 해당 위치에서 어떤 sequence가 발견된 확률을 나타내는 matrix입니다. 이것을 기반으로 새로운 sequence가 들어왔을 때, 어떤 score를 내주고 이 score를 기반으로 sequence에 존재하는 어떤 pattern을 detection 할 수 있습니다. 이것은 Sequence와 어떤 pattern을 직접적으로 mapping 시킨 것으로 볼 수 있습니다. 반면 Deep learning에서의 방법은 layer를 더 만들어, Sequence와 어떤 pattern 사이에 존재할 수 있는 복잡한 관계를 모델링할 수 있습니다. 


이 그림은 CAACTT 라고 하는 sequence pattern을 찾는 CNN Model을 나타낸 것입니다. 물론 실제 상황에서는 CAACTT라고 하는 Pattern을 우리가 알 수는 없습니다. Deep learning에서는 수많은 데이터를 주고, 그 속에서 CAACTT라고 하는 Pattern을 딥러닝이 직접 학습하도록 하는 것입니다. 그리고 딥러닝의 강점이 바로 이런 것입니다. CNN에 익숙하신 분들은 잘 아시겠지만, 이 것은 1-D Convolution에 Same padding을 적용한 것으로 볼 수 있습니다. 그림에 나와있듯, Filter size는 3으로 잡고, 총 Input sequence로는 18의 길이를 갖는 sequence를 넣어준 것입니다. 이것은 일렬로 죽 늘어선 1차원 공간상의 이미지로 볼 수 있습니다. 2차원 이미지에는 W-H-(RGB) 3개의 차원이 있다면, Genome data의 경우 W-(ATCG) 2개의 차원이 있는 것입니다. 

딥러닝을 통해 Sequencing 데이터에 무슨 일을 할 수 있는가?

다음으로는 이러한 Deep learning이 Biomedical 분야에 어떻게 적용되고 있는지를 설명하였습니다. genetic data에 어떻게 되고 있는지를 먼저 예로 들었습니다. 현재, Genotype-Phenotype 관계를 규명하는데 GWAS (Genome-wise association study) 라고 하는 도구가 사용됩니다. 수많은 샘플을 보아 variant랑 phenotype의 association을 통계적으로 보는 것입니다. GWAS를 통해 variant를 찾는 것에 추가적으로 variant의 function을 연구하는 것도 한 가지 주제입니다. 왜냐하면, GWAS를 통해 찾아낸 variant (SNPs)는 그것이 질병과 인과관계를 갖는다고 보기 어렵기 때문입니다. GWAS의 경우 Mendelian disease와는 다르게 LD, 작은 effect size, regulatory network의 복잡한 구조 등으로 인해 causal variant를 찾기가 힘듭니다. 몇몇 coding 지역에 위치한 causal variant는 코돈을 통해서 그 변이의 effect를 예측할 수 있지만, non-coding variant 같은 경우, 해석이 매우 어렵습니다. Deep learning은 이 분야에서 적합합니다. 바로 transcription, splicing, regulation 등의 Molecular phenotype과 genetic variant의 관계를 보는 것입니다. 

신경망을 통한 Molecular phenotype 예측 소프트웨어, 논문

1. SPIDEX
    DNA sequence → percent-spliced-in of cassette exons across tissues
2. DeepBind
    DNA and RNA sequence → transcription factor and RNA-binding protein binding
3. Basset
    DNA sequence → DNase hypersensitivity
4. DeepSEA and DanQ
    DNA sequence → transcription factor binding
5. TITER
    DNA sequence → translation initiation sites

이것들이 현재 논문으로 나와 있거나 소프트웨어로서 구현된 variant를 통해 molecular phenotype을 예측하는 구현체들입니다. 이러한 non-coding variant로부터 molecular phenotype을 예측하는 일에는 주로 CHIP-seq이나 DNase-seq 데이터를 트레이닝 데이터로 이용하며, DNA sequence로부터, transcription factor binding이나, DNase hypersensitivity (이를 chromatin feature 라고도 합니다.) 같은 것들을 예측합니다. 


DeepSEA (Deep learning based sequence analyzer)

DeepSEA는 Deep learning based sequence analyzer의 약자인데, Genome Sequence를 input으로 받아들여, variant의 effect를 chromatin에 미치는 영향을 바탕으로 예측합니다. ENCODE, Roadmap epigenomics 와 같은 genome의 function을 찾아내려는 목적을 갖고 수집된 데이터들, Chip-seq 또는 DNase-seq 데이터를 학습해, variant가 chromatin feature 에 미치는 영향을 학습한 후, 최종적으로 학습된 모델에 wild-type과 variant가 있는 두 개의 input을 주고, output을 뽑아내서 이 output의 비율로 그 variant의 effect를 예측하는 방식입니다. 


DeepSEA의 데이터 구축 (Ground truth) 및 딥러닝 모델 구조

DeepSEA의 데이터 구축 과정 및 모델 아키텍쳐입니다. 데이터 구축 과정에서는 총 919개의 chromatin feature를 학습하도록 Ground truth가 마련되습니다. 시퀀스를 통해 이것이 chromatin feature (예를 들어, Dnase hypersensitive site) 인가? 하는 것이 바로  Y, 즉 예측하고자 하는 것입니다. X로는 whole genome을 200bp 로 나눈 후, 이 시퀀스 중 절반 이상이 919개의 chromatin feature의 peak region에 포함되면 1 아니면 0으로 코딩되었습니다. 모델로는 Convolutional neural network를 사용하였고, Regularization을 위해 L2, L1 regularization, Dropout을 사용하였습니다. 



모델 구축


DeepSEA의 목적은 총 2개로 나눌 수 있습니다.


1. 해당 Variant가 Chromatin feature에 미치는 영향 파악, 이를 통해 variant의 각각의 chromatin feature (919개) 에 대한 기능을 파악할 수 있습니다.

2. 해당 Variant의 overall한 functional prediction 


1을 위해서 variant가 없는 sequence (1000bp 단위) 와 variant가 있는 sequence를 모델에 넣어서 log(P(reference)/P(alternative))를 통해 해당 chromatin에 variant가 미치는 영향을 파악합니다. 2를 위해서는 총919개의 chromatin feature에 대한 예측값과 함께 Evolutionary conservation score를 이용합니다. 저는 이 부분이 DeepSEA 가 대단한 부분이라고 생각합니다. 기존에 알려진 과학적 지식을 Deep learning 모델에 통합하여 더욱 잘 functional score를 예측하는 것이죠. 일종의 앙상블 모델이라고 볼 수 있습니다. 이를 통해 딥러닝 모델로부터 발생할 수 있는 오버피팅을 방지하고 더욱 robust한 모델이 될 수 있습니다. 



모델 테스트


위 링크에 방문하면 실제로 웹으로 구현된 DeepSEA 를 이용해볼 수 있습니다. variant를 나타내는 VCF file을 인풋으로 넣어주면, VCF file에 있는 각각의 variant에 대해, 919개의 chromatin feature에 대한 영향과, overall한 functional prediction score를 구합니다. 

신경망을 통한 Phenotype 을 예측하는 것이 가능한가?

Sequence를 통해 바로 phenotype을 예측할 수 있지 않겠냐 라는 의문이 들 수 있습니다. 물론, 최종적으로 나아가야할 목표는 sequence를 통해 phenotype 보는 것입니다. 하지만 아직까지 딥 러닝이 그 정도의 수준은 아닌듯 합니다. Molecular phenotype은, genotype에서 phenotype으로 이어지는 복잡한 메커니즘 중 최하단에 있다고 말할 수 있는 것이고, 아직까지 그것조차 제대로 해결되어지고 있지 않습니다. 그 다음으로 해결할 과제는 network-level gene interaction, physiological process 등 여러가지 해결해야할 과제들이 남아있습니다. 하지만 본 논문에서는 궁극적인 목표는 딥러닝에 genotype-phenotype 데이터를 학습시키고, 여기에 여러가지 생물학적 지식, 실험 데이터를 합쳐서 바로 phenotype을 예측하는 것이라고 주장하고 있습니다. 저는 DeepSEA에서의 사례처럼 Evolutionary conservation score 처럼, 학습된 딥러닝 모델에 이러한 explicit한 "지식" 들을 어떻게 통합하냐가 하나의 해결해야할 과제로 보입니다.


Medical Image에서의 신경망의 응용

다음으로는 medical image 분야에서의 딥러닝의 응용입니다. 이 분야는 딥러닝이 가장 직접적으로 응용이되고 있는 분야이고, 실제로 임상에서 활용이 되고 있는 분야이기도 합니다. Medical image의 특징은, Multi-modal, 즉 MRI, X-ray, CT 등 다양한 방법으로 이미지가 얻어지고, 같은 MRI 데이터라도 세팅값, 기기 종류에 따라 intensity가 모두 다릅니다. 또한, CT 같은 경우 3D 이미지 이기 때문에 다루기 까다롭습니다. 하지만 그럼에도 불구하고 딥러닝이 가장 성공을 한 분야이기도 합니다.

신경망을 Medical Image에 적용할 때 발생하는 이슈들

1. 이미지에 대한 높은 수준의 해석은 Automation이 힘듭니다. 이는 사람에 있어서도 사람마다 주관적인 기준이 있기 때문에 Intra-class variation이 크기 때문입니다. 

2. 또한 딥러닝 자체가 블랙박스의 성격을 띈다는 것입니다. 특히, 이미지 진단의 경우에는 이해 관계가 매우 크기 때문에, 딥 러닝의 결과를 어떻게 설명하느냐가 매우 중요합니다. 이 논문에서는 딥러닝이 그렇게 예측한 이유, 그 지역을 highlighting을 해주는 등의 전략이 필요하다고 언급하였습니다.

3. 세 번째는 사람의 예측값을 Ground truth로 해서 트레이닝 했을 때, 사람의 성능을 뛰어넘기 힘들다는 것입니다. 물론, 딥러닝은 계속 같은 값을 내기 때문에 Reliability는 좋습니다. 다만, 그 트레이닝 데이터가 한 사람의 기준에만 맞춘 경우, 다른 데이터를 대상으로 했을 때, bias가 생길 수 있다는 것입니다. 그러므로 Multi-expert consensus가 중요하다고 할 수 있습니다. 

국내 Medical Image 응용

국내에서는 2018년도에 Vuno에서 최초로 식약처에서 의료기기 사용허가를 받았습니다. 성장기 소아에서 X-ray 영상에서 인공지능을 통해 골연령을 자동으로 측정해주는 Vunomed-Boneage 소프트 웨어를 통해서입니다. Vuno에서는 이 방법의 효율성을 보이기 위해 임상시험 논문을 냈습니다. 결과에 따르면 AI가 2명의 의사들보다 consensus와의 concordance가 더 좋았고, 특히 의사가 AI 를 보조적으로 활용했을 때, 그렇지 않았을 때보다 concordance가 증가하는 결과를 보였습니다. (이 부분에 대해 궁금하신 분들은 최윤섭님의 유투브를 참고하시기 바랍니다. https://www.youtube.com/watch?v=wqXzmChH3N0&t=349s)




딥러닝과 실제 세계의 괴리

다음으로는 Deep learning이 실제 현실에 사용되었을 때 발생할 수 있는 문제점에 대한 것입니다. 

1. 가장 중요한 것은 반드시 Deep learning의 성능이 보장 되어야한다는 것입니다. 
    • 이를 위해서는 Performance 측정을 해야합니다. C.V 나 hold out validation 같은 방법을 통해 충분한 validation이 이루어져야 합니다.
    • 두 번째는 Deep learning을 Overfitting이 큰 문제이기 때문에, 모델의 불확실성이 어느정도인지를 보여주어야 한다는 것입니다. 통계적인 모델처럼 딥러닝은 결과의 신뢰구간을 통계적인 방법으로 얻어낼 수 없기 때문에 부트스트랩이나 베이지안 방법 등을 통해 모델의 신뢰구간을 추정할 수 있습니다. 

2. 또한 딥러닝의 문제점은 딥러닝이 목표하는 바와 실제 목표하는 바가 다를 수 있다는 것입니다. 이것이 Target mismatchloss function mismatch 입니다. 예를 들어, 임상에서는 종양의 크기가 일정한 임계치를 넘는 것이 중요한데, 딥러닝 모델을 트레이닝 할 때는 Intersect over union을 최소화 하기 위해 트레이닝을 보통 이용하곤 합니다. 이 경우에 딥 러닝 모델은 실제로 원하는 결과에서 bias가 생길 수 있습니다.

3. 다음으로는 오로지 딥러닝은 현재 이용가능한 데이터에 기반하여 예측 모형을 만드는 것이기 때문에 selection biasconfounding 이 생길 수 있고, 이 경우에 Causality 는 추론하는것이 매우 힘들다는 것입니다. 예를 들어, 여자라는 단어는 인문학, 남자라는 단어는 이공계와 연관시키거나, 흑인을 백인보다 더 위험하다고 학습할 수 있습니다. 


신경망 모델이 신뢰를 얻기 위해서는?

1. Performance를 보장해야합니다.
    • Stakeholder가 원하는 메트릭을 제공해야 한다.
    • Performance를 보장하기 위해서는 데이터 가공, 모델 선택, 오버피팅, 아웃라이어 제거, 혼란 변수등을 잘 해야한다는 것입니다.
    • 원하는 메트릭이 Stakeholder 마다 다르기 때문에 여러가지 메트릭에 대해 성능을 테스트해서 로버스트 한지를 봐야합니다.


2. Stakeholder가 그것을 사용할만한 Rationale이 있어야합니다.

  • 이들은 Small-test를 한다거나 직관, 사고실험 등으로 신뢰할만한지를 판단하기 때문에 이런것들에 도움을 주어야 합니다.
  • 가장 좋은 Rationale은 인과적인 설명입니다. 그래서 causal relationship 에 대한 설명이 반드시 이루어져야 합니다.

결론

1. 의생명 분야는 복잡하기 때문에 정확하게 이해하기 힘들고, 그렇기 때문에 AI의 서포트가 필요합니다.

2. 딥러닝은 수많은 데이터셋을 포함하여 복잡한 모델링을 하는데 유망한 방법이고, 그렇기 때문에 Deep learning 은 의생명 분야에서 중요한 역할을 할 것입니다. 



인공지능, 머신러닝은 더 이상 현실 세계와 동떨어진 이야기가 아니다. 헬스케어 분야를 리드하는 기업들은 인공지능, 머신러닝 기술들을 자신의 분야에 이미 적용시키고 있다. 이는 AI 기술들이 헬스케어 분야에 실용적으로 적용되고 있다는 것을 뜻한다. 회사들은 AI를 활용하여 자신들의 서비스를 개선하고, 수익을 증대하며 발생할 수 있는 리스크를 줄인다. 본 포스팅에서는 AI가 헬스케어 분야에 적용되어 불러올 수 있는 사회적 가치와 응용 사례를 살펴보려고 한다.


AI FOR GOOD


기술은 그 자체로도 중요하지만 사회적으로 그 기술을 활용하여 무언가의 이득을 얻을 때 그 가치가 가장 크다고 생각한다. 예를 들어, 기존에 해결할 수 없던 문제를 해결한다거나, 어려웠던 문제를 더 쉽게 만든다거나, 돈을 더 벌어준다더가 하는 것이다. AI FOR GOOD 이라는 말은 이러한 여러 사회적 가치 중 "공익"에 관한 것이다. 인공지능이 헬스케어분야에 적용하는 것의 가장 큰 가치는 바로 공익의 증진이다. AI의 헬스케어 적용은 기존의 헬스케어 분야에서 기존의 해결하기 어렵거나, 해결하는데 시간이 오래걸렸던 문제를 해결하고, 가속화하여 공익의 증가에 기여한다. 


AI-based Medicine을 통한 의학 분야의 돌파구


Accenture에 따르면, 현재 가장 큰 가치를 갖고 있는 기술들은 로봇 보조 수술, 가상 환자 돌봄 서비스(virtual nursing assistant), 행정 보조 기술 등이다. 이는 빅데이터, 인공지능 등의 키워드가 뜨기전부터 의학 분야에 적용되어온 기술들이다. 하지만, 의영상 분야도 큰 가치를 갖고 있다. 왜냐하면 취약 계층의 경우, 질병을 진단 받을 때, 의영상 진단 기술의 도움을 받기 힘들다. 전문가의 진단은 비싸며, 일정 수준 이상의 수요를 필요로하기 때문이다. 이러한 취약 계층에 AI 기반의 의영상 진단 기술이 적용될 경우, 공익에 큰 기여를 할 수 있다. 본 포스팅에서는 AI 기반 의료의 실제 사례를 몇 가지 살펴보려고 한다. 


AI 기반 의료의 실제 사례


- 개발 도상국 국가에서 X-RAY를 결핵 환자 발견



의영상 이미지에서 무언가의 패턴을 찾는 것은 가장 유망하며, 실제로 AI가 많이 적용되고 있는 분야이다.  많은 연구자들이 이러한 AI 기반의 의영상 진단 기술을 연구하고 있다. (원논문) 이러한 기술들이 개발 도상국 국가에서 활용된다면, 영상의학 전문의의 도움 없이도 결핵에 걸린 환자를 발견해 낼 수 있다. 또, 한 국가의 여러 지역에서 이런 기술을 적용한다면, 결핵 취약 지역을 발견해 낼 수 있다. 만약 결핵 예방, 치료 사업을 한다고 하면, 이러한 방식의 접근 법을 통해 정책의 우선순위를 결정할 수도 있다.



- 응급실에서의 환자 뇌출혈 발견


이스라엘의 회사인 MedyMatch와 IBM Watson은 응급실에서 환자의 뇌출혈을 확인하는데 인공지능을 활용하고 있다. 




- 피부 사진을 통한 암 진단


암진단에도 종종 AI가 응용된다. CT, MRI, X-ray 등이 암진단을 위한 의영상 기술로 적용되고 있지만, 이 기술들을 통해 암 진단을 하지 못할 경우, 치명적이다. 암환자가 아닌데 암환자로 진단하는 경우 (false positive, 1종 오류) 보다 암환자인데 암환자로 진단하지 못한 경우(false negative, 2종 오류), 환자의 생명에 영향을 주는 치명적인 판단 오류라고 볼 수 있다. 또한 false negative를 위해 false positive를 늘리는 소위 과잉진료로 인한 문제도 심각하다. 이는 환자에 생명에 영향을 주진 않지만, 잘못된 진단 결과로 인해 의료 비용을 높이고 환자의 심적 부담을 증가시킨다. 따라서 정확한 암 진단 기술이 중요하며, 이 진단 과정에 AI가 적용되어 진단의 속도와 정확성을 높이려는 시도가 이루어지고 있다. 


Stanford의 AI 팀은 피부 이미지를 통해 피부암을 진단하는 AI 기술을 내놓았다. 이 AI 기술은 21명의 피부과 의사들과 비교해 진단 능력이 떨어지지 않았다. 



- CT 사진을 통한 폐암 진단


Enlitic은 회사는 폐 CT 사진을 통해 폐암을 진단하는 AI 기술을 개발하였다. 딥러닝을 활용해 병변의 존재와 그 위치를 파악하는 것이다. 회사는 정확도가 영상의학전문의의 50% 이상이라고 주장한다. 




역사상 많은 기술들이 과대 선전되어 왔다. 누군가는 인공지능 기술이 과대 포장되고 실체는 별로 없는 기술이라고 생각할 수 있다. 또한 누군가는 인공지능이 실제로 산업에 적용되어 가치를 불러올 수 있을까하는 의문을 제기할 수 있다. 인공지능이 인간을 완전히 대체하는 것은 어려울지도 모른다. 오로지 데이터 기반 접근법이라는 문제로 인해, 적절한 수의 훈련 데이터 없이는 동작할 수 없으며, 과적합의 가능성이 있다. 또한 AI의 경우 기기별 차이를 감안하여 모든 기계에 대해 robust한 모델을 만드는 것이 아직까지는 완벽하지 않은 경우가 많다. 하지만, 확실한 것은 특정한 제한된 범위의 태스크에서는 AI가 인간보다 나을 수 있다는 것이다.  현재 의료 산업 분야에 활발히 적용되고 있는 인공지능 기술과, 인공지능 스타트업에 투자되고 있는 금액의 규모가 인공지능의 의료분야에서의 가능성을 보여준다.


참고

https://sigmoidal.io/artificial-intelligence-and-machine-learning-for-healthcare/

Medical Image 분야에서의 Deep Learning 응용


약 100여년 전, 의학분야에 처음 Medical Image가 도입되었을 때 그것은 의학 분야의 패러다임을 바꾸었습니다. X-RAY와 같은 의영상 기술을 통해 비침습적으로 내부 장기들을 볼 수 있고, 이를 통해 병을 진단할 수 있고, 암환자의 경우 자신의 남은 수명 또한 알 수 있었습니다. 최근, Deep Learning 기술의 발전이 이 분야에 적용됨으로써 의영상 분야에 다시 한 번 새로운 가능성을 만들어나가고 있습니다.


CBInsigt에서 제시한 이 HeatMap을 보시면 Medical Image분야에 대한 투자가 2015년에 정점을 찍고 계속해서 높은 관심을 받고 있는 것을 볼 수 있습니다. 그만큼 이 분야에 많은 가능성이 있다는 것을 알 수 있습니다. IBM 연구자에 따르면 Medical Image 데이터가 전체 Medical 데이터의 90%를 차지한다고 합니다. 용량만 놓고 말하면 소위 말하는 "헬스케어 데이터" 의 대부분이 Medical Image 데이터 인 것입니다. 데이터의 양만 보더라도 이 분야가 헬스케어 산업에서 차지하는 비중이 매우 높다는 것을 알 수 있습니다. 영상의학 전문의들은 병원에서 하루에 수많은 영상 데이터를 본다고 합니다. 그러므로 그러한 의사들이 마주치는 데이터로부터 어떤 특징을 추출해서 정보를 효율적으로 보여주는 방식이 진단의 속도와 정확성을 높이고 병원이 더 많은 환자를 처리할 수 있게 되어 사회적 문제 해결에도 도움이 될 수 있는 것이죠.


현재 Medical Image 분야에서 Machine Learning, Deep Learning이 응용되는 부분


Tumor Detection


미국에서는 년간 500만건의 피부암의 발생이 보고된다합니다. 피부암은 미국에서 가장 흔하게 진단되는 암이며, 미국의 헬스케어 시스템에서 80억달러가 매년 피부암 치료에 사용된다고 합니다. 이중에서 악성흑색종(Melanoma)의 경우 치명적인 종양인데, 빠른 진단과 치료가 이루어진다면 높은 확률로 이를 치료할 수 있습니다. 피부암은 언제 진단되느냐에 따라 생존률이 15%~65%로 달라지며, 빠른 진단과 치료가 이루어진다면 5년 생존률은 무려 98%에 달한다고 합니다. 피부암을 진단하기 위해서는 피부암을 영상이미지에서 찾아내는 것(Detection)이 중요합니다. Deep Learning을 통해 피부암과 관련된 특징들을 학습하고 이를 통해 피부암을 찾아내는 것이 응용되는 부분 중 하나입니다.


피부 병변의 양성/악성 분류하는 CNN (출처 - https://web.stanford.edu/~kalouche/cs229.html)


다음으로 폐암(Lung Cancer) Detection에도 DeepLearning이 많이 사용됩니다. 주로 폐의 CT scan 데이터를 통해 암을 Detection 하는 알고리즘이 많이 사용되고 있습니다. (Enlitic 이라는 Medical Image 관련 호주 회사) 이 회사에 보고에 따르면 이미지로부터 폐암의 특성을 찾아내는 정확도가 영상의학 전문의보다 높다고합니다.


Medical Image 분야에서는 데이터를 어떻게 획득하냐는 문제가 있습니다. 데이터가 있어야 이를 통해 학습하는 알고리즘을 만들 수 있기 때문입니다. IBM은 2015년 8월 Merge Health Care라는 의영상업체를 인수함으로써 이러한 문제를 해결하고자 하였습니다. Merge의 홈페이지에 가보면 이제 IBM Watson HealthCare라는 이름이 붙어있습니다. IBM은 Merge의 약 300억개의 Medical 이미지 데이터를 통해 Watson을 학습시켜 의사의 진단을 보조할 수 있도록 하는 방법을 꾸준히 연구해나가고 있습니다.



간암 Segmentation하는 논문의 Groud Truth 데이터 Deep Learning은 이러한 CT 데이터를 학습하여 테스트 데이터가 들어왔을 때,

간의 위치와 종양의 위치를 Segmentation 할 수 있다.


암 전이 Tracking


Medical Image는 non-invasive로 질병을 모니터링함으로써 의학적인 중재에 활용할 수 있습니다. Deep Learning은 시간의 흐름에 따른 영상 데이터를 통해 암의 전이 과정을 추적하는데 활용되기도 합니다. 이 논문은 유방암의 Historical 데이터를 통해 암 전이 과정을 평가한 논문입니다. Fraunhofer Institute for Medical Image Computing 은 2013년도에 딥러닝을 통해 암 이미지의 변화를 추적하는 새로운 툴을 공개하였습니다. 이를 통해 임상의들이 암 치료를 어떻게 할지를 결정할 수 있습니다. 이러한 기술들이 더욱 발전된다면 암의 Progress 모니터링을 자동화할 수 있는 가능성이 있습니다.



Tumor Detection & Classification 사례


병변이 의심되는 지점을 찾더라도 그것이 양성인지 악성인지 분류하는 것이 필요한데 삼성은 초음파 이미지에 딥러닝을 활용하여 유방의 병변을 분석하는데 활용하고 있습니다. 삼성의 시스템은 수많은 유방의 케이스를 학습함으로써, 해당 병변의 특성과 그것이 양성인지 악성인지를 분류해 냅니다. 특히 의영상 분야에서는 한국 스타트업의 활약이 두드러지는데 대표적으로 LunitVuno가 있습니다. Lunit은 유방암 Detection 대회에서 마이크로소프트와 IBM을 제치고 1위에 올라 CB Insight 선정 100대 AI 스타트업에 그 이름을 올린 것으로 유명합니다. 삼성 연구원들이 퇴사후 2014년에 설립한 Vuno의 경우 Medical Image Interpretation분야에서 의사를 보조하는 기술을 개발하고 있습니다. 여기에 머신러닝/딥러닝 기술이 들어가며, 이를 통해 의사의 진단 과정을 더욱 빠르고 정확하게 보조하는 역할을 합니다. 

Vuno의 데모영상(https://youtu.be/i7CS05WvOLE)을 보면 Medical Image 데이터를 통해 DILD(Diffuse Interstitial Lung Disease)를 Detection하는 시스템의 데모를 볼 수 있습니다.



참고

https://www.techemergence.com/deep-learning-applications-in-medical-imaging/



Framinghum Heart Study Stroke 모형


논문 Probability of Stroke: A Risk ProfileFrom the Framingham Study (1991)


질병의 위험도 예측 모형은 어떤 질병이 향후 t년간 발생할 확률을 예측하는 모형이다. 위험도 예측 모형은 다양한 모델로 구축할 수 있는데, Cox-proportional Hazard 모형을 많이 사용한다. 질병 발생이 성별로 양상이 다른 경우가 많아 성별로 다른 위험도 예측 모형을 만드는 경우가 많다. 이 논문에서도 성별로 다른 예측 모형을 구축하였다. 이 논문은 Framinghum Heart Study 코호트를 통하여 Stroke의 위험도 예측 모형을 구축하였다.


이 연구에서 Stroke는 아래와 같이 정의하였다.



Atherothrombotic brain infarction : 죽상혈관 뇌경색

Transient ischemic attack only : 일시적인 허혈성 발작

Cerebral embolus : 뇌색전 (ischemic attack의 원인이라고 한다.)

Intracerebral hemorrhage : 출혈성 뇌혈관 질환

Subarachnoid hemorrhage : 지주막하 출혈


위 논문에서 위험도 예측 모형에 사용한 변수 및 회귀 계수는 아래와 같다.






이를 식으로 표현하면 아래와 같다.


p = 1-S(t)^B

(p는 t년 안에 stroke 발생 확률)


이 때,


A = L-M

B = e^A

L = 0.0505xAge+0.0140xSBP-l-0.3263xHyp Rx+0.3384xDM+0.5147xCigs-t-0.5195xCVD+0.6061xAF+0.8415xLVH

M = 0.0505xMeanAge+0.0140xMeanSBP-l-0.3263xMeanHypRx+0.3384xMeanDM+0.5147xMeanCigst 0.5195xMeanCVD+0.6061xMeanAF+0.8415xMeanLVH


(MeanXXXX은 stroke 발생자의 평균 값. 예를 들어 MeanAge는 stroke 발생자의 평균 나이)



이 연구에서 stroke 발생자의 위험인자들의 평균값은 아래와 같다.




또한 stroke 없이 t년간 생존할 확률 S(t)는 성별로 아래와 같이 정의된다.


남자


여자



예제

예를 들어, 70세의 남성이며 수축기혈압이 140mmHg, 흡연자, 고혈압약 미복용, 당뇨병 안걸림, 심세동 및 심방조동 과겨력 X, 좌심실 비대 X인 사람을 생각해보자. 그러면,



L=0.0505x70+0.0140x140+0.3263x0+0.3384x0+0.5147x1+0.5195x0+0.6061x0+0.8415x0=6.0097

또한 M = 5.6770 (Table2에 제시된 평균값 대입)


따라서,


A = 6.0097-5.6770 = 0.3327

B = e^A = e^0.3327 = 1.3947

p=1-S(10)^B= 1-0.9044^(1.3947) = 1-0.8692= 0.1308 = 13.08%




4p Medicine(4p 의학)은 2000년대 중반에 제안된 것으로 p로 시작하는 4가지 의료 혁신의 목표 예방의료(preventive medicine), 맞춤의료(personalized medicine), 참여의료(participatory medicine), 예측의료(predictive medicine)를 의미하는 약자입니다. 막연한 구호처럼 여겨지던 4p medicine이 최근 디지털 의료, 빅데이터 기술, 유전체 기술의 발달로 인해 차근차근 구현 되어 나가고 있습니다. 


  • Preventive Medicine(예방의료) : preventive medicine은 질병의 치료(disease treatment)와 반대되는 개념으로 질병이 일어나기 전에 미리 방지하는 방법입니다. 질병은 유전적 요인이나 환경적 요인에 영향을 받기 때문에 이것들을 분석함으로써 질병이 발생하기 전에 미리 질병 발생의 확률을 예측할 수 있고 이를 방지할 수 있습니다. 

  • Personalized Medicine(맞춤의료) :  personalized medicine이란 어떠한 개인을 약물에 대한 반응, 질병 위험도 등을 통해 분류하고 이를 통해 개인에 맞춘 의학적인 결정을 내리거나 약을 처방하는 등을 하는 의학적인 절차입니다. 

  • Participatory Medicine(참여의료) : participatory medicine은 환자가 의사와 함께 의학적인 결정에 참여하는 것입니다. 최근 다양한 health care 앱들이 등장함으로써 개인이 의사에 의존하는 정도가 점점 줄고 있습니다.

  • Predictive Medicine(예측의료) : predictive medicine은 질병의 발생 확률을 예측하고, 이를 통해 질병을 방지하거나, 질병이 환자에게 미칠 영향을 유의하게 줄이는 것을 수반합니다. genomics(유전체학), proteomics(단백질체학), cytomics 등 다양한 예측의 방법론이 있는데 가장 기본적인 방법은 유전학으로 미래의 질병을 예측하는 것입니다.

* Personalized Medicine은 Precision Medicine이라고도 불립니다. 


아래는 4p medicine에 대해 이해하기 위해 스크랩한 자료들입니다. 




출처 - https://www.esprevmed.org/news/video-explaining-p4-medicine-preventive-predictive-personalized-participatory/


출처 - http://www.yoonsupchoi.com/2016/02/28/digital-medicine-1/