전체 글 (312)

반응형

임상 시험의 설계


앞선 포스팅에서 임상시험의 단계에 대해 다루었다. 임상 시험 단계에서 가장 많은 시간과 비용이 소모되는 제 3상에서는 임상시험 디자인을 결정하고, 이에 따른 적절한 대상자의 수를 결정한 후, 디자인에 맞게 병원별 대상자를 모집하여 임상 시험을 실시한다. 실제로 임상 시험을 실시하는 과정은 엄청난 시간과 비용이 들고 다기관이 참여하며 고려해야할 사항이 매우 많다. 본 포스팅에서는 그 중 임상 시험에서 일반적으로 쓰이는 설계 방법에 대해 정리하였다. 


1. 평행 설계 (Parallel Design)

  • 평행 설계는 가장 일반적인 형태의 임상시험이다. 연구대상자는 무작위 배정에 의해서 서로 다른 처리군으로 배정이 되며, 연구의 종료시까지 처음 배정된 군을 유지하며 진행된다. 평행 설계의 장점은 그 방법이 이해하기 쉽고 간단하다는 점이다. 하지만 두 그룹이 각각 서로 다른 집단이기 때문에 두 집단이 완벽하게 randomization 이 되어있지 않으면 bias 가 발생하기도 한다. 이로 인해 혼란 변수의 보정, stratified randomization 등이 필요할 수 있다. 
  • 평행 설계에서 발생할 수 있는 bias 를 줄이려는 목적으로 대응 평행 설계 (Matched pairs parallel design) 을 실시하기도 한다. 이 방법은 비슷한 특성을 가진 2명의 참여자를 하나의 블록으로 하여 각각 대조약과 시험약을 처리하는 실험 디자인이다. 
  • 평행 설계에 의해 연구를 수행할 때, 준비기간 (run-in periods) 이 필요하다. 준비기간은 무작위 배정을 받기 전 다른 약물을 투여하지 않는 기간으로 이전 치료의 효과를 없애는 휴약 기간 (Washout period) 이다. 

2. 교차 설계 (Crossover design)

  • 교차 설계는 한 연구대상자에게 처리, 대조 모두 각각 한 번 씩 두 번 적용하는 설계 방법이다. 연구 대상자는 처리 또는 대조군에 배정되어 결과를 평가하고, 일정 시간이 지난 후 반대 처리를 받게 된다. 
  • 이 방법은 한 명의 연구 대상자에게 두 번 처리하여 직접 비교할 수 있기 때문에 총 연구 대상자의 수를 줄일 수 있다는 장점이 있다. 
  • 또한 피험자간 변이를 줄일 수 있기 때문에 검정력이 높아진다 -> 이로인해 또 특정 검정력 하에서의 연구 대상자의 수를 줄일 수 있다. 
  • 교차 설계에서 유의해야할 점은 연속적으로 두 처리를 하는 방법이기 때문에 두 처리 간에 충분한 시간 (Washout period) 을 두고 진행해야 한다는 점이다. 그렇지 않다면 잔류효과에 의해 시험이 제대로 되지 않을 수 있다. 
  • 또한 교차 설계는 그만큼 연구 기간이 늘어나기 때문에 처리->결과 관찰의 시간이 짧은 약 또는 의료기기에 대해 실행할 수 있다. 예를 들어, 말기암 환자에게 처리약을 투여 후, 예후를 관찰하는 실험에 있어 중도 탈락의 우려가 크기 때문에 평행 설계가 더 나은 방법일 수 있다. 

교차설계가 가능한 임상 시험의 예 

  • 비교적 짧은 반감기를 갖고 예방적 목적의 약물을 이용한 시험
  • 휴약기간을 둘 수 있는 임상 시험 
  • 약물 효과를 치료 기간 중 충분히 볼 수 있는 약물 


교차설계는 세부적으로 기본 교차 설계 (2x2 교차설계)와 다차원적 교차설계 (high-order design) 으로 나눌 수 있다. 다차원적 설계는 단순히 A-B, B-A 두 순서로 대상자를 배정하는 것이 아니라 A-A, B-B 등으로도 배정하여 분석의 타당성을 높이기 위한 방법이다. 


<2x2 교차설계>


교차설계시 중요하게 고려해야할 부분

  • 잔류 효과를 반드시 없애야 통계적 타당성이 높다. (이를 검증하기 위해 period 2 에서 이전 약물의 효과가 남았는지를 verification 하는 과정이 있으면 좋다.)
  • 교차설계시 평행설계에 비해 결측의 영향이 크다. 결측을 최소화하는 방법에 대한 고려가 필요하다.


3. 요인 설계 (Factorial design)

  • 요인설계는 두 개 이상의 처리군의 조합의 효과를 확인하기 위한 설계 방법이다. 조합의 효과는 교호작용 (interaction) 이라고 부른다. 

 

 약물 A 처리

 약물 A 미처리

 약물 B 처리

 A,B 모두 투여 (n)

 B 만 투여 (n)

 약물 B 미처리

 A만 투여 (n)

 A, B 모두 미투여 (n)


기본 2x2 요인 설계는 위처럼 대상자를 네 군으로 나누어 시험을 실시하는 방법이다. 평행 설계에서는 A만 투여한 군과 B 만투여한 군으로 배정하여 비교하는 것으로 볼 수 있다. 하지만 평행 설계에서는 새로운 약물 1개에 대해서만 검증할 수 있다. 하지만 요인 설계에서는 새로운 약물 2개에 대해 한 번에 검증할 수 있다는 점이 평행설계와 요인설계의 차이점이다. 또한 새로운 약물 2개의 대한 교호작용도 볼 수 있다. 따라서 특정 상황에서는 요인설계가 평행설계에 비해 효율적일 것이다. 


요인설계의 장점
  • 한 시험으로 두 개의 약물의 치료 효과 파악 가능하므로 경제적이다.
  • 피험자 수를 줄일 수 있다. 
  • 상호작용을 검정할 수 있다. 

요인설계가 평행설계에 비해 적절한 상황

  • 두 개 이상의 치료 효과를 한 번에 보고 싶을 때
  • 두 치료 효과의 상호작용이 중요할 때 


참고자료

식약처 식품의약품안전평가원에서 임상시험의 통계원칙이라는 public book 을 작성하였습니다. 이 책에 임상 시험에 사용되는 통계 관련하여 개괄적으로 참고할 부분이 많습니다. (https://asancpt.github.io/book-stat/design.html)

반응형
반응형

임상시험의 단계 정리 



1. 전임상 단계


임상시험을 실제로 시작하기 전에 가장 먼저 시작하는 단계로 연구실 내 안전성 시험 및 동물 실험, 선행 논문 조사 등이 이 단계에 포함된다. 한국의 경우, 전임상 단계를 거쳐 임상시험계획서 (Investigational New Drug, IND) 를 식품의약품안전처에 제출하여 임상시험의 허가를 받아야한다. 


2. 제 1상 


목적 : 안정성 검증 및 최대 투약량 결정

  • 본격적인 임상시험의 단계이다. 소수의 건강한 참여자 (예를 들어, 20~80명) 를 대상으로 독성, 부작용 등의 중요한 반응만을 관찰한다. 제 1상의 한 가지 목적은 최대 허용량 (Maximum Tolerated Dose, MTD) 을 결정하는 것이다. MTD 를 결정하는 방법은 참여자를 대상으로 점점 투약량을 높여가며 이상 반응 및 약물동력학적 검사를 통해 결정한다. 즉, 1상의 목적은 크게 안정성 검증 및 최대 투약량 결정이다. 


3. 제 2상 


목적 : 3상 진입 가능 여부 판단 (효율성 판단), 투약량 결정 

  • 특정 질환의 환자를 대상으로 임상 효과를 처음 관측하는 단계이다. 건강한 사람만을 대상으로한 1상과는 대상자의 구성이 다르다. 1상을 통해 새로 개발된 약이 안전한 건 알겠고, 실제로 효과가 있는지를 검증해야하는 단계로 넘어가야하는데, 1상은 그 단계로 넘어갈만한 가치가 있는지를 검증한다. 일종의 사전 검증이라 할 수 있다. 왜 바로 효과성 검증 단계로 넘어가지 않고, 사전 검증을 하냐면 다음 단계인 3상은 엄청난 시간과 비용의 소모가 있기 때문이다. 2상은 3상을 넘어가기전 근거를 기반으로 넘어가도 될만한지 판단하는 단계라고 볼 수 있다. 또한 3상에서 쓰일 투약 용량을 결정한다. 


2상-A 단계

  • 2상을 A, B 단계로 구분하기도 한다. 2상 A 단계는 투약 용량을 결정하도록 고안된 임상시험이다. 


2상-B 단계

  • 2상 B 단계는 효율성을 평가하도록 고안된 임상시험이다. 


이렇게 A, B 단계로 세부적으로 나누기도 하지만 이 구분이 반드시 필요한 것은 아니다. 


4. 3상 


목적 : 약 효과 확증

  • 3상은 확증 임상시험 (Confirmatory Clinical Trial) 이다. 데이터를 바탕으로 해당 약이 효과가 있는지를 확증하는 단계이다. 2상에서는 단지 3상으로 넘어갈만한 근거를 확보하기 위한 단계였다면, 3상은 실제로 이 약이 효과가 있다는 것을 확증하는 단계로, 3상에서 효과가 확증되면 그 약은 실제로 효과가 있는 것으로 간주된다. 3상은 임상시험에서 가장 시간과 비용이 많이 소모되는 단계이다. 일반적으로 3상에서만 수백억원 이상이 든다. 
  • 제약회사는 임상 시험을 디자인 하고, 2상의 결과, 법 등을 고려하여 연구자가 정한 연구자가 원하는 차이의 정도 (델타), 유의수준(알파), 검정력(베타, 파워) 를 바탕으로 샘플 사이즈를 계산한다. 샘플 사이즈는 연구 디자인에 따라서도 달라진다. 

5. 4상 

목적 : 장기간 투약시 약효, 부작용 평가
  • 3상 결과 해당 약이 실제로 효과가 있다는 것이 확증되면 4상으로 넘어간다. 4상은 시판 후 조사과정(Post-marketing Surveillance; PMS) 이라고도 부른다. 유통 과정에서 약의 효과와 부작용 등을 평가하고 개선점을 찾기 위한 과정이다. 3상에서 보기 힘든 장기간 투약 효과를 확인할 수 있다. 


반응형
반응형

모분산의 추정과 검정

 

어떤 공장에서 일정 크기의 볼트를 만든다고 해보자. 제조 공정에서 볼트의 지름이 일정해야 품질 기준을 만족할 수 있다. 볼트의 지름이 10mm 여야하는데, 평균적으로는 10mm 이지만, 분산이 존재해  불량품이 일정 부분 존재한다. 이런 상황에서 볼트 지름의 분산을 확인하는 방법으로 모분산에 대한 추론을 할 수 있다. 

 

모분산의 추정에는 카이제곱 분포를 이용한다. 카이제곱분포는 표준정규분포에서 n개의 샘플을 뽑아서 그것들의 제곱을 모두 합한 것을 하나의 확률 변수 Q 로 정의하자. 카이제곱분포는 Q 가 따르는 분포이다. 카이제곱 분포는 하나의 모수 n 을 갖고, 이를 자유도라 한다.

 

$$ Q = \sum^{n}_{i=1} Z_i $$

$$ Q \sim \chi (n) $$

 

이 때,  아래와 같은 확률 변수를 정의하자. 

 

$$ X \sim N(\mu, \sigma^2) $$

 

모분산은 아래 통계량이 자유도가 n-1 인 통계량을 따른다는 것으로부터 추정된다. 

 

$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi(n-1) $$

 

증명은 아래와 같다. 

 

$$ \sum^{n}_{i=1} \frac{(X_i - \mu)^2}{\sigma^2} = \frac{(n-1)s^2}{\sigma^2} + \frac{(\tilde X-\mu)^2}{\sigma^2/n} $$

$$ \sum^{n}_{i=1} \frac{(X_i - \mu)^2}{\sigma^2} \sim \chi(n) $$

$$ \frac{(\tilde X-\mu)^2}{\sigma^2/n} \sim \chi(1) $$

 

따라서 chi-square 분포의 additivity 에 의해 아래와 같다. 

 

$$ \frac{(n-1)s^2}{\sigma^2} \sim \chi(n-1) $$ 

 

한 가지 유의할점은 모집단 X 가 정규분포를 따라야 이러한 분포가 타당하다는 것이다. 

 

예제 

 

1) 공장에서 볼트의 분산이 1mm 보다 작아야 현재 생산 공정을 유지하기로 했다. n=100 개의 샘플을 고른 후, 표본 분산을 추정했을 때, 1.2mm 가 나왔다면, 모분산이 1mm 보다 크다고 볼 수 있는지 유의수준 0.05 하에서 검정하라  

 

검정 통계량은 아래와 같이 계산된다.

 

$$ \frac{(99)1.2}{1} = 118.8 $$

$$ Q \sim \chi(99) $$

$$ P (Q > 111.8) = 0.085 $$

 

p-value 가 0.085로 0.05 보다 크므로 모분산이 1mm 보다 크다고 할 수 없다. 

 

2) 모분산의 95% 신뢰구간을 구하라

 

모분산의 신뢰구간은 아래와 같은 식으로 구할 수 있다. 아래 신뢰구간은 통계량이 카이제곱 분포를 따른다는 사실을 통해 쉽게 확인할 수 있다. 

 

$$ [\frac{(n-1)s^2}{\chi_{0.025}(n-1)}, \frac{(n-1)s^2}{\chi_{0.975}(n-1)}] $$

 

이 때, n=100, s^2 = 1.2, chi_0.975 = 73.36, chi_0.025 = 128.422 를 대입하면 신뢰구간은 아래와 같다.

 

[0.92, 1.61] 

 

이 신뢰구간은 양측 검정을 할 때에도 활용할 수 있다. 

 

참고

http://www.uniwise.co.kr/pdfupload/lecture_upload/R201500241/stlsm_30.pdf

반응형
반응형


두 모집단의 모비율의 차이에 대한 검정


앞선 포스트에서 중심극한정리에 의한 정규 근사를 통해 표본 비율의 분포를 구하고 검정하는 방법을 다루었다. 이번에는 두 모집단에 대해서 비율에 차이가 있는지를 검정하는 방법에 대해서 정리해보려고 한다. 앞선 one sample 비율 검정과 다른점은 one sample 검정에서는 가설검정을 할 때, 귀무가설 하에서의 모비율을 검정 통계량 계산에 활용할 수 있었던 반면, two sample 비율 검정에서는 귀무가설이 두 모비율이 같다고 정의되는 경우가 일반적이기 때문에 모비율이 정의되지 않아 모비율을 다른 방법을 통해 추정해야 한다는 것이다. 


모델 


각각 n_1, n_2 명 존재하는 집단 A, B 에서 어떤 법안에 찬성하는지 여부를 투표를 통해 결정하는 상황을 예로 들어보자. 집단 A, B 에서 사람의 찬성 여부를 각각 확률변수 X, Y 라 할 때 다음과 같이 모델링할 수 있다. 


$$ X \sim Be(p_1) $$

$$ Y \sim Be(p_2) $$ 

 

표본 비율은 아래와 같이 정의된다. 


$$ \tilde p_1 = \frac{\sum^{n_1}_{i=1} X_i}{n_1} $$

$$ \tilde p_2 = \frac{\sum^{n_2}_{i=1} Y_i}{n_2}$$


표본비율은 베르누이 분포의 표본 평균이라고 볼 수 있기 때문에 중심극한 정리에 의해 표본비율은 아래 분포로 근사된다. 


$$ \tilde p_1 \sim N(p_1, p_1(1-p_1)/n_1) $$

$$ \tilde p_2 \sim N(p_2, p_2(1-p_2)/n_2) $$


가설 검정


$$ H_0 : p_1 = p_2 $$

$$ H_1 : p_1 \ne p_2 $$


검정 통계량 


아래 분포를 통해 검정한다. 

$$ \tilde p_1 - \tilde p_2 \sim N(p_1 - p_2, p_1(1-p_1)/n_1 + p_2(1-p_2)/n_2)  $$


검정 통계량은 다음과 같다. 

$$ \frac{(\tilde p_2 - \tilde p_2) - (p_1-p_2)}{\sqrt{p_1(1-p_1)/n_1 + p_2(1-p_2)/n_2}} $$


이 때, p_1-p_2 는 귀무가설 하에서 0이 되는데, 분모의 p_1, p_2는 사라지지 않는다. 이 모비율을 추정하는 방법에 따라 검정통계량은 아래 2가지 정도로 계산해볼 수 있다. 


1. 표본비율을 통해 모비율을 추정 


$$ \frac{(\tilde p_1 - \tilde p_2)}{\sqrt{\tilde p_1(1-\tilde p_1)/n_1 + \tilde p_2(1-\tilde p_2)/n_2}} $$


2. 합동 비율을 추정 


$$ \tilde p = \frac{\sum^{n_1}_{i=1} X_i+ \sum^{n_2}_{i=1} Y_i}{n_1+n_2} $$

$$ \frac{(\tilde p_1 - \tilde p_2)}{\sqrt{\tilde p(1-\tilde p)/n_1 + \tilde p(1-\tilde p)/n_2}} = \frac{(\tilde p_1 - \tilde p_2)}{\sqrt{(1/n_1+1/n_2)\tilde p(1-\tilde p)}} $$


예제


문제: 실험 참여자 (암 환자) 에 대해 대조약 (기존약) 과 시험약을 투약하고, 12개월 간 관찰아혀 사망한 환자의 수를 관찰한다. 이 때, 처리집단이 대조집단에 비해 더 사망자가 적다는 것을 비율의 차이를 검정하는 방법을 통해 확인해보자.  


 

 표본 크기 

사망자 환자 수 

 대조집단

 300  

50 

 처리집단

 200 

20  


$$ n_1 = 300, \tilde p_1 = 1/6 $$

$$ n_2 = 200, \tilde p_2 = 1/10 $$


검정 통계량은 아래와 같다. 


$$ \frac{(\tilde p_1 - \tilde p_2)}{\sqrt{\tilde p_1(1-\tilde p_1)/n_1 + \tilde p_2(1-\tilde p_2)/n_2}} $$

$$ \frac{(1/6 - 1/10)}{\sqrt{1/6(1-1/6)/300 + 1/10(1-1/10)/200}} =  0.0666/0.0302 = 2.205 $$

$$ P(Z > 2.205) = 0.013 $$ 


양측검정을 하기위해 곱하기 2를 해주면 p-value 가 0.026 으로 0.05 보다 작으므로 두 모비율은 다르다고 결론 내릴 수 있다. 마지막으로 R 의 stat 패키지를 통해 구한 p-value 가 손으로 구한 값과 같은지를 확인해보자.


prop.test(n=c(300,200), x=c(50,20), correct=F)


correct option 은 R 의 기본옵션인 연속성 보정을 사용하지 않는다는 것을 의미한다. 


> prop.test(n=c(300,200), x=c(50,20), correct=F)


        2-sample test for equality of proportions without continuity

        correction


data:  c(50, 20) out of c(300, 200)

X-squared = 4.4297, df = 1, p-value = 0.03532

alternative hypothesis: two.sided

95 percent confidence interval:

 0.007445812 0.125887521

sample estimates:

   prop 1    prop 2

0.1666667 0.1000000


이 때, X-squared 값에 root 를 씌우면 Z-score 를 계산할 수 있다. Z-score는 4.4297에 sqrt를 하면, 2.104685 이다. 1. 표본비율을 통해 모비율을 추정 하는 방법을 통해 구한 Z-score 와 다르다는 것을 알 수 있다. 2. 합동 비율을 추정 방법을 통해 Z-score 를 구하면, Z-score 가 2.10468 로 R 의 결과와 같다는 것을 확인할 수 있다. 


(1/6-1/10)/sqrt((1/300+1/200)*0.14*0.86) = 2.10468


R 에서는 합동 비율을 추정하는 방법을 통해 비율의 차이를 검정한다는 것을 확인할 수 있다. 

반응형
반응형


두 정규분포 모양의 모집단의 모평균의 차이에 대한 검정: Two sample t-test 


예를 들어, 서울사람과 부산사람의 몸무게의 평균의 차이가 있는지에 대해 검정하고자 한다. 이럴 때 흔히 쓸 수 있는 방법이 바로 two sample t-test 방법이다. 두 집단의 평균을 비교하여 차이가 유의한지를 보는 방법이다. 우선 언제 t-test 를 할 수 있는지 정리해보자.


t-test 는 연속형 확률 변수이고 평균이 mu 이고 표준편차가 sigma 인 분포를 갖는 모집단으로부터 n 개의 표본을 추출했을 때, n 이 크면 클 수록 중심극한정리에 의해 표본 평균이 평균이 mu 이고, 표준편차가 sigma/root(n) 인 정규분포에 근사된다는 사실을 이용한 방법이다. 따라서 t-test 의 가정은 아래 두 가지로 요약된다. 


t-test 의 가정


1. 연속형 변수 

2. 정규성

3. 임의추출 

4. 큰 샘플 사이즈 


변수가 연속형이어야하고 임의추출을 해야한다는것은 당연해 보이지만, t-test 에서 왜 정규성을 따라야할까? 처음 t-test 를 배울 때, 많이 질문하는 부분이 't-test 는 샘플이 정규분포를 따라야하나요?' 이다. 결론은 '정규분포를 따르면 좋다.' 라고 생각한다. 왜냐하면, 표본 크기가 크면, 어쨌든 표본 평균의 분포는 정규분포에 근사되기 때문에 t-test 가 불가능한 것은 아니기 때문이다. 하지만 문제는 평균이 대표성을 갖는가이다. 그리고 평균이 대표성을 갖기 위해서는 정규분포와 같은 모양이어야한다. 따라서 모평균을 비교하는 문제에 있어서, 모집단이 정규 분포와 비슷해야 타당한 것인데 모집단이 정규 분포임을 확인하는 방법은 샘플의 분포를 이용하는 길밖에 없다. 따라서 샘플의 정규성을 확인함으로써 평균이 대표성을 갖는지 확인해야한다. 만약 샘플이 정규성을 보이지 않는다면, t-test 의 타당성이 떨어지게 된다. 


예를 들어 모집단의 분포가 이항분포나 포아송 분포처럼 특정 상황에서 정규분포로 근사된다면, t-test 의 결과는 타당할 것이다. 하지만 정규성을 띄지 않는 분포에서 왔다면, t-test 보다는 비모수 검정이 더 적합하다. 왜냐하면 평균이 대표성을 띄지 않기 때문이다. 


Two sample t-test 의 종류



More about the basic assumptions of t-test: normality and sample size, statistical round, 2019


위 그림은 mu1-mu2 의 분포를 H0가 참일때와 H1 이 참일 때로 나누어서 보여주는 그림이다. 1종 오류와 2종 오류의 개념에 대해 잘 이해할 수 있는 그림이다. two sample t-test 에 개념에 대해 간단히 설명해보자. 두 집단의 모평균 (mu1, mu2) 에 차이가 있는지 검정하는 two-sample t-test 는 아래의 분포를 이용해 검정한다. 


$$ \tilde X - \tilde Y \sim N(\mu_1, \mu_2, \frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}) $$ 


H0가 참일 때 (mu1-mu2=0) 검정 통계량은 표본 분산을 이용해 아래와 같은 분포를 갖는다.


$$ \frac{\tilde X - \tilde Y}{\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}} ... 식 1 $$


위 검정 통계량이 특정한 자유도를 갖는 t 분포를 갖는다는 사실을 이용해서 검정하는 것인데, t 분포의 자유도는 두 그룹의 분산에 대한 가정에 따라 다르기 계산된다.


1. 등분산 가정 (합동분산 추정량을 이용한 t-test)


합동분산추정량은 아래와 같이 계산된다. 


$$ s^2_p = \frac{n_1-1}{(n_1-1)+(n_2+1)}s^2_1 + \frac{n_2-1}{(n_1-1)+(n_2+1)}s^2_2 = \frac{(n_1-1)s^2_1 + (n_2-1)s^2_2}{n_1+n_2-2} $$ 


이 합동분산 추정량을 위 식1 의 s_1, s_2 대신에 넣으면 검정통계량을 계산할 수 있고, 이 검정통계량은 자유도가 n_1+n_2-2 인 t 분포를 따른다. 식 1을 합동 분산 추정량을 통해 쉽게 계산하기 위해 다음과 같이 정리할 수 있다. 


$$ \frac{\tilde X - \tilde Y}{\sqrt{s^2_p(\frac{1}{n_1}+\frac{1}{n_2})}} \sim t(n_1+n_2-2) $$


2. 등분산 가정을 하지 않을 때 (Welch's t-test)


등분산 가정을 하지 않으면 위 식1을 그대로 계산하면 된다. 다만, 자유도의 계산이 다소 복잡하다. 이 방법을 Welch's t-test 라 하는데 이 방법에 따라 자유도를 유도하는 것은 어려운 부분이므로, 단지 이렇게 계산한다는 것만 알고 넘어가도록 하자. Welch's t-test 에서 자유도는 아래와 같이 계산된다. 


$$ v=\frac{(s^2_1/n_1 + s^2_2/n_2)^2}{\frac{(s^2_1/n_1)^2}{n_1-1} + \frac{(s^2_2/n_2)^2}{n_2-1}} $$


즉, Welch's t-test 는 다음의 분포를 통해 검정한다. 


$$ \frac{\tilde X - \tilde Y}{\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}} \sim t(v) $$



1, 2 두 방법 모두 표본수가 많다면 정규근사를 이용할 수 있다. 이 경우 t분포를 이용하지 않고 표본 수가 많을 때, 검정 통계량이 표준정규분포를 근사적으로 따른 다는 사실을 통해 검정한다. 

반응형
반응형

중심극한정리를 통한 표본 비율 분포 근사와 모비율의 검정


비율의 분포 


당신이 정책 담당자이고 전체 국민들 중 대상으로 새로운 교육 개혁에 대해 찬성하는 사람들의 비율을 알고 싶다고 해보자. 그리고 그 비율을 p 라고 할 때, p > 0.5 임을 보이고 싶다고 하자. 하지만 현실적으로 전체 국민에 대해 찬반 여부를 조사하는 것은 불가능에 가깝다. 따라서 전체 인구 집단에서 샘플링한 표본에서 구한 비율을 통해 위 가설 (p > 0.5) 을 보이고 싶다. 


예를 들어, 1000명을 조사해서 p=0.48 을 얻었다고 하자. 이 때, p > 0.5 라고 할 수 있을까? 이 표본에서는 p 가 0.5를 넘지 못했지만, 0.5 에 매우 근접했기 때문에 다른 1000 명을 조사하면 0.5가 넘을 수 있을 것을 기대할 수 있을 법하다. 한 가지 방법은, 1000 명을 여러번 뽑아서 p가 0.5를 넘는 비율을 보는 것일 것이다. 예를 들어, 1000 명을 100번 뽑았는데, 95번이 p>0.5 일 경우, p > 0.5 라고 결론내려볼 수 있을 것이다. 


하지만 1000 명을 100 번 뽑는 것도 마찬가지로 시간과 비용이 많이 든다. 따라서 현실적으로 비율의 분포를 이용한다. 표본을 통해 비율의 분포를 구할 수 있다면 더욱 쉬운 방법을 통해 가설을 검정할 수 있을 것이다. 표본 안에서 뽑은 값이 분포 안에서 어디에 위치해 있는 가를 보는 것이다. 가설이 분포 흔히 관찰할 수 있는 것이라면 그 가설이 맞는 것이고, 그렇지 않다면 가설이 틀린 것이다. 우선, 모집단의 일부를 샘플링하여 찬성 비율을 보는 것은 다음과 같이 모델링 해볼 수 있다. 모집단의 정책에 대한 찬반여부를 확률변수 X 라 할 때, 다음과 같은 베르누이 분포를 갖는다. 


$$ X \sim Be(P) $$ 


이 때, 1000의 크기를 갖는 표본 X1,...,X1000 이 존재하면, 찬성 비율은 다음과 같이 계산할 수 있다. 


$$ \tilde P = \frac{\sum_{i=1}^{i=1000}{X_i}}{n} $$ 


중심극한정리에 의해 p^ 은 정규근사가 가능하다. 왜냐하면 p^ 은 베르누이 분포의 표본 평균이기 때문이다. 


$$\tilde P \sim N(P, \frac{p(1-p)}{n}) $$ 


비율의 검정


중심극한정리를 통해 p^ 의 분포는 구했는데, 이것을 통해 p > 0.5 인지 아닌지를 어떻게 검정할 수 있을까? 사실 좋은 방법은 앞서 언급했듯, 1000 명을 여러번 뽑아서 p가 0.5를 넘는 비율을 보는 것일 것이다. 이 경우 분포를 모르더라도 결론을 내려볼 수 있다. 하지만 우리는 통계적, 근사적으로 이 문제를 해결하려고 한다. 


검정의 방법은 크게 두 가지로 나누어볼 수 있다. 


1. 가설검정을 이용한 방법

2. 신뢰구간을 이용한 방법 


가설검정을 이용한 방법


가설검정을 이용한 방법의 절차는 다음과 같다. 


1. 귀무가설 및 대립가설의 설정 


양측 검정, 단측 검정 둘 중 하나를 선택해 수행한다. 


$$ H_0 = 0.5 $$

$$ H_1 > 0.5 $$ 


2. 검정 통계량 계산 


아래분포를 이용해 검정통계량을 계산

$$ \tilde P \sim N(0.5, \frac{0.5*0.5}{1000}) = N(0.5, 0.00025) $$ 


> x = seq(0.01, 1, 0.001)

> y = dnorm(x=seq(0.01, 1, 0.001), mean=0.5, sd=sqrt(0.00025))

> plot(x, y)


검정통계량은 아래와 같다. 


$$ \frac{0.48-0.5}{\sqrt{0.00025}} = -1.26 $$ 


3. 유의수준 설정 


일반적으로 5 %의 유의수준을 설정한다. 


4. 기각역 (또는 p-value) 계산 


검정통계량과 유의수준을 통해 기각역을 결정한다.


기각역은 아래와 같은 절차로 계산한다. 


$$ P(\tilde p > R) = 0.05 $$ 


위 식에서 R 이 기각역인데, R = 0.526 이다. 


>qnorm(p=0.95, mean=0.5, sd=sqrt(0.00025)) 

0.526


유의수준을 통한 기각여부 결정은 아래와 같이한다. 유의수준 계산에는 검정통계량을 이용한다.


> 1-pnorm(-1.26)

0.89

 

$$ P(X > -1.26) = 0.89 $$ 


5. 기각역 포함 여부를 통해 의사 결정을 수행한다. 


p-value 가 0.05 보다 큰 0.89 이고, 기각역 (X > 0.526) 에 포함되지 않으므로, (사실 두 개는 같은 정보이다.) 귀무가설을 기각할 수 없다. 


신뢰구간을 이용하는 방법


신뢰구간을 이용한 검정 방법의 절차는 다음과 같다. 신뢰구간을 이용한 방법은 양측 검정을 위해 사용할 수 있다. 


귀무가설 및 대립가설의 설정 


$$ H_0 = 0.5 $$

$$ H_1 != 0.5 $$ 


신뢰수준을 정하고 p 의 구간추정을 통해 신뢰구간을 구한다. 95% 신뢰구간은 다음과 같이 구할 수 있다. 


$$ \tilde P \sim N(p, \frac{p(1-p)}{n}) $$ 

$$ P[\tilde p - 1.96* \sqrt{p(1-p)/n} < p < \tilde p+ 1.96 * \sqrt{p(1-p)/n}] = 0.95 $$

$$ (\tilde p - 1.96* \sqrt{p(1-p)/n}, \tilde p+ 1.96 * \sqrt{p(1-p)/n}) $$


위 식에서 n,p,sd 를 대입하면 다음과 같은 신뢰구간을 얻을 수 있다. p 대신의 p의 추정량 p^을 넣는다. 


(0.469, 0.531)


따라서 p^ 은 0.48 이고, 위 구간에 들어가기 때문에 귀무가설을 기각할 수 없다. 


모비율의 신뢰구간을 구할 때, 한가지 알아두면 좋은 테크닉은, p 에 표본 비율 p^을 대입하지 않고, 0.5를 대입하면 가장 보수적인 신뢰구간을 구할 수 있다는 것이다. 


$$ (\tilde p - 1.96* \sqrt{0.5(1-0.5)/n}, \tilde p+ 1.96 * \sqrt{0.5(1-0.5)/n}) $$


p를 0.5로 추정할 때, 신뢰구간의 길이가 가장 넓어지기 때문에 만약 표본 수가 충분한다면 신뢰구간의 타당성을 확보하기 좋은 방법이라고 할 수 있고, 표본수가 적어 표본비율의 변동이 큰 상황에서도 대략적인 신뢰구간을 구할 수 있다는 장점이 있다. 


반응형
반응형


Label smoothing


본 포스팅에서는 최근 딥러닝 모델의 정확도와 Calibration 향상 최종적으로는 model generalization 에 도움이 된다고 알려진 Label smoothing 에 대해서 살펴보도록 하겠습니다. 


Introduction


이미지 분류는 이미지를 n 개의 카테고리로 할당하는 일을 말합니다. 예를 들어, 고양이와 개를 분류하는 이미지 분류문제를 예로 들어보자. 이미지의 크기가 248x400 라면, RGB 각 3개의 채널이 존재하기 때문에 하나의 이미지는 248x400x3 의 3차원 벡터로 표현할 수 있습니다. 이 벡터를 단 하나의 값으로 요약하는 것이 이미지 분류 문제에서 하는 것입니다. 

이미지 분류 문제의 예



고양이와 개를 분류하는 위의 예는 이진 분류 (binary classification) 의 예로 볼 수 있습니다. 이미지 분류의 목적 (248x400x3) 의 벡터를 하나의 값으로 요약하는) 을 달성하기 위해서는 학습 데이터 (training data) 가 필요합니다. 즉, 데이터의 갯수가 n 일 때, 학습 데이터의 형태는 이미지 : nx248x400x3 / Label: n 의 벡터로 표현할 수 있습니다. 근데 문제는, 잘못 labeling 된 이미지가 있을 수 있다는 것입니다. 특히, 이미지의 출처가 인터넷인 경우에는 이러한 mislabeling 의 문제가 빈번하게 일어납니다. 

예를 들어, 위와 같은 상황에서 딥러닝 모델은 Dog 라고 잘못 labeling 된 고양이의 이미지까지 학습하게 됩니다. 물론 데이터의 수가 적다면 이를 눈으로 일일히 확인하며 수정할 수 있지만, 데이터의 수가 많다면 이는 불가능합니다. 


$$ L = −(ylog(p)+(1−y)log(1−p)) $$

Binary classification 에서는 위와 같은 binary cross entropy 를 씁니다. 딥러닝 모델을 트레이닝하면서 loss 를 계산할 때, 잘못 labeling 된 sample 에 대해서는 loss 값이 크게 계산되게 됩니다. 이것은 training 도중 문제를 발생시킬 수 있습니다. 

Label Smoothing — One Possible Solution

이러한 문제를 해결하기 위한 한 가지 가능한 방법이 label smoothing 입니다. 이진 분류 문제에서 label 은 0 또는 1로 주어집니다. label 이 1이라고 하는 것은 그것의 label 이 1 임을 100 % 확신한다는 뜻입니다. 하지만 반드시 그렇지 않을 수 있다는 것이 핵심 문제입니다. 왜냐하면 사람이 annotation 하는 것이기 때문에 실수의 가능성이 언제나 존재합니다. 이 때 발생할 수 있는 잘못된 loss 의 영향을 줄이기 위하여 label 을 0또는 1이 아니라 smooth 하게 부여하는 것이 label smoothing 의 아이디어입니다. 또한 label smoothing 은 mislabeling 된 데이터를 고려하기 위해 사용되는 것에 추가적으로 regularization에 도움을 주면서, model generalization 과 calibration 에 도움이 된다는 것이 알려져있습니다.

Maximum likelihood learning with a softmax classifier and hard targets may actually never converge, the softmax can never predict a probability of exactly 0 or exactly 1, so it will continue to learn larger and larger weights, making more extreme predictions. forever (출처)

tensorflow 에는 label smoothing 에 대한 implementation 을 제공합니다. 아래와 같이 softmax_cross_entropy 의 parameter 로 label_smoothing 값을 전달할 수 있습니다. 


tensorflow document 를 보면 label_smoothing 값이 0이 아닌 경우, 아래와 같이 label smoothing 을 한다고 설명이 되어있습니다. 

"If label_smoothing is nonzero, smooth the labels towards 1/num_classes: new_onehot_labels = onehot_labels * (1 - label_smoothing) + label_smoothing / num_classes"

이것이 무엇을 뜻할까요? 

예를 들어 개/고양이 이진분류문제에서 label_smoothing 이 0.2로 설정되었다고 해봅시다. 그리고, 0은 고양이, 1은 개라는 rule 로 labeling 을 했다고 합시다. 위의 식을 이용하면 새로운 label 은 아래와 같이 계산됩니다. 

new_onehot_labels = 1 * (1 — 0.2) + 0.2 / 2 = 1*(0.8) + 0.1
new_onehot_labels = 0.9 

그리고 원래 0으로 부여되었던 label 의 경우 tensorflow 에서는 1-0.9 = 0.1 로 부여하게됩니다. 왜 label smoothing 을 이용하면 model calibration 에 도움이 될까요? 직관적인 해석은, 모델이 target 을 정확하게 예측하지 않아도 되도록 만드는 것입니다. 예를 들어, 원래 label 이 1인 데이터에 대해서 모델은 1을 최대한 예측하도록 트레이닝되는데 label smoothing 을 적용하면 '그래 0.9 정도면 잘 예측했다.' 정도의 loss 값을 산출하게 되는 것입니다. 그렇기 때문에 모델이 overconfident 해지는 경향을 막게 되아 calibration 및 regularization 이 되는 효과를 갖게 됩니다.  

Reference

https://towardsdatascience.com/label-smoothing-making-model-robust-to-incorrect-labels-2fae037ffbd0

https://arxiv.org/pdf/1906.02629.pdf

https://medium.com/@nainaakash012/when-does-label-smoothing-help-89654ec75326

https://rickwierenga.com/blog/fast.ai/FastAI2019-12.html

반응형
반응형

Chip-seq 의 기초 이해 


Genome 상의 단백질을 코딩하는 부분이 아닌 지역 (non-coding region) 에서 기능적인 부분을 찾기 위한 노력들이 이루어지고 있습니다. genome 연구 초창기에는 non-coding region 이 junk DNA 즉, 아무런 기능을 하지 않는다고 잘못 알려져 있었던 적도 있지만, non-coding region 에 위치한 다양한 기능 부위 (functional elements)들은 유전자 발현에 중대한 영향을 미치며, 이것이 인간의 복잡성을 결정하는 것으로 이해되고 있습니다. 이런 의미에서 non-coding region 을 이해하는 것은 중요하며, 이를 위해 다양한 실험 데이터가 모이고 있습니다. 그 중 하나가 바로 chip-seq 데이터입니다. 





Chip-seq의 핵심



  • Chip-Seq = Chip + Next Generation Sequencing 
  • Chip = Chromatin + Immunoprecipitation 


Immunoprecipitation (면역침강반응) 어떠한 sample에서 '특정 물질' (target) 을 찾기 위해 그 특정물질의 항체 (antibody) 를 이용하는 것입니다. Chip은 Chromatin (염색질) 에 Immunoprecipitation 을 하는 것입니다. 이것이 Chromatin 에 적용되는 경우, antibody 를 이용해 DNA 에 특정 위치에 결합한 단백질 (ex. transcription factor) 을 찾을 수 있습니다. 이 부분을 침강시킨 후, NGS 기술을 이용해 시퀀싱하는 것이 Chip-seq 입니다. 


Chip-seq 의 종류 


ChIP–seq and beyond: new and improved methodologies to detect and characterize protein–DNA interactions (Nature review genetics, 2012)


  • Transcription factor chip-seq 
  • Histone modification chip-seq 


Chip-seq은 크게 transcription binding site (tfbs) 를 찾기 위한 tf chip-seq 과 histone modification site 를 찾기위한 hm chip-seq 으로 나뉩니다. 두 경우 실험적으로 약간의 차이가 납니다 (위 그림 참). 또한 sequencing 이후에, 관찰되는 결과도 상당히 다른데, tf chip-seq 의 결과 나타나는 peak는 수십에서 최대 수백 서열 정도 (narrow)이지만, hm chip-seq 의 경우, 많게는 100만 서열 단위까지 길게 나타납니다 (broad peak).



Chip-seq control 


Chip-seq의 목적 중 하나는 genome 상의 특정 기능을 수행하는 부분: tfbs 또는 hm 을 찾기 위한 것입니다. 이를 chippeak finding 라 하는데, 이를 위해 control 데이터가 필요합니다. control 데이터가 필요한 이유는 간단히 말해 Chip-seq 에서 발생하는 noise 때문인데, noise 는 실험적 noise 와, 실제 생물학적 noise 로 나누어볼 수 있을 것 같습니다. 실험적 noise 의 경우, 해당 target 이 아닌 genome  상의 다른 부분이 sequencing 이 된 것입니다. 약 80~90 % 정도가 target 이 아닌데도 sequencing 이 된 부분 입니다. 이를 background noise 라고도 부릅니다. 생물학적인 noise 의 경우, genome 상의 특정 부분 예를 들어 repetitive sequence 가 있는 부분은 실험적인 이유에서가 아니라 그냥 reference genome 에 alignment 가 잘 되기 때문에 peak 처럼 보이기도 합니다. 따라서 이러한 noise 들을 보정하기 위해 control 데이터가 필요합니다. 


control 데이터는 크게 "input"과 "mock" 으로 나뉩니다. 


  • input: cross-link와 sonication 은 됐는데, immunoprecipitation 안된 것 
  • mock: IgG 라고하는 특별한 항체를 이용해 genome 상의 random 한 부분이 immunoprecipitation 되도록한 것 


이 중에서 일반적으로 input 이 control 로 많이 쓰입니다. 



Peak Finding


Chip-seq 도 NGS 이기 때문에, 최종 결과로 fastq 파일이 나옵니다. 이를 reference genome 에 alignment 를 해서 bam 파일이 나오게 되는데, 이 bam 파일에서 chip-seq 의 한가지 목적 = functional region 찾기를  하기 위한 것 peak finding 입니다. peak 가 있는 부분은 더 많이 sequencing 이 되었다는 것이고, chip-seq 에서 immunoprecipitation 이 많이 된 부분이기 때문에 알고자 하던 부분 (tfbs, hm)일 가능성이 크기 때문입니다. peak finding 을 할 때 여러가지 이슈가 있기 때문에 여러 복잡한 알고리즘들이 많이 쓰입니다. 이러한 알고리즘을 종합해서 구현해 놓은 tool 중 가장 많이 쓰이는 것이 MACS2 라는 Tool 입니다. Chip-seq 의 경우, single-end sequencing 이기 때문에 strand-dependant bimodality 의 문제가 생기는데, MACS 에서는 이를 보정하기 위한 shifting 모델을 사용하고, local dynamic 파라미터를 활용한 포아송 분포 모델을 통해 특정한 크기를 갖는 window로 genome 을 훑으며 통계적으로 유의한 지역 (peak) 을 찾습다. 


참고

http://epigenie.com/wp-content/uploads/2013/02/Getting-Started-with-ChIP-Seq.pdf

반응형

'Domains > Bioinformatics' 카테고리의 다른 글

Samtools, Bcftools 설치 방법  (1) 2018.05.14
GATK4 설치  (0) 2018.02.20
Chip-seq 데이터를 통한 binding motif 분석 [rGADEM]  (0) 2018.01.13
Variant calling 이란?  (0) 2017.11.20
IGV Tutorial [BAM File]  (0) 2017.10.16
반응형


2019 대한의료인공지능학회 Summer School 참석후기


2019 대한의료인공지능학회 Summer School 에 참석하였습니다. 참여자들을 조사했는데, 대략 전체 참석자중 MD 가 절반정도, 나머지 연구원 및 학생이 절반 정도되었던 것 같습니다. 각 교육 세션은 50분에서 1시간 30분사이로 진행되었습니다. 


1일차에는 의료인공지능을 하기 위한 방법론들을 주로 다루었습니다. 역시 현재 의료인공지능 분야의 state-of-the-art 인 deep learning 에 대한 내용이 중점이었습니다 (물론 이를 설명하기 위한 수학적, 통계적 개념은 많이 다루었습니다). 교육 내용은 deep learning 을 기초부터 다루지는 않았고, deep learning을 의료 데이터에 적용할 때 발생할 수 있는 주요 이슈들에 대해서 개념부터 최근 연구 동향까지 다루었습니다. 현재 연구원으로서 엔지니어링을 의료 데이터에 적용하고 있는 저로서는 발표자 분들과 같은 관심선상에서 많은 것을 배울 수 있었습니다. 


Recent updates of ML/DL/DCNN 


deep learning 중 특히 convolutional neural network (cnn) 을 의료데이터에 적용할 때 생기는 다양한 이슈들에 대해 개념부터 시작해 최근 연구 동향까지 빠르게 다루는 시간이었습니다. 발표자 분께서는 하나의 개념에 대해 깊게 설명하지는 않았으나, 앞으로 관련 개념을 찾아볼 때 충분한 guide 가 될 수 있을 정도로 잘 설명을 해주셨습니다. 


이 세션에서는 아래와 같은 주제들을 다루었습니다. 

  • Transfer learning and domain adaptation
  • Weakly supervised learning
  • Self-supervised learning
  • Explainability
  • Model compression and architecture search
  • Other issues

위 주제들은 모두 의료 인공지능 분야에서 중요한 이슈가 되는 주제들이라고 생각합니다. 


Recent updates of GANs: basic to advanced


아직 연구에 GAN 을 활용하지 않고 있는 저로서는 GAN 의 개념을 잘 모르고 있었는데, 기본 개념과 초기 GAN 의 문제점, 그리고 발전사에 대해 이해하기 쉽게 잘 설명을 해주셨습니다. GAN 은 Generative + Adversarial 두 가지 컴포넌트로 나뉘며, Generator 가 생성된 데이터를 Adversarial 가 진짜 데이터인지 Generator가 생성한 데이터인지를 평가합니다. 이 과정을 반복하면서 Generator 는 Adversarial 을 속일 수 있을 만큼 진짜 같은 데이터를 생성하내게 됩니다. Ian goodfellow가 제안한 초창기 GAN  모델에서 advanced 된 WGAN, CGAN, InfoGAN, Cycle GAN, GauGAN 등의 최근 모델도 다루었습니다. 특히 Cycle GAN 이나 GauGAN 등을 통해 Style transfer를 할 수 있고, 이러한 개념을 활용해 MRI 데이터를 CT 데이터로 변환할 수 있다는 내용이 흥미로웠습니다. 또한 U-net 과 같은 Semantic segmentation model 뿐 아니라, GAN 을 통해서도 segmentation 을 할 수 있다는 사실도 알게 되었습니다. 의료 인공지능 분야에 관심을 갖으며, 아직 GAN 을 많이 접해보지는 않았는데, 이번 강연을 계기로 GAN 관련 내용을 앞으로 공부를 해 보아야겠습니다. 


Mathematical tools in deep learning: A primer


이 세션에서는 deep learning 에서 쓰이는 다양한 수학적 개념에 대해 훑어주셔습니다. 각종 커뮤니티에서 딥러닝을 하기 위해서 필요한 선행지식으로, 수리통계학, 확률론, 선형대수, 컴퓨터 알고리즘 등을 꼽고 있습니다. 물론, 이러한 분야에 대한 개념이 딥러닝을 이해하는데 있어서 큰 도움이 되는 것은 사실입니다. 하지만 딥러닝을 하기 위해서 이러한 학문을 처음부터 끝까지 새로 배우는 것은 큰 시간과 비용이 소모됩니다. 특히 수학 관련해서는, 딥러닝에 활용이되는 수학적인 내용중 핵심적인 부분만 빠르게 학습하는 것이 시간을 줄이는 법일 것입니다. 이러한 관점에서 강연자분은 딥러닝에 활용되고 있는, 수학적인 개념을 집어서 강연을 해주셨습니다.  또한 강연자분은 Dive into deep learning 을 딥러닝 처음 학습 교재로 추천해주셨습니다 (https://www.d2l.ai). 개인적으로 저도 Ian good fellow 의 딥러닝보다 더 딥러닝 입문서로 추천하는 책입니다. Ian goodfellow 의 저서는 다소 교과서적이고 딱딱한 면이 있지만 이 책의 경우 보다 insightful 하게 설명을 하고 있고, 코드도 함께 나와 있어 입문서로써도 좋으며 어느정도 딥러닝에 경험이 있는 사람에게도 충분히 도움될 것으로 생각합니다.  


Explainability


다음은 Unist XAIC 그룹에서 Explainability 에 대해 다루어주셨습니다. Interpretability와 Explainability의 차이와 그것이 의료에 있어서 왜 중요한지에 대해 조금 더 구체적으로 알 수 있었고, 이를 구현하는 기술적인 방법에 대해 파악할 수 있었던 시간이었습니다. Interpretability 란 모델을 해석할 수 있는 것, 즉 딥러닝을 예로 들면, 각각의 layer 와 node가 무엇을 하는지에 대해 이해하는 것으로 볼 수 있습니다. Explainability란 왜  모델이 그러한 판단 (decision-making)을 내렸는가에 대해 reasonable 한 설명을 할 수 있는가에 대한 것입니다. 딥러닝은 black box의 성격이 강한 over-hyperparameterized 된 모델입니다. 초창기에는 모델이 어떻게 돌아가는지보다는 성능, 즉, 도메인 데이터에 대해 잘 working 하는 것이 중점이었습니다. 특히 하지만 의료 분야의 경우 이러한 decision-making이 매우 중요한 분야 중 하나이기 때문에  Interpretability와 Explainability가 중요한 이슈일 것입니다. 


Explaining Deep Neural Networks

  • Input Attribution Method (TU Berlin)

딥러닝 모델의 예측 결과에 대해 시각적 해석을 돕는 방법입니다. LIME, CAM, Layer-wise Relevance Propagation(LRP) 등이 유명한 방법입니다. 여기서 LIME 과 CAM 의 경우, CNN 에만 사용할 수 있는 모형이고, LRP 의 경우 모든 Neural Net 에 사용할 수 있는 방법입니다. 



  • XCAD: Explainable Computer Aided Diagnosis
  • Dissecting Deep Neural Networks (MIT)
  • Generating Examples inside of Deep Neural Networks (UNIST)


Explaining by Combining Explainable Models

  • Automatic Statistician (MIT/Cambridge)
  • Relational Automatic Statistician (UNIST)


Automatic statistician 은 학습된 모델을 여러개의 설명 가능한 모델로 분할하여 설명하는 기법입니다. 


https://www.automaticstatistician.com/index/



Finding Local Explanations (Model Agnostic Methods)

  • Counterfactual Generation (Toronto)
  • SHapley Additive exPlanation (SHAP)


위 방법은 모델 불가지론적 방법이라고 부르는 모델에 상관없이 어떤 모델이든 설명 가능하도록 하는 방법들입니다. 즉, 신경망 뿐만 아니라 다른 머신러닝 모델에도 적용할 수 있습니다. 


Uncertainty


다음은 루닛의 김민철님께서 딥러닝 모델의 Uncertainty 에 대해 다루어주셨습니다. 아래 3가지 내용에 대해 설명하였습니다. 


  • Calibration
  • Uncertainty within a model
  • AUC confidence interval


Calibration 의 정의는 다음과 같습니다.


the probability associated with the predicted class label should reflect its ground truth correctness likelihood.


즉, 예측 모형에서 클래스를 Probability 를 의미하는 값을 통해서 예측할 때, 그것이 실제 정답일 정도 (likelihood) 를 나타내야한다는 것입니다. 모델의 Calibration 을 점검하는 방법은 validation set 에서 probability 가 validation set에서 accuracy 와 비슷한지를 보면 되는데 이 부분에 대해서는 제 이전 포스트를 참조드립니다. Calibration 이 잘되었는지를 측정하기 위해 Expected Calibration Error (ECE) 가 기본적으로 쓰입니다. 


Calibration 이 잘안되는 문제는 training 도 중 NLL (Negative log likelihood) Overfitting이 생기기 때문에 일어납니다. 이러한 calibration 문제를 해결하기 위해 가능한 방법은 다음과 같습니다. 


The reasons for uncertainty

만약 calibration 이 잘 완료된 모델이 어떤 validation 데이터에 대해 0.95 라는 값을 내보냈을 때, 95 % 확률로 해당 label 이라는 뜻입니다. 하지만 일반적으로 모델에 사용하는 데이터는 population data가 아니라 sample 이며, "모델" 을 사용하는 것이기 때문에 이 값을 얼마나 믿어야할지에 대한 고민이 필요합니다. 

두 번째 주제인 Uncertainty within a model 에서는 이러한 모델이 만들어낸 output 의 불확실성을 어떻게 측정하는지에 관한 것입니다. 즉, 모델을 사용하고, sample 을 사용하는 것으로부터 오는 불확실성을 어떻게 제어할 것인가에 관한 것입니다. Linear regression 의 경우 예측값에 대한 분산을 구해서 confidence interval 을 수학적으로 구할 수 있지만 non-linear 에는 분산을 구할 수가 없습니다. 

따라서 bayesian 방법을 통해 모델의 파라미터의 분산을 추정하고 이를 통해 예측값의 분산을 구하는 방법을 주로 사용하게됩니다. 즉, 신경망의 모든 weight 에 사전 분포가 존재한다고 가정합니다. 이를 bayesian neural network 라고 합니다. 

Dropout as Bayesian Approximation


이를 실제로 하는 방법 중에 drop-out 을 이용하는 방법이 있습니다. 아래와 같은 방법으로 model uncertainty 를 구하게됩니다. 


1. Apply Dropout in all layers

2. Train the NN with SGD

3. During the test phase

a. Inference multiple times

b. Aggregate the result to approximate the posterior distribution


ref. Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning (ICML 2016)


요약


Why uncertainty?

  • sample vs population
  • Model parameter and complexity
  • Non linear models like Deep NN have no closed form solution to model variance
  • Bayesian models offer a tractable way to approximate uncertainty within the model


AUC and Confidence Interval


classification 문제에서 label 을 확률값 또는 스코어를 의미하는 값을 통해 예측할 때 주로 사용되는 measure는 Area under curve (AUC) 입니다. 특히 의료분야에서는  모델이 case 와 control을 얼마나 잘 discrimination 할 수 있는지에 대해 default로 사용되는 measure 라고 볼 수 있습니다. 그리고 AUC 의 한 가지 중요한 성질은 Mann-Whitney-Wilcoxon 2-sample U-statistic 과 같다는 것입니다. (Wilcoxon 1945; Mann and Whitney 1947).



왜 그런지에 대해 생각하지 않고, AUC와  U-statistic 이 같은 것이라면, AUC 는 다음과 같은 뜻을 같습니다. 


"disease, non-disease 인 sample 각각 random 하게 하나 씩 뽑았을 때, disease 인 사람이 더 클 확률"


AUC의 confidence interval 을 이러한 Wilcoxon U-stat 이 sample size 가 클 때 정규분포를 따른다는 사실을 이용해 구할 수 있습니다 (Hanley and McNeil (1982))


만약 AUC의 95 % confidece interval 이 (a, b) 인 경우에 이를 어떻게 해석하는 방법은 다음과 같습니다.


같은 population 에서 같은 수의 sample 을 뽑아서 같은 model 을 여러번 만들었을 때, 실제 AUC 가 (a,b)에 포함될 확률이 95 % 이다.


하지만 모든 신뢰구간이 그렇듯 (a,b) 가 sample 을 뽑을 때마다 달라진다는 비판은 있을 수 있다고 생각합니다.


Meta-Learning


Meta-learning 세션에서는 아래와 같은 개념들을 다루었습니다.

  • One shot learning
  • Network Architecture Search (NAS)
  • Auto-agent (Augmentation rule 을 learning)
  • Population-based augmentation
  • optimization transfer (learn-to-learn)


Meta-learning 의 핵심은 task 마다 새로운 네트워크를 만들지 않고, 새로운 task 에 적용하는 것 (knowledge transfer) 입니다. 최종목적은 모델을 사람처럼 learning 하도록 하는 것입니다. 예를 들어, image classification 에서 동물의 종류를 classification 할 때, 각 class 마다 동물의 이미지가 한 장씩 있다고해보면, 모델은 제대로 학습할 수 없지만 사람은 단 한 장의 이미지만 보고도 classification 할 수 있습니다. 사람은 그만큼 적은수의 데이터를 가지고도 generalization 을 할 수 있습니다.  즉, 사람과 모델이 다른점은 지금까지 배워왔던 지식을 활용할 수 있다는 것입니다. 예를 들어 사람은 지금까지 살면서 쌓아온 지식을 토대로 동물 A와 동물 B가 다른 종이라는 것을 쉽게 파악할 수 있습니다. 하지만 모델은 각 task 마다 새로운 모델을 만들고 학습해야합니다. 이러한 문제를 해결하기 위한 분야가 meta-learning 입니다. 또한 Meta learning 의 범위는 매우 넓으며 network architecture search 나, hyper parameter optimization 같은 분야 (learning-to-learn) 도 meta-learning 으로 분류됩니다.

반응형
반응형

Post-GWAS 와 Functional Genomics 의 이해


Post-GWAS Era: From Association to Function 논문을 기초로하여 Post-GWAS 와 functional genomics 의 등장에 대해 포스팅해보려고합니다. 


DNA 의 구조 발견 및 코돈 


DNA (deoxyribonucleic acid) 의 구조와 유전암호 (genetic code, codon) 이 발견된 이후 수십년간, 인간 유전학 연구는 단백질 코딩 유전자 (protein-coding gene) 의 기능과 구조를 이해하고 왜 단백 코딩 유전자에 변이가 생겼을 때, 질병이 발생하는지에 대한 연구가 중점적으로 이루어져 왔습니다. Central dogma 라고 불리는 생물학의 중심 원리는 유전자가 mRNA 로 전사 (transcribe), 다시 mRNA는 단백질로 번역(translate) 된다고 상정하고 있습니다. 직관적인 유전암호 덕분에 단백질 코딩 유전자에 변이가 생겼을 때, 최종 산물인 단백질의 아미노산 구성에 어떤 영향이 미칠지 쉽게 예측할 수 있었습니다. 


멘델리안 질병


가족 직접성 (Familiar aggregation) 을 강하게 보이고, 가족 내에서 질병이 예측할 수 있는 패턴으로 관찰되는 멘델리안 질병 (Mendelian disease)은 한 유전자의 돌연변이가 생겨 발생합니다.1983년 헌팅턴 질병의 유전적원인을 찾은 것을 시작으로, 다한 멘델리안 질병의 인과성이 있는 유전적 변이를 positional cloning 방법을 통해 잇달아 발견했습니다. 이를 통해 멘델리안 질병에 대한 유전적 원인을 어느정도 이해할 수 있었습니다. 


복합 질환과 전장 유전체 분석


하지만 현재 흔하고, 질병 부담이 큰 질병, 예를 들어 심혈관 질환 (cardiovascular disease), 암 (cancer), 알츠하이머 병 (Alzheeimer's disease), 파킨슨 병 (Parkinson's disease), 당뇨병 (type 2 diabetes) 등의 질병의 경우, 하나의 유전자의 돌연변이로 인해 발생하지 않습니다. 이러한 질병을 "복합질환 (complex trait)" 라고 하는데, 복합질환은 여러 유전 요인 및 환경 요인과 그들의 조합에 의해 영향을 받아 발생합니다. 


복합질환과 연관성이 있는 DNA 의 돌연변이 (genetic variant) 를 찾기 위해 전장 유전체 분석 (genome-wide association study, GWAS) 이 2005 년부터 시작됩니다. 최초의 GWAS 연구라고 불리는 연구는 2005년 science에 출간된 나이 관련 황반병성 관련 연구입니다. 


Complement Factor H Polymorphism in Age-Related Macular Degeneration, Science, 2015)


complement factor H 유전자 주위의 유전적 변이를 나이관련 황반 변성과 연관시킨 이 연구를 시작으로해서 전세계 수많은 연구자들이 복합질환과 연관성이 있는 유전적 변이를 찾기 위한 수많은 전장 유전체 분석 연구를 수행하였습니다. 전장유전체분석은 통계적으로 유의하게 질병과 연관성이 있는 유전적 변이를 찾는 방법이며, 일반적으로 단일염기 다형성 (Single nucleotide polymorphism) 이 많이 사용됩니다. 같은 질병을 대상으로한 GWAS 연구에서 반복적으로 통계적으로 유의하다고 발견되면, 이 변이는 실제 연관성이 있는 (질병의 위험도를 높이는) 변이라고 생각해볼 수 있었습니다. 


하지만 문제는, GWAS 연구의 결과로 발견된 변이 (GWAS Hit) 라도 그것이 실제 생물학적으로 질병의 위험도를 높이는 변이가 아닐 수 있다는 것입니다. 어떤 변이가 질병과 연관성이 있다는 사실은, 해당 인구집단 내에서 개인의 질병 위험도를 계산하는데에는 유용하게 쓰일 수는 있어도, 이것을 통해 질병의 생물학적인 메커니즘을 이해할 수 있는 것은 아니었습니다. 이유는 다음과 같습니다. 


1) 많은 GWAS Hit 들이 실제 연관성이 있는 변이 (causal variant) 와 Linkage disequilibrium 관계에 있음

2) 많은 GWAS Hit 들이 non-coding region 에 위치 (> 90%)해 있는데 이 지역이 무엇을 하는지 모름 


1) Linkage disequilibrium 이란 genome 상의 특정 부분의 서열 (genotype) 이 다른 genotype 과 연관성이 있는 것을 말합니다. LD 가 있는 것은 두 genotype 을 골랐을 때, random 하게 나오는 쌍의 빈도보다 얼마다 deviation 되어있는지를 통해 판단하며, LD 는 genome 상의 실제 거리가 가까울 수록 높습니다. 따라서 causal variant 과 LD관계에 있는 변이들이 GWAS hit 으로 나오게 되는 것입니다. 만약 genome 상의 X 라는 위치에 AA, Aa, aa 3개의 genotype 이 있을 수 있는데, a가 causal variant 라고 할 때, X와 LD 관계에 있는 Y 에 b 라고 하는 대립유전자가 a와 연관이 되어있으면, b도 GWAS hit 으로 나올 가능성이 큽니다. 그리고 GWAS 자체가 imputation 이라는 방법을 이용해서 LD 를 '이용' 해서 통계적으로 유의한 variant 를 찾아내기도 합니다. 


2) 90 % 이상의 GWAS hit 들이 non-coding region 에 위치해 있습니다. 즉, genetic code를 이용해서 해당 변이가 어떤 결과를 불러오는지 알아낼 수 있는 protein coding region 에 비해 non-coding region 은 이러한 해석이 불가능했습니다. 한 가지 가능한 해석은 이 지역이 유전자 근처에 위치해 유전자 발현에 영향을 주는 지역 (cis-regulatory region, cRE) 이라는 것입니다. 이것이 가능한 해석이긴 했지만, 진핵생물의 경우, 전사 조절 (transcriptional regulation) 이 워낙 복잡하기 때문에, 그것이 LD 인지, cRE 인지 알기가 힘들었습니다. 유전자 발현은 조직별로 다르게 나타나며, 어떠한 variant가 transcription 에 영향을 주는 경로는, DNA methylation, histone modification, splicing, transcription factor binding intensity change, mRNA stability 등으로 매우 다양합니다. 


Functional genomics 


Functional genomics의 최종적인 목적은 genome 상의 element 들이 어떤 기능을 하는지 알아내고자 하는 것입니다. GWAS hit 들의 많은 부분이 eQTL 과 겹칩니다. 하지만 문제는, variant가 expression 을 '아주 조금' 변화시킨다는 것입니다. 대부분의 variant 들인 target gene 의 expression을 평균적으로 2배 미만으로 증가시킵니다. 그리고 왜 expression 에 영향을 주는지 확실하게 밝히기가 어렵습니다. 현재까지로는, 복합질환의 경우 variant가 최종 표현형 (phenotype)인 질병에 영향을 주는 메커니즘이 수많은 variant 가 target gene의 expression 에 조금씩 영향을 주고, 이것이 최종적으로 질병 발생의 위험도를 증가시키는 것으로 이해할 수 있습니다. functional genomics 에는 많은 분야가 있지만, 아래 두 관계에 대한 생물학적인 이해를 하고자하는 것이 중요해보입니다. 


1) variant -> target gene expression 

2) target gene -> phenotype 


genotype-phenotype 관계를 생물학적 기능을 이해함으로서 풀고하는 분야가 바로 functional genomics 라고할 수 있습니다. 이를 위해 다양한 실험 데이터 (chip-seq, 5c, hi-c, dnase-seq ...)와 생물정보학적 방법이 동원되고 있습니다. functional genomics 의 한가지 특징은 전통적인 'gene-by-gene 분석보다는 NGS 등을 이용한 genome-wide 분석이 장려된다는 것입니다. 


Functional genomics (Wikipedia, Sep, 2019)

Functional genomics is a field of molecular biology that attempts to describe gene (and protein) functions and interactions. Functional genomics make use of the vast data generated by genomic and transcriptomic projects (such as genome sequencing projects and RNA sequencing). Functional genomics focuses on the dynamic aspects such as gene transcription, translation, regulation of gene expression and protein–protein interactions, as opposed to the static aspects of the genomic information such as DNA sequence or structures. A key characteristic of functional genomics studies is their genome-wide approach to these questions, generally involving high-throughput methods rather than a more traditional “gene-by-gene” approach.


Functional genomics 의 대표적인 데이터베이스


  • GTEX (Genotype-Tissue Expression): GTEX 는 genotype 과 tissue specific gene expression 을 저장하고 있는 DB 입니다. 50 개 이상의 tissue 에 대한 gene expression level 과 genotype 데이터를 갖고 있습니다. 이 때 어떤 genotype 이 어떤 tissue 의 어떤 gene 의 expression 에 영향을 주는 것이 통계적으로 관찰되면 이를 eQTL (expression quantitative trait loci) 라고 부릅니다. 실제로 많은 GWAS hit 들이 eQTL 과 겹치는 것으로 나타납니다 (ASHG, 2018). 
  • ENCODE (Encyclopedia of DNA Elements): genome 상에서의 transcription, transcription factor association, chromatin structure, histone modification을 밝혀내기 위한 프로젝트입니다. 이러한 genome 상에서의 기능적인 요소들을 식별함으로써 현재 인간 genome의 80%의 부분이 최소 1개 이상의 biochemical function 을 한다고 생각되어지고 있습니다. 

genome 상의 non-coding region 의 functional element 를 찾기 위한 ENCODE 프로젝트

반응형
반응형