Post-GWAS 와 Functional Genomics 의 이해


Post-GWAS Era: From Association to Function 논문을 기초로하여 Post-GWAS 와 functional genomics 의 등장에 대해 포스팅해보려고합니다. 


DNA 의 구조 발견 및 코돈 


DNA (deoxyribonucleic acid) 의 구조와 유전암호 (genetic code, codon) 이 발견된 이후 수십년간, 인간 유전학 연구는 단백질 코딩 유전자 (protein-coding gene) 의 기능과 구조를 이해하고 왜 단백 코딩 유전자에 변이가 생겼을 때, 질병이 발생하는지에 대한 연구가 중점적으로 이루어져 왔습니다. Central dogma 라고 불리는 생물학의 중심 원리는 유전자가 mRNA 로 전사 (transcribe), 다시 mRNA는 단백질로 번역(translate) 된다고 상정하고 있습니다. 직관적인 유전암호 덕분에 단백질 코딩 유전자에 변이가 생겼을 때, 최종 산물인 단백질의 아미노산 구성에 어떤 영향이 미칠지 쉽게 예측할 수 있었습니다. 


멘델리안 질병


가족 직접성 (Familiar aggregation) 을 강하게 보이고, 가족 내에서 질병이 예측할 수 있는 패턴으로 관찰되는 멘델리안 질병 (Mendelian disease)은 한 유전자의 돌연변이가 생겨 발생합니다.1983년 헌팅턴 질병의 유전적원인을 찾은 것을 시작으로, 다한 멘델리안 질병의 인과성이 있는 유전적 변이를 positional cloning 방법을 통해 잇달아 발견했습니다. 이를 통해 멘델리안 질병에 대한 유전적 원인을 어느정도 이해할 수 있었습니다. 


복합 질환과 전장 유전체 분석


하지만 현재 흔하고, 질병 부담이 큰 질병, 예를 들어 심혈관 질환 (cardiovascular disease), 암 (cancer), 알츠하이머 병 (Alzheeimer's disease), 파킨슨 병 (Parkinson's disease), 당뇨병 (type 2 diabetes) 등의 질병의 경우, 하나의 유전자의 돌연변이로 인해 발생하지 않습니다. 이러한 질병을 "복합질환 (complex trait)" 라고 하는데, 복합질환은 여러 유전 요인 및 환경 요인과 그들의 조합에 의해 영향을 받아 발생합니다. 


복합질환과 연관성이 있는 DNA 의 돌연변이 (genetic variant) 를 찾기 위해 전장 유전체 분석 (genome-wide association study, GWAS) 이 2005 년부터 시작됩니다. 최초의 GWAS 연구라고 불리는 연구는 2005년 science에 출간된 나이 관련 황반병성 관련 연구입니다. 


Complement Factor H Polymorphism in Age-Related Macular Degeneration, Science, 2015)


complement factor H 유전자 주위의 유전적 변이를 나이관련 황반 변성과 연관시킨 이 연구를 시작으로해서 전세계 수많은 연구자들이 복합질환과 연관성이 있는 유전적 변이를 찾기 위한 수많은 전장 유전체 분석 연구를 수행하였습니다. 전장유전체분석은 통계적으로 유의하게 질병과 연관성이 있는 유전적 변이를 찾는 방법이며, 일반적으로 단일염기 다형성 (Single nucleotide polymorphism) 이 많이 사용됩니다. 같은 질병을 대상으로한 GWAS 연구에서 반복적으로 통계적으로 유의하다고 발견되면, 이 변이는 실제 연관성이 있는 (질병의 위험도를 높이는) 변이라고 생각해볼 수 있었습니다. 


하지만 문제는, GWAS 연구의 결과로 발견된 변이 (GWAS Hit) 라도 그것이 실제 생물학적으로 질병의 위험도를 높이는 변이가 아닐 수 있다는 것입니다. 어떤 변이가 질병과 연관성이 있다는 사실은, 해당 인구집단 내에서 개인의 질병 위험도를 계산하는데에는 유용하게 쓰일 수는 있어도, 이것을 통해 질병의 생물학적인 메커니즘을 이해할 수 있는 것은 아니었습니다. 이유는 다음과 같습니다. 


1) 많은 GWAS Hit 들이 실제 연관성이 있는 변이 (causal variant) 와 Linkage disequilibrium 관계에 있음

2) 많은 GWAS Hit 들이 non-coding region 에 위치 (> 90%)해 있는데 이 지역이 무엇을 하는지 모름 


1) Linkage disequilibrium 이란 genome 상의 특정 부분의 서열 (genotype) 이 다른 genotype 과 연관성이 있는 것을 말합니다. LD 가 있는 것은 두 genotype 을 골랐을 때, random 하게 나오는 쌍의 빈도보다 얼마다 deviation 되어있는지를 통해 판단하며, LD 는 genome 상의 실제 거리가 가까울 수록 높습니다. 따라서 causal variant 과 LD관계에 있는 변이들이 GWAS hit 으로 나오게 되는 것입니다. 만약 genome 상의 X 라는 위치에 AA, Aa, aa 3개의 genotype 이 있을 수 있는데, a가 causal variant 라고 할 때, X와 LD 관계에 있는 Y 에 b 라고 하는 대립유전자가 a와 연관이 되어있으면, b도 GWAS hit 으로 나올 가능성이 큽니다. 그리고 GWAS 자체가 imputation 이라는 방법을 이용해서 LD 를 '이용' 해서 통계적으로 유의한 variant 를 찾아내기도 합니다. 


2) 90 % 이상의 GWAS hit 들이 non-coding region 에 위치해 있습니다. 즉, genetic code를 이용해서 해당 변이가 어떤 결과를 불러오는지 알아낼 수 있는 protein coding region 에 비해 non-coding region 은 이러한 해석이 불가능했습니다. 한 가지 가능한 해석은 이 지역이 유전자 근처에 위치해 유전자 발현에 영향을 주는 지역 (cis-regulatory region, cRE) 이라는 것입니다. 이것이 가능한 해석이긴 했지만, 진핵생물의 경우, 전사 조절 (transcriptional regulation) 이 워낙 복잡하기 때문에, 그것이 LD 인지, cRE 인지 알기가 힘들었습니다. 유전자 발현은 조직별로 다르게 나타나며, 어떠한 variant가 transcription 에 영향을 주는 경로는, DNA methylation, histone modification, splicing, transcription factor binding intensity change, mRNA stability 등으로 매우 다양합니다. 


Functional genomics 


Functional genomics의 최종적인 목적은 genome 상의 element 들이 어떤 기능을 하는지 알아내고자 하는 것입니다. GWAS hit 들의 많은 부분이 eQTL 과 겹칩니다. 하지만 문제는, variant가 expression 을 '아주 조금' 변화시킨다는 것입니다. 대부분의 variant 들인 target gene 의 expression을 평균적으로 2배 미만으로 증가시킵니다. 그리고 왜 expression 에 영향을 주는지 확실하게 밝히기가 어렵습니다. 현재까지로는, 복합질환의 경우 variant가 최종 표현형 (phenotype)인 질병에 영향을 주는 메커니즘이 수많은 variant 가 target gene의 expression 에 조금씩 영향을 주고, 이것이 최종적으로 질병 발생의 위험도를 증가시키는 것으로 이해할 수 있습니다. functional genomics 에는 많은 분야가 있지만, 아래 두 관계에 대한 생물학적인 이해를 하고자하는 것이 중요해보입니다. 


1) variant -> target gene expression 

2) target gene -> phenotype 


genotype-phenotype 관계를 생물학적 기능을 이해함으로서 풀고하는 분야가 바로 functional genomics 라고할 수 있습니다. 이를 위해 다양한 실험 데이터 (chip-seq, 5c, hi-c, dnase-seq ...)와 생물정보학적 방법이 동원되고 있습니다. functional genomics 의 한가지 특징은 전통적인 'gene-by-gene 분석보다는 NGS 등을 이용한 genome-wide 분석이 장려된다는 것입니다. 


Functional genomics (Wikipedia, Sep, 2019)

Functional genomics is a field of molecular biology that attempts to describe gene (and protein) functions and interactions. Functional genomics make use of the vast data generated by genomic and transcriptomic projects (such as genome sequencing projects and RNA sequencing). Functional genomics focuses on the dynamic aspects such as gene transcription, translation, regulation of gene expression and protein–protein interactions, as opposed to the static aspects of the genomic information such as DNA sequence or structures. A key characteristic of functional genomics studies is their genome-wide approach to these questions, generally involving high-throughput methods rather than a more traditional “gene-by-gene” approach.


Functional genomics 의 대표적인 데이터베이스


  • GTEX (Genotype-Tissue Expression): GTEX 는 genotype 과 tissue specific gene expression 을 저장하고 있는 DB 입니다. 50 개 이상의 tissue 에 대한 gene expression level 과 genotype 데이터를 갖고 있습니다. 이 때 어떤 genotype 이 어떤 tissue 의 어떤 gene 의 expression 에 영향을 주는 것이 통계적으로 관찰되면 이를 eQTL (expression quantitative trait loci) 라고 부릅니다. 실제로 많은 GWAS hit 들이 eQTL 과 겹치는 것으로 나타납니다 (ASHG, 2018). 
  • ENCODE (Encyclopedia of DNA Elements): genome 상에서의 transcription, transcription factor association, chromatin structure, histone modification을 밝혀내기 위한 프로젝트입니다. 이러한 genome 상에서의 기능적인 요소들을 식별함으로써 현재 인간 genome의 80%의 부분이 최소 1개 이상의 biochemical function 을 한다고 생각되어지고 있습니다. 

genome 상의 non-coding region 의 functional element 를 찾기 위한 ENCODE 프로젝트