Genetic Mapping2


유전자의 상대적 위치를 결정하고, 특정 질병과 관련있는 유전자를 특정하는 것 genetic mapping이라고 한다. Genetic mapping의 궁극적인 목표는 genotype과 phenotype의 association을 알아내는 것이다.


[genetic mapping의 개념]



Human Genom Project를 통해 인간 유전체 30억개 서열을 읽을 수 있게 되었고, 20000여개의 gene을 찾아내었다. 하지만 서열을 통해 gene이 무슨 역할을 하는지 어느정도 알 수있었지만, 어떤 변이가 disease-causing 인지는 "추측"할 수 밖에 없다.


수십년전부터 시작된 Gene Mapping은 disease-causing mutation이 어디인지 상대적으로 결정하는 것이다. gene mapping은 dna sequencing이 발달하기 이전의 최초 접근법이라고 볼 수 있다. 상대적으로 결정한다는 것은 genome 상에 어떤 reference point와의 상대적 위치를 결정한다는 것인데 이 reference point를 genetic marker라고 한다. genetic marker는 보통 SNP(single nucleotide polymorphism)을 사용한다.



다소 극단적인 예를 들어보자. A, B 라는 SNP marker가 있고, 위는 offspring의 genotype과 질병 여부를 나타낸 것이다. B marker의 genotype이 bb인 경우, 모두 질병에 걸렸으므로, B의 bb genotype이 질병과 연관(linked)이 있다는 것을 알 수 있다. 따라서 B marker가 실제 disease-causing mutation과 association이 있다고 추론해볼 수 있다.



Genetic Mapping Example


Gene Mapping을 하기 위해서는 parents와 offspring의 Marker의 genotype이 필요하다. 또 parents 중 한 명은 heterozygous여야한다. homozygous인 경우, recombination을 관찰할 수 없기 때문이다. 예를 들어서 genetic mapping을 실제로 하는 법을 살펴보자. 마커 AB에 대하여, AB/ab genotype과 ab/ab genotype인 부모의 자손을 조사했을 때 다음과 같은 genotype-phenotype 결과를 얻었다고 하자. Genetic Mapping의 목표는 disease-causing mutation의 A,B와 비교한 상대적인 위치를 알아내는 것이다.


위 경우에는 A marker가 disease와 연관이 있다는 것을 알 수 있다. C 유전자가 실제 disease-causing이라면, 이 C 유전자의 genotpe이 A와 같이 유전될 것이다.


그러면 C 유전자를 포함해 위와 같은 genotype-phenotype 관계를 알 수 있고, 이를 통해 gene map을 추론할 수 있다. 위 문제의 답은 A-C-B 이다. 가장 희귀한 case인 abC/abc, ABc/abc를 보면, A와 B 는 parental이고, C만 recombinant임을 알 수 있다. 빈도가 희귀한 것과, A-B는 parental인데, C만 recombinant 인 것을 보면 이는 A-C-B 에서 double recombination이 일어나, A-c-B, a-b-C가 되었음을 알 수 있다. 혹은 각각의 유전자들마다 recombination fraction을 구해서 gene map을 구할 수도 있다. 즉, A-B, B-C, A-C의 recombination fraction을 구한 후, 이를 통해 유전자의 상대적 위치를 알 수 있다. 예를 들어, A-B의 recombination fraction = 157/843+157 = 0.157


문제


AbC/aBc X abc/abc의 결과로 아래와 같은 빈도가 관찰되었다.


ABC/abc = 13

ABc/abc = 11

abC/abc =6

AbC/abc = 257

aBc/abc = 237

Abc/abc = 1

aBC/abc = 0

abc/abc = 8


A-C의 recombination fraction의 근사값은?


ABC/abc = 13 => parental

ABc/abc = 11 => recombinant

abC/abc =6=> recombinant

AbC/abc = 257=> parental

aBc/abc = 237 => parental

Abc/abc = 1=> recombinant

aBC/abc = 0 => recombinant

abc/abc = 8 => parental


11+6+1+0/13+11+6+257+237+1+0+8 = 0.033




Population Mapping


Genetic mapping은 앞서본것처럼 가족을 대상으로 할 수도 있지만, 인구 집단을 대상으로 할 수도 있다.



이 그림은 4개의 염색체가 시간이 오래지나서 뒤죽박죽 섞여 있는 모습을 나타낸 그림이다. (D=Disease Allele, M1=Marker1, M2=Marker2) 이 그림에서 중요한 사실은 아무리 많은 세대가 지나더라도 D와 M1사이의 연관은 그대로 남아있다는 것이다. 이렇게 연관이 그대로 남아있을 수 있는 이유중 하나로, Recombination이 완전히 임의로 일어나지 않는다는 사실을 들 수 있다. 염색체에서 Recombination이 자주 일어나는 부분을 Recombination hotspot이라 하는데(hot spot은 평균적으로 매 3000bp 마다 한 번씩 존재한다.) 이 부분을 제외한 나머지 부분은 recombination fraction이 거의 0에 가깝다. 따라서 hotspot과 hotspot 사이에 window가 형성되는데 이 window 내에서는 recombination이 거의 일어나지 않고 세대가 지나더라도 같이 유전된다. 이를 Linkage disequilibrium(LD)이라 한다. 어떠한 window 내에 disease gene이 있을 수 있고, 우리는 이러한 LD를 이용하여 disease gene을 찾을 수 있다. hot spot이 평균적으로 매 3000bp 마다 한 번씩 있으므로 30억/3000 = 100만개의 SNP을 마커로 사용한다면 disease gene을 찾을 수 있다.



이 그림은 window와 LD에 대해 이해하기 좋은 그림이다. 이를 통해 disease locus의 위치를 알아내기 위해 마커가 어떻게 쓰이는지를 이해할 수 있다. 예를 들어 SNP2=G일 때 Disease Allele인 A가 높은 비율로 존재한다. 따라서 SNP2은 Disease에 대해 연관이 있고 좋은 정보를 준다는 것을 알 수 있다. 하지만 윈도우 밖의 SNP5의 경우 disease와 아무런 연관이 없다.


위에서 말한 100만개의 SNP 마커를 (genotype) 알아내는 기술을 microarray라 한다. 많은 회사들이 이러한 SNP 마커를 이용해 disease suceptabilty를 알려주는 서비스를 제공한다.



Pedigree와 population으로 mapping하는 것의 차이는 위 그림에서 볼 수 있다. pedigree는 세대수가 적기 때문에 recombination이 된 부분이 적다. 따라서 같은 염색체 내에서 두 locus가 recombination이 되었을 확률이 적다. 하지만 Population의 경우 매우 많은 세대가 지난 것이기 때문에 같은 염색체 내에서라도 많은 recombination이 일어났을 것이다. 그러므로 recombination이 안일어났을 것이라고 보장되는 범위가 pedigree에서는 ~2백만bp이지만 population을 이용했을 때는 ~3000bp 정도이다. 또 Population을 대상으로하면 질병이 희귀한 경우 연구하기 힘들다. 엄청나게 많은 sample을 뽑아야하기 때문이다.





출처 - Coursera Duke Univ 유전학 강의


'Domains > Genetics' 카테고리의 다른 글

Genetics - Genome-wide association study  (0) 2017.11.13
Genetics - Genetic Mapping3  (0) 2017.11.12
Genetics - Genetic Mapping1  (0) 2017.11.11
Genetics - Recombination  (0) 2017.11.11
EM 알고리즘 haplotype frequency 추정  (0) 2017.10.08