Genetic Mapping2
유전자의 상대적 위치를 결정하고, 특정 질병과 관련있는 유전자를 특정하는 것을 genetic mapping이라고 한다. Genetic mapping의 궁극적인 목표는 genotype과 phenotype의 association을 알아내는 것이다.
![](https://t1.daumcdn.net/cfile/tistory/992C19335A06EB340C)
[genetic mapping의 개념]
Human Genom Project를 통해 인간 유전체 30억개 서열을 읽을 수 있게 되었고, 20000여개의 gene을 찾아내었다. 하지만 서열을 통해 gene이 무슨 역할을 하는지 어느정도 알 수있었지만, 어떤 변이가 disease-causing 인지는 "추측"할 수 밖에 없다.
수십년전부터 시작된 Gene Mapping은 disease-causing mutation이 어디인지 상대적으로 결정하는 것이다. gene mapping은 dna sequencing이 발달하기 이전의 최초 접근법이라고 볼 수 있다. 상대적으로 결정한다는 것은 genome 상에 어떤 reference point와의 상대적 위치를 결정한다는 것인데 이 reference point를 genetic marker라고 한다. genetic marker는 보통 SNP(single nucleotide polymorphism)을 사용한다.
![](https://t1.daumcdn.net/cfile/tistory/992BEC335A06F3801A)
다소 극단적인 예를 들어보자. A, B 라는 SNP marker가 있고, 위는 offspring의 genotype과 질병 여부를 나타낸 것이다. B marker의 genotype이 bb인 경우, 모두 질병에 걸렸으므로, B의 bb genotype이 질병과 연관(linked)이 있다는 것을 알 수 있다. 따라서 B marker가 실제 disease-causing mutation과 association이 있다고 추론해볼 수 있다.
Genetic Mapping Example
![](https://t1.daumcdn.net/cfile/tistory/99CFB5335A06F5F42C)
Gene Mapping을 하기 위해서는 parents와 offspring의 Marker의 genotype이 필요하다. 또 parents 중 한 명은 heterozygous여야한다. homozygous인 경우, recombination을 관찰할 수 없기 때문이다. 예를 들어서 genetic mapping을 실제로 하는 법을 살펴보자.
마커 AB에 대하여, AB/ab genotype과 ab/ab genotype인 부모의 자손을 조사했을 때 다음과 같은
genotype-phenotype 결과를 얻었다고 하자. Genetic Mapping의 목표는 disease-causing
mutation의 A,B와 비교한 상대적인 위치를 알아내는 것이다.
위 경우에는 A marker가 disease와 연관이 있다는 것을 알 수 있다. C 유전자가 실제 disease-causing이라면, 이 C 유전자의 genotpe이 A와 같이 유전될 것이다.
![](https://t1.daumcdn.net/cfile/tistory/998D26335A06F98514)
그러면
C 유전자를 포함해 위와 같은 genotype-phenotype 관계를 알 수 있고, 이를 통해 gene map을 추론할 수
있다. 위 문제의 답은 A-C-B 이다. 가장 희귀한 case인 abC/abc, ABc/abc를 보면, A와 B 는
parental이고, C만 recombinant임을 알 수 있다. 빈도가 희귀한 것과, A-B는 parental인데, C만 recombinant 인 것을 보면 이는 A-C-B 에서
double recombination이 일어나, A-c-B, a-b-C가 되었음을 알 수 있다. 혹은 각각의 유전자들마다
recombination fraction을 구해서 gene map을 구할 수도 있다. 즉, A-B, B-C, A-C의
recombination fraction을 구한 후, 이를 통해 유전자의 상대적 위치를 알 수 있다. 예를 들어, A-B의 recombination fraction = 157/843+157 = 0.157
문제
AbC/aBc X abc/abc의 결과로 아래와 같은 빈도가 관찰되었다.
ABC/abc = 13
ABc/abc = 11
abC/abc =6
AbC/abc = 257
aBc/abc = 237
Abc/abc = 1
aBC/abc = 0
abc/abc = 8
A-C의 recombination fraction의 근사값은?
ABC/abc = 13 => parental
ABc/abc = 11 => recombinant
abC/abc =6=> recombinant
AbC/abc = 257=> parental
aBc/abc = 237 => parental
Abc/abc = 1=> recombinant
aBC/abc = 0 => recombinant
abc/abc = 8 => parental
11+6+1+0/13+11+6+257+237+1+0+8 = 0.033
Population Mapping
Genetic mapping은 앞서본것처럼 가족을 대상으로 할 수도 있지만, 인구 집단을 대상으로 할 수도 있다.
![](https://t1.daumcdn.net/cfile/tistory/997DAB335A074CD525)
이 그림은 4개의 염색체가 시간이 오래지나서 뒤죽박죽 섞여 있는 모습을 나타낸 그림이다. (D=Disease Allele, M1=Marker1, M2=Marker2) 이 그림에서 중요한 사실은 아무리 많은 세대가 지나더라도 D와 M1사이의 연관은 그대로 남아있다는 것이다. 이렇게 연관이 그대로 남아있을 수 있는 이유중 하나로, Recombination이 완전히 임의로 일어나지 않는다는 사실을 들 수 있다. 염색체에서 Recombination이 자주 일어나는 부분을 Recombination hotspot이라 하는데(hot spot은 평균적으로 매 3000bp 마다 한 번씩 존재한다.) 이 부분을 제외한 나머지 부분은 recombination fraction이 거의 0에 가깝다. 따라서 hotspot과 hotspot 사이에 window가 형성되는데 이 window 내에서는 recombination이 거의 일어나지 않고 세대가 지나더라도 같이 유전된다. 이를 Linkage disequilibrium(LD)이라 한다. 어떠한 window 내에 disease gene이 있을 수 있고, 우리는 이러한 LD를 이용하여 disease gene을 찾을 수 있다. hot spot이 평균적으로 매 3000bp 마다 한 번씩 있으므로 30억/3000 = 100만개의 SNP을 마커로 사용한다면 disease gene을 찾을 수 있다.
![](https://t1.daumcdn.net/cfile/tistory/99A6C1335A074F6326)
이 그림은 window와 LD에 대해 이해하기 좋은 그림이다. 이를 통해 disease locus의 위치를 알아내기 위해 마커가 어떻게 쓰이는지를 이해할 수 있다. 예를 들어 SNP2=G일 때 Disease Allele인 A가 높은 비율로 존재한다. 따라서 SNP2은 Disease에 대해 연관이 있고 좋은 정보를 준다는 것을 알 수 있다. 하지만 윈도우 밖의 SNP5의 경우 disease와 아무런 연관이 없다.
위에서 말한 100만개의 SNP 마커를 (genotype) 알아내는 기술을 microarray라 한다. 많은 회사들이 이러한 SNP 마커를 이용해 disease suceptabilty를 알려주는 서비스를 제공한다.
![](https://t1.daumcdn.net/cfile/tistory/991490335A0753D629)
Pedigree와 population으로 mapping하는 것의 차이는 위 그림에서 볼 수 있다. pedigree는 세대수가 적기 때문에 recombination이 된 부분이 적다. 따라서 같은 염색체 내에서 두 locus가 recombination이 되었을 확률이 적다. 하지만 Population의 경우 매우 많은 세대가 지난 것이기 때문에 같은 염색체 내에서라도 많은 recombination이 일어났을 것이다. 그러므로 recombination이 안일어났을 것이라고 보장되는 범위가 pedigree에서는 ~2백만bp이지만 population을 이용했을 때는 ~3000bp 정도이다. 또 Population을 대상으로하면 질병이 희귀한 경우 연구하기 힘들다. 엄청나게 많은 sample을 뽑아야하기 때문이다.
출처 - Coursera Duke Univ 유전학 강의