Domains/Genetics (22)

반응형

Gene vs Environment


어떠한 사람의 특성이 유전자로부터 비롯된 것인지, 환경으로부터 비롯된 것인지를 아는 것은 중요하다. 예를 들어, 만약 그 특성이 질병이라면 환경을 의식적으로 컨트롤함으로써 질병을 예방할 수 있다.


이러한 것을 확인하는 한가지 방법은 쌍둥이를 연구하는 것이다. 유전 vs 환경을 연구할 때, 유전, 환경 둘 중 하나를 고정시키고 다른쪽의 effect만 보면 보다 정확한 유전, 환경 효과를 파악할 수 있다. 쌍둥이 연구는 유전, 환경 중 하나를 고정하고 다른 요인의 효과를 파악하는데 적합하다.


유전적 요소 파악하기


쌍둥이를 통한 연구에서 보통 쌍둥이는 shared environment라고 가정한다. 이것이 쌍둥이 연구의 이점이다. 일란성 쌍둥이에서의 상관도(correlation)이 이란성 쌍둥이에 비해 높다면 그 특성은 유전적 요소가 환경적 요소에 비해 더 많이 개입할 것이라고 추론할 수 있다.


실제 예로 IQ의 경우 일란성 쌍둥이의 상관계수는 0.85, 이란성 쌍둥이의 상관계수는 0.42이다.


환경적 요소 파악하기


쌍둥이를 통한 연구에서 어떠한 특성의 환경적 요소를 파악하는 방법은 함께 살은 일란성 쌍둥이와 떨어져서 살은 일란성 쌍둥이를 비교하는 것이다. 함께살은 쌍둥이는 유전, 환경 모두 동일하지만, 떨어져 살은 쌍둥이는 유전, 환경 중에 유전만 동일하고 환경이 다르다. 따라서 함께 살은 쌍둥이의 상관계수가 더 높을수록 그 특성은 환경적 요소가 크게 작용한다고 생각할 수 있다.


보통 쌍둥이간의 상관계수는 같이 살은 일란성 > 떨어져 살은 일란성, 같이 살은 일란성 > 같이 살은 이란성 이 성립한다.


예를 들어서, 언어적 능력이라는 특성에 대하여 상관계수가 다음과 같이 나온 경우를 보자.


같이 살은 일란성(유전 같음, 환경 같음) : 0.76

떨어져 살은 일란성(유전 같음,환경 다름) : 0.51

같이 살은 이란성(유전 다름, 환경 같음) : 0.43


이 경우 0.76-0.51을 환경적 요소에 의한 특성의 차이로 볼 수 있고, 0.76-0.43을 유전적 요소에 의한 특성의 차이로 볼 수 있다.


유전, 환경 정량화하기


어떠한 정량화된 특성의 분산을 유전에 의한 분산과 환경에 의한 분산으로 나눌 수 있다.


simple formula : V = V(환경) + V(유전)


V는 분산을 구하는 공식으로 계산할 수 있는데, 어떻게 V(환경), V(유전)을 계산할 수 있을까? 방법은 생각보다 간단하다. V(환경)만 구하면, V(유전)도 구할 수 있고, V(환경)은 genotype을 고정시킨 후의 특성의 분산을 통해 구할 수 있다. 어떠한 특성에 관련있는 유전자가 6개라고 하자. 이 6개의 유전자에 대한 genotype이 모두 같은 sample안에서 분산을 구하면 이 분산은 오직 환경으로 인한 분산이다. 따라서 이 때의 분산 V1 = V(환경)이다. 이를 기존에 랜덤하게 뽑은 sample의 V에서 빼면 V(유전)을 구할 수 있다. 이 때 Heritability는 아래와 같이 정의된다.


Heritability = V(유전) / V(유전)+V(환경)


<모든 유전자가 heterozygous인 F1세대를 교배하여 만든 F2 세대를 통해 heritability 계산>


하지만 이런 방법을 사람에게 적용할 수는 없다. 실제로 사람에 대해 유전, 환경적 요소를 정량화하는 방법을 알아보자.



부모-자손 상관계수를 통해 Heritability 계산하기


실제 사람을 대상으로 heritability를 계산하는 방법 중 하나는, 부모-자손 상관계수를 이용하는 방법이다. 하지만 이 경우에 많은 한계점이 있다. 우선 첫 번째로, 부모-자손 상관계수를 이용하여 Heritability를 추정하는 경우 overestimated될 가능성이 있다. 부모-자손은 환경을 많은 부분 공유하기 때문이다. 우리가 보고 싶은건 유전적 요소 뿐인데 이러한 방법을 이용하게 되면 환경이 개입하여 heritability를 실제보다 더 높게 추정하게 된다. 또한 V(유전)을 알고 싶은 경우, 환경을 고정시킨 후 보아야하는데 환경을 고정시킬 수가 없다. 환경은 인구 집단에 따라 인종에 따라 다르다. 즉, V(환경)이 일정하지 않다. 그래서 연구 집단으로 어느 집단을 선택하냐에 따라 heritability 추정값이 달라진다. 


<키가 유전적 요소에 의해서만 좌우되는 경우>



<실제 키의 부모-자손 상관계수>




Breeder's Equation


인위 선택을 통해 Heritability를 계산할 수 있다. 옥수수 키의 평균이 5인치라고 하자. 이 방법에서는 7인치인 옥수수를 교배해서 나온 옥수수의 평균이 7인치라면 heritability = 1이다. 7인치 옥수수를 교배해서 나온 옥수수의 평균이 5인치면, 유전의 영향을 전혀받지 않는 것으로 heritability = 0이다. 만약 평균이 6인치가 나왔으면 1/2 = 0.5이다. 6.5인치면 1.5/2 = 0.75이다. 왜냐하면 7인치 옥수수를 뽑은 것은 모집단에서 뽑은 것이기 때문에 7-5=2 = V(유전)+V(환경)이다. 하지만 7인치를 교배해서 나온 6.5인치에서 평균을 뺀 6.5-5=1.5=V(유전) 이다. 따라서 이 둘의 비율로 heritability를 추정할 수 있다. 인위선택뿐 아니라 자연선택에서도 이 논리를 그대로 적용할 수 있다.




반응형

'Domains > Genetics' 카테고리의 다른 글

GWAS, QTL, Linkage study 셋의 차이점  (0) 2017.12.22
Genetics - Allele and Genotype Frequency  (0) 2017.11.14
Genetics - Genome-wide association study  (0) 2017.11.13
Genetics - Genetic Mapping3  (0) 2017.11.12
Genetics - Genetic Mapping2  (0) 2017.11.11
반응형

GWAS의 원리


마커의 genotype 별로 질병의 비율을 본다. 이것이 임의로 생긴것인지 실제 질병에 연관이 있는건지를 검정한다. 그리고 이를 LOD plot과 같은 것으로 시각화 한다. 아래의 경우 A 마커주위의 LOD Score가 3 이상인(전통적으로 3이상이면 linkage가 있다고 본다. - https://en.wikipedia.org/wiki/Genetic_linkage) 지역에 위치한 gene이 질병과 연관이 있다고 볼 수 있는 후보가 된다.



Pedigree vs Population


Pedigree : family를 대상으로 양적표현형의 유전적 요소를 보는 것. 일반적으로 적은 gene에 대하여 연구하며 power가 크다. pedigree를 이용하는 경우는 recombination의 window가 크다. 그래서 많은 유전자를 mapping할 수 있다. 이것이 pedigree를 이용할 때의 장점이다.

Population : population을 대상으로 양적 표현형의 유전적 요소를 본다. 일반적으로 많은 수의 gene에 대하여 연구하며 power가 작을 수 있지만 많은 수의 연관 유전자를 찾을 수 있다.



왜 Population을 대상으로하면 power가 작을까?


1. pedigree를 통해 분석하면 popluation을 통해 분석했을 때보다 샘플의 유전적 근연도가 높다. 따라서 보고자하는 것 외에 다른 genotype은 비슷하게 고정시킬 수 있다.


2. popluation을 대상으로하면 rare variant를 테스트하기 힘들다. (샘플 수가 너무 작기 때문)



GWAS에 관한사실


1. GWAS는 common disease variant를 찾아내는데 잘 작동한다.

2. GWAS의 결과는 인종(ethnic group)별로 다를 수 있다.

 

 

GWAS의 간단한 예

 

 


반응형

'Domains > Genetics' 카테고리의 다른 글

Genetics - Allele and Genotype Frequency  (0) 2017.11.14
Genetics - Gene vs Environment  (0) 2017.11.14
Genetics - Genetic Mapping3  (0) 2017.11.12
Genetics - Genetic Mapping2  (0) 2017.11.11
Genetics - Genetic Mapping1  (0) 2017.11.11
반응형
 

Single Gene 2 alleles Model의 결점


앞서 살펴본 것들은 Single Gene 2 alleles 모델이다. 이는 현실과는 다른데 그 이유로는 아래와 같은 것들을 들 수 있다.


1. Penetrance : 질병 유전자가 반드시 형질의 변화에 영향을 주지 않고 suceptability에 영향을 줌

2. 하나의 유전자가 아니라 많은 수의 유전자가 형질에 관여함

3. Epistatsis : 유전자들간의 상호작용

4. 한 유전자에 많은 allele이 있을 수 있음 (ex. 혈액형 - 3개의 alleles)

5. 형질에는 환경이 관여한다. : (선탠을 하면 피부가 탄다-environment effect, 어떤 사람은 선탠을 하면 피부가 더 잘탄다-genotype, environment interaction)


Mutation Rate


Mutation Rate는 mutation이 한 번의 generation에 얼마나 발생하는지를 나타내는 수치이다. muation rate는 mutation을 어떻게 정의하냐에 따라 달라지긴하지만 보통은 어떠한 하 나의 base가 다른 base로 변경되는 것을 mutation이라고 한다. C elegans를 대상으로 muation rate를 조사해봤을 때, 2.1*10^-8 / per base / per generation 이었다. 이를 인간에 적용해보면 3.1*10^9 * 2.1*10^-8 = 65개의 새로운 mutation이 평균적으로 매 generation 마다 생겨나는 것을 알 수 있다. 그리고 실제 인간을 대상으로 mutation rate를 연구를 한 논문에서도 63개 정도의 mutation이 generation마다 평균적으로 발생한다고 밝혀졌다. 그리고 새롭게 생기는 mutation의 수는 아버지의 나이와 관련 있다. 아버지의 나이가 많을 수록 더 많은 수의 mutation이 평균적으로 발생한다. 그 mutation들 중에서 평균적으로 1~2개의 mutation이 해롭다고 한다.




QTL


양적 형질에 관여하는 것으로 예상되는 loci를 QTL이라 한다. 실제로 그것의 정확한 위치는 알 수 없지만 마커와의 연관을 통해 근사적으로 추론한다. 특정 양적 형질에 영향을 미치는 많은 QTL이 많이 발견되었다.


genotype-phenotype의 관계를 추론하는데 사용하는 근본적인 방법은 phenotype에 영향을 미치는 gene 근처의 마커와 phenotype의 연관(association)을 보는 것이다. A라는 마커의 genotype을 AA, Aa, aa라고 하고, AA인 사람의 키의 평균이 180cm, Aa인 사람의 키의 평균이 175, aa인 사람의 키의 평균이 170cm였다면, A가 disease와 연관이 있다고 볼 수 있다. 그리고 실제 QTL은 A 마커와 연관이 되어 있다고 추론할 수 있다. A 마커와 실제 QTL에 recombination이 거의 없을수록 A 마커의 effect는 크게 나타날 것이다. 



이는 마치 누군가가 실종되었는데, 그 사람의 위치를 정확하게 말하지 않고 "노스캐롤라이나 주" 라고 말하는 것과 같다. 따라서 많은 마커를 통해 실제 QTL의 위치를 specific 하게 찾는 것이 중요하다.



Localizing QTL


이러한 LOD plot을 통해 QTL을 localization할 수 있다. 이 그림을 통해 토마토의 10번 염색체 위의 마커들이 ph와 연관 되었음을 확인할 수 있다. 단순형질과 다른 점은 이러한 연관된 region이 한 군데가 아니라 여러곳에 존재한다는 것이다.



하지만 위 그림을 보고 B, C 사이에 QTL이 존재할 것이라고 생각하는 건 위험할 수 있다.


바로 위와 같은 상황이 있을 수 있기 때문이다. B, C 사이에 T가 있고 T의 연관은 적을 수도 있다. 이 상황에서는 B, C 사이에 한 개의 QTL이 있는 게 아니라 B 근처에 한 개, C 근처에 한 개가 있다고 볼 수 있다.



출처 - 코세라 Duke University 유전학 강의


반응형

'Domains > Genetics' 카테고리의 다른 글

Genetics - Gene vs Environment  (0) 2017.11.14
Genetics - Genome-wide association study  (0) 2017.11.13
Genetics - Genetic Mapping2  (0) 2017.11.11
Genetics - Genetic Mapping1  (0) 2017.11.11
Genetics - Recombination  (0) 2017.11.11
반응형


Genetic Mapping2


유전자의 상대적 위치를 결정하고, 특정 질병과 관련있는 유전자를 특정하는 것 genetic mapping이라고 한다. Genetic mapping의 궁극적인 목표는 genotype과 phenotype의 association을 알아내는 것이다.


[genetic mapping의 개념]



Human Genom Project를 통해 인간 유전체 30억개 서열을 읽을 수 있게 되었고, 20000여개의 gene을 찾아내었다. 하지만 서열을 통해 gene이 무슨 역할을 하는지 어느정도 알 수있었지만, 어떤 변이가 disease-causing 인지는 "추측"할 수 밖에 없다.


수십년전부터 시작된 Gene Mapping은 disease-causing mutation이 어디인지 상대적으로 결정하는 것이다. gene mapping은 dna sequencing이 발달하기 이전의 최초 접근법이라고 볼 수 있다. 상대적으로 결정한다는 것은 genome 상에 어떤 reference point와의 상대적 위치를 결정한다는 것인데 이 reference point를 genetic marker라고 한다. genetic marker는 보통 SNP(single nucleotide polymorphism)을 사용한다.



다소 극단적인 예를 들어보자. A, B 라는 SNP marker가 있고, 위는 offspring의 genotype과 질병 여부를 나타낸 것이다. B marker의 genotype이 bb인 경우, 모두 질병에 걸렸으므로, B의 bb genotype이 질병과 연관(linked)이 있다는 것을 알 수 있다. 따라서 B marker가 실제 disease-causing mutation과 association이 있다고 추론해볼 수 있다.



Genetic Mapping Example


Gene Mapping을 하기 위해서는 parents와 offspring의 Marker의 genotype이 필요하다. 또 parents 중 한 명은 heterozygous여야한다. homozygous인 경우, recombination을 관찰할 수 없기 때문이다. 예를 들어서 genetic mapping을 실제로 하는 법을 살펴보자. 마커 AB에 대하여, AB/ab genotype과 ab/ab genotype인 부모의 자손을 조사했을 때 다음과 같은 genotype-phenotype 결과를 얻었다고 하자. Genetic Mapping의 목표는 disease-causing mutation의 A,B와 비교한 상대적인 위치를 알아내는 것이다.


위 경우에는 A marker가 disease와 연관이 있다는 것을 알 수 있다. C 유전자가 실제 disease-causing이라면, 이 C 유전자의 genotpe이 A와 같이 유전될 것이다.


그러면 C 유전자를 포함해 위와 같은 genotype-phenotype 관계를 알 수 있고, 이를 통해 gene map을 추론할 수 있다. 위 문제의 답은 A-C-B 이다. 가장 희귀한 case인 abC/abc, ABc/abc를 보면, A와 B 는 parental이고, C만 recombinant임을 알 수 있다. 빈도가 희귀한 것과, A-B는 parental인데, C만 recombinant 인 것을 보면 이는 A-C-B 에서 double recombination이 일어나, A-c-B, a-b-C가 되었음을 알 수 있다. 혹은 각각의 유전자들마다 recombination fraction을 구해서 gene map을 구할 수도 있다. 즉, A-B, B-C, A-C의 recombination fraction을 구한 후, 이를 통해 유전자의 상대적 위치를 알 수 있다. 예를 들어, A-B의 recombination fraction = 157/843+157 = 0.157


문제


AbC/aBc X abc/abc의 결과로 아래와 같은 빈도가 관찰되었다.


ABC/abc = 13

ABc/abc = 11

abC/abc =6

AbC/abc = 257

aBc/abc = 237

Abc/abc = 1

aBC/abc = 0

abc/abc = 8


A-C의 recombination fraction의 근사값은?


ABC/abc = 13 => parental

ABc/abc = 11 => recombinant

abC/abc =6=> recombinant

AbC/abc = 257=> parental

aBc/abc = 237 => parental

Abc/abc = 1=> recombinant

aBC/abc = 0 => recombinant

abc/abc = 8 => parental


11+6+1+0/13+11+6+257+237+1+0+8 = 0.033




Population Mapping


Genetic mapping은 앞서본것처럼 가족을 대상으로 할 수도 있지만, 인구 집단을 대상으로 할 수도 있다.



이 그림은 4개의 염색체가 시간이 오래지나서 뒤죽박죽 섞여 있는 모습을 나타낸 그림이다. (D=Disease Allele, M1=Marker1, M2=Marker2) 이 그림에서 중요한 사실은 아무리 많은 세대가 지나더라도 D와 M1사이의 연관은 그대로 남아있다는 것이다. 이렇게 연관이 그대로 남아있을 수 있는 이유중 하나로, Recombination이 완전히 임의로 일어나지 않는다는 사실을 들 수 있다. 염색체에서 Recombination이 자주 일어나는 부분을 Recombination hotspot이라 하는데(hot spot은 평균적으로 매 3000bp 마다 한 번씩 존재한다.) 이 부분을 제외한 나머지 부분은 recombination fraction이 거의 0에 가깝다. 따라서 hotspot과 hotspot 사이에 window가 형성되는데 이 window 내에서는 recombination이 거의 일어나지 않고 세대가 지나더라도 같이 유전된다. 이를 Linkage disequilibrium(LD)이라 한다. 어떠한 window 내에 disease gene이 있을 수 있고, 우리는 이러한 LD를 이용하여 disease gene을 찾을 수 있다. hot spot이 평균적으로 매 3000bp 마다 한 번씩 있으므로 30억/3000 = 100만개의 SNP을 마커로 사용한다면 disease gene을 찾을 수 있다.



이 그림은 window와 LD에 대해 이해하기 좋은 그림이다. 이를 통해 disease locus의 위치를 알아내기 위해 마커가 어떻게 쓰이는지를 이해할 수 있다. 예를 들어 SNP2=G일 때 Disease Allele인 A가 높은 비율로 존재한다. 따라서 SNP2은 Disease에 대해 연관이 있고 좋은 정보를 준다는 것을 알 수 있다. 하지만 윈도우 밖의 SNP5의 경우 disease와 아무런 연관이 없다.


위에서 말한 100만개의 SNP 마커를 (genotype) 알아내는 기술을 microarray라 한다. 많은 회사들이 이러한 SNP 마커를 이용해 disease suceptabilty를 알려주는 서비스를 제공한다.



Pedigree와 population으로 mapping하는 것의 차이는 위 그림에서 볼 수 있다. pedigree는 세대수가 적기 때문에 recombination이 된 부분이 적다. 따라서 같은 염색체 내에서 두 locus가 recombination이 되었을 확률이 적다. 하지만 Population의 경우 매우 많은 세대가 지난 것이기 때문에 같은 염색체 내에서라도 많은 recombination이 일어났을 것이다. 그러므로 recombination이 안일어났을 것이라고 보장되는 범위가 pedigree에서는 ~2백만bp이지만 population을 이용했을 때는 ~3000bp 정도이다. 또 Population을 대상으로하면 질병이 희귀한 경우 연구하기 힘들다. 엄청나게 많은 sample을 뽑아야하기 때문이다.





출처 - Coursera Duke Univ 유전학 강의


반응형

'Domains > Genetics' 카테고리의 다른 글

Genetics - Genome-wide association study  (0) 2017.11.13
Genetics - Genetic Mapping3  (0) 2017.11.12
Genetics - Genetic Mapping1  (0) 2017.11.11
Genetics - Recombination  (0) 2017.11.11
EM 알고리즘 haplotype frequency 추정  (0) 2017.10.08
반응형


Genetic Mapping


gene mapping은 human genone project가 완성되고, dna sequencing 기술이 발전되기 훨씬 이전부터 있던 개념이다. Gene Mapping의 기본 개념은 dna sequencing을 하지 않고도 염색체 안에서 gene의 순서를 결정하고 질병과의 연관성을 정립하는 것이다.



Recombintation Fraction 계산을 통한 Gene Mapping


앞서 포스팅한 http://3months.tistory.com/216 을 통해 Recombination Fraction을 구하는 방법을 알아보았다. 이번엔 3개의 linked라고 예상되어는 gene들에 대해 각각 서로의 recombination fraction을 구해본다. 부모의 phase가 ABC/abc * abc/abc 일 때를 예로 들어보자. 3개의 gene일 때 recombination fraction을 구하는 방법은 구하고자하는 유전자외의 나머지 유전자는 가리고 구하면된다. 즉, A-B를 구하려면 C를 가리고 AB에 대해서만 보면된다. 그러면 AB/ab, ab/ab만 parental이고 나머지는 recombinant이다. 따라서 recombinant의 숫자는 15+13+1+1 = 30 따라서 recombination fraction = 30/1000 = 0.03 이다. 이런식으로 나머지 유전자들에 대해서도 구하면, A-C간에는 0.046, B-C간에는 0.02가 나온다. 따라서 A-B-C 순서로 유전자가 염색체상에 존재하는 것을 알 수 있다. 이를 Gene Map 이라 한다.


Double Cross-over



유전자의 순서가 A-B-C 순서라면 왜 거리가 4.6 vs 5 로 정확히 맞지 않을까? 한 가지 이유는 Double Cross-over 때문이다. 위 그림에서 빈도수가 1인 AbC/abc, aBc/abc는 Double cross-over가 일어났다. 그래서 A-C 사이의 recombination fraction을 계산할 때 parental 이 아니라 recombinant로 들어가야한다. (+4가 되어야함) 왜 이것이 double cross-over 인가? 우선 빈도수가 매우 낮기 때문이다. 위 그림에서 A-B에 recombination 될 확률이 1%, B-C에 될 확률이 1%라면 double로 될 확률은 0.01%이다. 또, A-B-C 순서로 gene이 위치한다면, 저런 조합이 나온 이유는 double recombination에 의한 것이다.




반응형

'Domains > Genetics' 카테고리의 다른 글

Genetics - Genetic Mapping3  (0) 2017.11.12
Genetics - Genetic Mapping2  (0) 2017.11.11
Genetics - Recombination  (0) 2017.11.11
EM 알고리즘 haplotype frequency 추정  (0) 2017.10.08
DNA 결합 단백질  (2) 2017.08.12
반응형

Recombination


Recombination=Crossing-over이 아니다. Crossing-over은 Recombination의 한 종류이다. Independant Assortment(독립유전)도 Recombination의 한 종류이다. 즉, Recombination의 두 가지 타입은


1. 독립 유전

- 주로 다른 염색체 간에 진행되는 과정. 독립유전에서는 독립적으로 유전이 이루어지므로 자손의 allele은 단순히 확률을 곱해서 구할 수 있다.


2. Crossing-over

- 이것이 Recombination과 동의어로써 쓰이기도 한다. 주로 같은 상동 염색체끼리 부위를 교환하는 과정이다. 아빠로부터 받은 염색체의 일부와 엄마로부터 받은 염색체의 일부가 감수분열 시 교환되는 현상


Crossing-over


감수분열 과정에서 crossing-over이 일어나지 않은 것이 NR이고, R은 crossing-over이 일어난 것. NR은 어머니로부터 받은 염색체가 그대로 생식세포로 전달되었고, R은 어머니와 아버지로부터 받은 염색체가 crossing-over이 되었다.


어떻게 Crossing-over이 일어난 것을 알 수 있나?


Genetic Marker을 통해 Crossing-over이 일어난 것을 알 수 있다. 위 그림을 보면, Allelse는 AaBb이다. 만약 recombination(crossing-over)이 일어나지 않았다면 생식세포의 alleles는 AB 또는 ab일 것이다. 왜냐하면 AB, ab는 같은 염색체에 있기 때문에 같이 다닐 것이기 때문이다. 하지만 recombination이 일어나면 같은 염색체 내의 Allele이 aB나 Ab가 될 수 있다.


가까운 variants(allele)은 연관이 되었을 경향이 크다


위 그림에는 AB는 linked 되어있다. 둘다 엄마로부터 받거나 둘다 아빠로부터 받는다. 가까운 위치에 있기 때문에 생식세포를 형성할 때 같이 다니기 때문이다. 반면 AC는 2/5의 확률로 염색체의 주인이다르다. 이 경우에는 독립유전의 법칙이 깨지게 된다.


이 그림에서 보듯이 Ab aB alleles를 갖고 있더라도(그림은 아버지로부터 받은 alleles(Ab)와 어머니루부터부 받은 alleles(aB)를 보여주는데 이렇게 allele이 누구로부터 왔는지, 같은 염색체 내에 있는지를 보여주는 것을 이를 Phase라고 한다.) 다른 염색체에 있거나, 멀리 떨어져서 recombination이 일어나지 않으면 생식세포가 Ab, aB 형태만 갖는 것이 아니라 AB, ab 형태도 갖을 수 있게 된다.


이 중에서 Recombinant 인 경우는? 답 : Aabb, aaBb (만약 Recombination 없다면 각각이 나올 확률을 1/4이다.)



Alleles Association


Point :  두 allele의 위치가 멀리 떨어져있다면, 그 두 allele이 같이 생식세포로 갈 확률은 50%이다. 두 allele이 가까운 위치에 있다면, 같이 생식세포로 갈 확률은 거의 0%이다.


Point : Recombintation Fractor은 gene의 거리를 반영한다. 두 유전자의 거리가 멀면 Recombination Fraction은 크고, 가까우면 Recombination Fraction은 작다. Recombination Fraction은 0~50% 사이의 값이다.


Recombination 계산

부모의 phase가 위와 같을 때, recombination이 아예 없다면, cn+vg, cnvg+만 나타날 것이다. 이것을 parental 이라고 한다. 그 외의 cn+vg+, cnvg는 상동염색체 끼리의 recombination이 일어나서 생겨난 것으로 recombinant라고 한다. recombination fraction은 전체 개체수중에 recombinant된 offspring의 비율이다. 따라서 9+11/(92+88+9+11) = 20/200 = 0.1이다. 이 recombination fraction은 두 gene사이의 거리에 관한 정보를 준다.



출처 - 코세라 Duke Univsersity 유전학 강의

반응형

'Domains > Genetics' 카테고리의 다른 글

Genetics - Genetic Mapping2  (0) 2017.11.11
Genetics - Genetic Mapping1  (0) 2017.11.11
EM 알고리즘 haplotype frequency 추정  (0) 2017.10.08
DNA 결합 단백질  (2) 2017.08.12
유전체학을 위한 신경망 모델  (0) 2017.08.12
반응형

EM 알고리즘을 통한 haplotype frequency 추정


우선 EM 알고리즘의 정의부터 알아보자.


EM 알고리즘은 관측되지 않는 잠재변수(unobserved latent variables)에 의존하는 확률 모델에서 최대우도(maximum likelihood)최대사후확률(Maximum A Posteriori)을 갖는 매개변수를 찾는 반복적인 알고리즘이다.


[출처] EM 알고리즘(1/2)|작성자 lhm0812


그렇다면 왜 haplotype frequency 추정할 때 EM 알고리즘 쓸 수 있는가? 관측되지 않은 변수가 있기 때문이다. 모수를 추정하고자 하는데 모수 추정에 필요한 값이 관측할 수 없는 잠재변수를 포함하고 있을 때 쓸 수 있다.


아래와 같은 세팅을 생각해보자.


Locus 1 has alleles A; a
Locus 2 has alleles B; b


Genotype counts are observed at the two loci for N individuals in the population.


homozygous for both loci: nAABB; naaBB ; nAAbb; naabb
homozygous for one loci: nAABb; naaBb; nAaBB; nAabb
heterozygous for both loci: nAaBb


근데 문제는 여기서 nAaBb는 2개의 가능한 하플로타입 nAB/ab or nAb/aB 이 있다. (즉, 두 loci 모두 genotype이 heterozygous인 경우 haplotype을 결정할 수 없다는 사실을 알 수 있다.)


우리가 알고 싶은건 pAB; pAb; paB; pab. 바로 이 haplotype frequency들이다.

여기서 pAB를 예로 들어 EM 알고리즘을 적용하는 과정을 살펴보자. 우선 pAB의 MLE는 아래와 같다.



p^AB = nAB/2N (N=관측된 사람 수. 하플로타입은 개인당 2개이므로 2N)



또한 nAB = 2nAB/AB + nAB/Ab + naB/AB + nAB/ab


이 때 문제는 nAB/ab를 모른다. 이를 잠재변수라고 하고, 이는 추정하려는 모수들 (pAB; pAb; paB; pab)과 관련되어 있다. 그래서 모수가 있다면 구할 수 있는 값이다. EM 알고리즘에서는 이를 모수를 적절한 값으로 초기화한 후, 반복적으로 nAB/ab를 구한다.



EM 알고리즘에서는 추정하려는 모수 pAB; pAb; paB; pab 를 적절한 값(ex. 0.25)으로 초기화한다. 그리고 이를 p0AB 처럼 표기한다.


관측한 값

Y = (nAABB; naaBB; nAAbb; naabb; nAABb; naaBb; nAaBB; nAabb; nAaBb)


와 초기화된 모수 p가 주어졌을 때, nAB의 기댓값은 아래와 같이 구할 수 있다.




여기서 E[nAB/ab]는 무엇인가?



왜 이렇게 되냐하면, nAB/ab는 nAaBb는 nAB/ab 또는 nAb/aB 이므로, 두 하플로타입(AB/ab, Ab/aB)이 등장하는 확률 값의 비율을 통해 nAB/ab의 기댓값을 구할 수 있다.


이를 통해 n0AB를 구했으면 pAB의 MLE를 통해 이를 업데이트한다.


p^AB = nAB/2N


이 과정을 반복하면 p^AB가 수렴해가고 이를 통해 추정값을 얻을 수 있다. 다른 모수들에 대해서도 이와 같이 한다.



출처 - http://courses.washington.edu/b516/lectures_2010/EM_Algorithm_Haplotype_Frequency_2010.pdf


반응형

'Domains > Genetics' 카테고리의 다른 글

Genetics - Genetic Mapping1  (0) 2017.11.11
Genetics - Recombination  (0) 2017.11.11
DNA 결합 단백질  (2) 2017.08.12
유전체학을 위한 신경망 모델  (0) 2017.08.12
Regulatory Genomics 개념과 ENCODE 프로젝트  (0) 2017.08.08
반응형

DNA 결합 단백질


Regulatory Genomics 관련 논문을 읽던 중 DNA binding protein을 보고 몰라서 공부하였다.


DNA => RNA => Protein이 되는 과정에서 DNA=>RNA로 변하는 transcription 과정 중 DNA가 RNA로 변하는 것의 시작은 전사개시복합체(transcription initiation complex)가 Promoter 부분에 붙으면서 시작된다. 이 복합체 단백질 중 하나인 RNA중합효소2가 유전자를 전사헤 pre-mRNA를 만든다. 그 다음에 RNA Processing(5'캡 생성, 폴리A 꼬리 생성, 인트론 splicing)을 통해 mature mRNA가 생성된다.


이 과정에서 RNA 중합효소가 전사를 개시하려면 전사인자(transcription factor)라는 단백질이 필요하다. 이들은 보편전사인자(general transcription factor)라고도 불린다. 하지만 이것만 가지고는 전사개시속도가 매우 낮으며 특수전사인자라는 조절 단백질의 작용이 필요하다.


promoter 주변에는 DNA 시퀀스에는 근거리 조절요소가 있다. 그리고 유전자에 멀리 떨어져 있는 원거리 조절요소인 인핸서가 있다. (한 개의 인핸서는 하나의 유전자에만 작용하며, 한 유전자는 여러개의 인핸서를 갖을 수 있다. 인핸서에 붙는 단백질들은 특수전사인자라고 불리며 전사인자 종류중 하나라고 볼 수 있다 )


진핵생물에서 유전자 발현율은 인핸서의 조절요소에 활성자(activator) 또는 억제자(repressor)가 결합함에 따라 증가되거나 감소된다. 결합되는 부분은 DNA Binding site라고 불리는듯하다. 즉 인핸서의 조절 요소에 특정한 단백질이 붙어서 그 인핸서의 표적 유전자의 발현을 조절하는 것이다.  활성자 단백질은 RNA 중합효소를 promoter로 recruting한다. 그래서 전사속도가 빨라진다. 반면 억제자 단백질은 RNA 중합효소가 이동하지 못하게 하여 전사가 될수 없게 만든다.


이렇게 gene expression 조절을 수행하는 여러가지 형태의 단백질(RNA 중합효소, 활성자, 억제자 단백질)을 DNA 결합 단백질 (DNA Binding protein)이라고 하며 이들은 sequence specific하다. 즉, DNA Binding protein을 코딩하는 시퀀스에 문제가 있을 경우 해당 protein의 표적 유전자의 발현에 이상이 생길 수 있다. 그래서 DNA Binding protein의 sequence specificity를 안다면 표적 유전자를 알 수 있게 되고, DNA Binding protein 시퀀스의 disease causing variant를 파악하는데 도움이 된다.


이러한 Transcription factor 등과 같은 단백질에 결합하는 DNA 시퀀스를 알아내는 방법으로 CHIP-seq 방법이 있다.



참고 - 캠밸 생명과학

반응형
반응형


유전체학을 위한 신경망 모델 (Neural Networks for Genomics)


원본글

http://blog.qure.ai/notes/neural-networks-for-genomics


위 글을 번역한 포스팅입니다.



Introduction


딥러닝을 처음 유전체학에 적용하려고 한다면, 최신으로 이루어지고 있는 연구(state-of-the-art)가 무엇인지, 연구자들이 딥러닝을 통해 어떠한 문제를 해결하고자 하고, 이를 어떻게 접근하고 있는지 알아야할 필요가 있다. 이 포스팅은 유전체학에서 유명한 네트워크 구조를 소개하고, 이 네트워크를을 트레이닝할 때 쓰이는 데이터의 타입, 그리고 모델을 통해 최종적으로 예측한 결과가 어떻게 나오는지를 요약한다.


시퀀싱 기술의 발달, 그리고 1000-genome project, encode, geo와 같은 public dataset의 범람에도 불구하고 아직까지 genotype-phenotype 구분, 그리고 시퀀스를 통해 질병을 예측하는 것을 완벽하게 해내지 못하고 있다. Bredan Frey의 이 talk는 딥러닝과 유전체학의 컨텍스트상에서 왜 더 많은 genome을 시퀀싱 하는 것이 반드시 해답이 아니라는 것을 설명하고 있다. genome은 매우 복잡하고, 서로 상호작용하는 수많은 정보 레이어를 갖고 있다. 현재의 대부분의 접근법은 시퀀스를 통해 직접적으로 표현형을 추측하는 것이 아니라, 시퀀스의 일부를 해석하는 시스템을 구축하는 것이다. 아래에 딥러닝이 유전체학이나 전사체학에 적용된 예를 소개한다.



얕은 fully connected networks 를 이용한 초기 연구


초기 연구중 몇몇은 주성분분석을 통해 차원을 축소한 gene expression 데이터를 single layer fully connected network에 적용한 것이다. 이러한 초기 연구는 gene expression을 통해 tumor type을 구분하거나, tumor grade를 예측하거나, 환자의 생존 여부를 예측하는데에 사용되었다. 이러한 연구의 발달은 가장 예측력이 높은 gene의 subset을 찾거나, gene의 signature를 찾는 연구의 발달을 가져왔다. 이와 비슷하게 인공신경망은 microRNA의 발현 패턴을 통해 대장암의 등급을 예측하거나, 암 상태를 예측할 수 있는 microRNA를 찾아내는 연구에 사용되었다.



Autoencoder를 이용한 차원 축소와 특징값 추출


Autoencoder는 유전체학에서 gene expression 데이터로부터 feature space를 줄이거나 유용한 feature를 찾아내는데 사용되어왔다. 한 예는 autoencoder를 사용해 labling 되지 않은 gene expression data로부터 정교한 feature representation을 구현하고, 이를 통해 tumor를 예측하는 classifier를 구현한 이 페이퍼이다. 더 최근 연구는 denoising autoencoder를 이용해 유방암 gene expression data에서 feature extraction을 한 연구이다. 다음은 ADAGE(paper and repository)인데, 박테리아 gene expression 데이터에 비슷한 접근을 한 연구이다. autoencoder를 통해 추출한 유용한 feature들은 암 분류, 에스트로겐 수용체의 상태, 환자의 생존 예측에 활용될 수 있다. 그러면 하나의 autoencoder로 부터 밝혀진 gene expression profile들을 통해 어떠한 조직에도 일반적으로 적용할 수 있는 feature를 밝혀낼 수 있을까? gene expression 데이터 말고 DNA sequence에 autoencoder를 적용하여 유용한 feature를 추출할 수 있을까?



Deep learning을 통해 gene expression, transcript expression level을 예측하기


 유전자의 발현은 공동으로 이루어지는 경우가 많기 때문에, 서로 다른 유전자의 발현 정도는 상관관계가 매우 높다. 이는 특정 subset의 유전자 발현 데이터만 가지고도 나머지 gene의 발현 정도를 예측해볼 수 있다는 것을 뜻한다. 이는 잠재적으로 유전자 발현 profiling에서 비용과 복잡성을 줄일 수 있다. D-GEX라고 불리는 방법이 개발되었는데 이는 퍼블릭 데이터인 CMAP을 통해 트레이닝된 심층신경망 모델로써, 1000개의 gene expression 데이터를 통해 나머지 gene 의 expression 정도를 예측한다. 최근의 topcoder challenge도 이와 비슷한 문제가 올라와있다. 이와 비슷하지만 더 hard한 태스크는 exon이나 transcript의 expression level을 DNA sequence data로 부터 예측하는 것이다. expression level은 sequence로만 결정되는 것이아니라, cellular context 에도 의존한다. ‘Deep learning of the tissue-regulated splicing code’ 라는 타이틀의 연구는 exon 주변의 dna sequence를 통해 그 exon이 splice in 되는 확률 (PSI)를 예측한다. 직접 손으로 만든 genomics feature들(이 genomics feature들은 특정한 mouse의 cell type에서 splicing pattern을 예측할 수 있는 것들이다.) 이 모델을 트레이닝하는데 사용되었다. autoencoder를 통해 이 feature의 차원을 축소하고, cell type을 나타내는 추가적인 input을 통해 multilayer fully connected network를 트레이닝하였다. 이 방법을 통해 저자들은 tool을 개발하고 검증하였는데, 이것을 통해 SNV가 splicing애 미치는 effect를 scoring할 수 있다.



Epigenomics를 위한 Convolutional Networks


최근 연구의 많은 부분이 바로 전사인자 결합 위치나, 인핸서 지역, 시퀀스를 통한 크로마틴 accessibility 예측과 같은 epigenomic의 문제에 CNN을 이용하는 것이다. DeepBind는 주어진 sequence를 통해 DNA나 RNA 결한 proteins의 specificity를 예측할 수 있는 방법이다. 이것을 하기 위해 많은 수의 protein binding micro-array chip-seq 데이터를 통해 CNN이 training 되었다. convolutional stage에는 one-hot encoding된 시퀀스에서 'motif detector' matiireces의 set을 scan한다. learning된 filter는 유전쳏학에서 DNA seuqnece motif를 설명하고 이해하는데 사용된다. 네트워크는 알려진 motif와 알려지지 않은 motif까지도 learning할 수 있다. DeepMotif는 비슷한 계열의 더 깊은 모델로써, 시퀀스에 따라 transcription factor binding(yes or no)를 분류하고, motif를 추출하는데 더 중점을 둔 모델이다. DeepSea는 ENCODE의 epigenomics 데이터로부터 트레이닝되었고, 단일염기의 mutation이 transcription factor binding과 DNAse sensitivity에 미치는 영향을 예측한다. 이 모델의 주요 기능은 다양한 규모의 시퀀스 기능을 학습하는 계층적 아키텍처의 사용, 광범위한 시퀀스 컨텍스트 스캔 기능 및 예측 기능을 공유하는 다양한 염색질 요소의 멀티 태스크 공동 학습이다. 다른 epigenomics에 사용되는 CNN의 예는 Basset인데, DNA 시퀀스로부터 chromatin accessibility code를 예측한다. DeepCpG는 DNA metylation을 모델링하였고, DEEP은 enhancer나 transcription factor binding으로 인해 gene의 transcription이 증가하는 DNA의 region을 예측하는 ensemble framework이다. 또한 chip-seq 실험에서 noise를 감소시키거나 signal을 증폭하기 위한 CNN-based 방법도 있다.



언어처리로부터 영감을 얻은 모델들


언어처리와 genome해석은 어느정도 비슷한 면이있다. 이는 언어처리에 사용되는 방법이 genomics를 이해하는데 유용할 수 있다는 것을 시사한다.


Recurent Neural Networks


RNN은 긴 범위를 갖는 DNA 시퀀스의 상호작용을 발견하기 위해 사용되어왔다. DanQ는 CNN과 bi-directional LSTM(long-short term memory)의 하이브리드로써, convolution layer는 regulatory motif를 발견하고, recurrent layer는 regulatory 'grammer'를 이해하기 위해 motif들 간의 long-term dependency를 발견하는데 사용된다. 다른 예는 DNA-level splice junction prediction인데 RNN이 splice junction이나 intro과 exon의 경계를 발견하기위해 training이 된다. 또한 바이러스 gemoe에서 proten coding region을 발견하는 것도 있다.



Word embedding이나 word2vec 같은 모델


‘Gene2vec: Neural word embeddings of genetic data’ 라는 타이틀을 갖고있는 한 프로젝트는 구글의 오리지날 word2vec을 genome 시퀀스로 구현한 것이다. (genome을 27bp의 'word'로 splitting한다.) 실제로 이것이 인간 genom에 실용적으로 적용될 수 있는지는 흥미로운 주제일 것이다. 비슷한 word2vec 스타일의 모델은 gene expression data로도 트레이닝이 가능하다.




기타 링크

dna binding protein motif

http://2013.igem.org/wiki/index.php?title=Team:XMU_Software/Project/promoter&oldid=359507



반응형
반응형


Regulatory Genomics 개념


regulatory genomics 관련 자료를 찾아보다 아래 링크를 찾아 번역하여 정리하였습니다.


https://biology.stackexchange.com/questions/17810/what-does-regulatory-genomics-mean


Genome은 크게 두 파트로 나뉘어진다.


1. 단백질을 코딩하는 파트 (coding region)

2. 단백질을 코딩하지 않는 파트 (non-coding region)


이 때 단백질을 코딩하지 않는 두 번째 파트는 또 다시 두 개의 클래스로 나뉘어진다.


2-1. transcribe가 되어 생물학적인 활동을 하는 파트 (long noncoding RNA, miRNA, competing endogenous RNA 등)

2-2. transcribe가 안되는 부분 (unscribed non-coding region)


이 중에서 2-2번 unscribed noncoding region은 아마도 1번파트와 2-1번 파트에 regulation 작용을 할 것으로 생각된다. (transcription factor나 transcriptional coactivators/corepressors에 binding 함으로써)


※ transcriptional coactivators/corepressors는 gene의 시작부분 (promoter) 또는 멀리 떨어진 부분(enhancer)에서 해당 gene이 expression이 될지 안될지를 조절한다. enhancer은 gene과 멀리 떨어져있지만 3차원 상에서는 붙어있을 수 있기 때문에 gene expression을 조절할 수 있다. (genome은 세포 안에서 접혀져 있기 때문이다.)


Regulatory Genomics는 바로 genomics "features"라고도 불리는 이 unscribed non-coding region에 대한 연구이다. 어떻게 그들이 gene regulation을 하는지 알아내는 것이다. 이 분야의 연구의 대표적인 예는 ENCODE project의 파트로써 publish된 페이퍼들이다.






ENCODE 프로젝트 링크


http://www.nature.com/encode/#/threads


ENCODE 프로젝트 소개 (홈페이지 내용 번역)


ENCODE(Encyclopedia of DNA Elements) 프로젝트는 National Human Genome Research Institute가 후원하는 프로젝트로써 genome 상에서의 transcription, transcription factor association, chromatin structure, histone modification을 밝혀내기 위한 프로젝트이다. 이러한 genome 상에서의 기능적인 요소들을 식별함으로써 현재 인간 genome의 80%의 부분이 최소 1개 이상의 biochemical function 을 한다는 것 알아내었다. 이러한 functional annotation에 관한 광활한 자원들은 genome과 유전자의 regulation과 oragnization에 있어 새로운 통찰력을 제공하고 있다.


ENCODE 관련 한글로 정리된 블로그


http://blog.daum.net/kimuks/7535222


https://madscientist.wordpress.com/2012/09/18/%EC%98%A4%EB%8A%98%EC%9D%98-%EB%85%BC%EC%9D%BD%EB%82%A8-%EC%97%94%EC%BD%94%EB%93%9C%EB%A5%BC-%EB%94%94%EC%BD%94%EB%93%9C%ED%95%98%EA%B8%B0/



Regulatory Genomics 및 Epigenomics 관련 강의 자료

https://simons.berkeley.edu/talks/regulatory-genomics-epigenomics


반응형
반응형