반응형
k-mer 이란
genomics에서 k-mers란 어떤 시퀀스가 주어졌을 때, 길이가 k 가능한 모든 substring의 집합이다.
위키피디아에 따르면 다음과 같다.
The term k-mer typically refers to all the possible substrings of length k that are contained in a string.
즉, 아래 시퀀스의 경우
ATCGAAGGTCGT
k=4이면 4-kmers는 아래와 같다.
ATCG TCGA CGAA GAAG AAGG AGGT GGTC GTCG TCGT
이를 이처럼 Sequence Assembly에도 활용할 수 있다.
Bioinformatics에서는 주로 k-mers가 어떤 시퀀스의 "시그니쳐" 를 나타낸다. 즉, 어떤 시퀀스에서 feature를 뽑을 때, 이 k-mers를 이용한다.
반응형
'Domains > Bioinformatics' 카테고리의 다른 글
IGV Tutorial [BAM File] (0) | 2017.10.16 |
---|---|
Sam File (0) | 2017.10.16 |
Chip-seq 관련 정리 - 데이터 받기 (1) | 2017.10.07 |
dbSNP 관련 정리 (4) | 2017.09.25 |
NGS 분석의 기초 개념 (2) | 2017.09.10 |