1. GATK HaplotypeCaller
Haplotype은 다음과 같이 4가지 주요 과정을 통하여 variant를 찾아낸다.
1. Define active regions
2. Determine haplotypes by re-assembly of the active region
3. Determine likelihoods of the haplotypes given the read data
4. Assign sample genotypes
1. Define active regions
변이가 나올 것이라고 예측되는 active region을 정의한다.
reference와 다른 allele들이 반복적으로 나오는 곳을 특정함.
(count mismatches, indels and soft clips)
2. Determine haplotypes by re-assembly of the active region
각 activeregion으로 De Bruijn 그래프를 만들어 activeregion을 재구성하고, 데이터에서 나올 수 있는 haplotype들을 추출한다.
-그 다음 잠재적 variant를 확인하기 위해, smith waterman algorithm을 사용하여 각각의 haplotype들을 reference에 다시 매핑한다.
De Bruijin그래프: genome assembly에서 read들을 효율적으로 조립하기 위한 알고리즘.