[BI]GATK HaplotyeCaller 사용해서 germline variant 확인하기
GATK HaplotypeCaller란?
GATK에서 만든 Variant Caller로 Germline Variant를 확인할때 가장 대표적으로 사용하는 Haplotypecaller의 사용법에 대해 알아보겠다.
Haplotype caller가 variant를 calling 하는 방법은 아래 포스팅을 참고해라.
https://heestory533.tistory.com/entry/Variant-caller%EC%9D%98-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98
Variant caller의 알고리즘
1. GATK HaplotypeCaller Haplotype은 다음과 같이 4가지 주요 과정을 통하여 variant를 찾아낸다. 1. Define active regions 2. Determine haplotypes by re-assembly of the active region 3. Determine likelihoods of the haplotypes given the read
heestory533.tistory.com
LINUX 환경에서의 명령어
아래 3가지 방법으로 Germline variant call이 가능하다.
1. Single-sample GVCF calling (outputs intermediate GVCF)
gatk --java-options "-Xmx4g" HaplotypeCaller \
-R Homo_sapiens_assembly38.fasta \
-I input.bam \
-O output.g.vcf.gz \
-ERC GVCF
2. Single-sample GVCF calling with allele-specific annotations
gatk --java-options "-Xmx4g" HaplotypeCaller \
-R Homo_sapiens_assembly38.fasta \
-I input.bam \
-O output.g.vcf.gz \
-ERC GVCF \
-G Standard \
-G AS_Standard
3. Variant calling with bamout to show realigned reads
gatk --java-options "-Xmx4g" HaplotypeCaller \
-R Homo_sapiens_assembly38.fasta \
-I input.bam \
-O output.vcf.gz \
-bamout bamout.bam
이중에 3번처럼 output 옵션인 -O 에 vcf.gz 이라고 써주면 vcf 파일이 생성된다.
만약 gvcf 파일을 output으로 생성하고 싶다면 -ERC 옵션에 -ERC GVCF 라고 추가해주면 된다.
홈페이지에 가면 아래와 같이 옵션들에 대한 자세한 설명이 쓰여있다.
추가적으로 궁금한 사항이 있으면 댓글로 질문주세요