Bioinformatics Issue

[BI]GATK HaplotyeCaller 사용해서 germline variant 확인하기

히스톤 2024. 2. 7. 16:04

GATK HaplotypeCaller란?

GATK에서 만든 Variant Caller로 Germline Variant를 확인할때 가장 대표적으로 사용하는 Haplotypecaller의 사용법에 대해 알아보겠다.

Haplotype caller가 variant를 calling 하는 방법은 아래 포스팅을 참고해라.

https://heestory533.tistory.com/entry/Variant-caller%EC%9D%98-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98

 

Variant caller의 알고리즘

1. GATK HaplotypeCaller Haplotype은 다음과 같이 4가지 주요 과정을 통하여 variant를 찾아낸다. 1. Define active regions 2. Determine haplotypes by re-assembly of the active region 3. Determine likelihoods of the haplotypes given the read

heestory533.tistory.com

 

LINUX 환경에서의 명령어

아래 3가지 방법으로 Germline variant call이 가능하다.

1. Single-sample GVCF calling (outputs intermediate GVCF)

 gatk --java-options "-Xmx4g" HaplotypeCaller  \
   -R Homo_sapiens_assembly38.fasta \
   -I input.bam \
   -O output.g.vcf.gz \
   -ERC GVCF

2. Single-sample GVCF calling with allele-specific annotations

gatk --java-options "-Xmx4g" HaplotypeCaller  \
   -R Homo_sapiens_assembly38.fasta \
   -I input.bam \
   -O output.g.vcf.gz \
   -ERC GVCF \
   -G Standard \
   -G AS_Standard

3. Variant calling with bamout to show realigned reads

 gatk --java-options "-Xmx4g" HaplotypeCaller  \
   -R Homo_sapiens_assembly38.fasta \
   -I input.bam \
   -O output.vcf.gz \
   -bamout bamout.bam

 

이중에 3번처럼 output 옵션인 -O 에 vcf.gz 이라고 써주면 vcf 파일이 생성된다.

만약 gvcf 파일을 output으로 생성하고 싶다면 -ERC 옵션에 -ERC GVCF 라고 추가해주면 된다.

 

홈페이지에 가면 아래와 같이 옵션들에 대한 자세한 설명이 쓰여있다.

 

추가적으로 궁금한 사항이 있으면 댓글로 질문주세요