카테고리 없음

[BI] VCF normalization (VT Tools)

히스톤 2025. 1. 8. 17:30

NGS 에서 Variant calling을 한 이후, vcf 파일을 normalization 하는 과정이 필요하다.

 

VCF Normalization이란?

VCF (Variant Call Format) 파일에 포함된 변이 정보를 일관되게 정리하는 과정을 의미한다.

VCF 파일에는 여러 형태의 변이가 기록될 수 있는데, Normalization은 변이가 동일한 위치에서 일관되게 표현되도록 변이들을 정리하여 해석의 정확성을 높이고, 후속 분석에서의 혼동을 줄여준다.

위의 그림을 보면 MNP (Multi-Nucleotide Polymorphism)가 여러가지 형태로 되어있다.

 

* VCF normalize 하는 이유

 

 

  • 분석 일관성: 동일한 변이가 여러 형식으로 기록되면, 분석 시 혼동이 발생할 수 있습니다. 정규화하면 변이를 일관된 형식으로 만들어 분석이 용이합니다.
  • 비교 분석: 다른 샘플에서 동일한 변이를 비교할 때, 정규화된 VCF 파일을 사용하면 동일한 변이를 비교할 수 있습니다.
  • 인식 오류 방지: 변이가 여러 가지 형식으로 기록되면 동일 변이로 인식되지 않아 중복된 계산을 초래할 수 있습니다. 정규화 과정에서 이를 방지할 수 있습니다.