Bioinformatics Issue

NA12878 Download (FASTQ, VCF, BED)

히스톤 2024. 12. 19. 14:50
  • NA12878이란?

NA12878이란 유전체연구에서 널리 사용되는 참조 인간 유전체 샘플 중 하나로 표준물질로 주로 사용된다.

이 샘플은 여성의 혈액에서 추출된 B세포 계열의 세포주로 부터 유래되었다.

 

NGS 검사에서 검사의 Specificity나 Sensitivity를 확인하기 위해 참값을 알고 있는 표준물질을 사용하는데, 이때 NA12878을 주로 사용한다.

 

 

Genome In A Bottle (GIAB) 에서 NA12878을 다운로드 받을 수 있다.

 

  • NA12878 FASTQ 다운로드 방법

아래 링크에서 fastq 다운로드가 가능하다.

https://www.internationalgenome.org/data-portal/sample/NA12878

 

Data portal | 1000 Genomes

 

www.internationalgenome.org

전체 시퀀싱 된 fastq 를 다운로드 받기위해서

왼쪽 필터에서 아래와 같이 필터링 해준다.

용량은 4.5G 정도라서 파일 사이즈가 크고 시간이 오래걸린다.

 

  • VCF, BED 파일 다운로드 방법

<Genome In A Bottle>

https://www.nist.gov/programs-projects/genome-bottle

 

Genome in a Bottle

Consortium goals:The Genome in a Bottle Consortium is a public-private-academic consortium hosted by NIST to develop the technical infrastructure (reference standards, reference methods, and reference data) to enable translation of whole human genome seque

www.nist.gov

 

위에 링크를 들어가면 아래와 같이 variant call 된 VCF 파일과 target 영역인 BED 파일 다운로드 가능하다.

hg19를 사용하고 있기 때문에 GRCh37 버전으로 다운받아보겠다.

가장 최신버전은 latest에 들어있으며 업데이트된 버전일수록 정확도가 높다.

본인이 사용하는 버전을 선택하면 되는데, GRCh37을 쓰고 있으므로 아래와 같이 선택했다.

vcf, bed 파일을 다운로드 받을 수 있다.