Bioinformatics Issue 10

NA12878 Download (FASTQ, VCF, BED)

NA12878이란?NA12878이란 유전체연구에서 널리 사용되는 참조 인간 유전체 샘플 중 하나로 표준물질로 주로 사용된다.이 샘플은 여성의 혈액에서 추출된 B세포 계열의 세포주로 부터 유래되었다. NGS 검사에서 검사의 Specificity나 Sensitivity를 확인하기 위해 참값을 알고 있는 표준물질을 사용하는데, 이때 NA12878을 주로 사용한다.  Genome In A Bottle (GIAB) 에서 NA12878을 다운로드 받을 수 있다. NA12878 FASTQ 다운로드 방법아래 링크에서 fastq 다운로드가 가능하다.https://www.internationalgenome.org/data-portal/sample/NA12878 Data portal | 1000 Genomes www.int..

[강연]유전자 가위 활용 질병 진단 기술

생명공학 연구원 강태준 박사 발표 주제: 유전자 가위 활용 질병 진단 기술발표 초록액체 생검에서 발견되는 세포외 소포체(EV)의 메신저 RNA(mRNA) 서열 분석은 체세포 돌연변이, 내성 프로파일 및 종양 재발과 같은 임상 정보를 제공할 수 있습니다. 그러나 EV mRNA는 액체 생검에서 낮은 농도로 존재하기 때문에 대량의 샘플 또는 특수 분석 기법이 필요해 널리 활용되지 않고 있습니다. 여기에서 우리는 EV mRNA를 검출하기 위한 플랫폼인 SCOPE(Self-amplified and CRISPR-aided Operation to Profile EVs)를 소개합니다. SCOPE는 Cas13을 이용한 CRISPR 기반 타겟 RNA 인식을 활용하여 복제와 신호 증폭을 유도하여, 단일 뉴클레오타이드 분해능..

인코렌탈 서비스를 이용한 NGS 데이터 분석 (feat. 사용방법, 장단점 및 후기)

오늘은 NGS 분석과 관련하여 인코렌탈이라는 생물정보 분석 솔루션 단기 임대 서비스에 대해 알아보겠습니다. 평소에 NGS 데이터를 통해 연구하거나 분석을 진행하는 분들께 유용한 서비스일 것 같아 소개하게 되었습니다. 1. 인코렌탈이란?㈜인실리코젠에서는 연구자들이 생물정보를 더욱 편리하게 분석할 수 있도록 도와주는 생물정보 분석 솔루션(IPA with Analysis Match, CLC Genomics Workbench 등)을 공급하고 있습니다. 인코렌탈은 생물정보 분석 솔루션을 원하는 만큼 유연하게 대여할 수 있는 서비스로 직접 코딩하지 못하더라도 GUI 환경에서 간편하게 사용할 수 있다는 게 정말 큰 장점입니다.2. 인코렌탈을 이용한 RNA seq 분석 및 결과 Review  인코렌탈을..

[DB]What is JAX ClinicalKnowledgebase DB? (JAX CKB)

임상 Database에는 다양한 종류의 DB가 사용된다. Somatic과 관련된 DB로는 대표적으로 OncoKB, Civic, Clinvar 등이 있으며 오늘 소개할 DB는 CKB( ClinicalKnowledgebase) 이다. CKB란? clinical desicion making을 하기 위해 암환자의 서열정보와 관련된 inhouse-databse 이다. Precision medicine은 개인의 유전체, 환경 및 생활 양식을 고려하여 질병의 예방과 치료를 맞춤화하는 의학적 접근 방식을 가리킵니다. 이는 각 개인의 유전적, 생물학적, 생화학적 특성을 고려하여 질병의 원인을 이해하고, 이에 맞는 치료 및 예방 전략을 개발하는 것을 목표로 한다. 특히 암에서의 precision medicine에서는 암종..

[BI]GATK HaplotyeCaller 사용해서 germline variant 확인하기

GATK HaplotypeCaller란? GATK에서 만든 Variant Caller로 Germline Variant를 확인할때 가장 대표적으로 사용하는 Haplotypecaller의 사용법에 대해 알아보겠다. Haplotype caller가 variant를 calling 하는 방법은 아래 포스팅을 참고해라. https://heestory533.tistory.com/entry/Variant-caller%EC%9D%98-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 Variant caller의 알고리즘 1. GATK HaplotypeCaller Haplotype은 다음과 같이 4가지 주요 과정을 통하여 variant를 찾아낸다. 1. Define active regions 2. Dete..

HLA(Human Leukocyte Antigen)란 무엇인가?

인간백혈구항원(HLA)은 주조직 적합성 복합체(Major Histocompatibility Complex, MHC)의 한 부분이다. HLA는 특정 전문화된 단백(항원)으로 신체의 모든 유핵 세포의 표면에 발현되어 있고, 이 단백들의 유전자들이 있다. 모든 사람들의 백혈구(leukocytes)와 다른 유핵세포 표면에 존재하는 HLA 항원의 조합은 유전이다. HLA 검사는 주요 HLA 유전자와 세포 표면에 발현하는 해당 유전자에 대한 항원을 확인한다. 이러한 항원과 MHC 시스템은 면역 시스템의 관리에 중요한 역할을 한다. 그들은 신체의 면역 체계가 어느 세포가 "자기(self)"인지, 어느 것이 "외부" 또는 “비자기(non-self)”인지 구별하는 데 도와준다. "비 자기"로 인식되는 모든 세포는 항체의..

CNVkit을 이용한 CNV 분석:: 중요 command 및 option 정리

저번 포스팅에 이어서 CNVkit 분석에 사용되는 중요 Command 및 option들에 대해 정리해보았다. tool 설치가 아직 되지 않은 분들이 있다면 이전 포스팅을 참고하길 바란다. CNVkit의 전체적인 Workflow CNVkit의 전체적인 Workflow는 다음과 같으며 크게 3단계로 나눌 수 있다. 1. Target bins와 Off-target bins (.bed)를 생성하는 부분 2. normal sample을 이용하여 reference를 생성하는 부분 3. 실제 sample을 분석하여 Copy number를 계산하는 부분 매우 다행히도 우리는 각각의 단계를 실행하기 위해 command를 하나씩 치지 않아도 된다. CNVkit에서 batch라는 명령어를 통하여서 3단계를 한번에 실행 할 ..

CNVkit을 이용한 CNV 분석:: 개념 및 설치방법

유전자복제수변이(Copy Number Variation, CNV) 유전자복제수 변이(CNV)란 유전체에서 관찰되는 구조적 변이(Structural variation, SV) 중 하나이며 reference genome에 비해 복제수의 변화를 보이는 DNA 조각이다. 통상적으로 2n의 형태로 존재하는 일반적인 서열들과는 달리 결실(0n, 1n 상태), 증폭(3n 이상의 상태)되는 등 인간의 표준 참조 게놈 (Reference Genome)와 비교해 반복되는 서열의 숫자의 차이를 보이는 1kb 이상의 DNA 조각을 주로 의미하며, 평균 크기는 29kb에서 523kb 정도로 예상된다고한다. CNV에서 Copy(복제수)란 염기서열의 반복횟수를 의미한다. CNVkit CNVkit 이란? CNVkit이란 2016년에..

내가보려고하는 BI 개념정리:: Allele이란?

DNA는 두 쌍의 나선형 구조로 되어 있다. 즉, 한 가닥은 아버지로부터 한 가닥은 어머니로부터 동일한 염색체를 물려받는데 이를 '상동 염색체(allele)'라 한다. 특정 부분에 단일염기다형성 돌연변이(SNP mutation)가 있을 때 한쪽만 변이가 있을 수도 있고 양쪽 모두 변이가 있을 수도 있다. 양쪽 모두 정상(dominant 혹은 major allele)일 때 동종접합 야생형(homozygous wild type)이라 하며, 한쪽에만 변이가 있는 경우를 이형접합 돌연변이형(heterozygous mutant type), 양쪽 모두 변이가 있는 경우를 동종접합 돌연변이형(homozygous mutant type)이라 한다. 이러한 세 가지의 유전적 차이를 갖는 그룹을 '유전자형(genotype)..

[Coursera]3. From Implanted Patterns to Regulatory Motifs

1.From Implanted Patterns to Regulatory Motifs -Do We have a Clock gene? 우리의 낮과 밤을 정하는 clock gene이 존재할까? molecular time keeper는 우리몸의 유전자발현을 변화시키는데, 이는 아침에 필요한 단백질과 밤에 필요한 단백질이 다르기 때문이다. 이와 관련지어 우리는 수면장에와 관련된 유전자를 찾을 수 도 있다. 식물의 경우 시간을 지키는 것은 삶과 죽음을 결정한다. 광합성 등을 보면 알 수 있다. 이런 식물의 유전자는 일주기를 결정한다. 식물에서는 3개의 유전자가 이러한 일주기행동을 조절한다. Regulartory protein으로 CCA1, LCY, TOC1이 있다. (이는 전사인자로도 알려져 있다.) -Implan..