전체 글 62

CNVkit을 이용한 CNV 분석:: 중요 command 및 option 정리

저번 포스팅에 이어서 CNVkit 분석에 사용되는 중요 Command 및 option들에 대해 정리해보았다. tool 설치가 아직 되지 않은 분들이 있다면 이전 포스팅을 참고하길 바란다. CNVkit의 전체적인 Workflow CNVkit의 전체적인 Workflow는 다음과 같으며 크게 3단계로 나눌 수 있다. 1. Target bins와 Off-target bins (.bed)를 생성하는 부분 2. normal sample을 이용하여 reference를 생성하는 부분 3. 실제 sample을 분석하여 Copy number를 계산하는 부분 매우 다행히도 우리는 각각의 단계를 실행하기 위해 command를 하나씩 치지 않아도 된다. CNVkit에서 batch라는 명령어를 통하여서 3단계를 한번에 실행 할 ..

CNVkit을 이용한 CNV 분석:: 개념 및 설치방법

유전자복제수변이(Copy Number Variation, CNV) 유전자복제수 변이(CNV)란 유전체에서 관찰되는 구조적 변이(Structural variation, SV) 중 하나이며 reference genome에 비해 복제수의 변화를 보이는 DNA 조각이다. 통상적으로 2n의 형태로 존재하는 일반적인 서열들과는 달리 결실(0n, 1n 상태), 증폭(3n 이상의 상태)되는 등 인간의 표준 참조 게놈 (Reference Genome)와 비교해 반복되는 서열의 숫자의 차이를 보이는 1kb 이상의 DNA 조각을 주로 의미하며, 평균 크기는 29kb에서 523kb 정도로 예상된다고한다. CNV에서 Copy(복제수)란 염기서열의 반복횟수를 의미한다. CNVkit CNVkit 이란? CNVkit이란 2016년에..

Variant caller의 알고리즘

1. GATK HaplotypeCaller Haplotype은 다음과 같이 4가지 주요 과정을 통하여 variant를 찾아낸다. 1. Define active regions 2. Determine haplotypes by re-assembly of the active region 3. Determine likelihoods of the haplotypes given the read data 4. Assign sample genotypes 1. Define active regions 변이가 나올 것이라고 예측되는 active region을 정의한다. reference와 다른 allele들이 반복적으로 나오는 곳을 특정함. (count mismatches, indels and soft clips) 2. De..

카테고리 없음 2021.11.18

NGS 개념

SAV사용법 시퀀싱 LOW 파일이 존재하면 SAV 프로그램을 활용한다. Yield : 생산된 염기서열(base)의 수. 몇십기가라고 하면 그게 파일 크기가 아니라 염기서열 개수이다. error rate: percentage of bases called incorrectly. PhiX를 같이 섞어서 넣어주어야한다. Q30: 99.9%의 정확도이다. 염기서열 1000개중 1개가 정확한 것이다. Density: 프롤우셀에서 cluster가 제대로 형성되는지. 너무 빽빽하면 사진찍을 때 염기를 확인하기 어렵다. 적당히 깔아줘야한다. 너무 적게 깔면 Sequencing yield가 너무 적게 나온다. Cluster PF: 일루미나 장비에서 제대로 필터를 통과하였는지.(Passing Fileter) Raw Fast..

카테고리 없음 2021.11.17

[LINUX]Chef란 무엇인가?

Chef란? 셰프(Chef)란 루비와 얼랭으로 작성된 형상 관리 도구의 이름이자 회사명이기도 하다. 시스템 구성 '레시피(Recipe)'를 작성하기 위해 순수 루비형태의 도메인 특화 언어(DSL)를 사용한다. 회사의 서버의 구성 및 유지보수 작업을 간소화하며, 인터냅, 아마존 EC2, 구글클라우드 플랫폼, 오픈스택, 소프트레이어, 마이크로소프트 애저 등과 같은 클라우드 기반 플랫폼들과 통합해 자동적으로 새로운 머신을 프로비저닝하고 구성할 수 있다. 이러한 레시피들의 관리를 쉽게 하기 위해 쿡북(Cookbook)으로 묶을 수 있다. Bash script가 아닌 Chef를 사용하는 이유. Bash script는 어플리케이션 설치에 대한 예외처리를 하나하나 모두 신경써야한다. 반면, Chef는 전문적인 형상관..

LINUX 2021.11.15

Introduction of statistics :: 3.4강

Other considerations in Regresson Model 1. Qualitative Predictors 예를 들어 신용 데이터는 balance, age, cards, education, income, limit 등과 같은 회원들의 정보들을 포함하고 있다. 이때 gender는 p-value가 높기때문에 상관관계가 별로 없다고 판단된다. 이런것들을 dummy variable이라고 칭한다. 2. Extensions of the Linear model -Non-linear Relationships 3. Potential Porblems two of the most important assumptions state that the relationship between the predictors an..

Math/Statistic 2021.07.31

내가 보려고 하는 BI 정리 :: UPD란?

단친성 이염색체(Uniparental disomy,UPD)는 한쪽의 부모로부터만 한 상동염색체를 모두 받는 현상이다. 단친성 이염색체는 삼염색체 구출이나 두 염색체를 가진 정자와 염색체가 없는 난자, 그 반대로 수정된 경우에 나타날 수 있다. 만약 두 염색체가 다르다면, 한부모가 가진 상동염색체 두개가 각각 있는 것이다. heterodisomic UPD라고 한다. 1차 감수분열의 오류로 생긴다. 만약 두 염색체가 똑같은 염색체가 복제된 것이라면, 한부모가 가진 상동염색체 하나가 복제되어 온것이다. isodisomic UPD라고 한다. 2차 감수분열의 오류로 생긴다. 단친성 이염색체로는 어떠한 표현형의 차이도 없으나, isodisomic의 경우 보인자인 한쪽 부모로부터 모든 열성 유전자를 물려받을 수 있다..

카테고리 없음 2021.07.23

내가보려고하는 BI 개념정리:: Allele이란?

DNA는 두 쌍의 나선형 구조로 되어 있다. 즉, 한 가닥은 아버지로부터 한 가닥은 어머니로부터 동일한 염색체를 물려받는데 이를 '상동 염색체(allele)'라 한다. 특정 부분에 단일염기다형성 돌연변이(SNP mutation)가 있을 때 한쪽만 변이가 있을 수도 있고 양쪽 모두 변이가 있을 수도 있다. 양쪽 모두 정상(dominant 혹은 major allele)일 때 동종접합 야생형(homozygous wild type)이라 하며, 한쪽에만 변이가 있는 경우를 이형접합 돌연변이형(heterozygous mutant type), 양쪽 모두 변이가 있는 경우를 동종접합 돌연변이형(homozygous mutant type)이라 한다. 이러한 세 가지의 유전적 차이를 갖는 그룹을 '유전자형(genotype)..