전체 글 62

python :: pysam 모듈을 이용한 bam, vcf 파일 다루기

python에서 bam이나 vcf 파일을 직접 다루기에는 정보도 많고 한줄한줄 코딩하기가 어렵다.pysam이란 모듈을 이용하면 좀 더 쉽고 빠르게 bam 파일이나 vcf 파일을 다룰 수 있기 때문에 pysam 모듈 사용법에 대해 알아보려고한다. 1. pysam이란?pysam은 SAM/BAM, VCF 형식의 파일을 읽고 조작하는 파이썬 모듈이다.이 모듈은 samtools의 기능을 간단하게 조작도 가능하며 tabix에 대한 인터페이스도 포함하고 있다. 2. pysam 설치하기pysam을 설치하는 방법은 두가지가 있는데, conda 를 이용해서 설치하거나 직접 pip install 명령어로 설치하면된다. conda config --add channels defaultsconda config --add chan..

PYTHON🐍 2024.12.20

NA12878 Download (FASTQ, VCF, BED)

NA12878이란?NA12878이란 유전체연구에서 널리 사용되는 참조 인간 유전체 샘플 중 하나로 표준물질로 주로 사용된다.이 샘플은 여성의 혈액에서 추출된 B세포 계열의 세포주로 부터 유래되었다. NGS 검사에서 검사의 Specificity나 Sensitivity를 확인하기 위해 참값을 알고 있는 표준물질을 사용하는데, 이때 NA12878을 주로 사용한다.  Genome In A Bottle (GIAB) 에서 NA12878을 다운로드 받을 수 있다. NA12878 FASTQ 다운로드 방법아래 링크에서 fastq 다운로드가 가능하다.https://www.internationalgenome.org/data-portal/sample/NA12878 Data portal | 1000 Genomes www.int..

[이것저것] 논문 figure를 위한 파워포인트 고화질 캡쳐본 TIFF 파일 저장 방법

나중에 내가 보려고 적어두는 파워포인트 고화질 캡쳐 저장법입니다. TIFF 파일이란? (*.tif)TIFF(Tagged Image File Format)은 고품질 이미지 저장을 위해 설계된 이미지 파일 형식입니다. 주로 사진, 스캔된 문서, 그래픽 디자인, 그리고 출판 분야에서 사용됩니다. 논문 figure의 경우도 인쇄를 위해 고화질 이미지 파일인 tiff 를 많이 사용합니다. TIFF 파일 확장자일반적으로 .tif 또는 .tiff 확장자를 가집니다.두 확장자는 기능적으로 동일하며, 시스템 또는 소프트웨어에 따라 사용됩니다. TIFF와 다른 파일 형식 비교 특징TIFFJPEGPNG압축 방식무손실/손실 가능손실무손실품질고품질, 무손실품질 손실 있음고품질, 무손실파일 크기크기가 큼작음중간다중 페이지지원 (..

카테고리 없음 2024.12.05

[강연]유전자 가위 활용 질병 진단 기술

생명공학 연구원 강태준 박사 발표 주제: 유전자 가위 활용 질병 진단 기술발표 초록액체 생검에서 발견되는 세포외 소포체(EV)의 메신저 RNA(mRNA) 서열 분석은 체세포 돌연변이, 내성 프로파일 및 종양 재발과 같은 임상 정보를 제공할 수 있습니다. 그러나 EV mRNA는 액체 생검에서 낮은 농도로 존재하기 때문에 대량의 샘플 또는 특수 분석 기법이 필요해 널리 활용되지 않고 있습니다. 여기에서 우리는 EV mRNA를 검출하기 위한 플랫폼인 SCOPE(Self-amplified and CRISPR-aided Operation to Profile EVs)를 소개합니다. SCOPE는 Cas13을 이용한 CRISPR 기반 타겟 RNA 인식을 활용하여 복제와 신호 증폭을 유도하여, 단일 뉴클레오타이드 분해능..

[바이오파이썬] biopython 설치 방법

NGS 데이터를 다루다보면 Fastq, BAM, VCF 등 다양한 형식의 파일을 접하게 됩니다.오늘은 그중에서 Fastq 파일을  biopython을 이용하여 다뤄보겠습니다. 1. Biopython 이란? 참고 링크 : https://biopython.org/ 바이파이썬이란 파이썬 라이브러리중 하나로, 분자생물학 계산에 자유롭게 사용할 수 있습니다. 유전체 데이터 서열을 읽거나 생물 정보 데이터를 다루는데 주로 사용합니다. 아래 형식들의 파일들은 Biopython에서 지원하는 파일 형식들 입니다.- Blast output- Clustalw- FASTA- GeneBank- PubMed- ExPASy files- SCOP- UniGene- SwissProt 2. Biopython 설치방법 (LINUX, MA..

PYTHON🐍 2024.05.07

인코렌탈 서비스를 이용한 NGS 데이터 분석 (feat. 사용방법, 장단점 및 후기)

오늘은 NGS 분석과 관련하여 인코렌탈이라는 생물정보 분석 솔루션 단기 임대 서비스에 대해 알아보겠습니다. 평소에 NGS 데이터를 통해 연구하거나 분석을 진행하는 분들께 유용한 서비스일 것 같아 소개하게 되었습니다. 1. 인코렌탈이란?㈜인실리코젠에서는 연구자들이 생물정보를 더욱 편리하게 분석할 수 있도록 도와주는 생물정보 분석 솔루션(IPA with Analysis Match, CLC Genomics Workbench 등)을 공급하고 있습니다. 인코렌탈은 생물정보 분석 솔루션을 원하는 만큼 유연하게 대여할 수 있는 서비스로 직접 코딩하지 못하더라도 GUI 환경에서 간편하게 사용할 수 있다는 게 정말 큰 장점입니다.2. 인코렌탈을 이용한 RNA seq 분석 및 결과 Review  인코렌탈을..

[DB]What is JAX ClinicalKnowledgebase DB? (JAX CKB)

임상 Database에는 다양한 종류의 DB가 사용된다. Somatic과 관련된 DB로는 대표적으로 OncoKB, Civic, Clinvar 등이 있으며 오늘 소개할 DB는 CKB( ClinicalKnowledgebase) 이다. CKB란? clinical desicion making을 하기 위해 암환자의 서열정보와 관련된 inhouse-databse 이다. Precision medicine은 개인의 유전체, 환경 및 생활 양식을 고려하여 질병의 예방과 치료를 맞춤화하는 의학적 접근 방식을 가리킵니다. 이는 각 개인의 유전적, 생물학적, 생화학적 특성을 고려하여 질병의 원인을 이해하고, 이에 맞는 치료 및 예방 전략을 개발하는 것을 목표로 한다. 특히 암에서의 precision medicine에서는 암종..

[Tool] ArtDeCo tool 이용해 contamination 알아내기

Sample contamination 이란 NGS 실험하는 사람이라면 누구나 한번쯤 생각해볼법한 이슈이다. 실험하다가 옆에 well에 contam 되기는 매우 쉽지만, 어떤 샘플에 의해 contam이 되었는지 알아내기는 어렵다. 이러한 contamination issue를 해결하기 위해 몇가지 tool을 찾아본 결과 ArtDeCo라는 tool을 발견하였다. 1. ArtDeCo 란? NGS를 이용한 DNA sample 사이의 cross-contamination을 알아낼 수 있도록 개발한 tool 이다. 아래 논문을 보면 batch 내 샘플들에게서 중복되는 SNV의 AR(Alleic ratio) 확인하여 샘플들의 Contamination을 확인한다. https://bmcbioinformatics.biomed..

PYTHON🐍 2024.03.22

[통계학] 평균, 편차, 분산, 표준편차 그리고 자유도와 불편추정량

1. 평균, 편차, 분산, 표준편차 평균: 산술평균, 표본을 모두 더한 후 해당 표본의 수로 나눈 값 편차: 하나의 변량이 평균으로 부터 얼마나 떨어져 있는가르 나타내는 값. 각각의 변량에서 평균을 뺀 값을 의미함. 표준편차: 흩어짐에 대한 정도. 분산을 제곱한 값이다. 분산의 양의 제곱근으로 표준편차가 작은 것은 평균값 주위의 분산의 정도가 작은 것을 나타낸다. 기호는 다음과 같이 나타낸다. 2. 자유도와 불편추정량 자유도와 불편 추정량을 이해하기 위해서 먼저 표본 분포에 대한 개념을 알아야한다. 표본분포 : 표본통계량(sample statistic)의 확률분포 이다. 표본통계량이란 표본평균이나 표본분산처럼 표본의 특성을 나타내는 대표값을 말한다. 모집단의 특성을 나타내는 대푯값인 모수(paramete..

Math/Statistic 2024.03.21

[파이썬 기초] 파이썬 for 문 기초 사용법(range, dictionary, 대소문자, break, continue)

파이썬 for문을 이용하여 몇가지 유용한 방법들을 알아보자. 1. range 를 사용한 for 문 이용 range를 이용하면 시작부터 끝값 까지 사용자가 범위를 설정 가능하다. for문을 이용하여 원하는 범위의 숫자, 홀수, 짝수 등 출력 가능하다. #for 실습 for v1 in range(4): print('v1 is:', v1) for v2 in range(1,11): print('v2 is :' , v2) for v3 in range(0,11,2): print('v3 is:', v3) sum=0 for v in range(1,1001): sum += v print(sum) print(type(range(1,11))) 2. Dictionary를 사용한 for 문 이용 Dictionary의 key 값..

PYTHON🐍 2024.03.13