분류 전체보기 67

[BI] 무료로 Bioinformatics 공부하기

Bioinformatics에 대해 더 공부하고 싶어서 찾아보다가 몇가지 도움되는 사이트 및 도서에 대해 알게 되었다.이후 참고용으로 포스팅하니 많은 도움이 되었으면 한다. 1. A Primer of Computational Biologyhttps://open.oregonstate.education/computationalbiology/?fbclid=IwAR10XNN-lth9df2pJ6ovCuSutoi4MaCT1tI8mw5xgxLOsLHQ_rjHtqM6jq0 BI에서 주요하게 사용한 linux, python, R 에 대하여 설명한 책이다. Handbook 형식이며 다른 프로그래밍 도서와는 다르게 biology 를 예시를 들어서 실습할때 도움이 된다. 2. Biostar Handbookhttps://www...

[R] 리눅스 환경에서 R studio server 설치하기

리눅스에서 직접 R을 사용하기란 여간 불편한 일이 아니다.리눅스 서버와 연동된 R studio를 사용하기위해서 아래와 같이 간단한 명령어만 알아두면 된다. ssh 서버가 선행적으로 설치되어있어야하고 ssh user@ip 로 외부 접속이 가능한 경우 아래의 방법대로 사용이 가능하다. 1. R studio 서버 다운로드 및 설치리눅스 terminal 에 아래와 같은 명령어를 입력한다.sudo apt-get install gdebi-corewget https://download2.rstudio.org/server/bionic/amd64/rstudio-server-2022.02.1-461-amd64.debsudo gdebi rstudio-server-2022.02.1-461-amd64.deb 2. 현재 접속되어..

R📊 2025.02.25

[ML] 머신러닝을 위한 환경 세팅 방법(scikit-learn, xgboost, visual studio, jupyter-notebook)

머신러닝을 시작하기 위해서는 프로그래밍을 하기 위한 환경을 세팅해야한다.일단 파이썬을 이용하여 머신러닝을 할 예정이므로 파이썬과 관련된 환경을 세팅하는 법에 대해 말해보겠다. 머신러닝의 대표적인 패키지인 scikit-learn을 사용할 것이다.이 패키지 이외에도 머신러닝과 관련된 다양한 패키지가 존재하는데, 아래 표에서 나의 상황에 맞는 프로그램을 사용하면 될듯싶다.패키지 용도패키지 이름머신러닝 패키지scikit-learn배열/ 선형대수/ 통계 패키지numpy, scipy데이터 핸들링pandas시각화matplotlib, seaborn대화형 파이썬 tooljupyter notebook  머신러닝을 하기위해 주피터 노트북 환경을 이후에 사용할 예정이며, 만일 주피터 노트북이 설치되어있지 않다면 아래 글을 참..

ML👩‍💻 2025.01.22

[ML] 머신러닝 이란?

오늘은 머신러닝의 개념에 대해 알아보겠습니다. 머신러닝이란?머신러닝은 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법을 통칭합니다.즉, 머신러닝은 프로그래밍을 하듯이 일일히 규칙을 명시해주는 것이 아닌 컴퓨터가 스스로 학습을 하여서 데이터로부터 의사결정을 위한 패턴을 스스로 학습합니다.  머신러닝이 필요한 이유?1) 현실 세계의 복잡한 업무와 규칙을 구현하기 위한 매우 복잡하고 방대한 코드작성 대체가능2) 수시로 변하는 업무환경, 정책, 사용자 성향에 따른 애플리케이션 구현의 어려움 해결3) 많은 자원과 비용을 통해서 구현된 애플리케이션의 예측 정확성 문제 해결4) 동일한 숫자라고 하더라도 여러 변형으로 인해 숫자인식에 필요한 여러 특징들을 if else와 ..

ML👩‍💻 2025.01.20

[BI] VCF normalization (VT Tools)

NGS 에서 Variant calling을 한 이후, vcf 파일을 normalization 하는 과정이 필요하다. VCF Normalization이란?VCF (Variant Call Format) 파일에 포함된 변이 정보를 일관되게 정리하는 과정을 의미한다.VCF 파일에는 여러 형태의 변이가 기록될 수 있는데, Normalization은 변이가 동일한 위치에서 일관되게 표현되도록 변이들을 정리하여 해석의 정확성을 높이고, 후속 분석에서의 혼동을 줄여준다.위의 그림을 보면 MNP (Multi-Nucleotide Polymorphism)가 여러가지 형태로 되어있다. * VCF normalize 하는 이유  분석 일관성: 동일한 변이가 여러 형식으로 기록되면, 분석 시 혼동이 발생할 수 있습니다. 정규화하면..

카테고리 없음 2025.01.08

python :: pysam 모듈을 이용한 bam, vcf 파일 다루기

python에서 bam이나 vcf 파일을 직접 다루기에는 정보도 많고 한줄한줄 코딩하기가 어렵다.pysam이란 모듈을 이용하면 좀 더 쉽고 빠르게 bam 파일이나 vcf 파일을 다룰 수 있기 때문에 pysam 모듈 사용법에 대해 알아보려고한다. 1. pysam이란?pysam은 SAM/BAM, VCF 형식의 파일을 읽고 조작하는 파이썬 모듈이다.이 모듈은 samtools의 기능을 간단하게 조작도 가능하며 tabix에 대한 인터페이스도 포함하고 있다. 2. pysam 설치하기pysam을 설치하는 방법은 두가지가 있는데, conda 를 이용해서 설치하거나 직접 pip install 명령어로 설치하면된다. conda config --add channels defaultsconda config --add chan..

PYTHON🐍 2024.12.20

NA12878 Download (FASTQ, VCF, BED)

NA12878이란?NA12878이란 유전체연구에서 널리 사용되는 참조 인간 유전체 샘플 중 하나로 표준물질로 주로 사용된다.이 샘플은 여성의 혈액에서 추출된 B세포 계열의 세포주로 부터 유래되었다. NGS 검사에서 검사의 Specificity나 Sensitivity를 확인하기 위해 참값을 알고 있는 표준물질을 사용하는데, 이때 NA12878을 주로 사용한다.  Genome In A Bottle (GIAB) 에서 NA12878을 다운로드 받을 수 있다. NA12878 FASTQ 다운로드 방법아래 링크에서 fastq 다운로드가 가능하다.https://www.internationalgenome.org/data-portal/sample/NA12878 Data portal | 1000 Genomes www.int..

[이것저것] 논문 figure를 위한 파워포인트 고화질 캡쳐본 TIFF 파일 저장 방법

나중에 내가 보려고 적어두는 파워포인트 고화질 캡쳐 저장법입니다. TIFF 파일이란? (*.tif)TIFF(Tagged Image File Format)은 고품질 이미지 저장을 위해 설계된 이미지 파일 형식입니다. 주로 사진, 스캔된 문서, 그래픽 디자인, 그리고 출판 분야에서 사용됩니다. 논문 figure의 경우도 인쇄를 위해 고화질 이미지 파일인 tiff 를 많이 사용합니다. TIFF 파일 확장자일반적으로 .tif 또는 .tiff 확장자를 가집니다.두 확장자는 기능적으로 동일하며, 시스템 또는 소프트웨어에 따라 사용됩니다. TIFF와 다른 파일 형식 비교 특징TIFFJPEGPNG압축 방식무손실/손실 가능손실무손실품질고품질, 무손실품질 손실 있음고품질, 무손실파일 크기크기가 큼작음중간다중 페이지지원 (..

카테고리 없음 2024.12.05

[강연]유전자 가위 활용 질병 진단 기술

생명공학 연구원 강태준 박사 발표 주제: 유전자 가위 활용 질병 진단 기술발표 초록액체 생검에서 발견되는 세포외 소포체(EV)의 메신저 RNA(mRNA) 서열 분석은 체세포 돌연변이, 내성 프로파일 및 종양 재발과 같은 임상 정보를 제공할 수 있습니다. 그러나 EV mRNA는 액체 생검에서 낮은 농도로 존재하기 때문에 대량의 샘플 또는 특수 분석 기법이 필요해 널리 활용되지 않고 있습니다. 여기에서 우리는 EV mRNA를 검출하기 위한 플랫폼인 SCOPE(Self-amplified and CRISPR-aided Operation to Profile EVs)를 소개합니다. SCOPE는 Cas13을 이용한 CRISPR 기반 타겟 RNA 인식을 활용하여 복제와 신호 증폭을 유도하여, 단일 뉴클레오타이드 분해능..

[바이오파이썬] biopython 설치 방법

NGS 데이터를 다루다보면 Fastq, BAM, VCF 등 다양한 형식의 파일을 접하게 됩니다.오늘은 그중에서 Fastq 파일을  biopython을 이용하여 다뤄보겠습니다. 1. Biopython 이란? 참고 링크 : https://biopython.org/ 바이파이썬이란 파이썬 라이브러리중 하나로, 분자생물학 계산에 자유롭게 사용할 수 있습니다. 유전체 데이터 서열을 읽거나 생물 정보 데이터를 다루는데 주로 사용합니다. 아래 형식들의 파일들은 Biopython에서 지원하는 파일 형식들 입니다.- Blast output- Clustalw- FASTA- GeneBank- PubMed- ExPASy files- SCOP- UniGene- SwissProt 2. Biopython 설치방법 (LINUX, MA..

PYTHON🐍 2024.05.07