2025/01 3

[ML] 머신러닝을 위한 환경 세팅 방법(scikit-learn, xgboost, visual studio, jupyter-notebook)

머신러닝을 시작하기 위해서는 프로그래밍을 하기 위한 환경을 세팅해야한다.일단 파이썬을 이용하여 머신러닝을 할 예정이므로 파이썬과 관련된 환경을 세팅하는 법에 대해 말해보겠다. 머신러닝의 대표적인 패키지인 scikit-learn을 사용할 것이다.이 패키지 이외에도 머신러닝과 관련된 다양한 패키지가 존재하는데, 아래 표에서 나의 상황에 맞는 프로그램을 사용하면 될듯싶다.패키지 용도패키지 이름머신러닝 패키지scikit-learn배열/ 선형대수/ 통계 패키지numpy, scipy데이터 핸들링pandas시각화matplotlib, seaborn대화형 파이썬 tooljupyter notebook  머신러닝을 하기위해 주피터 노트북 환경을 이후에 사용할 예정이며, 만일 주피터 노트북이 설치되어있지 않다면 아래 글을 참..

ML👩‍💻 2025.01.22

[ML] 머신러닝 이란?

오늘은 머신러닝의 개념에 대해 알아보겠습니다. 머신러닝이란?머신러닝은 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법을 통칭합니다.즉, 머신러닝은 프로그래밍을 하듯이 일일히 규칙을 명시해주는 것이 아닌 컴퓨터가 스스로 학습을 하여서 데이터로부터 의사결정을 위한 패턴을 스스로 학습합니다.  머신러닝이 필요한 이유?1) 현실 세계의 복잡한 업무와 규칙을 구현하기 위한 매우 복잡하고 방대한 코드작성 대체가능2) 수시로 변하는 업무환경, 정책, 사용자 성향에 따른 애플리케이션 구현의 어려움 해결3) 많은 자원과 비용을 통해서 구현된 애플리케이션의 예측 정확성 문제 해결4) 동일한 숫자라고 하더라도 여러 변형으로 인해 숫자인식에 필요한 여러 특징들을 if else와 ..

ML👩‍💻 2025.01.20

[BI] VCF normalization (VT Tools)

NGS 에서 Variant calling을 한 이후, vcf 파일을 normalization 하는 과정이 필요하다. VCF Normalization이란?VCF (Variant Call Format) 파일에 포함된 변이 정보를 일관되게 정리하는 과정을 의미한다.VCF 파일에는 여러 형태의 변이가 기록될 수 있는데, Normalization은 변이가 동일한 위치에서 일관되게 표현되도록 변이들을 정리하여 해석의 정확성을 높이고, 후속 분석에서의 혼동을 줄여준다.위의 그림을 보면 MNP (Multi-Nucleotide Polymorphism)가 여러가지 형태로 되어있다. * VCF normalize 하는 이유  분석 일관성: 동일한 변이가 여러 형식으로 기록되면, 분석 시 혼동이 발생할 수 있습니다. 정규화하면..

카테고리 없음 2025.01.08