전체 글 56

[DB]What is JAX ClinicalKnowledgebase DB? (JAX CKB)

임상 Database에는 다양한 종류의 DB가 사용된다. Somatic과 관련된 DB로는 대표적으로 OncoKB, Civic, Clinvar 등이 있으며 오늘 소개할 DB는 CKB( ClinicalKnowledgebase) 이다. CKB란? clinical desicion making을 하기 위해 암환자의 서열정보와 관련된 inhouse-databse 이다. Precision medicine은 개인의 유전체, 환경 및 생활 양식을 고려하여 질병의 예방과 치료를 맞춤화하는 의학적 접근 방식을 가리킵니다. 이는 각 개인의 유전적, 생물학적, 생화학적 특성을 고려하여 질병의 원인을 이해하고, 이에 맞는 치료 및 예방 전략을 개발하는 것을 목표로 한다. 특히 암에서의 precision medicine에서는 암종..

[Tool] ArtDeCo tool 이용해 contamination 알아내기

Sample contamination 이란 NGS 실험하는 사람이라면 누구나 한번쯤 생각해볼법한 이슈이다. 실험하다가 옆에 well에 contam 되기는 매우 쉽지만, 어떤 샘플에 의해 contam이 되었는지 알아내기는 어렵다. 이러한 contamination issue를 해결하기 위해 몇가지 tool을 찾아본 결과 ArtDeCo라는 tool을 발견하였다. 1. ArtDeCo 란? NGS를 이용한 DNA sample 사이의 cross-contamination을 알아낼 수 있도록 개발한 tool 이다. 아래 논문을 보면 batch 내 샘플들에게서 중복되는 SNV의 AR(Alleic ratio) 확인하여 샘플들의 Contamination을 확인한다. https://bmcbioinformatics.biomed..

PYTHON🐍 2024.03.22

[통계학] 평균, 편차, 분산, 표준편차 그리고 자유도와 불편추정량

1. 평균, 편차, 분산, 표준편차 평균: 산술평균, 표본을 모두 더한 후 해당 표본의 수로 나눈 값 편차: 하나의 변량이 평균으로 부터 얼마나 떨어져 있는가르 나타내는 값. 각각의 변량에서 평균을 뺀 값을 의미함. 표준편차: 흩어짐에 대한 정도. 분산을 제곱한 값이다. 분산의 양의 제곱근으로 표준편차가 작은 것은 평균값 주위의 분산의 정도가 작은 것을 나타낸다. 기호는 다음과 같이 나타낸다. 2. 자유도와 불편추정량 자유도와 불편 추정량을 이해하기 위해서 먼저 표본 분포에 대한 개념을 알아야한다. 표본분포 : 표본통계량(sample statistic)의 확률분포 이다. 표본통계량이란 표본평균이나 표본분산처럼 표본의 특성을 나타내는 대표값을 말한다. 모집단의 특성을 나타내는 대푯값인 모수(paramete..

Math/Statistic 2024.03.21

[파이썬 기초] 파이썬 for 문 기초 사용법(range, dictionary, 대소문자, break, continue)

파이썬 for문을 이용하여 몇가지 유용한 방법들을 알아보자. 1. range 를 사용한 for 문 이용 range를 이용하면 시작부터 끝값 까지 사용자가 범위를 설정 가능하다. for문을 이용하여 원하는 범위의 숫자, 홀수, 짝수 등 출력 가능하다. #for 실습 for v1 in range(4): print('v1 is:', v1) for v2 in range(1,11): print('v2 is :' , v2) for v3 in range(0,11,2): print('v3 is:', v3) sum=0 for v in range(1,1001): sum += v print(sum) print(type(range(1,11))) 2. Dictionary를 사용한 for 문 이용 Dictionary의 key 값..

PYTHON🐍 2024.03.13

[통계학] 공분산과 상관계수

공분산 : 공분산은 두 확률 변수가 함께 커지거나, 한 변수가 작아질때 다른 변수가 함께 작아지는 것과 같이 크기 변화가 같으면 공분산은 양의 값을 갖는다. 상관계수 : 두 변수 x와 y간의 선형 상관관계를 계량화한 수치 +1에 가까울수록 양의 상관관계 -1에 가까울수로 음의 상관관계 상관계수 r은 -1과 1 사이의 값을 갖는다. 상관계수 =0 은 두 변수가 서로 상관 없다는 것이다. 상관계수가 0.8 이상인 경우 높은 상관관계를 갖는다고 한다. 0.4 미만은 별로 상관관계 없는 것이다. 상관계수의 종류 1. 피어슨 상관계수 -비선형적인 상관관계는 나타내지 못한다. -자상관 (= 자기와 상관관계) 를 나누고 - 분모를 표준편차 나눈거니까 -1에서 +1 사이의 값으로 나온다. - +1에 가까운건 양의 상관..

Math/Statistic 2024.02.22

확률(Probability)

확률 - 특정 사건이 일어날 가능성의 척도 조건부 확률 -사건 A가 일어났다나는 가정 하의 사건 B의 확률 - P(B|A) -두 사건 A, B가 서로 독립일 때, A and B 는 P(A) * P(B) 3. 분산, 표준편차, 백분위수 -편차 = 데이터 값 - 데이터들의 평균값 (데이터값) - (데이터들의 평균값) - 분산=확률 변수의 흩어진 정도 =편차 제곱 합을 데이터의 갯수로 나눈 값 Var[X] = E [(X-μX)2] = = σX2 - 표준편차=분산에 루트를 씌운 값 - 백분위수= 전체가 100이라고 볼때, 전체의 몇퍼센트인가?

카테고리 없음 2024.02.20

[BI]GATK HaplotyeCaller 사용해서 germline variant 확인하기

GATK HaplotypeCaller란? GATK에서 만든 Variant Caller로 Germline Variant를 확인할때 가장 대표적으로 사용하는 Haplotypecaller의 사용법에 대해 알아보겠다. Haplotype caller가 variant를 calling 하는 방법은 아래 포스팅을 참고해라. https://heestory533.tistory.com/entry/Variant-caller%EC%9D%98-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 Variant caller의 알고리즘 1. GATK HaplotypeCaller Haplotype은 다음과 같이 4가지 주요 과정을 통하여 variant를 찾아낸다. 1. Define active regions 2. Dete..

[SQL] postgreSQL 로 DB 생성 및 USER 권한 주기

지금부터 PostgreSQL로 DB생성해보겠다. 먼저, 이전에 postgreSQL을 Docker에 설치해놓았기 때문에, Docker를 이용하여 PostgreSQL 실행한다. 1. 컨테이너 postgresql 에 접속하기 [CONTAINER ID]에는 내가 실행한 컨테이너 아이디를 입력한다. 이때, [CONTAINER ID]를 모르면 docker ps 라는 명령어로 확인한다 docker exec -it [CONTAINER ID] bash 컨테이너로 들어오면 맨 앞에가 root@[CONTAINER ID] 으로 바뀐다. 2. 위의 단계에서 컨테이너로 들어왔으면, psql을 이용해 [USER ID]에 postgres라고 치고 postgresql로 접속한다. psql -U postgres 맨앞이 postgres=..

LINUX 2023.08.08

[SQL] Docker 이용하여 postgres 설치하기

Docker hub에 접속(https://hub.docker.com/_/postgres) 다음과 같이 postgres 가 존재한다. 작업 환경은 linux(Ubuntu)이며 가장 최신 postgres를 가져왔다. 1. PostGres docker 가져오기 #명령어 docker pull postgres 위와같이 postgres를 불러왔으면 이미지가 생성이 되었는지 확인한다. #명령어 docker images 2. Postgres 컨테이너 생성하기 docker run -p 5432:5432 -e POSTGRES_PASSWORD="" --name PostgreSQL -d postgres ## 동일한 포트 번호 사용중인 경우 아래와 같은 오류 발생 : 이런 경우, 5432:5432 대신 5433:5432 로 변..

LINUX 2023.07.03