2024/02 3

[통계학] 공분산과 상관계수

공분산 : 공분산은 두 확률 변수가 함께 커지거나, 한 변수가 작아질때 다른 변수가 함께 작아지는 것과 같이 크기 변화가 같으면 공분산은 양의 값을 갖는다. 상관계수 : 두 변수 x와 y간의 선형 상관관계를 계량화한 수치 +1에 가까울수록 양의 상관관계 -1에 가까울수로 음의 상관관계 상관계수 r은 -1과 1 사이의 값을 갖는다. 상관계수 =0 은 두 변수가 서로 상관 없다는 것이다. 상관계수가 0.8 이상인 경우 높은 상관관계를 갖는다고 한다. 0.4 미만은 별로 상관관계 없는 것이다. 상관계수의 종류 1. 피어슨 상관계수 -비선형적인 상관관계는 나타내지 못한다. -자상관 (= 자기와 상관관계) 를 나누고 - 분모를 표준편차 나눈거니까 -1에서 +1 사이의 값으로 나온다. - +1에 가까운건 양의 상관..

Math/Statistic 2024.02.22

확률(Probability)

확률 - 특정 사건이 일어날 가능성의 척도 조건부 확률 -사건 A가 일어났다나는 가정 하의 사건 B의 확률 - P(B|A) -두 사건 A, B가 서로 독립일 때, A and B 는 P(A) * P(B) 3. 분산, 표준편차, 백분위수 -편차 = 데이터 값 - 데이터들의 평균값 (데이터값) - (데이터들의 평균값) - 분산=확률 변수의 흩어진 정도 =편차 제곱 합을 데이터의 갯수로 나눈 값 Var[X] = E [(X-μX)2] = = σX2 - 표준편차=분산에 루트를 씌운 값 - 백분위수= 전체가 100이라고 볼때, 전체의 몇퍼센트인가?

카테고리 없음 2024.02.20

[BI]GATK HaplotyeCaller 사용해서 germline variant 확인하기

GATK HaplotypeCaller란? GATK에서 만든 Variant Caller로 Germline Variant를 확인할때 가장 대표적으로 사용하는 Haplotypecaller의 사용법에 대해 알아보겠다. Haplotype caller가 variant를 calling 하는 방법은 아래 포스팅을 참고해라. https://heestory533.tistory.com/entry/Variant-caller%EC%9D%98-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 Variant caller의 알고리즘 1. GATK HaplotypeCaller Haplotype은 다음과 같이 4가지 주요 과정을 통하여 variant를 찾아낸다. 1. Define active regions 2. Dete..