전체 글 57

[LINUX]Chef란 무엇인가?

Chef란? 셰프(Chef)란 루비와 얼랭으로 작성된 형상 관리 도구의 이름이자 회사명이기도 하다. 시스템 구성 '레시피(Recipe)'를 작성하기 위해 순수 루비형태의 도메인 특화 언어(DSL)를 사용한다. 회사의 서버의 구성 및 유지보수 작업을 간소화하며, 인터냅, 아마존 EC2, 구글클라우드 플랫폼, 오픈스택, 소프트레이어, 마이크로소프트 애저 등과 같은 클라우드 기반 플랫폼들과 통합해 자동적으로 새로운 머신을 프로비저닝하고 구성할 수 있다. 이러한 레시피들의 관리를 쉽게 하기 위해 쿡북(Cookbook)으로 묶을 수 있다. Bash script가 아닌 Chef를 사용하는 이유. Bash script는 어플리케이션 설치에 대한 예외처리를 하나하나 모두 신경써야한다. 반면, Chef는 전문적인 형상관..

LINUX 2021.11.15

Introduction of statistics :: 3.4강

Other considerations in Regresson Model 1. Qualitative Predictors 예를 들어 신용 데이터는 balance, age, cards, education, income, limit 등과 같은 회원들의 정보들을 포함하고 있다. 이때 gender는 p-value가 높기때문에 상관관계가 별로 없다고 판단된다. 이런것들을 dummy variable이라고 칭한다. 2. Extensions of the Linear model -Non-linear Relationships 3. Potential Porblems two of the most important assumptions state that the relationship between the predictors an..

Math/Statistic 2021.07.31

내가 보려고 하는 BI 정리 :: UPD란?

단친성 이염색체(Uniparental disomy,UPD)는 한쪽의 부모로부터만 한 상동염색체를 모두 받는 현상이다. 단친성 이염색체는 삼염색체 구출이나 두 염색체를 가진 정자와 염색체가 없는 난자, 그 반대로 수정된 경우에 나타날 수 있다. 만약 두 염색체가 다르다면, 한부모가 가진 상동염색체 두개가 각각 있는 것이다. heterodisomic UPD라고 한다. 1차 감수분열의 오류로 생긴다. 만약 두 염색체가 똑같은 염색체가 복제된 것이라면, 한부모가 가진 상동염색체 하나가 복제되어 온것이다. isodisomic UPD라고 한다. 2차 감수분열의 오류로 생긴다. 단친성 이염색체로는 어떠한 표현형의 차이도 없으나, isodisomic의 경우 보인자인 한쪽 부모로부터 모든 열성 유전자를 물려받을 수 있다..

카테고리 없음 2021.07.23

내가보려고하는 BI 개념정리:: Allele이란?

DNA는 두 쌍의 나선형 구조로 되어 있다. 즉, 한 가닥은 아버지로부터 한 가닥은 어머니로부터 동일한 염색체를 물려받는데 이를 '상동 염색체(allele)'라 한다. 특정 부분에 단일염기다형성 돌연변이(SNP mutation)가 있을 때 한쪽만 변이가 있을 수도 있고 양쪽 모두 변이가 있을 수도 있다. 양쪽 모두 정상(dominant 혹은 major allele)일 때 동종접합 야생형(homozygous wild type)이라 하며, 한쪽에만 변이가 있는 경우를 이형접합 돌연변이형(heterozygous mutant type), 양쪽 모두 변이가 있는 경우를 동종접합 돌연변이형(homozygous mutant type)이라 한다. 이러한 세 가지의 유전적 차이를 갖는 그룹을 '유전자형(genotype)..

[통계학]An Introduction of Statistical Learning :: Chapter 2

Introduction 통계학 책을 추천을 받아서 미루다 미루다 결국 드디어 읽어보겠다고 결심을 했다. 책은 Gareth James - 'An Introduction to Statistical Learning' 라는 책이다. 통계학, 머신러닝이나 데이터분석쪽을 공부하는 사람들이라면 알고있을지도 모르겠지만 An Introduction of Statistical Learning이라는 책이다. 책을 훑어보니 R을 이용한 실습도 종종 있어보이고 자세히 설명한거 같아 통계학 기초를 잡기에 좋아보여 선택하게 되었다. 그럼 지금부터 Chapter 2 시작!!(Chapter 1은 introduction이라서 포스팅은 건너뜀) Chapter2. Statistical Learning 우리는 통계를 통해서 어떤 인과관계를 ..

Math/Statistic 2021.07.17

HTML:: Sublime Text 설치하기, HTML이용해 웹브라우저 만들기

웹브라우저를 만들기 위해서 Sublime Text를 다운로드 받는다. 홈페이지 주소: https://www.sublimetext.com/download !는 선언을 의미한다. 화면에 이라고 입력한다. hello.html 이라고 저장하니까 색깔이 바뀌었다. : html을 연다 : html을 닫는다. head를 입력한다. 그리고 뒤에 /만 눌러도 head가 자동으로 닫힌다. body도 입력해본다. ctrl+s를 눌러서 save를 한다. 잘 저장이 되었나 확인해 보았다. 위는 hello라고만 저장한결과이고 아래는 hello.html이라고 확장자까지 넣어서 저장한 결과이다. 즉, 저장할때 확장자를 함께 넣어주어야 웹으로 저장된다. 짜잔! 홈페이지 완성! 혼자서 더 만들어 보았다.

카테고리 없음 2021.07.13

[R]쉽게배우는 R 데이터사이언스 :: 그래프 만들기

데이터를 보기 쉽게 그림으로 표현한 것을 그래프(graph)라고 합니다. 데이터 원자료나 통계표는 수많은 숫자와 문자로 구성되어있어서 의미를 파악하기 어렵습니다. 데이터를 그래프로 표현하면 추세와 경향성이 드러나서 이러한 특징을 쉽게 이해할 수 있습니다. 1. R의 그래프 종류 R에는 2차원그래프 뿐만 아니라 3차원 그래프, 지도 그래프, 네트워크 그래프, 시간에 따라 변화하는 모션차트 등이 존재합니다. ggplot2는 그래프를 만들때 가장 많이 사용하는 패키지 입니다. ggplot2를 이용해 짧은 문법으로 그래프를 만들 수 있는 방법을 알아보겠습니다. 2. 산점도 - 변수 간 관계 표현하기 산점도: 데이터를 x축과 y축에 점으로 표현한 그래프를 산점도라고 합니다. 산점도는 나이와 소득처럼 연속값으로 된..

R📊 2021.05.22

[R]쉽게배우는 R 데이터사이언스 :: 데이터 정제_결측치 정제하기

1. 결측치 정제하기 결측치(Missing Value)는 누락된 값, 비어있는 값을 의미한다. 현장에서 만들어진 실제 데이터는 수집 과정에서 발생한 오류로 인해 결측치를 포함하고 있을 때가 많다. 결측치가 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 문제가 발생한다. 결측치 제거하기 위해 결측치가 포함된 데이터 프레임을 생성해 출력한다. R에서 결측치는 대문자로 NA로 표기한다. is. na()를 확인하면 데이터에 결측치가 들어있는지 알 수 있다. 만일 결측치가 존재하면 TRUE, 아니면 FALSE로 출력된다. #결측치 확인 table(is.na(df$score)) #결측치 제거 #is.na()를 filter()에 적용하면 결측치가 있는 행을 제거할 수 있다. df_nomiss % filter(!..

R📊 2021.05.15

[R]쉽게배우는 R 데이터사이언스 :: 데이터 전처리

주어진 데이터를 그대로 사용하기보다는 원하는 형태로 변형해 분석하는 경우가 많다. 분석에 적합하게 데이터를 가공하는 작업을 '데이터 전처리'리고 한다. 일부를 추출하거나, 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공해 목적에 맞게 분석하곤 한다. 1. 조건에 맞는 데이터만 추출하기 dplyr패키지를 로드한 후 dplyr패키지의 filter()를 이용하면 원하는 데이터를 추출할 수 있따. #exam에서 class가 1인 경우만 추출해 출력하기 exam %>% filter(class == 1) #여러조건을 충족하는 행 출력하기 #1반이면서 수학 점수가 50점 이상인 경우 exam %>% filter(class == 1 & math >= 50) #수학점수가 90점 이상이거나 영어 점수가..

R📊 2021.05.08