분류 전체보기 62

[통계학]An Introduction of Statistical Learning :: Chapter 2

Introduction 통계학 책을 추천을 받아서 미루다 미루다 결국 드디어 읽어보겠다고 결심을 했다. 책은 Gareth James - 'An Introduction to Statistical Learning' 라는 책이다. 통계학, 머신러닝이나 데이터분석쪽을 공부하는 사람들이라면 알고있을지도 모르겠지만 An Introduction of Statistical Learning이라는 책이다. 책을 훑어보니 R을 이용한 실습도 종종 있어보이고 자세히 설명한거 같아 통계학 기초를 잡기에 좋아보여 선택하게 되었다. 그럼 지금부터 Chapter 2 시작!!(Chapter 1은 introduction이라서 포스팅은 건너뜀) Chapter2. Statistical Learning 우리는 통계를 통해서 어떤 인과관계를 ..

Math/Statistic 2021.07.17

HTML:: Sublime Text 설치하기, HTML이용해 웹브라우저 만들기

웹브라우저를 만들기 위해서 Sublime Text를 다운로드 받는다. 홈페이지 주소: https://www.sublimetext.com/download !는 선언을 의미한다. 화면에 이라고 입력한다. hello.html 이라고 저장하니까 색깔이 바뀌었다. : html을 연다 : html을 닫는다. head를 입력한다. 그리고 뒤에 /만 눌러도 head가 자동으로 닫힌다. body도 입력해본다. ctrl+s를 눌러서 save를 한다. 잘 저장이 되었나 확인해 보았다. 위는 hello라고만 저장한결과이고 아래는 hello.html이라고 확장자까지 넣어서 저장한 결과이다. 즉, 저장할때 확장자를 함께 넣어주어야 웹으로 저장된다. 짜잔! 홈페이지 완성! 혼자서 더 만들어 보았다.

카테고리 없음 2021.07.13

[R]쉽게배우는 R 데이터사이언스 :: 그래프 만들기

데이터를 보기 쉽게 그림으로 표현한 것을 그래프(graph)라고 합니다. 데이터 원자료나 통계표는 수많은 숫자와 문자로 구성되어있어서 의미를 파악하기 어렵습니다. 데이터를 그래프로 표현하면 추세와 경향성이 드러나서 이러한 특징을 쉽게 이해할 수 있습니다. 1. R의 그래프 종류 R에는 2차원그래프 뿐만 아니라 3차원 그래프, 지도 그래프, 네트워크 그래프, 시간에 따라 변화하는 모션차트 등이 존재합니다. ggplot2는 그래프를 만들때 가장 많이 사용하는 패키지 입니다. ggplot2를 이용해 짧은 문법으로 그래프를 만들 수 있는 방법을 알아보겠습니다. 2. 산점도 - 변수 간 관계 표현하기 산점도: 데이터를 x축과 y축에 점으로 표현한 그래프를 산점도라고 합니다. 산점도는 나이와 소득처럼 연속값으로 된..

R📊 2021.05.22

[R]쉽게배우는 R 데이터사이언스 :: 데이터 정제_결측치 정제하기

1. 결측치 정제하기 결측치(Missing Value)는 누락된 값, 비어있는 값을 의미한다. 현장에서 만들어진 실제 데이터는 수집 과정에서 발생한 오류로 인해 결측치를 포함하고 있을 때가 많다. 결측치가 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 문제가 발생한다. 결측치 제거하기 위해 결측치가 포함된 데이터 프레임을 생성해 출력한다. R에서 결측치는 대문자로 NA로 표기한다. is. na()를 확인하면 데이터에 결측치가 들어있는지 알 수 있다. 만일 결측치가 존재하면 TRUE, 아니면 FALSE로 출력된다. #결측치 확인 table(is.na(df$score)) #결측치 제거 #is.na()를 filter()에 적용하면 결측치가 있는 행을 제거할 수 있다. df_nomiss % filter(!..

R📊 2021.05.15

[R]쉽게배우는 R 데이터사이언스 :: 데이터 전처리

주어진 데이터를 그대로 사용하기보다는 원하는 형태로 변형해 분석하는 경우가 많다. 분석에 적합하게 데이터를 가공하는 작업을 '데이터 전처리'리고 한다. 일부를 추출하거나, 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공해 목적에 맞게 분석하곤 한다. 1. 조건에 맞는 데이터만 추출하기 dplyr패키지를 로드한 후 dplyr패키지의 filter()를 이용하면 원하는 데이터를 추출할 수 있따. #exam에서 class가 1인 경우만 추출해 출력하기 exam %>% filter(class == 1) #여러조건을 충족하는 행 출력하기 #1반이면서 수학 점수가 50점 이상인 경우 exam %>% filter(class == 1 & math >= 50) #수학점수가 90점 이상이거나 영어 점수가..

R📊 2021.05.08

[R]쉽게배우는 R 데이터사이언스 :: 데이터 파악하기

데이터가 주어졌을때 가장 먼저 해야하는 일은 데이터의 전반저 구조를 파악하는 것이다. 분석할 데이터가 확보되면 데이터의 특성을 파악하고 다루기 쉽게 변형하는 작업을 해야한다. 1. 데이터를 파악할 때 사용하는 여러 함수들 함수 기능 head() 데이터 앞부분 출력 tail() 데이터 뒷부분 출력 View() 뷰어 창에서 데이터 확인 dim() 데이터 차원 출력 str() 데이터 속성 출력 summary() 요약 통계량 출력 2. mpg 데이터 파악하기 먼저 ggplot2 패키지를 설치한다. install.packages("ggplot2") ggplot2패키지의 mpg데이터를 불러와 데이터 프레임을 만든다. mpg

카테고리 없음 2021.05.01

[R]쉽게배우는 R 데이터사이언스 :: 데이터 프레임 만들기

1. 데이터 프레임(Data Frame)이란? 데이터 프레임(Data Frame)은 가장 많이 사용되는 데이터 형태로, 행과 열로 구성된 사각형 모양의 표처럼 생겼습니다. 세로로 나열되는 열(column)은 속성을 나타냅니다. 행은 가로로 나열되어 있으며 Row라고 불립니다. 데이터 프레임은 데이터를 직접 입력해 만들 수도 있고, 외부의 데이터를 가져와 만들 수도 있습니다. 2. 데이터 프레임 만들기 실습 데이터프레임 만들기 data.frame() :데이터 프렘임을 만들때 data.frame()을 이용한다. 데이터 프레임을 구성할 변수를 괄호 안에 쉼표로 나열하면 된다. 데이터프레임에 정보 추가하기 class라는 변수에 학생의 반에 대한 정보가 추가하여 이후 추가된 데이터 프레임을 만든다. 분석하기 데이..

R📊 2021.04.24

[R]쉽게배우는 R 데이터사이언스 :: '변수' 이해하기

변수란 '변하는 수'다 다양한 값을 지니고 있는 하나의 속서을 변수(Variable)라고 합니다. 데이터는 변수들의 덩어리라고 할 수 있으며 여러 변수가 모여 데이터가 됩니다. 변수는 데이터 분석의 대상 변수는 데이터 분석의 대상이 됩니다. 성별에 따른 소득, 성별에 따른 학점 차 등 어떤 관계가 있는지 분석할 수 있습니다. 변수만들기 1.변수를 만들고 값을 할당하기 2. 변수를 이용한 연산 3. 변수명 생성 규칙 실제 분석에서는 score, sex ,grade 처럼 알아보기 쉽고 기억하기 쉬운 의미를 담아 이름을 정합니다. 변수 명은 문자, 숫자, 대시, 언더바를 조합하여 정할 수 있습니다. 단, 변수명은 문자로 시작해야합니다. 4. 여러 값으로 구성된 변수 만들기 변수에는 여러개의 값을 넣을 수 도 ..

R📊 2021.04.17

[R]쉽게배우는 R 데이터사이언스 :: R이란 무엇인가? R에 대해 알아보기(+비전공자를 위한 R 추천 도서 및 학습 사이트)

R 이란? R은 데이터를 분석하는 데 사용되는 소프트웨어입니다. 기업, 학계, 언론 등 다양한 분야의 데이터 분석가들이 R을 사용하고 있고, 이제 막 데이터 분석 공부를 시작한 입문자들도 R을 익히고 있습니다. R의 사용 R은 매우 다양하게 사용이 가능합니다. R은 범용 분석 툴 이므로 하나만 잘 다루면 어떤 형태의 데이터든 자유롭게 분석할 수 있습니다. 1. 통계분석 2. 머신러닝 모델링 3. 텍스트 마이닝 4. 소셜 네트워크 분석 5. 지도 시각화 6. 주식 분석 7. 이미지 분석 8. 사운드 분석 9. 웹 애플리케이션 개발 이렇게 다양한 분야에서 R을 사용하고 있는데 과연 어떤 이들이 R을 사용하는지 알아보자면 연구자들, 기업들, 데이터 분석 대회 참가자들 등 많은 이들이 사용하고 있습니다. 현재 ..

R📊 2021.04.10