Math/Statistic

[통계학]An Introduction of Statistical Learning :: Chapter 2

히스톤 2021. 7. 17. 11:13

Introduction

통계학 책을 추천을 받아서 미루다 미루다 결국 드디어 읽어보겠다고 결심을 했다.

책은 Gareth James -  'An Introduction to Statistical Learning' 라는 책이다.

 

통계학, 머신러닝이나 데이터분석쪽을 공부하는 사람들이라면 알고있을지도 모르겠지만 An Introduction of Statistical Learning이라는 책이다.

 

책을 훑어보니 R을 이용한 실습도 종종 있어보이고 자세히 설명한거 같아 통계학 기초를 잡기에 좋아보여 선택하게 되었다.

 

그럼 지금부터 Chapter 2 시작!!(Chapter 1은 introduction이라서 포스팅은 건너뜀)

 


Chapter2. Statistical Learning

우리는 통계를 통해서 어떤 인과관계를 예측할 수 있다.

예를 들어 각각 다른 미디어인 TV, 라디오, 신문을 통해 마케팅 효과(소비자의 구매)가 어떻게 달라지는지 데이터를 시각화 하여 볼 수 있다.

여기서 광고에 드는 비용(advertising budget)을 input variable, 소비자의 구매(sales)를 output variable이라고 생각할 수 있다.

 

input variable은 X 또는  perdictiors, independent variable(독립변수), feature이라고도 말할 수 도 있다. 위에서 든 예시인 TV, 라디오, 신문의 예산을 각각 X1, X2, X3라고 말할 수 있다.

output variable은 Y 또는 response, dependent variable(종속변수)이라고 말할 수 있다.

X와 Y 사이의 관계를 다음과 같이 간단하게 식으로 나타낸다.

 

 

 f        : some fixed but unknown function. 즉, 함수를 의미한다. 

: random error term which is independent of X

 

이때 Y는 error term으로 인해서 정확한 결과를 예측할 수 없다. 그이유는 예측할 수 없는 variation이 존재하기 때문이다. 이러한 이유로 Y와 f(X)는 차이가 존재한다.


2.1.1 Why Estimate f? (예측과 추론)

f를 추정하는 방법에는 2가지가 있다.

1. prediction(예측) :과거의 데이터를 기반으로 미래에 대한 설명, 예측

2. inference(추론) :논리적으로 결과 도출

 

지금부터 예측(prediction)에 대해 알아보겠다.

 

prediction

우리는 X를 통해서 Y를 알아낼 수 있지만 이는 쉽게 예측되지는 않는다. 그러므로 error term의 평균이 0에 수렴하는 경우 우리는 위와같은 식을 통해 Y를 예측할 수 있다.

: f 에 대한 estimate를 의미한다.

 

: Y에 대한 estimate를 의미한다. 이것의 정확도는 reducible errorirreducible error에 의해 결정된다.

 

reducible error와 irreducible error

-reducible error

: f̂ 와 f의 불일치로 발생하는 오류로, 예측 수행 시 향상된 방법 등을 통해서 갭을 줄여나갈 수 있다.

-irreducible error

: Irreducible errors는 X들로는 완전히 Y에 대해 결정할 수 없다라는점에서 기인하였다.

X와는 의존적이지 않지만, Y에 영향을 미치는 요소들을 Irreducible errors 라고 함.

Irreducible errors를 개선하기 위한 방법은, 이러한 요소들을 식별하고 예측변수로 (즉 X로) 변환하는 방법이 유일하다.

 

Inference 

inference는 말 그대로 추론을 통해 데이터를 도출하는 방식이다.

추론을 하기 위해서는 다음과 같은 질문을 할 수 있다.

1. response와 연관된 predictors가 어떤것이 있는가?

2. response와 predictor사이의 관계가 무었인가?

3. Y 값과 각각의 predictor사이 관계를 linear equation(일차방정식) 을 통해 나타낼 수 있는가? 아니면 더욱 복잡한 관계인가?

 


2.1.2 How Do We Estimate f?

1. Parametric Methods (모수적 접근법)

2. Non Parametric Methods (비모수적 접근법)

 

우리는 통계 자료를 사용함에 있어서 평균 μ과 표준편차 σ를 사용한다. 여기서 μ와 σ라는 두 개의 parameter(모수, 매개변수) 를 사용하여 특정 분포에서 원하는 결과를 추론하는 과정을 Parametric method(모수적 접근법)이라 할 수 있다. 즉 μ와 σ는 우리들이 원하는 결과값을 얻음에 있어 사용되는 도구라 할 수 있다.

 

 반면 Nonparameteric method(비모수적 접근법)은 어떠한 parameter를 사용하지 않거나 매우 제한된 조건을 사용하여 원하는 결과를 얻는 과정으로 만일 주어진 데이터가 정규분포와 같은 모양을 하고 있지 않아 parametric method를 사용함에 적절하지 않을 경우 Nonparametric method는 이를 대체할 수 있는 좋은 방법이다.