Skip to content

Linear regression

통계학에서, 선형 회귀(線型回歸, 영어: linear regression)는 종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법이다. 한 개의 설명 변수에 기반한 경우에는 단순 선형 회귀, 둘 이상의 설명 변수에 기반한 경우에는 다중 선형 회귀라고 한다.

선형 회귀는 선형 예측 함수를 사용해 회귀식을 모델링하며, 알려지지 않은 파라미터는 데이터로부터 추정한다. 이렇게 만들어진 회귀식을 선형 모델이라고 한다.

선형 회귀는 깊이있게 연구되고 널리 사용된 첫 번째 회귀분석 기법이다. 이는 알려지지 않은 파라미터에 대해 선형 관계를 갖는 모델을 세우는 것이, 비선형 관계를 갖는 모델을 세우는 것보다 용이하기 때문이다.

선형 회귀는 여러 사용 사례가 있지만, 대개 아래와 같은 두 가지 분류 중 하나로 요약할 수 있다.

  • 값을 예측하는 것이 목적일 경우, 선형 회귀를 사용해 데이터에 적합한 예측 모형을 개발한다. 개발한 선형 회귀식을 사용해 y가 없는 x값에 대해 y를 예측하기 위해 사용할 수 있다.
  • 종속 변수 y와 이것과 연관된 독립 변수 X1, ..., Xp가 존재하는 경우에, 선형 회귀 분석을 사용해 Xj와 y의 관계를 정량화할 수 있다. Xj는 y와 전혀 관계가 없을 수도 있고, 추가적인 정보를 제공하는 변수일 수도 있다.

일반적으로 최소제곱법(least square method)을 사용해 선형 회귀 모델을 세운다. 최소제곱법 외에 다른 기법으로도 선형 회귀 모델을 세울 수 있다. 손실 함수(loss fuction)를 최소화 하는 방식으로 선형 회귀 모델을 세울 수도 있다. 최소제곱법은 선형 회귀 모델 뿐 아니라, 비선형 회귀 모델에도 적용할 수 있다. 최소제곱법과 선형 회귀는 가깝게 연관되어 있지만, 그렇다고 해서 동의어는 아니다.

Simply

Linear regression을 가장 간단하게 설명하자면 Excel의 추세선과 거의 비슷한 개념이라고 생각하면 된다. 즉, 지금 내가 가지고 있는 데이터셋이 어떤 Linear function인지를 유추하는 것이다.

Linear_Regression.png

Category

Category_of_linear_regression.png

  • 단변량 단순 선형 회귀 모델: univariate simple linear regression model
  • 단변량 다중 선형 회귀 모델: univariate multiple linear regression model
  • 다변량 단순 선형 회귀 모델: multivariate simple linear regression model
  • 다변량 다중 선형 회귀 모델: multivariate multiple linear regression model

독립변수와 종속변수 (Dependent and independent variables)

Cost function

간단한 Cost function은 아래와 같다.

$$ W := W - \alpha\frac{1}{2m}\sum_{i=1}^{m} 2(Wx^{(i)} - y^{(i)})2x^{(i)} $$ 수식의 자세한 설명은 이 문서를 참조

Random linear datas

1차 함수 형태로 무작위 데이터를 추출하고 싶다면 NumPy#Numpy generate data from linear function항목을 참조.

sklearn APIs

DNN Regression

See also

Favorite site

References


  1. Blog.naver.com_-istech7-_linear_regression_analysis.pdf 

  2. Gimmesilver_-_What_is_regression.pdf 

  3. Linear_Regression_with_NumPy_-_Davi_Frossard.pdf