Linear Regression
선형성1이라는 기본 가정이 충족된 상태에서 독립변수와 종속변수의 관계를 설명하거나 예측하는 통계 방법.
여기서 내가 간단하게 내린 결론은, 어떠한 vector가 주어지고, 그 에 대한 결과 vector가 주어졌을 때, 그 둘의 관계를 linear function으로 설명하고, 를 모르는 또 다른 가 주어졌을 때, 값을 예측한다는 것이다.
독립변수 , 상수항 와 종속변수() 사이의 관계를 모델화 하는 것
아래와 같이 표현될 수 있다.
아래 그림과 같이 빨간 점들을 데이터라고 하면, 각 데이터의 관계에 대해 표현하면 아래와 같은 선이 나온다.
이 때, 수식 (1)에서 , 이 된다.
그러면 (1)의 수식에서 와 는 어떻게 구할것인가?
변수 와 의 관계를 가장 잘 나타낸다는 의미는, 좌표로 나타낸 점들에서 가장 가까이 있는 직선을 찾는다라는 의미다.
그러면 결론적으로 의 선과 모든 점들 사이의 거리가 최소가 되는 직선을 찾으면 될 것이다.
위의 수식에서 SSE(Sum of Squared Errors) 값을 최소화할 수 있는 와 를 계산하게 되면, 와 변수 사이의 관계를 가장 잘 나타내는 직선, 선형 회귀식이 나오게 된다.
이 SSE를 최소화 하는 방법에는 최소 제곱법(Least Squared Method)가 있다.
East Squared Method는 다른 글에서 설명하겠다.
- Linearity, 일반적으로 1차함수와 같은 특성을 가지면 선형성이 있다고 한다. 1. 2. 조건을 만족하는 것을 말한다. ↩
'Paper Review' 카테고리의 다른 글
간단한 Softmax Regression (0) | 2017.04.17 |
---|---|
간단한 Logistic Regression (0) | 2017.04.17 |
간단한 Vector Space Model 설명 (0) | 2017.04.13 |
Information Retrieval and Web Search (0) | 2015.08.07 |
ODP(Open Directory Project) (0) | 2015.04.11 |