Linear models
Linear regression
linear equations
- m > n
- over-determined : 부정식
- under complete
- 주로 Lidge를 사용한다함
- 거의 대부분의 머신러닝 문제
- m = n
- m < n
- over complete
- 해가 무수히 존재함
- under-determined
- 주로 Lasso를 사용한다함
선형회귀의 목적
- 오차를 최소화하는 것
- 오차 ?
y1≈W1x1+W0y2≈W2x2+W0y3≈W3x3+W0 - Define an error
e1=y1−W1x1−W0e2=y2−W2x2−W0e3=y3−W3x3−W0 - 이때 e12+e22+e32을 최소화하는 w값을 구한다.
Linear regression
f(x0)=j=1∑Mwjϕj(xn)+w0ϕ0(x)=w⊤ϕ(xn)
LSM
2N1n=1∑N(yn−w⊤ϕ(xn))2=2N1∣∣y−ϕ⊤w∣∣22
ϕ⊤w=⎣⎡ϕ0(x1)ϕ0(x2)⋮ϕ0(xN)ϕ1(x1)ϕ1(x2)⋮ϕ1(xN)⋯⋯⋱⋯ϕM(x1)ϕM(x2)⋮ϕM(xN)⎦⎤⎣⎡wow1⋮wM⎦⎤
변환
∣∣y−ϕ⊤w∣∣22=(y−ϕ⊤w)⊤(y−ϕ⊤w)
y, ϕ 는 주어진 값이다. 식을 최소화하는 w ?
wLS=wargmin2N1∣∣y−ϕ⊤w∣∣22
- 정규 방정식을 구한다. ( 해석적인 방법 )
∂w∂(2N1∣∣y−ϕ⊤w∣∣22)=0 for w
2N1(y−ϕ⊤w)⊤(y−ϕ⊤w)=2N1(y⊤y−w⊤ϕy−y⊤ϕ⊤w+w⊤ϕϕ⊤w)
( )⊤에서 T를 분배하고 곱
wLS=(ϕϕ⊤)−1ϕy=ϕ†y
ϕ† : moore penrose pseudo inverse
Polynomial Regression
다항회귀 multiple regression
다중회귀
- 독립변수의 차수를 높인 것
- f(xn)=∑j=0Mwjxnj