맞다. 릿지(Lidge), 라쏘(LASSO)회귀.
분명 3학년 1학기 데이터마이닝 시간에 배웠지만,, 공부의지가 낮았던 탓인지 그냥 그런게 있구나 하고 넘어갔었다
그렇게 시험도 조져버리고~
ADsP 공부하는데 다시 나오길래 그래도 이게 어떤건지 정리하기 위해서 글을 쓴다.
https://www.youtube.com/watch?v=MSddyk7Hsxc 참고 영상은 이거!
- 다중회귀
먼저 "다중회귀" 라는 게 있다.
다수의 독립변수(x1,x2,x3)가 있고 하나의 종속변수(y, 결과값)를 도출해내는 식이다.
회귀분석을 배운 사람으로서는 기본중에 기본,, 모르면 진짜 바보
아무튼 이 회귀식을 통해 weight(가중치값=w1,w2,w3,...)을 찾아가는 과정이다.
(회귀분석에서 이 가중치를 베타라고 두고 풀던 그거다!)
근데, 이때 다중회귀의 문제점.
1. w값이 너무 여러개가 나온다.
2. 극단적인 결과값도 나옴
이러면 w값을 어떻 결정해야해 ..? 이런 고민이 들겠지?
- 릿지 (Lidge) 회귀 (L2 규제)
w값을 결정하기 위해 규제를 해주는 방법이야
어떤 규제를 해주냐 하면, 각 가중치의 제곱의 합을 특정 값 이하가 되도록 규제해주는거야
요렇게. 가중치가 중요하더라도, 극단으로 치우쳐지지 않게 해주는 역할이지.
극단적으로 하면 표본값에 대해서는 정확할 순 있겠지만, 과적합(overfitting)이 발생하게 돼. 새로운 데이터에 대한 예측 정확도가 떨어지는거야.
- 라쏘(LASSO) 회귀 (L1 규제)
라쏘회귀는 가중치의 절대값의 합이 특정 값 이하가 되도록 규제해주는 방법이야.
여기까지 알아보고, 나중에 더 추가할 내용이 있다면 추가할게