과대적합
-
지도학습 | 리지 회귀 (Ridge Regression)Machine Learning/ML with Python Library 2024. 3. 30. 14:02
리지회귀는 기본 선형 회귀 방식 대신 가장 널리 쓰이는 모델이다. 리지 회귀에서 가중치, weight(w) 서택은 훈련 데이터를 잘 예측하기 뿐만 아니라, 이 weight의 절대값을 가능한 작게 만드는 목적을 갖고 모델을 만든다. 다시 말해, 모든 w가 0에 가깝게 되길 원한다. 즉, 모든 특성이 주는 영향을 최소한으로 만드는 것이다. 이런 제약을 규제, regulation이라고 한다. 규제란, 과대 적합이 되지 않도록 모델을 강제로 제한한다는 의미이다. Ridge Regression에 사용하는 규제 방식을 L2 Regulation이라고 한다. Ridge and Alpha Ridge Regression은 linear_model.Ridge에 구현되어 있다. 코드로 확인해보자. 먼저, 필요한 라이브러리 설치..
-
지도학습 | 일반화, 과대적합, 과소적합Machine Learning/ML with Python Library 2024. 2. 4. 14:57
모델이 처음 보는 데이터에 대해 정확하게 예측할 수 있으면, 이를 Training 세트에서 Test 세트로 일반화(Generalization)되었다고 한다. 모델을 만들 때, 가능한 한 정확하게 일반화 되도록 구현해야한다. 훈련 세트와 테스트 데이터가 매우 비슷하다면, 그 모델이 테스트 세트에서도 정확히 예측한다고 기대할 수 있다. 하지만, 아주 복잡한 모델을 만들면, Training 세트에만 정확한 모델이 되어버릴 수 있다. 예를 들어보자. 초보 데이터 과학자가 요트를 구매한 고객과 구매 의사가 없는 고객들의 데이터를 수집했고, 이를 이용해 누가 타겟 요트 바이어가 될지 예측한다고 해보자. 관심 없는 사람에게는 괜히 귀찮게 하지 않고, 실제 관심이 있거나 구매할 것 같은 고객에게만 이메일을 보내는 전략..