-
Classification Motivation (분류 회귀) | Supervised Machine Learning: Regression and ClassificationMachine Learning/Stanford ML Specialization 2023. 11. 5. 16:42
지난 시간동안 우리는 어떤 값을 예측하는 알고리즘에 대해 다뤘다. 그렇다면 이번엔 Classification, 즉 분류를 하는 알고리즘에 대해서 공부해보자. 아래와 같은 문제접을 생각해보자.
스팸 이메일인가? (Yes/No)
사기 결제인가? (Yes/No)
종양이 악성인가? (Yes/No)위 문제들은 모두 Yes 또는 No 둘중 한가지의 답을 예측하는 알고리즘을 필요로 한다. 이렇게 결과 y가 단 2가지의 값이 되는 결우를 binary classification, 이진 분류라고 한다. 이진법처럼 0 또는 1으로 예측해주는 모델이 필요하다.
그렇다면 Classification Model은 어떻게 만들 수 있을까? 종양 분류 모델을 예로 들어보자. 종양의 크기와 악성 종양인지에 대한 유무를 보여주는 그래프를 그리고, 이전에 배운 Linear Regression을 이용해서 선을 그려보았다. 운이 좋은 경우 (하늘색 처럼) 선이 알맞게 그려졌고, threshold를 0.5로 잡아서, 해당 모델의 y값이 0.5인 지점을 기준으로 왼쪽은 False(악성 아님), 오른쪽은 True(악성)인 모델을 그려낼 수 있었다. 하지만, 만약 맨 오른쪽 X가 그려진 것처럼 어떤 값이 하나 덩그러니 더 생긴다면? 초록색 선이 그려진 것처럼, 모델의 형태는 변하고, 0.5의 threshold를 이용해서 역시 해당 지점을 찾으면, 악성인 종양들도, 악성이 아닌것으로 판단하게 된다.
https://youtu.be/p-ltr1C7u2o Linear Regression이 아예 맞추지 못한것은 아니지만, 이런 경우에는 Binary Classification을 이용하면 더 정확한 분류를 할 수 있다. 여기에는 Decision Boundry라는 개념과, Logictic Regression 알고리즘이 사용되는데, 이에 대해서는 다음 시간에 알아보자.
Reference
'Machine Learning > Stanford ML Specialization' 카테고리의 다른 글