-
지도학습 | 분류와 회귀Machine Learning/ML with Python Library 2024. 1. 29. 23:41
지도학습은 가장 널리, 성공적으로 사용되는 ML 방법중 하나이다. 이미 이전에 iris의 분류를 하는 어플리케이션을 만든것처럼, 지도 학습은 input과 output 샘플 데이터가 있고, 또다른 input의 output을 예측하고자 할 때 사용하게 된다. Training Data를 이용해서 ML 모델을 만들고, Testing Data를 이용해 모델을 검증하게 된다. 이 모델의 목표는, 이전에 본 적 없는 새로운 데이터에 대해 정확한 출력을 예측하는 모델을 만드는 것이다.
지도학습에는 분류(Classification)과 회귀(Regression)이 있다. 분류는 미리 정의된 여러 클래스 레이블(Class Label)중 하나를 예측하는것인데, iris 어플리케이션에서 3가지 꽃의 품종을 분류하는 예시를 다뤄봤다. 분류는 딱 두개의 클래스로 분류하는 이진분류(Binary Classification)와 3개 이상의 클래스로 분류하는 다중 분류(Multiclass classification)으로 나뉜다.
iris 예시의 경우, Classification 중에서도 Multiclass Classification이라고 할 수 있다.
Binary Classification은 Yes or No와 같은 답을 찾는다고 생각하면 된다. 예를 들어, 이 이메일이 스팸인지 아닌지, 이 포켓몬의 그림자가 피카츄인지 아닌지, 판단하는 모델과 같은 것들은 모두 이진분류라고 할 수 있다.
하지만 쉽지 않다 (출처=인벤) 회귀는 연속적인 숫자를 예측하는 것이다. 어떤 사람의 교육 수준, 나이, 주거지를 바탕으로 연간 소득을 예측하는 것이 회귀 문제의 한 예이다. 소득을 예측할 때, 예측된 값은 일정 범위 안의 어떤 숫자도 될 수 있다.
직장인 평균 연봉 최저임금에 해당하는 연봉 2472만원부터, 상위 0.01%에 해당하는 30억정도의 연봉 사이에서 예측해볼 수 있다. 연 소득을 예측해보면, 출력값에 연속성이 있다는것을 알 수 있다. 어떤 사람이 4000만원 또는 4000만 1원을 벌 수 있고, 큰 차이는 아니다. 즉, 우리 알고리즘이 40,000,000원을 예측해야 하는데, 39,999,999만원이나 40,000,001을 예측 했어도 오차가 아주 작기 때문에, 큰 문제가 되지 않는다.
하지만, 분류의 문제를 풀어야하는 모델은, 오차가 있다면 타격이 클 수 있다. 예를 들어 웹사이트가 어떤 언어로 되어있는지 인식하는 작업을 해주는 모델이라고 할 때, 분명 한국어인데, 이탈리아어 또는 스페인어로 평가한다면 잘못된 것이다. 언어는 연속되어있지 않기 때문이다. 39,999,999, 40,000,000, 40,000,001와 같이 연속적으로 이어질 수 없다. 예를 들어 프랑스어와 한국어 사이에 존재하는 언어는 없다.
출처: Introduction to Machine Learning with Python | Chapter 2 | 2.1 분류와 회귀
Reference
https://www.inven.co.kr/board/maple/2299/9247645
쉬움)포켓몬 그림자 맞추기
누굴까요~정답은 댓글
www.inven.co.kr
https://www.newsway.co.kr/news/view?ud=2022112515345340484
'남들은 얼마 받을까?' 연차·직무별 직장인 평균 연봉 공개 - 뉴스웨이
워라밸, 자아실현 등등도 좋지만 직장인에게 가장 중요한 건 아무래도 '그래서 얼마를 버느냐'가 아닐까 싶은데요. 내 벌이는 괜찮은 걸까, 남들은 얼마나 벌고 있을까, 궁금한 분들을 위해 최근
www.newsway.co.kr
https://www.yes24.com/Product/Goods/42806875
파이썬 라이브러리를 활용한 머신러닝 - 예스24
사이킷런 핵심 개발자에게 배우는 머신러닝 이론과 구현 현업에서 머신러닝을 연구하고 인공지능 서비스를 개발하기 위해 꼭 학위를 받을 필요는 없다. 사이킷런(scikit-learn)과 같은 훌륭한 머신
www.yes24.com
'Machine Learning > ML with Python Library' 카테고리의 다른 글
지도학습 | 알고리즘 - 데이터셋 (1) 2024.02.04 지도학습 | 일반화, 과대적합, 과소적합 (0) 2024.02.04 ML Intro | Iris Analysis - Evaluating the Model (0) 2024.01.27 ML Intro | Iris Analysis - Prediction (0) 2024.01.27 ML Intro | Iris Analysis - K-Nearest Neighbors(KNN) Model (1) 2024.01.27