-
Unsupervised Learning (비지도학습) | Supervised Machine Learning: Regression and ClassificationMachine Learning/Stanford ML Specialization 2023. 10. 11. 20:29
비지도 학습이란 그렇담 무엇일까?
Supervised Learning에서는 정답(right answers)을 주고, 추후에 정답을 추측할 수 있도록 했다. 하지만 Unsupervised Learning에서는 label되어있지 않은 데이터 속에서 흥미로운 결과를 추출해내는 학습법이다. 즉, 주어진 정답이 없는것이다.
먼저, 같은 그룹끼리 묶는 Clustering이 있다. 예를들어 Google News를 보면, Clustering을 이용하고 있다. 요즘 굉장히 핫한 푸바오에 대한 기사가 있다면, 그 아래 관련 기사로, 판다에 관련된 기사가 보여진다. 또, 동물원에 대한 기사가 함께 보여지기도 한다. 즉, 비슷한 단어가 언급된 기사들이 함께 묶여서 보여지는것이다. 구글 뉴스의 알고리즘은, 매일 쏟아져나오는 뉴스들이 서로 관련 있도록 자동으로 묶어지도록 하는 것이다. 또는 DNA microarray에서 각 유전자의 활성화 정도를 microarray로 만들어서, 비슷한 유전적 조합을 가진 그룹으로 Clustering하는것도 가능하다. 이를 통해 추후 유전자가 들어오면, 그 사람과 비슷한 유전적 패턴을 가진 사람들을 찾아낼 수 있다.
그러므로, Supervised Learning에서는 데이터에 Input과 Output이 있었지만, Unsupervised Learning에서는 Input만 갖고 모델을 학습시킨다. 알고리즘은 데이터속에서 구조나 패턴, 그리고 흥미로운점을 찾게 된다. 위에서 이야기한 Clustering에서는 비슷한 것끼리 그룹화하는것이다. 이 이외에도 다른 비지도 학습 방법이 있다.
하나는 Anomaly Detection(비정상적 이벤트 탐지)이다. Unusual한 데이터 포인트를 찾아내는 방법이다. 특이한 사건, 사기의 징후가 될 수 있는 금융 시스템의 데이터 포인트, 그리고 기타 여러 앱에서 사기 탐지에 매우 중요한 역할을 하는 학습 방법이다.
그리고 Dimensionality Reduction(차원축소)가 있다. 큰 데이터 집합을 가져와서 최대한 정보를 적게 손실하면서 압축해주는 방법이다.
Reference
'Machine Learning > Stanford ML Specialization' 카테고리의 다른 글