-
ML Intro | Iris Analysis - Look at your DataMachine Learning/ML with Python Library 2024. 1. 27. 18:34
먼저, 데이터가 어떤 패턴을 보여주고 있는지 살펴보았다. 데이터를 보고 SQL 쿼리를 돌리기 전에, 데이터를 시각화해서 보는 방법은 아주 효과적이다. 하지만 모든 데이터를 시각화만 가지고 판단할수는 없으니, 시각화만으로 섣불리 판단을 내리는것은 위험성이 있다.
Scatter Plot을 이용하면, 각 데이터가 어떤 형태로 뭉쳐있는지, 펼쳐져 있는지, 그룹화가 되어있는지 쉽게 볼 수 있다. 4개의 특성에 대한 산점도 행렬을 시각화 해보도록 하자. 테이터의 색깔은 iris의 품종에 따라 구분한다. 이 그래프를 그리려면, 먼저 NumPy 배열을 pandas의 DataFrame으로 변경해야 한다. pandas에서는 산점도 행렬을 그려주는 scatter_matrix함수를 제공한다.
아래 코드를 이용하면 시각화를 할 수 있다. 구글 코랩을 이용했는데, 기본으로 설치되어있지 않은 라이브리를 설치하기 위해 pip 커맨드도 사용해서 mglearn 라이브러리도 설지하고, import 했다.
!pip install mglearn import pandas as pd import mglearn iris_dataframe = pd.DataFrame(x_train, columns=iris_dataset.feature_names) pd.plotting.scatter_matrix( iris_dataframe, c=y_train, figsize=(15, 15), marker='o', hist_kwds={'bins': 20}, s=60, alpha=0.8, cmap=mglearn.cm3 )
Pandas의 scatter_matrix 다큐먼트에 가면 각 파라미터가 어떤것인지 자세하게 나와있다. 아래는 결과다.
scatter_matrix result petal(꽃잎)의 길이와 넓이, 그리고 꽃받침(sepal)의 넓이와 길이는 서로 어떠한 상관 관계를 보여주는것을 알 수 있고, 또 그러한 특징들이 그룹화가 되어 나타나고 있다. 이것으로 보아, iris의 품종은 petal과 sepal을 이용해서 예측이 가능하고, 이 클래스(품종)을 잘 구분하도록 머신러닝 모델을 학습시킬 수 있을것이다.
Reference
https://www.yes24.com/Product/Goods/42806875
파이썬 라이브러리를 활용한 머신러닝 - 예스24
사이킷런 핵심 개발자에게 배우는 머신러닝 이론과 구현 현업에서 머신러닝을 연구하고 인공지능 서비스를 개발하기 위해 꼭 학위를 받을 필요는 없다. 사이킷런(scikit-learn)과 같은 훌륭한 머신
www.yes24.com
https://colab.research.google.com/drive/1ISPKQ-D2bGmJvDlqhqTieOUz-1ujrXbu#scrollTo=OgtCrXR1U_61
_01_iris_ml_model.ipynb
Colaboratory notebook
colab.research.google.com
'Machine Learning > ML with Python Library' 카테고리의 다른 글
ML Intro | Iris Analysis - Prediction (0) 2024.01.27 ML Intro | Iris Analysis - K-Nearest Neighbors(KNN) Model (1) 2024.01.27 ML Intro | Iris Analysis - Training Data & Testing Data (1) 2024.01.24 ML Intro | Iris Analysis - Import Data and Check (1) 2024.01.23 Introduction to Machine Learning with Python (0) 2024.01.22