-
What is Pandas?Machine Learning/Pandas 2024. 1. 17. 18:33
Pandas(팬더스)는 데이터 분석을 위한 Python 패키지 중 가장 중요하다고 해도 과언이 아니다. 다양한 형태로 읽고 쓸수 있는 기능은 Data Science 실무자(practitioners)들에게 다재다능한 도구를 제공한다. 정확하게 Pandas란 무엇일까? 표 형식의 데이터를 다루기 위한 Python 데이터 패키지이다. Row와 Column의 형태로 된 데이터, 일명 DataFrame으로 불린다. 이 DataFrame은 엑셀시트로 생각할 수 있다.
Pandas의 기능에는 데이터 변환(row sorting, taking subsets), 평균과 같은 통계 계산, DataFrame의 재구성 및 DataFrame 결합등이 포함된다. Pandas는 다른 유명한 Data Sceince 패키지들과도 잘 작동하는데, 수치 계산을 위한 NumPy, 데이터 시각화 패키지인 Matplotlib, Plotly 와같은 패키지들, 그리고 머신러닝을 위한 scikit-learn등을 포함한다.
그러면 어떤 작업을 할 수 있을까? 판다스는 데이터 분석 Workflow 전반에 걸쳐 사용된다.
- DB, spreadsheets, CSV file을 import 할 수 있다.
- 데이터셋 전처리로 clean 데이터를 생성할 수 있다. 예를 들어 누락된 값에 대한 처리등을 할 수 있다.
- 분석에 적합한 형태로 데이터셋 구조를 재구성 및 정돈할 수 있다.
- 데이터의 평균값을 구하거나, 데이터간의 상관성등 통계를 계산하고 데이터를 집계할 수 있다.
- 데이터셋을 시각화 해서 인사이트를 알아낼 수 있다.
- 시계열 분석 및 텍스트 데이터 분석또한 가능하다.
Reference
pandas - Python Data Analysis Library
pandas pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language. Install pandas now!
pandas.pydata.org
https://www.datacamp.com/tutorial/pandas
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html
https://www.datacamp.com/tutorial/python-numpy-tutorial
https://www.datacamp.com/tutorial/matplotlib-tutorial-python