데이터과학
-
Infer population parameters with the central limit theorem: 극한정리를 활용한 모수 추정하기Machine Learning/Statistics 2025. 4. 12. 19:00
최근 중심극한정리에 대해 배우며 다양한 데이터셋을 다루는 방법을 익혔다. 데이터 전문가는 중심극한정리를 활용해 경제, 과학, 비즈니스 등 여러 분야의 데이터를 바탕으로 모집단의 모수를 추정한다. 이번 글에서는 중심극한정리에 대해 좀 더 자세히 살펴보고, 이를 통해 다양한 데이터에서 모집단의 평균을 추정하는 방법을 알아본다. 중심극한정리의 정의, 적용 조건, 그리고 실제 예제를 통해 내용을 구체화한다. 정의중심극한정리는 "표본평균의 분포는 표본 크기가 커질수록 정규분포에 가까워진다"는 이론이다. 즉, 표본 크기가 충분히 크면, 표본평균의 분포는 종 모양(정규분포)의 형태를 띠게 된다. 또한, 표본을 많이 추출할수록 표본평균은 모집단의 평균에 근접한다. 예를 들어, 경량 픽업트럭의 평균 무게를 추정하고 싶다..
-
The Central Limit Theorem: 중심극한정리Machine Learning/Statistics 2025. 4. 11. 19:00
데이터 분석 업무에서 중심극한정리(Central Limit Theorem, CLT)는 매우 강력한 도구이다. 통계적으로 신뢰할 수 있는 추론을 위해 중심극한정리를 이해하고 적용하는 것은 데이터 전문가에게 필수적이다. 이번 글에서는 중심극한정리가 무엇인지, 그리고 왜 이 정리가 실제 데이터 분석에 유용한지를 예시와 함께 알아본다. 표본의 크기가 충분히 크면, 어떤 분포를 가진 모집단이든 간에표본 평균의 분포는 정규 분포(종 모양의 곡선)를 따른다.이 말은 즉, 모집단의 분포가 치우쳐 있거나 정규 분포가 아니더라도, 표본 크기를 충분히 키우면 표본 평균들의 분포는 정규 분포에 가까워진다는 뜻이다. 중심극한정리의 활용 예시 예시 1: 남아프리카 대학생의 평균 키 추정모든 학생을 측정하기는 어렵기 때문에, 일..
-
How sampling affects your data: 샘플링이 데이터에 미치는 영향Machine Learning/Statistics 2025. 4. 10. 19:00
데이터 전문가로 일하면서, 종종 샘플 데이터를 활용해 미래의 매출 예측이나 제품 성능 평가 모델을 만든다. 이러한 작업은 종종 모집단에 대한 추론(inference) 을 필요로 한다. 그 중심에는 샘플 통계량을 기반으로 모집단의 모수(parameter) 를 추정하는 과정이 있다. 샘플링과 점 추정 통계량(statistic): 샘플의 특성 (예: 100마리 펭귄의 평균 몸무게)모수(parameter): 모집단의 특성 (예: 전체 10,000마리 펭귄의 평균 몸무게)샘플 평균을 활용하여 모집단 평균을 추정하는 것을 점 추정(point estimate) 이라고 한다. 이는 하나의 값으로 모집단의 특성을 추정하는 방식이다. 샘플링 분포란? 샘플링 분포(sampling distribution) 는 샘플 통계량의 ..
-
bias in sampling: 샘플링과 편향Machine Learning/Statistics 2025. 4. 9. 19:00
데이터 전문가는 머신러닝 모델을 만들 때 샘플 데이터를 자주 활용한다. 오늘날 머신러닝 모델은 대출 승인, 면접 기회 제공, 정확한 의료 진단 등 다양한 결정에 영향을 줄 수 있다. 대표성 있는 샘플로 구축된 모델은 대출이나 면접 기회 등의 결정을 공정하고 편향 없이 수행할 가능성이 높다. 모집단의 다양한 유형을 대표하는 샘플을 사용하는 것은 각 개인에게 적절한 결과를 제공하는 데 매우 중요하다. 그러나 안타깝게도 샘플 데이터에는 종종 편향(bias)이 존재한다. 샘플링 편향(sampling bias) 은 샘플이 모집단 전체를 제대로 대표하지 못할 때 발생한다. 확률 샘플링 vs 비확률 샘플링최근 학습한 바와 같이, 확률 샘플링(probability sampling) 은 무작위 선택을 사용하여 모집단의..
-
Introduction to sampling: 샘플링Machine Learning/Statistics 2025. 4. 5. 19:00
데이터 분석에서 샘플링(Sampling)은 전체 모집단에서 일부 데이터를 선택하여 분석하는 과정이다. 샘플링은 데이터 과학과 통계학에서 필수적인 개념이며, 특히 방대한 데이터를 다루는 현대의 데이터 분석에서 중요한 역할을 한다. 샘플링과 통계적 접근이전에 기술 통계(Descriptive Statistics)와 추론 통계(Inferential Statistics)의 차이에 대해 간략히 설명한 적이 있다.기술 통계는 평균, 표준편차와 같은 값을 계산하여 데이터의 주요 특징을 요약하는 방법이다.추론 통계는 샘플 데이터를 바탕으로 모집단에 대한 결론을 도출하거나 예측하는 방법이다.이번에는 샘플과 모집단(Population) 간의 관계를 좀 더 깊이 있게 살펴보고, 데이터 분석에서 대표성(Representativ..
-
Probability Distributions in Python: 파이썬으로 확률 분포 분석하기Machine Learning/Statistics 2025. 4. 4. 19:00
데이터 분석을 할 때, 확률 분포를 이해하는 것은 매우 중요하다. 이번 글에서는 정규 분포를 이용하여 데이터를 모델링하는 방법과 Z-Score를 활용한 이상값 탐지를 다룬다. 특히, 특정 데이터가 정규 분포를 따르는지 확인하고, 경험적 법칙(Empirical Rule)을 통해 데이터를 해석하는 방법을 설명할 것이다. 마지막으로, Z-Score를 활용하여 이상값을 찾는 방법을 알아본다. 라이브러리 불러오기먼저 필요한 라이브러리를 불러온다.pandas: 데이터프레임 처리numpy: 수학 연산matplotlib.pyplot: 시각화scipy.stats: 통계 분석import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom scipy impo..
-
Expanded Bayes' Theorem: 확장된 베이즈 정리Machine Learning/Statistics 2025. 3. 27. 19:00
이전에 베이즈 정리(Bayes' Theorem)를 사용하여 새로운 정보에 따라 확률을 업데이트하는 방법을 배웠다. 하지만 베이즈 정리에는 여러 버전이 있으며, 문제의 유형에 따라 다른 방식으로 사용할 수 있다. 이번에는 확장된 베이즈 정리(Expanded Bayes' Theorem)를 활용하여 테스트의 정확도를 평가하는 방법을 배운다. 확장된 베이즈 정리란? (What is the Expanded Bayes' Theorem?)기본 베이즈 정리는 다음과 같은 수식을 따른다:P(A | B) = (P(A) × P(B | A)) / P(B)하지만 일부 문제에서는 P(B) 값을 알 수 없는 경우가 있다. 이런 경우, 확장된 베이즈 정리를 사용하면 문제를 해결할 수 있다. 확장된 공식은 다음과 같이 표현된다:P(..
-
Conditional Probability: 조건부 확률Machine Learning/Statistics 2025. 3. 25. 19:00
조건부 확률이란? (What is Conditional Probability?)지금까지 단일 사건과 두 개 이상의 독립적인 사건(Independent Events)에 대한 확률을 계산하는 방법을 배웠다. 독립적인 사건이란 한 사건이 발생해도 다른 사건의 결과에 영향을 주지 않는 경우를 의미한다. 예를 들어, 두 번의 동전 던지기는 독립적인 사건이다. 첫 번째 던지기의 결과가 두 번째 던지기의 결과에 영향을 주지 않기 때문이다. 이전 글 참고:https://g471000.tistory.com/244https://g471000.tistory.com/245 이번에는 종속적인 사건(Dependent Events)에 대한 확률을 계산하는 방법을 배운다. 조건부 확률(Conditional Probability)은 ..