전체 글
-
Infer population parameters with the central limit theorem: 극한정리를 활용한 모수 추정하기Machine Learning/Statistics 2025. 4. 12. 19:00
최근 중심극한정리에 대해 배우며 다양한 데이터셋을 다루는 방법을 익혔다. 데이터 전문가는 중심극한정리를 활용해 경제, 과학, 비즈니스 등 여러 분야의 데이터를 바탕으로 모집단의 모수를 추정한다. 이번 글에서는 중심극한정리에 대해 좀 더 자세히 살펴보고, 이를 통해 다양한 데이터에서 모집단의 평균을 추정하는 방법을 알아본다. 중심극한정리의 정의, 적용 조건, 그리고 실제 예제를 통해 내용을 구체화한다. 정의중심극한정리는 "표본평균의 분포는 표본 크기가 커질수록 정규분포에 가까워진다"는 이론이다. 즉, 표본 크기가 충분히 크면, 표본평균의 분포는 종 모양(정규분포)의 형태를 띠게 된다. 또한, 표본을 많이 추출할수록 표본평균은 모집단의 평균에 근접한다. 예를 들어, 경량 픽업트럭의 평균 무게를 추정하고 싶다..
-
The Central Limit Theorem: 중심극한정리Machine Learning/Statistics 2025. 4. 11. 19:00
데이터 분석 업무에서 중심극한정리(Central Limit Theorem, CLT)는 매우 강력한 도구이다. 통계적으로 신뢰할 수 있는 추론을 위해 중심극한정리를 이해하고 적용하는 것은 데이터 전문가에게 필수적이다. 이번 글에서는 중심극한정리가 무엇인지, 그리고 왜 이 정리가 실제 데이터 분석에 유용한지를 예시와 함께 알아본다. 표본의 크기가 충분히 크면, 어떤 분포를 가진 모집단이든 간에표본 평균의 분포는 정규 분포(종 모양의 곡선)를 따른다.이 말은 즉, 모집단의 분포가 치우쳐 있거나 정규 분포가 아니더라도, 표본 크기를 충분히 키우면 표본 평균들의 분포는 정규 분포에 가까워진다는 뜻이다. 중심극한정리의 활용 예시 예시 1: 남아프리카 대학생의 평균 키 추정모든 학생을 측정하기는 어렵기 때문에, 일..
-
How sampling affects your data: 샘플링이 데이터에 미치는 영향Machine Learning/Statistics 2025. 4. 10. 19:00
데이터 전문가로 일하면서, 종종 샘플 데이터를 활용해 미래의 매출 예측이나 제품 성능 평가 모델을 만든다. 이러한 작업은 종종 모집단에 대한 추론(inference) 을 필요로 한다. 그 중심에는 샘플 통계량을 기반으로 모집단의 모수(parameter) 를 추정하는 과정이 있다. 샘플링과 점 추정 통계량(statistic): 샘플의 특성 (예: 100마리 펭귄의 평균 몸무게)모수(parameter): 모집단의 특성 (예: 전체 10,000마리 펭귄의 평균 몸무게)샘플 평균을 활용하여 모집단 평균을 추정하는 것을 점 추정(point estimate) 이라고 한다. 이는 하나의 값으로 모집단의 특성을 추정하는 방식이다. 샘플링 분포란? 샘플링 분포(sampling distribution) 는 샘플 통계량의 ..
-
bias in sampling: 샘플링과 편향Machine Learning/Statistics 2025. 4. 9. 19:00
데이터 전문가는 머신러닝 모델을 만들 때 샘플 데이터를 자주 활용한다. 오늘날 머신러닝 모델은 대출 승인, 면접 기회 제공, 정확한 의료 진단 등 다양한 결정에 영향을 줄 수 있다. 대표성 있는 샘플로 구축된 모델은 대출이나 면접 기회 등의 결정을 공정하고 편향 없이 수행할 가능성이 높다. 모집단의 다양한 유형을 대표하는 샘플을 사용하는 것은 각 개인에게 적절한 결과를 제공하는 데 매우 중요하다. 그러나 안타깝게도 샘플 데이터에는 종종 편향(bias)이 존재한다. 샘플링 편향(sampling bias) 은 샘플이 모집단 전체를 제대로 대표하지 못할 때 발생한다. 확률 샘플링 vs 비확률 샘플링최근 학습한 바와 같이, 확률 샘플링(probability sampling) 은 무작위 선택을 사용하여 모집단의..
-
Sampling Methods: 샘플링 방법Machine Learning/Statistics 2025. 4. 8. 19:00
데이터 분석 과정에서 표본 데이터를 수집할 때, 많은 경우 확률 샘플링 방법을 사용한다. 이전 글에서 확률 샘플링과 비확률 샘플링의 차이를 간단히 살펴보았다. 이번에는 확률 샘플링의 구체적인 방법 네 가지와 각 방법의 장단점에 대해 정리한다. 확률 샘플링이란?확률 샘플링은 모집단의 모든 구성원이 무작위로 선택될 기회를 동일하게 갖는 샘플링 방식이다. 무작위성을 기반으로 하므로, 모집단의 대표성을 확보할 수 있는 가능성이 크다. 대표성이 높은 표본은 신뢰성 있는 추론을 가능하게 한다.확률 샘플링에는 다음과 같은 네 가지 주요 방법이 있다.단순 무작위 샘플링 (Simple Random Sampling)층화 무작위 샘플링 (Stratified Random Sampling)군집 무작위 샘플링 (Cluster R..
-
The sampling process: 샘플링 과정Machine Learning/Statistics 2025. 4. 7. 19:00
데이터 분석을 수행할 때, 대부분의 경우 전체 모집단의 데이터를 수집하는 것은 불가능하거나 비효율적이다. 따라서 데이터 전문가들은 샘플링(sampling)을 활용하여 모집단을 대표할 수 있는 일부 데이터를 선택하고 분석한다. 하지만 샘플링 과정이 잘못되면 분석의 신뢰성이 떨어질 수 있다. 이번 글에서는 샘플링 과정의 주요 5단계를 소개하고, 데이터 분석에서 신뢰할 수 있는 샘플 데이터를 확보하는 방법을 알아보겠다. 1. 목표 모집단 정의하기 (Identify the Target Population)샘플링 과정의 첫 번째 단계는 목표 모집단(target population)을 정의하는 것이다. 목표 모집단은 연구나 분석을 통해 정보를 얻고자 하는 모든 요소(사람, 조직, 사물 등)를 포함한다. 예를 들어..
-
The relationship between sample and population: 표본과 모집단의 관계Machine Learning/Statistics 2025. 4. 6. 19:00
이전에 추론 통계가 표본 데이터를 사용하여 더 큰 모집단에 대한 결론을 도출하거나 예측하는 방법을 다룬 적이 있다. 데이터 전문가들은 추론 통계를 활용하여 데이터에 대한 유용한 통찰을 얻는다. 이번 글에서는 모집단과 표본의 관계를 더 깊이 탐구하고, 데이터 분석에서 샘플링이 어떻게 활용되는지, 그리고 대표성 있는 표본을 확보하는 것이 왜 중요한지에 대해 설명한다. 모집단(Population)과 표본(Sample) 통계학에서 모집단(population) 은 측정하려는 모든 요소를 포함하는 데이터 집합이다. 모집단은 다양한 유형의 데이터를 포함할 수 있다.사람 (예: 모든 대학생, 모든 고객)조직 (예: 특정 산업 내 모든 기업)객체 (예: 한 회사에서 생산한 모든 휴대폰)이벤트 (예: 특정 기간 동안 발..
-
Introduction to sampling: 샘플링Machine Learning/Statistics 2025. 4. 5. 19:00
데이터 분석에서 샘플링(Sampling)은 전체 모집단에서 일부 데이터를 선택하여 분석하는 과정이다. 샘플링은 데이터 과학과 통계학에서 필수적인 개념이며, 특히 방대한 데이터를 다루는 현대의 데이터 분석에서 중요한 역할을 한다. 샘플링과 통계적 접근이전에 기술 통계(Descriptive Statistics)와 추론 통계(Inferential Statistics)의 차이에 대해 간략히 설명한 적이 있다.기술 통계는 평균, 표준편차와 같은 값을 계산하여 데이터의 주요 특징을 요약하는 방법이다.추론 통계는 샘플 데이터를 바탕으로 모집단에 대한 결론을 도출하거나 예측하는 방법이다.이번에는 샘플과 모집단(Population) 간의 관계를 좀 더 깊이 있게 살펴보고, 데이터 분석에서 대표성(Representativ..