How sampling affects your data: 샘플링이 데이터에 미치는 영향

Machine Learning/Statistics

How sampling affects your data: 샘플링이 데이터에 미치는 영향

g471000 2025. 4. 10. 19:00

데이터 전문가로 일하면서, 종종 샘플 데이터를 활용해 미래의 매출 예측이나 제품 성능 평가 모델을 만든다. 이러한 작업은 종종 모집단에 대한 추론(inference) 을 필요로 한다. 그 중심에는 샘플 통계량을 기반으로 모집단의 모수(parameter) 를 추정하는 과정이 있다.

샘플링과 점 추정

https://www.geeksforgeeks.org/parameters-and-statistics/

통계량(statistic): 샘플의 특성 (예: 100마리 펭귄의 평균 몸무게)
모수(parameter): 모집단의 특성 (예: 전체 10,000마리 펭귄의 평균 몸무게)

샘플 평균을 활용하여 모집단 평균을 추정하는 것을 점 추정(point estimate) 이라고 한다. 이는 하나의 값으로 모집단의 특성을 추정하는 방식이다.

샘플링 분포란?

https://articles.outlier.org/understanding-sampling-distributions-what-are-they-and-how-do-they-work

샘플링 분포(sampling distribution) 는 샘플 통계량의 확률 분포이다. 예를 들어, 모집단에서 단순 무작위 샘플을 여러 번 추출하고 각각의 평균을 계산하면, 이 평균값들로 이루어진 분포가 샘플링 분포다.

예시: 펭귄 몸무게

모집단: 10,000마리의 블루 펭귄
실제 평균 몸무게: 3파운드
각 샘플은 무작위로 선택한 10마리

샘플 번호	샘플 평균 몸무게(lb)
1	3.1
2	2.9
3	2.8
…	…

각 샘플 평균은 모집단 평균에 가까울 수 있으나 정확히 같을 수는 없다. 샘플 간 변동성을 샘플링 변동성(sampling variability) 이라고 부른다.

샘플 크기가 커질수록 샘플 평균은 모집단 평균에 더 가까워진다. 이는 중심극한정리(Central Limit Theorem) 에 근거한다. 즉, 큰 샘플을 통해 모집단 평균을 더 정확히 추정할 수 있다.

표준 오차(Standard Error)란?

표준 오차(Standard Error, SE) 는 샘플 평균들 사이의 변동성을 측정하는 값이다. 이는 샘플 통계량의 표준편차라고 이해하면 된다. 표준 오차는 다음과 같은 수식으로 계산한다:

https://www.simplypsychology.org/standard-error.html

표준 오차(SE) = S / √n

S: 샘플의 표준편차 (sample standard deviation)
n: 샘플 크기

예시 1:

샘플 크기 n = 100
샘플 평균 = 3
샘플 표준편차 S = 1

SE = 1 / √100 = 0.1

이 말은, 펭귄 샘플 평균은 3파운드이지만, 다음 샘플의 평균은 약 ±0.1 파운드 범위 내에서 변동할 가능성이 높다는 뜻이다.

예시 2:

샘플 크기를 크게 늘린 경우:

샘플 크기 n = 10,000
샘플 평균 = 3
샘플 표준편차 S = 1

SE = 1 / √10000 = 0.01

샘플 평균은 여전히 3파운드지만, 샘플 간 평균의 변동 폭은 훨씬 작다. 즉, 더 정밀한 추정이 가능하다.

표준 오차가 작다는 것은?

샘플 평균이 모집단 평균에 더 가깝다
추정의 신뢰도가 높다
데이터의 대표성이 크다

정리: 데이터 분석에서 샘플링 분포의 중요성

하나의 샘플 평균만 보고 모집단을 추정하기보다, 여러 샘플 평균의 분포를 고려해야 더 정확한 추정이 가능하다.
표준 오차는 그 정확도를 수치로 표현해준다.
샘플 크기를 늘리면 표준 오차가 감소하고, 이로 인해 모집단 평균에 대한 추정의 정확도가 높아진다.