How sampling affects your data: 샘플링이 데이터에 미치는 영향
데이터 전문가로 일하면서, 종종 샘플 데이터를 활용해 미래의 매출 예측이나 제품 성능 평가 모델을 만든다. 이러한 작업은 종종 모집단에 대한 추론(inference) 을 필요로 한다. 그 중심에는 샘플 통계량을 기반으로 모집단의 모수(parameter) 를 추정하는 과정이 있다.
샘플링과 점 추정
- 통계량(statistic): 샘플의 특성 (예: 100마리 펭귄의 평균 몸무게)
- 모수(parameter): 모집단의 특성 (예: 전체 10,000마리 펭귄의 평균 몸무게)
샘플 평균을 활용하여 모집단 평균을 추정하는 것을 점 추정(point estimate) 이라고 한다. 이는 하나의 값으로 모집단의 특성을 추정하는 방식이다.
샘플링 분포란?
샘플링 분포(sampling distribution) 는 샘플 통계량의 확률 분포이다. 예를 들어, 모집단에서 단순 무작위 샘플을 여러 번 추출하고 각각의 평균을 계산하면, 이 평균값들로 이루어진 분포가 샘플링 분포다.
예시: 펭귄 몸무게
- 모집단: 10,000마리의 블루 펭귄
- 실제 평균 몸무게: 3파운드
- 각 샘플은 무작위로 선택한 10마리
샘플 번호 | 샘플 평균 몸무게(lb) |
1 | 3.1 |
2 | 2.9 |
3 | 2.8 |
… | … |
각 샘플 평균은 모집단 평균에 가까울 수 있으나 정확히 같을 수는 없다. 샘플 간 변동성을 샘플링 변동성(sampling variability) 이라고 부른다.
샘플 크기가 커질수록 샘플 평균은 모집단 평균에 더 가까워진다. 이는 중심극한정리(Central Limit Theorem) 에 근거한다. 즉, 큰 샘플을 통해 모집단 평균을 더 정확히 추정할 수 있다.
표준 오차(Standard Error)란?
표준 오차(Standard Error, SE) 는 샘플 평균들 사이의 변동성을 측정하는 값이다. 이는 샘플 통계량의 표준편차라고 이해하면 된다. 표준 오차는 다음과 같은 수식으로 계산한다:
표준 오차(SE) = S / √n
- S: 샘플의 표준편차 (sample standard deviation)
- n: 샘플 크기
예시 1:
- 샘플 크기 n = 100
- 샘플 평균 = 3
- 샘플 표준편차 S = 1
SE = 1 / √100 = 0.1
이 말은, 펭귄 샘플 평균은 3파운드이지만, 다음 샘플의 평균은 약 ±0.1 파운드 범위 내에서 변동할 가능성이 높다는 뜻이다.
예시 2:
샘플 크기를 크게 늘린 경우:
- 샘플 크기 n = 10,000
- 샘플 평균 = 3
- 샘플 표준편차 S = 1
SE = 1 / √10000 = 0.01
샘플 평균은 여전히 3파운드지만, 샘플 간 평균의 변동 폭은 훨씬 작다. 즉, 더 정밀한 추정이 가능하다.
표준 오차가 작다는 것은?
- 샘플 평균이 모집단 평균에 더 가깝다
- 추정의 신뢰도가 높다
- 데이터의 대표성이 크다
정리: 데이터 분석에서 샘플링 분포의 중요성
- 하나의 샘플 평균만 보고 모집단을 추정하기보다, 여러 샘플 평균의 분포를 고려해야 더 정확한 추정이 가능하다.
- 표준 오차는 그 정확도를 수치로 표현해준다.
- 샘플 크기를 늘리면 표준 오차가 감소하고, 이로 인해 모집단 평균에 대한 추정의 정확도가 높아진다.