The Central Limit Theorem: 중심극한정리
데이터 분석 업무에서 중심극한정리(Central Limit Theorem, CLT)는 매우 강력한 도구이다. 통계적으로 신뢰할 수 있는 추론을 위해 중심극한정리를 이해하고 적용하는 것은 데이터 전문가에게 필수적이다.
이번 글에서는 중심극한정리가 무엇인지, 그리고 왜 이 정리가 실제 데이터 분석에 유용한지를 예시와 함께 알아본다.
표본의 크기가 충분히 크면, 어떤 분포를 가진 모집단이든 간에
표본 평균의 분포는 정규 분포(종 모양의 곡선)를 따른다.
이 말은 즉, 모집단의 분포가 치우쳐 있거나 정규 분포가 아니더라도, 표본 크기를 충분히 키우면 표본 평균들의 분포는 정규 분포에 가까워진다는 뜻이다.
중심극한정리의 활용 예시
예시 1: 남아프리카 대학생의 평균 키 추정
모든 학생을 측정하기는 어렵기 때문에, 일부 학생을 무작위로 샘플링하여 평균 키를 측정한다고 하자. 만약 표본의 크기가 충분히 크다면, 이 표본 평균은 전체 모집단(남아프리카 대학생 전체)의 평균 키에 근접하게 된다.
예시 2: 미국 가구 소득 데이터
미국 가구의 연간 소득 분포는 극소수의 고소득자 때문에 우측으로 치우친(skewed) 형태를 가진다. 즉, 정규 분포와는 거리가 멀다. 하지만 이 분포에서 무작위로 표본을 반복적으로 추출하고, 각 표본의 평균 소득을 구한다면, 이 평균 값들의 분포는 정규 분포에 가까워진다.
즉, 모집단이 정규 분포가 아니어도 표본 평균의 분포는 정규 분포를 따른다는 것이 중심극한정리의 핵심이다.
예시 3: 미국 커피 소비량
미국의 커피 음용자 약 1억 5천만 명 중 일부를 무작위로 샘플링하여 1일 평균 커피 섭취량을 조사한다고 하자.
- 첫 번째 표본의 평균: 22.5oz
- 두 번째 표본의 평균: 28.2oz
- 세 번째 표본의 평균: 25.4oz
이렇게 여러 번 표본을 추출하여 평균을 구하면, 이 표본 평균 값들의 분포는 점점 종 모양의 정규 분포 곡선을 띠게 된다.
결과적으로, 충분한 크기의 대표성 있는 표본 하나만으로도 전체 모집단의 평균을 정확히 추정할 수 있게 된다.
중심극한정리가 유용한 이유
- 모집단의 분포를 모르더라도 정규성을 전제로 한 통계 기법을 적용할 수 있다.
- 정규 분포를 전제로 하는 많은 통계 분석(예: z-점수, 신뢰 구간, 가설 검정 등)이 가능해진다.
- 큰 표본일수록 평균의 신뢰성이 높아지고, 표준오차(Standard Error)는 작아진다.
- 평균 소득, 평균 키, 평균 근무 시간 등 모집단 평균을 직접 구하기 어려운 경우, 중심극한정리를 기반으로 표본 평균을 사용해 모집단 평균을 추정한다.
- 이는 경제, 과학, 의료, 사회 통계 등 다양한 분야에서 활용된다.
마무리
중심극한정리는 다음 전제 조건들을 만족할 때 작동한다:
- 표본이 무작위(random sampling) 로 추출되어야 한다.
- 표본들이 서로 독립(independent) 이어야 한다.
- 표본의 크기 n이 충분히 커야 한다. (보통 n ≥ 30 이상이면 괜찮다고 본다.)
하지만 “무조건” 그렇지는 않다. 아래와 같은 경우에는 중심극한정리의 효과가 떨어지거나 적용되지 않을 수 있다:
표본이 무작위가 아닌 경우
- 예: 전체 인구에서 특정 집단만 고의적으로 포함했다면 → 대표성이 없음 → 중심극한정리 적용 어려움
데이터가 강하게 왜곡(skewed) 되어 있고, 표본이 너무 작을 경우
- 예: 극단적으로 오른쪽으로 긴 꼬리를 가진 분포(예: 소득 분포)에서 n = 10 정도면 아직 종모양이 되지 않음
- 이런 경우에는 n = 100 이상 되어야 안정적인 정규 분포 형태가 나타나기 시작함
독립성이 없는 경우
- 예: 시간의 흐름에 따라 수집된 데이터(시계열)는 이전 데이터에 영향을 받을 수 있음
- 이런 경우에는 단순 평균만으로는 정규 분포가 나오지 않을 수 있음
이 조건을 만족하면, 모집단의 분포 모양이 어떤 형태든 (극단적으로 비대칭이거나 정상이 아니어도), “어떤 분포라도, 표본 크기만 충분히 크고, 랜덤하게 잘 뽑으면, 평균들의 분포는 정규 분포처럼 행동한다”는 것이 핵심이다.
중심극한정리는 단순한 수학적 이론이 아니라, 실제 데이터를 이해하고 해석하는 데 있어 핵심적인 역할을 한다.
"큰 표본은 진실에 가깝다" 는 말처럼, 대표성 있는 충분한 크기의 표본을 수집하고, 이를 통해 모집단을 추정하는 것이 데이터 전문가의 중요한 임무 중 하나이다.