Machine Learning/Statistics

The Central Limit Theorem: 중심극한정리

g471000 2025. 4. 11. 19:00

데이터 분석 업무에서 중심극한정리(Central Limit Theorem, CLT)는 매우 강력한 도구이다. 통계적으로 신뢰할 수 있는 추론을 위해 중심극한정리를 이해하고 적용하는 것은 데이터 전문가에게 필수적이다.

 

https://www.investopedia.com/terms/c/central_limit_theorem.asp

 

이번 글에서는 중심극한정리가 무엇인지, 그리고 왜 이 정리가 실제 데이터 분석에 유용한지를 예시와 함께 알아본다.

 

표본의 크기가 충분히 크면, 어떤 분포를 가진 모집단이든 간에
표본 평균의 분포는 정규 분포(종 모양의 곡선)를 따른다.

이 말은 즉, 모집단의 분포가 치우쳐 있거나 정규 분포가 아니더라도, 표본 크기를 충분히 키우면 표본 평균들의 분포는 정규 분포에 가까워진다는 뜻이다.

https://math.stackexchange.com/questions/3561114/does-the-central-limit-theorem-only-apply-to-the-sample-mean

 

중심극한정리의 활용 예시

 

예시 1: 남아프리카 대학생의 평균 키 추정

모든 학생을 측정하기는 어렵기 때문에, 일부 학생을 무작위로 샘플링하여 평균 키를 측정한다고 하자. 만약 표본의 크기가 충분히 크다면, 이 표본 평균은 전체 모집단(남아프리카 대학생 전체)의 평균 키에 근접하게 된다.

 

예시 2: 미국 가구 소득 데이터

미국 가구의 연간 소득 분포는 극소수의 고소득자 때문에 우측으로 치우친(skewed) 형태를 가진다. 즉, 정규 분포와는 거리가 멀다. 하지만 이 분포에서 무작위로 표본을 반복적으로 추출하고, 각 표본의 평균 소득을 구한다면, 이 평균 값들의 분포는 정규 분포에 가까워진다.

 

즉, 모집단이 정규 분포가 아니어도 표본 평균의 분포는 정규 분포를 따른다는 것이 중심극한정리의 핵심이다.

 

예시 3: 미국 커피 소비량

미국의 커피 음용자 약 1억 5천만 명 중 일부를 무작위로 샘플링하여 1일 평균 커피 섭취량을 조사한다고 하자.

  • 첫 번째 표본의 평균: 22.5oz
  • 두 번째 표본의 평균: 28.2oz
  • 세 번째 표본의 평균: 25.4oz

이렇게 여러 번 표본을 추출하여 평균을 구하면, 이 표본 평균 값들의 분포는 점점 종 모양의 정규 분포 곡선을 띠게 된다.

결과적으로, 충분한 크기의 대표성 있는 표본 하나만으로도 전체 모집단의 평균을 정확히 추정할 수 있게 된다.

 

중심극한정리가 유용한 이유

https://corporatefinanceinstitute.com/resources/data-science/central-limit-theorem/

  • 모집단의 분포를 모르더라도 정규성을 전제로 한 통계 기법을 적용할 수 있다.
  • 정규 분포를 전제로 하는 많은 통계 분석(예: z-점수, 신뢰 구간, 가설 검정 등)이 가능해진다.
  • 큰 표본일수록 평균의 신뢰성이 높아지고, 표준오차(Standard Error)는 작아진다.
  • 평균 소득, 평균 키, 평균 근무 시간 등 모집단 평균을 직접 구하기 어려운 경우, 중심극한정리를 기반으로 표본 평균을 사용해 모집단 평균을 추정한다.
  • 이는 경제, 과학, 의료, 사회 통계 등 다양한 분야에서 활용된다.

 

마무리

중심극한정리는 다음 전제 조건들을 만족할 때 작동한다:

  1. 표본이 무작위(random sampling) 로 추출되어야 한다.
  2. 표본들이 서로 독립(independent) 이어야 한다.
  3. 표본의 크기 n이 충분히 커야 한다. (보통 n ≥ 30 이상이면 괜찮다고 본다.)

하지만 “무조건” 그렇지는 않다. 아래와 같은 경우에는 중심극한정리의 효과가 떨어지거나 적용되지 않을 수 있다:

 

표본이 무작위가 아닌 경우

  • 예: 전체 인구에서 특정 집단만 고의적으로 포함했다면 → 대표성이 없음 → 중심극한정리 적용 어려움

데이터가 강하게 왜곡(skewed) 되어 있고, 표본이 너무 작을 경우

  • 예: 극단적으로 오른쪽으로 긴 꼬리를 가진 분포(예: 소득 분포)에서 n = 10 정도면 아직 종모양이 되지 않음
  • 이런 경우에는 n = 100 이상 되어야 안정적인 정규 분포 형태가 나타나기 시작함

독립성이 없는 경우

  • 예: 시간의 흐름에 따라 수집된 데이터(시계열)는 이전 데이터에 영향을 받을 수 있음
  • 이런 경우에는 단순 평균만으로는 정규 분포가 나오지 않을 수 있음

 

 

이 조건을 만족하면, 모집단의 분포 모양이 어떤 형태든 (극단적으로 비대칭이거나 정상이 아니어도), “어떤 분포라도, 표본 크기만 충분히 크고, 랜덤하게 잘 뽑으면, 평균들의 분포는 정규 분포처럼 행동한다”는 것이 핵심이다.

 

중심극한정리는 단순한 수학적 이론이 아니라, 실제 데이터를 이해하고 해석하는 데 있어 핵심적인 역할을 한다.

 

"큰 표본은 진실에 가깝다" 는 말처럼, 대표성 있는 충분한 크기의 표본을 수집하고, 이를 통해 모집단을 추정하는 것이 데이터 전문가의 중요한 임무 중 하나이다.