Model data with the normal distribution: 정규 분포를 활용한 데이터 모델링
데이터 전문가로서 확률 분포를 이해하는 것은 매우 중요하다. 최근에는 연속 확률 분포(Continuous Probability Distribution)에 대해 배웠는데, 이는 키, 몸무게, 시간, 온도와 같은 연속형 변수를 다룰 때 유용하다. 이번 글에서는 가장 널리 사용되는 확률 분포 중 하나인 정규 분포(Normal Distribution)에 대해 깊이 탐구하고, 이를 활용하여 데이터를 모델링하는 방법을 알아보겠다.
연속 확률 분포(Continuous Probability Distribution)란?
이전에 살펴본 이산 확률 분포(Discrete Probability Distribution)와 달리, 연속 확률 분포(Continuous Probability Distribution)는 연속형 변수를 다룬다.
즉, 가능한 값이 무한히 많은 실수이며, 정밀하게 측정할수록 더 많은 소수점 자릿수가 나올 수 있다.
예를 들어, 시간을 측정한다고 가정하면 다음과 같다.
- 1.1초
- 1.12초
- 1.1257초
이처럼 연속적인 값은 특정한 하나의 값이 아니라 값의 범위(Interval)를 기준으로 확률을 계산해야 한다.
확률 밀도 함수(Probability Density Function, PDF)
확률 분포는 확률 함수(Probability Function)를 통해 나타낼 수 있으며, 이산 확률 분포와 연속 확률 분포는 각각 다음과 같은 확률 함수를 사용한다.
- 확률 질량 함수(PMF, Probability Mass Function) → 이산 확률 변수에 사용
- 확률 밀도 함수(PDF, Probability Density Function) → 연속 확률 변수에 사용
확률 밀도 함수는 곡선 그래프로 나타나며, 곡선 아래의 면적이 확률을 의미한다.
예를 들어, 체리 나무의 높이를 측정한다고 가정해보자. 체리 나무의 평균 높이가 15 피트, 표준 편차가 2 피트라면, 다음과 같은 정규 분포 곡선을 얻을 수 있다.
- X축: 측정값(체리 나무의 높이)
- Y축: 확률 밀도(Probability Density)
이때 특정한 하나의 값을 가질 확률은 0에 가까우므로, 특정 범위 내에서 확률을 계산해야 한다.
예시: 14.5~15.5 피트 범위 내에서 체리 나무가 존재할 확률은 약 20%
이처럼 정확히 15.1 피트일 확률은 0에 가까우므로, 확률을 구할 때는 특정 구간(예: 14.5~15.5 피트)을 기준으로 면적을 계산해야 한다.
정규 분포(Normal Distribution)란?
정규 분포는 가우스 분포(Gaussian Distribution)라고도 불리며, 데이터가 대칭적인 종 모양(Bell Curve)을 띄는 특징이 있다.
정규 분포의 주요 특징
- 종 모양(Bell Curve)을 가진다.
- 평균(Mean, μ)이 중심에 위치한다.
- 좌우 대칭(Symmetrical)이다.
- 곡선 아래의 면적은 항상 1이다. (전체 확률의 합은 100%)
예제: 체리 나무의 높이
체리 나무의 평균 높이가 15 피트, 표준 편차가 2 피트라고 가정했을 때, 정규 분포의 특징을 확인할 수 있다.
- 곡선의 최고점은 평균(15 피트)에 위치
- 데이터가 평균을 중심으로 대칭적으로 분포
- 평균에서 멀어질수록 발생 확률이 낮아짐
- 전체 확률의 합은 1
경험적 법칙(Empirical Rule, 68-95-99.7 Rule)
정규 분포에서는 데이터가 특정한 패턴으로 분포하는 경향이 있다. 이를 경험적 법칙(68-95-99.7 Rule)이라고 한다.
정규 분포를 따르는 데이터셋에서:
- 68%의 데이터가 평균 ± 1 표준 편차 범위 내에 위치
- 95%의 데이터가 평균 ± 2 표준 편차 범위 내에 위치
- 99.7%의 데이터가 평균 ± 3 표준 편차 범위 내에 위치
예제: 체리 나무의 높이
체리 나무의 평균 높이가 15 피트, 표준 편차가 2 피트라면:
- 68%의 체리 나무 높이 → 13~17 피트(±1 표준 편차)
- 95%의 체리 나무 높이 → 11~19 피트(±2 표준 편차)
- 99.7%의 체리 나무 높이 → 9~21 피트(±3 표준 편차)
이 법칙을 활용하면, 데이터의 전반적인 분포를 빠르게 이해할 수 있으며, 이상치(Outlier) 탐지에도 유용하다.
정규 분포를 활용한 데이터 분석
정규 분포는 다양한 분야에서 활용된다.
1. 비즈니스 및 경제학
- 직원 급여, 주식 시장 변동, 제품 수명 예측
2. 의료 및 생물학
- 혈압, IQ 점수, 키와 몸무게의 분포
3. 머신러닝 및 인공지능
- 데이터 전처리, 모델 평가
4. 이상치(Outlier) 탐지
- 3 표준 편차 이상 벗어난 데이터는 이상치로 간주 → 데이터 정제 시 중요
결론: 정규 분포를 이해하면 데이터 분석이 쉬워진다
정규 분포는 데이터가 평균을 중심으로 어떻게 분포하는지를 시각적으로 표현하는 데 유용하다.
- 확률 밀도 함수(PDF)를 통해 데이터의 분포를 분석
- 경험적 법칙(68-95-99.7 Rule)을 이용해 데이터 범위 추정
- 이상치 탐지, 머신러닝 모델 최적화, 의료 및 금융 분야에서 활용 가능
데이터 전문가가 되려면 정규 분포와 표준 편차 개념을 확실하게 이해하는 것이 중요하다.