Measures of Dispersion: Range, variance, and standard deviation (데이터의 분산 측정: 범위, 분산, 표준 편차)
새로운 데이터셋을 탐색할 때, 데이터의 중심뿐만 아니라 값들이 얼마나 퍼져 있는지도 파악하는 것이 중요하다. 중심 경향 측정값(Mean, Median, Mode)만으로는 데이터의 전체 구조를 완전히 이해하기 어렵다. 데이터가 같은 평균을 갖더라도 퍼짐 정도가 다를 수 있기 때문이다. 이를 분석하는 데 사용하는 개념이 바로 분산 측정값(Measures of Dispersion)이다.
분산 측정값이란?
분산 측정값은 데이터셋 내 값들의 변동성을 나타낸다. 주요 분산 측정값으로는 범위(Range), 분산(Variance), 표준 편차(Standard Deviation)가 있다.
- 범위(Range): 가장 큰 값과 가장 작은 값의 차이
- 분산(Variance): 데이터 값들이 평균에서 얼마나 떨어져 있는지 측정하는 값 (표준 편차의 제곱)
- 표준 편차(Standard Deviation): 평균으로부터 개별 데이터 값이 얼마나 떨어져 있는지를 나타내는 값
범위(Range) 계산 방법
범위는 계산이 간단하며, 데이터의 전체 분포를 빠르게 이해하는 데 유용하다.
예를 들어, 한 학교에서 학생들의 시험 점수를 분석한다고 가정하자.
- 최고 점수: 99점
- 최저 점수: 62점
범위 계산:
99 - 62 = 37
이 데이터셋의 범위는 37이다.
분산(Variance)과 표준 편차(Standard Deviation)
분산(Variance)
분산은 각 데이터 값이 평균에서 얼마나 떨어져 있는지를 제곱하여 평균을 낸 값이다.
표준 편차(Standard Deviation)
표준 편차는 분산의 제곱근을 구한 값으로, 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타낸다. 표준 편차가 크면 데이터 값들이 평균에서 멀리 퍼져 있고, 작으면 평균에 더 가까이 몰려 있다.
표준 편차 계산 방법
표준 편차는 다음 공식을 사용하여 계산할 수 있다.
표본 표준 편차(s) = √(Σ(x - x̄)² / (n - 1))
- x: 개별 데이터 값
- x̄: 평균(Mean)
- n: 데이터 개수
예제 계산
데이터셋: 2, 3, 10
평균 계산:
(2 + 3 + 10) ÷ 3 = 5
각 값에서 평균을 뺀 후 제곱:
(2 - 5)² = 9
(3 - 5)² = 4
(10 - 5)² = 25
제곱한 값들의 합을 (n-1)로 나눔 (분산, Variance):
(9 + 4 + 25) ÷ (3 - 1) = 38 ÷ 2 = 19
분산의 제곱근을 구함 (표준 편차, Standard Deviation):
√19 ≈ 4.36
따라서 이 데이터셋의 분산(Variance)은 19, 표준 편차(Standard Deviation)는 4.36이다.
표준 편차의 실생활 활용 예시
표준 편차는 다양한 분야에서 데이터 분석에 활용된다.
예제 1: 날씨 예측
두 도시 A와 B가 있다고 가정하자.
- 도시 A: 평균 기온 66°F, 표준 편차 3°F
- 도시 B: 평균 기온 64°F, 표준 편차 16°F
두 도시의 평균 기온은 비슷하지만, 표준 편차가 더 높은 도시 B는 날씨 변화가 심하다. 즉, 도시 A는 기온이 일정하게 유지되는 반면, 도시 B는 날씨 변화가 크다. 기상 예보에서 표준 편차는 예측의 신뢰도를 높이는 데 중요한 역할을 한다.
예제 2: 부동산 가격 분석
두 지역의 원룸 아파트 월세를 비교한다고 가정하자.
지역 A: Emerald Woods
아파트월세($)
1 | 900 |
2 | 950 |
3 | 1000 |
4 | 1050 |
5 | 1100 |
- 평균 월세: $1,000
- 표준 편차: $79.05
지역 B: Rock Park
아파트 | 월세($) |
1 | 500 |
2 | 650 |
3 | 1000 |
4 | 1350 |
5 | 1500 |
- 평균 월세: $1,000
- 표준 편차: $431.56
두 지역의 평균 월세는 동일하지만, 지역 B의 표준 편차가 훨씬 크다. 이는 지역 B의 월세가 더 다양하게 분포되어 있음을 의미하며, 저렴한 주거지를 찾기 쉬울 수 있다는 의미로 해석될 수도 있다.
핵심 요약
- 범위(Range): 데이터에서 가장 큰 값과 작은 값의 차이
- 분산(Variance): 평균에서 각 데이터 값이 얼마나 떨어져 있는지를 제곱하여 평균을 낸 값
- 표준 편차(Standard Deviation): 분산의 제곱근으로, 데이터의 변동성을 나타내는 핵심 지표
데이터 분석에서 표준 편차는 주식 시장 변동성, 광고 수익, 급여 차이 등을 분석하는 데 필수적인 도구다. 데이터를 이해하는 데 있어 중심뿐만 아니라 분산을 함께 고려하는 것이 중요하다.