Measures of central tendency: 중심 경향 측정 값
중심 경향 측정값(measures of central tendency)은 데이터셋의 중심을 나타내는 값이다. 대표적인 중심 경향 측정값에는 평균(mean), 중앙값(median), 최빈값(mode)이 있다.
- 평균(Mean): 데이터셋의 모든 값을 더한 후 개수로 나눈 값
- 중앙값(Median): 데이터셋을 정렬했을 때 가운데 위치하는 값
- 최빈값(Mode): 가장 자주 등장하는 값
이제 각각의 측정값을 계산하는 방법과 적절한 사용 사례를 살펴보자.
평균(Mean) 계산 방법
평균은 데이터셋의 모든 값을 더한 후 전체 개수로 나누어 구한다.
예를 들어, 데이터셋이 다음과 같다고 가정하자: 10, 5, 3, 50, 12
평균을 계산하는 과정:
(10 + 5 + 3 + 50 + 12) ÷ 5 = 80 ÷ 5 = 16
이 데이터셋의 평균은 16이다.
중앙값(Median) 계산 방법
중앙값은 데이터셋을 크기순으로 정렬한 후 가운데 있는 값을 찾는 방식으로 구한다.
예제 데이터셋: 10, 5, 3, 50, 12
정렬 후: 3, 5, 10, 12, 50
가운데 값인 10이 중앙값이다.
만약 데이터셋의 개수가 짝수라면, 중앙에 위치한 두 값의 평균을 구하면 된다.
예를 들어, 3, 5, 8, 10, 12, 50에서 중앙값은:
(8 + 10) ÷ 2 = 9
따라서 중앙값은 9이다.
최빈값(Mode) 계산 방법
최빈값은 데이터셋에서 가장 많이 등장하는 값을 의미한다.
예제:
- 데이터셋: 1, 12, 33, 54, 75 → 최빈값 없음
- 데이터셋: 2, 7, 7, 11, 20 → 최빈값: 7
- 데이터셋: 3, 12, 12, 40, 40 → 최빈값: 12, 40 (두 개의 최빈값 존재)
평균 vs 중앙값: 언제 어떤 값을 사용할까?
평균과 중앙값 모두 데이터셋의 중심을 나타내지만, 각각의 특징에 따라 더 적합한 경우가 있다.
- 평균은 이상치(outlier)에 민감하다.
- 중앙값은 이상치의 영향을 덜 받는다.
예를 들어, 한 회사의 직원 연봉 데이터를 살펴보자.
직원연봉($)
1 | 40,000 |
2 | 45,000 |
3 | 45,000 |
4 | 45,000 |
5 | 45,000 |
6 | 50,000 |
7 | 500,000 |
평균 연봉 계산:
(40,000 + 45,000 + 45,000 + 45,000 + 45,000 + 50,000 + 500,000) ÷ 7 = 110,000
이 평균 값은 현실과 다소 동떨어져 있다. 대부분의 직원은 4~5만 달러의 연봉을 받지만, 한 명의 이상치(50만 달러)가 평균을 크게 올렸다.
중앙값 계산:
중앙값 = 45,000
이 경우, 중앙값이 실제 직원들의 평균적인 연봉을 더 잘 반영한다.
따라서 이상치가 존재할 경우 중앙값을 사용하는 것이 더 적절하다.
최빈값(Mode)의 활용
최빈값은 범주형 데이터 분석에 특히 유용하다.
예를 들어, 한 회사에서 직원 만족도 조사를 진행했다고 하자. 설문 응답 옵션은 다음과 같다:
- 매우 만족
- 만족
- 보통
- 불만족
- 매우 불만족
설문 결과를 막대 그래프로 표현했을 때, 가장 높은 빈도를 보이는 응답이 최빈값이다. 만약 보통이 최빈값이라면, 이 회사의 전반적인 만족도가 평균적이라는 것을 알 수 있다.
핵심 요약
- 평균(Mean): 데이터셋의 모든 값을 더한 후 개수로 나눈 값.
- 중앙값(Median): 정렬된 데이터셋의 가운데 값. 이상치가 있을 때 적절한 측정값.
- 최빈값(Mode): 가장 자주 등장하는 값. 범주형 데이터 분석에 유용함.
데이터셋의 중심을 이해하는 것은 분석의 중요한 첫 단계이다. 이 개념을 익히면 데이터를 빠르게 파악하고, 다음 분석 방향을 결정하는 데 도움이 된다.
마지막으로
읽어보면 좋은 자료: 호주 통계청(ABS)) 공식 웹사이트에서 설명하는 Measures of Central Tendency