ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Measures of central tendency: 중심 경향 측정 값
    Machine Learning/Statistics 2025. 3. 19. 19:07

    https://365datascience.com/calculators/mean-median-mode-calculator/

     

    중심 경향 측정값(measures of central tendency)은 데이터셋의 중심을 나타내는 값이다. 대표적인 중심 경향 측정값에는 평균(mean), 중앙값(median), 최빈값(mode)이 있다.

    • 평균(Mean): 데이터셋의 모든 값을 더한 후 개수로 나눈 값
    • 중앙값(Median): 데이터셋을 정렬했을 때 가운데 위치하는 값
    • 최빈값(Mode): 가장 자주 등장하는 값

    이제 각각의 측정값을 계산하는 방법과 적절한 사용 사례를 살펴보자.

     

     

    평균(Mean) 계산 방법

    평균은 데이터셋의 모든 값을 더한 후 전체 개수로 나누어 구한다.

    예를 들어, 데이터셋이 다음과 같다고 가정하자: 10, 5, 3, 50, 12

    평균을 계산하는 과정:

    (10 + 5 + 3 + 50 + 12) ÷ 5 = 80 ÷ 5 = 16

    이 데이터셋의 평균은 16이다.

     

     

    중앙값(Median) 계산 방법

    중앙값은 데이터셋을 크기순으로 정렬한 후 가운데 있는 값을 찾는 방식으로 구한다.

    예제 데이터셋: 10, 5, 3, 50, 12
    
    정렬 후: 3, 5, 10, 12, 50

     

    가운데 값인 10이 중앙값이다.

     

    만약 데이터셋의 개수가 짝수라면, 중앙에 위치한 두 값의 평균을 구하면 된다.

     

    예를 들어, 3, 5, 8, 10, 12, 50에서 중앙값은:

    (8 + 10) ÷ 2 = 9

    따라서 중앙값은 9이다.

     

     

    최빈값(Mode) 계산 방법

    최빈값은 데이터셋에서 가장 많이 등장하는 값을 의미한다.

    예제:

    • 데이터셋: 1, 12, 33, 54, 75최빈값 없음
    • 데이터셋: 2, 7, 7, 11, 20최빈값: 7
    • 데이터셋: 3, 12, 12, 40, 40최빈값: 12, 40 (두 개의 최빈값 존재)

     

    평균 vs 중앙값: 언제 어떤 값을 사용할까?

    평균과 중앙값 모두 데이터셋의 중심을 나타내지만, 각각의 특징에 따라 더 적합한 경우가 있다.

    • 평균은 이상치(outlier)에 민감하다.
    • 중앙값은 이상치의 영향을 덜 받는다.

    예를 들어, 한 회사의 직원 연봉 데이터를 살펴보자.

     

    직원연봉($)

    1 40,000
    2 45,000
    3 45,000
    4 45,000
    5 45,000
    6 50,000
    7 500,000

     

    평균 연봉 계산:

    (40,000 + 45,000 + 45,000 + 45,000 + 45,000 + 50,000 + 500,000) ÷ 7 = 110,000

    이 평균 값은 현실과 다소 동떨어져 있다. 대부분의 직원은 4~5만 달러의 연봉을 받지만, 한 명의 이상치(50만 달러)가 평균을 크게 올렸다.

     

     

    중앙값 계산:

    중앙값 = 45,000

    이 경우, 중앙값이 실제 직원들의 평균적인 연봉을 더 잘 반영한다.

    따라서 이상치가 존재할 경우 중앙값을 사용하는 것이 더 적절하다.

     

     

    최빈값(Mode)의 활용

    최빈값은 범주형 데이터 분석에 특히 유용하다.

    예를 들어, 한 회사에서 직원 만족도 조사를 진행했다고 하자. 설문 응답 옵션은 다음과 같다:

    • 매우 만족
    • 만족
    • 보통
    • 불만족
    • 매우 불만족

    설문 결과를 막대 그래프로 표현했을 때, 가장 높은 빈도를 보이는 응답이 최빈값이다. 만약 보통이 최빈값이라면, 이 회사의 전반적인 만족도가 평균적이라는 것을 알 수 있다.

     

     

    핵심 요약

    • 평균(Mean): 데이터셋의 모든 값을 더한 후 개수로 나눈 값.
    • 중앙값(Median): 정렬된 데이터셋의 가운데 값. 이상치가 있을 때 적절한 측정값.
    • 최빈값(Mode): 가장 자주 등장하는 값. 범주형 데이터 분석에 유용함.

    데이터셋의 중심을 이해하는 것은 분석의 중요한 첫 단계이다. 이 개념을 익히면 데이터를 빠르게 파악하고, 다음 분석 방향을 결정하는 데 도움이 된다.

     

     

    마지막으로

    읽어보면 좋은 자료: 호주 통계청(ABS)) 공식 웹사이트에서 설명하는 Measures of Central Tendency

    댓글

Designed by Tistory.