-
Probability Distribution: 확률 분포Machine Learning/Statistics 2025. 3. 28. 19:00
이전까지 기본적인 확률 개념을 배웠다. 이제 확률 분포(Probability Distribution)에 대해 알아볼 차례다.
데이터 분석에서는 확률 분포를 이용하여 다양한 데이터의 패턴을 모델링하고 분석할 수 있다. 확률 분포란 랜덤한 사건이 발생할 확률을 표현하는 방법이다. 예를 들어, 동전을 던지거나 주사위를 굴리는 것과 같은 단순한 확률 사건뿐만 아니라, 새로운 약물이 특정 질병을 치료할 확률과 같은 더 복잡한 사건도 확률 분포로 표현할 수 있다.
확률 변수 (Random Variable)
https://en.wikipedia.org/wiki/Probability_distribution 확률 분포를 이해하기 위해서는 먼저 확률 변수(Random Variable) 개념을 알아야 한다.
확률 변수는 랜덤한 사건의 결과 값을 표현하는 변수다. 확률 변수에는 크게 이산 확률 변수(Discrete Random Variable)와 연속 확률 변수(Continuous Random Variable) 두 가지 유형이 있다.
이산 확률 변수 (Discrete Random Variable)
이산 확률 변수는 가능한 값이 셀 수 있는(Countable) 경우를 의미한다. 보통 정수 값을 가지며, 개수를 세는 방식으로 정의된다.
예제:
- 주사위를 5번 던질 때, 2가 나오는 횟수
- 동전을 5번 던질 때, 앞면이 나오는 횟수
이 경우, 확률 변수는 0, 1, 2, 3, 4, 5 중 하나의 값을 가질 수 있으며, 이는 셀 수 있는 값들이다.
연속 확률 변수 (Continuous Random Variable)
연속 확률 변수는 값이 특정 범위 내에서 연속적으로 존재하는 경우를 의미한다. 즉, 소수(decimal) 값을 가질 수 있고, 무한한 값이 존재할 수 있다.
예제:
- 사람의 키(Height) → 170.2cm, 170.23cm, 170.237cm, 170.2375cm 등
- 달리기 기록(Time) → 2.31초, 2.315초, 2.3157초 등
- 기온(Temperature) → 25.3°C, 25.31°C, 25.317°C 등
연속 확률 변수는 특정 값 하나를 갖는 것이 아니라 **범위(Range)**를 기준으로 확률을 계산한다.
확률 분포 (Probability Distribution)
확률 분포는 확률 변수가 가질 수 있는 값과 그에 해당하는 확률을 표현하는 방법이다.
이산 확률 분포 (Discrete Probability Distribution)
https://sites.nicholas.duke.edu/statsreview/discrete-probability-distributions/ 이산 확률 분포는 이산 확률 변수의 각 가능한 값에 대한 확률을 나타낸다.
예제: 주사위 던지기
6면 주사위를 한 번 던질 때 나올 수 있는 값:
- 확률 변수의 표본 공간(Sample Space) = {1, 2, 3, 4, 5, 6}
- 각 값이 나올 확률 = 1/6 (16.7%)
이런 이산 확률 분포는 테이블(Table) 또는 그래프(Graph)로 표현할 수 있다.
주사위 값 확률 1 1/6 (16.7%) 2 1/6 (16.7%) 3 1/6 (16.7%) 4 1/6 (16.7%) 5 1/6 (16.7%) 6 1/6 (16.7%) 이 데이터를 그래프로 표현하면, X축은 확률 변수의 값, Y축은 각 값이 나올 확률을 나타낸다.
연속 확률 분포 (Continuous Probability Distribution)
https://www.knime.com/blog/continuous-probability-distribution 연속 확률 변수는 무한한 값을 가질 수 있기 때문에, 정확한 확률을 구하는 것이 아니라 특정 범위 내에서 확률을 계산한다.
예제: 나무의 높이 측정
- 랜덤하게 선택한 참나무(Oak Tree)의 높이를 측정한다고 가정하자.
- 높이는 **15.2m, 15.23m, 15.237m, 15.2375m ...**처럼 무한히 세분화될 수 있다.
이 경우, "정확히 15.2m일 확률"은 0에 가깝다.
대신 **"나무의 높이가 15m ~ 16m 사이일 확률"**을 계산하는 것이 의미 있다.확률 밀도 함수(Probability Density Function, PDF)
연속 확률 분포는 확률 밀도 함수(PDF, Probability Density Function)를 사용하여 확률 값을 곡선 형태의 그래프로 나타낸다.
이 그래프에서:
- X축: 측정하는 변수 (예: 나무의 높이)
- Y축: 확률 밀도 (Probability Density)
특정 값 하나의 확률은 0이지만, 특정 구간의 면적(Integral)은 확률을 나타낸다.
확률 분포 활용 예시
이산 확률 분포 활용
- 마케팅: 고객이 특정 제품을 구매할 확률 계산
- 게임 개발: 특정 아이템이 드롭될 확률 계산
- 의료 통계: 특정 질병을 가진 환자의 수 예측
연속 확률 분포 활용
- 기상 예측: 내일 기온이 특정 범위에 속할 확률 계산
- 품질 관리: 공장에서 생산된 제품의 길이가 기준 범위 내에 있을 확률
- 금융 모델링: 주식 가격 변동성이 일정 범위에 속할 확률
핵심 정리
- 확률 분포는 랜덤한 사건의 결과에 대한 확률을 표현하는 방법이다.
- 이산 확률 변수(Discrete Variable): 값이 셀 수 있는 경우 (예: 주사위, 동전 던지기)
- 연속 확률 변수(Continuous Variable): 값이 무한히 존재하는 경우 (예: 키, 무게, 시간)
- 이산 확률 분포(Discrete Probability Distribution): 각 가능한 값의 확률을 표 또는 그래프로 표현
- 연속 확률 분포(Continuous Probability Distribution): 확률 밀도 함수(PDF)를 사용해 특정 범위 확률을 계산
- 연속 변수의 특정 값 확률은 0이므로, 구간 확률을 계산하는 것이 의미가 있다.
- 확률 분포는 데이터 모델링, 예측 분석, 머신러닝, 금융, 의료 등 다양한 분야에서 활용된다.
'Machine Learning > Statistics' 카테고리의 다른 글
Poisson Distribution: 포아송 분포 (0) 2025.03.30 Binomial Distribution: 이항분포 (0) 2025.03.29 Expanded Bayes' Theorem: 확장된 베이즈 정리 (0) 2025.03.27 베이즈 정리: Bayes' Theorem (0) 2025.03.26 Conditional Probability: 조건부 확률 (3) 2025.03.25