Poisson Distribution: 포아송 분포
데이터 전문가로서 확률 분포를 이해하는 것은 매우 중요하다. 확률 분포는 다양한 데이터의 패턴을 모델링하는 데 도움을 주며, 적절한 머신러닝 모델을 선택하는 데도 유용하다. 이번 글에서는 가장 일반적인 두 개의 이산 확률 분포인 이항 분포(Binomial Distribution)와 포아송 분포(Poisson Distribution)를 비교하고, 포아송 분포의 주요 특징과 활용 사례를 살펴보겠다.
포아송 분포(Poisson Distribution)란?
포아송 분포는 일정한 시간 동안 특정 사건이 발생할 확률을 모델링하는 확률 분포이다. 프랑스의 수학자 시메옹 드니 포아송(Simeon Denis Poisson)이 1830년에 처음 도출한 이 분포는 원래 도박에서 승리하는 횟수를 설명하기 위해 개발되었다. 그러나 오늘날 포아송 분포는 다양한 분야에서 활용되고 있다.
포아송 분포의 특징
포아송 분포가 적용되는 실험을 포아송 실험(Poisson Experiment)이라 한다. 포아송 실험은 다음과 같은 특징을 가진다.
- 이벤트의 개수를 셀 수 있어야 한다.
- 예: 고객센터에서 한 시간 동안 걸려오는 전화 수, 식당에서 특정 시간 동안 방문하는 고객 수 등.
- 일정한 시간 동안 발생하는 평균 이벤트 수(λ, 람다)가 알려져 있어야 한다.
- 예: 특정 식당의 드라이브 스루에서 평균적으로 1분당 2건의 주문이 발생한다.
- 각 이벤트는 서로 독립적이어야 한다.
- 예: 한 고객의 주문이 다른 고객의 주문에 영향을 주지 않아야 한다
포아송 분포 예제
포아송 분포를 실제 데이터에 적용해보자.
예를 들어, 패스트푸드 체인의 드라이브 스루에서 1분당 평균 2건의 주문이 들어온다고 가정하자.
이때, 특정 1분 동안 0건, 1건, 2건, 3건의 주문이 들어올 확률을 구해보면 다음과 같다.
확률 계산 공식
포아송 분포의 확률을 구하는 공식은 다음과 같다.
- λ (람다): 일정 시간 동안의 평균 이벤트 발생 횟수
- x: 특정 시간 동안 발생하는 이벤트 수
- e: 자연로그의 밑(약 2.71828)
- x!: x의 계승(factorial), 즉 $ x × (x - 1) × (x - 2) × ... × 1 $
계산 결과
- X = 0 (주문 0건): 0.1353 (13.53%)
- X = 1 (주문 1건): 0.2707 (27.07%)
- X = 2 (주문 2건): 0.2707 (27.07%)
- X = 3 (주문 3건): 0.1805 (18.05%)
이 결과를 시각적으로 표현하면 다음과 같다.
포아송 분포 vs. 이항 분포
이전에 배운 이항 분포와 포아송 분포를 비교하면 다음과 같은 차이가 있다.
분포 | 적용 사례 | 특징 |
이항 분포 (Binomial Distribution) | 동전을 10번 던져서 앞면이 나오는 횟수를 구할 때 | 각 시행이 성공 또는 실패 두 가지 결과를 가지며, 시행 횟수(n)가 정해져 있음 |
포아송 분포 (Poisson Distribution) | 고객센터에 걸려오는 전화 건수를 예측할 때 | 일정 시간 내에 발생하는 이벤트의 개수를 예측하며, 각 이벤트가 독립적임 |
이항 분포는 반복된 시도(trials)에서 특정 확률(p)로 성공하는 횟수를 예측하는 데 적합하다.
반면, 포아송 분포는 특정 시간 동안 발생하는 이벤트의 개수를 예측하는 데 적합하다.
포아송 분포는 다양한 비즈니스 및 데이터 분석 상황에서 활용될 수 있다.
특히 고객 방문, 주문량, 통화량 예측 등에서 유용하게 적용된다.
데이터 전문가로서 확률 분포를 잘 이해하고 활용하면 데이터 모델링과 의사결정에 큰 도움이 될 것이다.
결론
포아송 분포는 다양한 비즈니스 및 데이터 분석 상황에서 활용될 수 있다.
특히 고객 방문, 주문량, 통화량 예측 등에서 유용하게 적용된다.
데이터 전문가로서 확률 분포를 잘 이해하고 활용하면 데이터 모델링과 의사결정에 큰 도움이 될 것이다.