Expanded Bayes' Theorem: 확장된 베이즈 정리
이전에 베이즈 정리(Bayes' Theorem)를 사용하여 새로운 정보에 따라 확률을 업데이트하는 방법을 배웠다. 하지만 베이즈 정리에는 여러 버전이 있으며, 문제의 유형에 따라 다른 방식으로 사용할 수 있다. 이번에는 확장된 베이즈 정리(Expanded Bayes' Theorem)를 활용하여 테스트의 정확도를 평가하는 방법을 배운다.
확장된 베이즈 정리란? (What is the Expanded Bayes' Theorem?)
기본 베이즈 정리는 다음과 같은 수식을 따른다:
P(A | B) = (P(A) × P(B | A)) / P(B)
하지만 일부 문제에서는 P(B) 값을 알 수 없는 경우가 있다. 이런 경우, 확장된 베이즈 정리를 사용하면 문제를 해결할 수 있다. 확장된 공식은 다음과 같이 표현된다:
P(A | B) = (P(B | A) × P(A)) / (P(B | A) × P(A) + P(B | ¬A) × P(¬A))
여기서:
- P(A): 사건 A가 발생할 확률 (사전 확률)
- P(¬A): 사건 A가 발생하지 않을 확률 (1 - P(A))
- P(B | A): A가 발생했을 때 B가 발생할 확률 (참 양성 비율)
- P(B | ¬A): A가 발생하지 않았을 때 B가 발생할 확률 (거짓 양성 비율)
확장된 베이즈 정리는 특히 의료 진단 테스트, 품질 관리 테스트, 소프트웨어 테스트(예: 스팸 필터)에서 자주 사용된다. 이 공식은 거짓 양성(False Positive)과 거짓 음성(False Negative)의 확률을 고려하여 테스트의 신뢰도를 평가하는 데 유용하다.
사전 확률과 사후 확률 (Prior and Posterior Probability)
- 사전 확률(Prior Probability, P(A)): 새로운 데이터가 수집되기 전에 사건 A가 발생할 확률
- 사후 확률(Posterior Probability, P(A|B)): 새로운 데이터를 반영하여 업데이트된 확률
베이즈 정리를 사용하면 사전 확률을 새 데이터(B)를 기반으로 업데이트하여 사후 확률을 계산할 수 있다.
예제:
특정 질병이 연령과 관련이 있다고 가정해 보자.
- 사전 확률(P(A)): 한 사람이 질병을 가지고 있을 확률
- 사후 확률(P(A|B)): 특정 연령 그룹에 속할 때, 그 사람이 질병을 가지고 있을 확률
거짓 양성과 거짓 음성 (False Positives and False Negatives)
테스트의 정확도를 평가할 때 중요한 개념이 거짓 양성(False Positive)과 거짓 음성(False Negative)이다.
- 거짓 양성(False Positive): 테스트가 잘못된 양성 결과를 반환하는 경우
- 예: 스팸 필터가 정상 이메일을 스팸으로 잘못 분류하는 경우
- 예: 백신 프로그램이 정상 파일을 바이러스로 잘못 탐지하는 경우
- 거짓 음성(False Negative): 테스트가 잘못된 음성 결과를 반환하는 경우
- 예: 스팸 필터가 스팸 이메일을 정상 이메일로 잘못 분류하는 경우
- 예: 품질 관리 검사에서 결함이 있는 부품을 정상 부품으로 잘못 판단하는 경우
테스트를 평가할 때는 이 두 가지 오류 유형을 고려하는 것이 중요하다.
예제: 땅콩 알레르기 테스트 (Peanut Allergy Test)
확장된 베이즈 정리를 활용하여 땅콩 알레르기 진단 테스트의 정확도를 평가해보자.
문제 상황:
- 전체 인구 중 1%가 땅콩 알레르기를 가지고 있음 (P(A) = 0.01)
- 알레르기가 있는 사람이 테스트를 받을 경우, 95% 확률로 양성 반응 (P(B | A) = 0.95)
- 알레르기가 없는 사람이 테스트를 받을 경우, 2% 확률로 거짓 양성 반응 (P(B | ¬A) = 0.02)
- 알레르기가 없는 사람의 비율 = 99% (P(¬A) = 1 - 0.01 = 0.99)
목표: 테스트에서 양성 판정을 받았을 때, 실제로 알레르기를 가지고 있을 확률(P(A | B))을 계산하기
공식에 값을 대입하면:
P(A | B)
= (P(B | A) × P(A)) / (P(B | A) × P(A) + P(B | ¬A) × P(¬A))
= (0.95 × 0.01) / ((0.95 × 0.01) + (0.02 × 0.99))
= 0.0095 / (0.0095 + 0.0198)
= 0.324 (32.4%)
결과: 테스트에서 양성 판정을 받았다고 해서, 실제로 알레르기를 가지고 있을 확률은 32.4%에 불과하다.
이처럼 테스트의 신뢰도를 정확하게 평가하려면 단순한 양성 반응 확률이 아니라 거짓 양성과 거짓 음성을 모두 고려해야 한다.
스팸 필터 적용 예제 (Spam Filter Example)
베이즈 정리는 스팸 필터링(spam filtering)에서 널리 사용된다. 이메일이 스팸인지 아닌지를 예측하는 데 활용된다.
문제 상황:
- 특정 단어가 이메일에 포함될 때, 그 이메일이 스팸일 확률을 계산하려 한다.
- 예제에서 단어 "money"가 이메일에 포함되는 경우를 고려해 보자.
주어진 정보:
- 이메일이 스팸일 확률(P(Spam)) = 20% (0.2)
- 이메일에 "money"가 포함될 확률(P(Money)) = 15% (0.15)
- 이메일이 스팸일 때 "money"가 포함될 확률(P(Money | Spam)) = 40% (0.4)
목표:
- "money"라는 단어가 포함된 이메일이 스팸일 확률(P(Spam | Money)) 을 계산
베이즈 정리를 적용하면:
P(Spam | Money)
= (P(Money | Spam) × P(Spam)) / P(Money)
= (0.4 × 0.2) / 0.15
= 0.5333 (53.3%)
결과: 이메일이 **"money"를 포함할 때, 스팸일 확률은 53.3%**이다.
확장된 베이즈 정리를 이용한 스팸 필터 예제
단순한 베이즈 정리를 사용하여 특정 단어 "money"가 이메일에 포함될 때 이메일이 스팸일 확률 P(Spam∣Money)P(Spam | Money)을 계산했다. 그러나 단순한 베이즈 정리만 사용할 경우 이메일이 스팸이 아닐 때도 "money"가 등장하는 경우(False Positive)를 충분히 반영하지 못할 수 있다.
이를 해결하기 위해 확장된 베이즈 정리(Expanded Bayes' Theorem)를 적용해보자.
문제 상황:
- 특정 단어 **"money"**가 이메일에 포함될 때, 그 이메일이 스팸일 확률을 계산하고자 한다.
- 기존에는 P(B) 값을 알아야 했지만, 확장된 베이즈 정리를 사용하면 이를 고려하지 않고도 계산할 수 있다.
주어진 정보:
- 이메일이 스팸일 확률 P(Spam) = 20% (0.2)
- 이메일이 스팸이 아닐 확률 P(¬Spam) = 80% (0.8)
- 이메일이 스팸일 때 "money"가 포함될 확률 P(Money | Spam) = 40% (0.4)
- 이메일이 스팸이 아닐 때 "money"가 포함될 확률 P(Money | ¬Spam) = 10% (0.1)
목표:
- "money"라는 단어가 포함된 이메일이 실제로 스팸일 확률 P(Spam | Money)를 구하기
공식을 적용하면 다음과 같다.
P(Spam | Money)
= (P(Money | Spam) * P(Spam)) / (P(Money | Spam) * P(Spam) + P(Money | ¬Spam) * P(¬Spam))
각 확률 값을 대입하면:
P(Spam | Money)
= (0.4 * 0.2) / ((0.4 * 0.2) + (0.1 * 0.8))
= 0.08 / (0.08 + 0.08)
= 0.08 / 0.16
= 0.5 (50%)
결과 해석:
- 기본 베이즈 정리를 사용했을 때: P(Spam | Money) = 53.3%
- 확장된 베이즈 정리를 사용했을 때: P(Spam | Money) = 50%
확장된 베이즈 정리를 적용하면, 거짓 양성(False Positive) 확률까지 고려하여 보다 정교한 스팸 판별 확률을 얻을 수 있다.
이처럼 확장된 베이즈 정리는 단순한 사전 확률만 고려하는 것이 아니라, 거짓 양성(False Positive)과 거짓 음성(False Negative) 확률을 반영하여 더욱 현실적인 확률 계산이 가능하다.
핵심 정리 (Key Takeaways)
- 확장된 베이즈 정리(Expanded Bayes' Theorem)는 P(B)를 모를 때 사용하며, 거짓 양성과 거짓 음성을 고려하는 데 유용하다.
- 거짓 양성(False Positive): 테스트가 실제로는 없는 것을 있다고 잘못 판단하는 경우.
- 거짓 음성(False Negative): 테스트가 실제로 있는 것을 없다고 잘못 판단하는 경우.
- 공식:
- P(A | B) = (P(B | A) × P(A)) / (P(B | A) × P(A) + P(B | ¬A) × P(¬A))
- 활용 사례:
- 의료 진단 테스트 (질병 검진, 알레르기 테스트 등)
- 품질 관리 테스트 (결함 제품 탐지)
- 소프트웨어 테스트 (스팸 필터, 백신 프로그램 등)
- 금융 분석 (대출 승인 모델, 사기 탐지 시스템 등)
확장된 베이즈 정리는 단순한 확률 계산을 넘어, 현실적인 오류를 반영하여 테스트의 신뢰도를 평가하는 데 필수적인 도구이다. 이를 통해 더 정확한 의사결정을 내릴 수 있다.