G471000

Generative AI(생성형 AI)의 중요성

g471000 — Wed, 28 May 2025 21:00:02 +0900

생성형 AI는 최근 기술 산업에서 가장 주목받는 분야 중 하나이다. 이 기술은 고품질의 텍스트, 이미지, 오디오, 심지어 3D 오브젝트와 음악까지 생성할 수 있는 능력을 가지고 있다. 이러한 AI 모델들은 기존의 데이터를 학습해 그 안의 패턴과 구조를 이해하고, 이를 바탕으로 새로운 데이터를 생성해낸다.

https://www.devoteam.com/expert-view/unlimited-creativity-how-generative-ai-is-transforming-the-world-of-innovation/

생성형 AI의 개념과 모델 유형

생성형 AI는 예술가가 수많은 그림을 관찰하고 자신만의 독창적인 작품을 창작하듯, 대규모 데이터를 학습하여 새로운 콘텐츠를 생성하는 방식으로 작동한다. 이 기술은 크게 텍스트, 이미지, 오디오 생성 모델로 나눌 수 있다.

텍스트 생성 모델은 문맥을 이해하고 단어 간의 관계를 파악하여 자연스럽고 연관성 있는 문장을 만들어낸다. 대표적인 예는 GPT(Generative Pre-trained Transformer)이다. 예를 들어 이야기의 첫 부분을 입력하면 이어질 내용을 지능적으로 생성하거나, 영어 문장을 프랑스어로 자연스럽게 번역할 수 있다.

이미지 생성 모델은 텍스트로부터 이미지를 생성하거나, 기존 이미지를 변형해 새로운 스타일로 만들어낸다. 대표적인 예로는 DALL-E, GAN(Generative Adversarial Network), 그리고 디퓨전 모델이 있다. 예를 들어, "피아노를 연주하는 로봇"이라는 문장을 입력하면 이에 맞는 이미지를 자동으로 만들어낼 수 있다.

오디오 생성 모델은 자연스러운 음성을 생성하거나 텍스트를 음성으로 변환하는 데 사용된다. 대표적인 모델은 WaveNet으로, 실제 사람의 목소리와 매우 유사한 오디오를 생성할 수 있다.

산업별 적용 사례

생성형 AI는 다양한 산업에서 폭넓게 활용되고 있다.

헬스케어 분야에서는 의료 이미지를 분석하고, 환자의 검사 결과를 이해하기 쉬운 언어로 요약하여 보고서를 작성하는 데에 활용된다. 예를 들어, 복잡한 혈액 검사 결과를 환자나 보호자가 쉽게 이해할 수 있도록 자연어로 요약해 제공할 수 있다. 이는 환자 경험을 향상시키는 데 큰 도움이 된다. 금융 산업에서는 대규모 금융 데이터를 분석하여 예측 모델을 만들고, 시장 동향을 예측하는 데 활용되고, 게임 산업에서는 플레이어의 선택에 따라 스토리가 동적으로 변하거나, 상호작용 요소가 풍부한 콘텐츠를 생성하는 데 사용된다. IT 분야에서는 AI 모델을 훈련시키기 위한 인공 데이터를 생성하여 데이터 사이언스와 머신러닝의 정확도를 높이는 데 기여하고 있다.

Generative(생성형) AI의 미래 가능성

생성형 AI는 현재 콘텐츠 제작, 언어 번역, 요약, 고객 지원 챗봇 등 다양한 분야에서 활발히 사용되고 있으며, 앞으로 그 활용 범위는 더욱 넓어질 것으로 보인다. 특히 개인화 추천 시스템, 신약 개발을 통한 의료 혁신, 스마트홈 및 자율주행 기술 통합 등의 분야에서도 중요한 역할을 하게 될 것이다.

블룸버그 인텔리전스에 따르면, 생성형 AI 시장은 2032년까지 1.3조 달러 규모로 성장할 것으로 전망된다. 이 수치는 기술의 잠재력을 단적으로 보여준다.

생성형 AI는 단순히 새로운 콘텐츠를 만드는 기술을 넘어서, 다양한 산업의 문제를 창의적이고 효율적으로 해결하는 도구로 자리 잡아가고 있다. 특히 헬스케어 산업에서는 환자 중심의 서비스를 강화하는 데 중요한 역할을 할 수 있으며, 그 잠재력은 앞으로도 계속 확장될 것이다. AI 기술을 이해하고 적극적으로 활용하는 것이 기술 전문가로서의 중요한 역량이 되고 있다.

Infer population parameters with the central limit theorem: 극한정리를 활용한 모수 추정하기

g471000 — Sat, 12 Apr 2025 19:00:38 +0900

최근 중심극한정리에 대해 배우며 다양한 데이터셋을 다루는 방법을 익혔다. 데이터 전문가는 중심극한정리를 활용해 경제, 과학, 비즈니스 등 여러 분야의 데이터를 바탕으로 모집단의 모수를 추정한다.

https://www.investopedia.com/terms/c/central_limit_theorem.asp

이번 글에서는 중심극한정리에 대해 좀 더 자세히 살펴보고, 이를 통해 다양한 데이터에서 모집단의 평균을 추정하는 방법을 알아본다. 중심극한정리의 정의, 적용 조건, 그리고 실제 예제를 통해 내용을 구체화한다.

정의

중심극한정리는 "표본평균의 분포는 표본 크기가 커질수록 정규분포에 가까워진다"는 이론이다. 즉, 표본 크기가 충분히 크면, 표본평균의 분포는 종 모양(정규분포)의 형태를 띠게 된다. 또한, 표본을 많이 추출할수록 표본평균은 모집단의 평균에 근접한다.

예를 들어, 경량 픽업트럭의 평균 무게를 추정하고 싶다고 가정하자. 수백만 대의 트럭을 모두 측정하는 대신, 대표성이 있는 트럭 샘플을 선정한다. 표본 크기가 충분히 크다면, 이 샘플의 평균 무게는 모집단 전체의 평균 무게에 근접하게 된다.

중심극한정리는 모집단 분포의 형태가 어떻든 적용할 수 있다. 모집단 분포가 왜곡되었거나 비정규분포 형태일지라도, 충분한 크기의 표본을 여러 번 수집하면 그 평균들의 분포는 정규분포를 따른다.

적용 조건

중심극한정리를 적용하기 위해서는 다음과 같은 조건이 필요하다.

무작위성(Randomization)
표본은 무작위로 추출되어야 한다. 즉, 모집단의 모든 구성원이 뽑힐 동일한 기회를 가져야 한다.
독립성(Independence)
표본 내 관측값은 서로 독립적이어야 한다. 하나의 관측값이 다른 관측값에 영향을 주지 않아야 한다. 일반적으로 무작위 추출을 통해 독립성이 확보된다.
10% 규칙
복원추출이 아닌 경우, 표본 크기는 전체 모집단의 10%를 넘지 않아야 독립성이 유지된다.
충분한 표본 크기
표본 크기가 클수록 중심극한정리가 성립될 가능성이 높다. 일반적으로 표본 크기 n ≥ 30 이면 중심극한정리가 적용 가능하다고 본다. 모집단 분포가 극단적으로 왜곡되어 있을 경우에는 더 큰 표본 크기가 필요할 수 있다.

예제: 연간 급여

부에노스아이레스, 카이로, 델리, 서울 같은 대도시의 직장인을 대상으로 연간 급여를 분석한다고 가정하자. 모집단은 1,000만 명이며, 이들의 평균 연봉을 알고 싶다. 하지만 전부 설문조사하기엔 시간과 비용이 너무 많이 든다.

대신, 무작위로 100명의 직장인을 반복적으로 추출하여 표본평균을 구한다.

첫 번째 표본 평균: $40,300
두 번째 표본 평균: $41,100
세 번째 표본 평균: $39,700

표본마다 평균은 조금씩 다르지만, 표본 크기를 늘리면 이들의 분포는 점점 종 모양(정규분포)에 가까워진다. 즉, 중심극한정리에 따라 충분히 큰 표본을 무작위로 수집하면 그 평균은 모집단 평균에 근접한다.

실제 분석에서는 일반적으로 하나의 표본만 수집하며, 표본 크기는 예산, 시간, 자원, 신뢰 수준 등의 요소를 고려하여 결정한다.

핵심 정리

중심극한정리는 표본평균의 분포가 정규분포를 따르게 되는 경향을 설명하는 이론이다.
표본 크기가 클수록, 무작위 추출을 할수록, 그리고 독립적인 데이터일수록 정확한 추정이 가능하다.
모집단의 분포 형태와 무관하게, 충분히 큰 표본의 평균 분포는 정규분포를 따른다.
중심극한정리를 통해 표본만으로도 모집단의 평균을 정확하게 추정할 수 있다.

The Central Limit Theorem: 중심극한정리

g471000 — Fri, 11 Apr 2025 19:00:12 +0900

데이터 분석 업무에서 중심극한정리(Central Limit Theorem, CLT)는 매우 강력한 도구이다. 통계적으로 신뢰할 수 있는 추론을 위해 중심극한정리를 이해하고 적용하는 것은 데이터 전문가에게 필수적이다.

https://www.investopedia.com/terms/c/central_limit_theorem.asp

이번 글에서는 중심극한정리가 무엇인지, 그리고 왜 이 정리가 실제 데이터 분석에 유용한지를 예시와 함께 알아본다.

표본의 크기가 충분히 크면, 어떤 분포를 가진 모집단이든 간에
표본 평균의 분포는 정규 분포(종 모양의 곡선)를 따른다.

이 말은 즉, 모집단의 분포가 치우쳐 있거나 정규 분포가 아니더라도, 표본 크기를 충분히 키우면 표본 평균들의 분포는 정규 분포에 가까워진다는 뜻이다.

https://math.stackexchange.com/questions/3561114/does-the-central-limit-theorem-only-apply-to-the-sample-mean

중심극한정리의 활용 예시

예시 1: 남아프리카 대학생의 평균 키 추정

모든 학생을 측정하기는 어렵기 때문에, 일부 학생을 무작위로 샘플링하여 평균 키를 측정한다고 하자. 만약 표본의 크기가 충분히 크다면, 이 표본 평균은 전체 모집단(남아프리카 대학생 전체)의 평균 키에 근접하게 된다.

예시 2: 미국 가구 소득 데이터

미국 가구의 연간 소득 분포는 극소수의 고소득자 때문에 우측으로 치우친(skewed) 형태를 가진다. 즉, 정규 분포와는 거리가 멀다. 하지만 이 분포에서 무작위로 표본을 반복적으로 추출하고, 각 표본의 평균 소득을 구한다면, 이 평균 값들의 분포는 정규 분포에 가까워진다.

즉, 모집단이 정규 분포가 아니어도 표본 평균의 분포는 정규 분포를 따른다는 것이 중심극한정리의 핵심이다.

예시 3: 미국 커피 소비량

미국의 커피 음용자 약 1억 5천만 명 중 일부를 무작위로 샘플링하여 1일 평균 커피 섭취량을 조사한다고 하자.

첫 번째 표본의 평균: 22.5oz
두 번째 표본의 평균: 28.2oz
세 번째 표본의 평균: 25.4oz

이렇게 여러 번 표본을 추출하여 평균을 구하면, 이 표본 평균 값들의 분포는 점점 종 모양의 정규 분포 곡선을 띠게 된다.

결과적으로, 충분한 크기의 대표성 있는 표본 하나만으로도 전체 모집단의 평균을 정확히 추정할 수 있게 된다.

중심극한정리가 유용한 이유

https://corporatefinanceinstitute.com/resources/data-science/central-limit-theorem/

모집단의 분포를 모르더라도 정규성을 전제로 한 통계 기법을 적용할 수 있다.
정규 분포를 전제로 하는 많은 통계 분석(예: z-점수, 신뢰 구간, 가설 검정 등)이 가능해진다.
큰 표본일수록 평균의 신뢰성이 높아지고, 표준오차(Standard Error)는 작아진다.
평균 소득, 평균 키, 평균 근무 시간 등 모집단 평균을 직접 구하기 어려운 경우, 중심극한정리를 기반으로 표본 평균을 사용해 모집단 평균을 추정한다.
이는 경제, 과학, 의료, 사회 통계 등 다양한 분야에서 활용된다.

마무리

중심극한정리는 다음 전제 조건들을 만족할 때 작동한다:

표본이 무작위(random sampling) 로 추출되어야 한다.
표본들이 서로 독립(independent) 이어야 한다.
표본의 크기 n이 충분히 커야 한다. (보통 n ≥ 30 이상이면 괜찮다고 본다.)

하지만 “무조건” 그렇지는 않다. 아래와 같은 경우에는 중심극한정리의 효과가 떨어지거나 적용되지 않을 수 있다:

표본이 무작위가 아닌 경우

예: 전체 인구에서 특정 집단만 고의적으로 포함했다면 → 대표성이 없음 → 중심극한정리 적용 어려움

데이터가 강하게 왜곡(skewed) 되어 있고, 표본이 너무 작을 경우

예: 극단적으로 오른쪽으로 긴 꼬리를 가진 분포(예: 소득 분포)에서 n = 10 정도면 아직 종모양이 되지 않음
이런 경우에는 n = 100 이상 되어야 안정적인 정규 분포 형태가 나타나기 시작함

독립성이 없는 경우

예: 시간의 흐름에 따라 수집된 데이터(시계열)는 이전 데이터에 영향을 받을 수 있음
이런 경우에는 단순 평균만으로는 정규 분포가 나오지 않을 수 있음

이 조건을 만족하면, 모집단의 분포 모양이 어떤 형태든 (극단적으로 비대칭이거나 정상이 아니어도), “어떤 분포라도, 표본 크기만 충분히 크고, 랜덤하게 잘 뽑으면, 평균들의 분포는 정규 분포처럼 행동한다”는 것이 핵심이다.

중심극한정리는 단순한 수학적 이론이 아니라, 실제 데이터를 이해하고 해석하는 데 있어 핵심적인 역할을 한다.

"큰 표본은 진실에 가깝다" 는 말처럼, 대표성 있는 충분한 크기의 표본을 수집하고, 이를 통해 모집단을 추정하는 것이 데이터 전문가의 중요한 임무 중 하나이다.

How sampling affects your data: 샘플링이 데이터에 미치는 영향

g471000 — Thu, 10 Apr 2025 19:00:25 +0900

데이터 전문가로 일하면서, 종종 샘플 데이터를 활용해 미래의 매출 예측이나 제품 성능 평가 모델을 만든다. 이러한 작업은 종종 모집단에 대한 추론(inference) 을 필요로 한다. 그 중심에는 샘플 통계량을 기반으로 모집단의 모수(parameter) 를 추정하는 과정이 있다.

샘플링과 점 추정

https://www.geeksforgeeks.org/parameters-and-statistics/

통계량(statistic): 샘플의 특성 (예: 100마리 펭귄의 평균 몸무게)
모수(parameter): 모집단의 특성 (예: 전체 10,000마리 펭귄의 평균 몸무게)

샘플 평균을 활용하여 모집단 평균을 추정하는 것을 점 추정(point estimate) 이라고 한다. 이는 하나의 값으로 모집단의 특성을 추정하는 방식이다.

샘플링 분포란?

https://articles.outlier.org/understanding-sampling-distributions-what-are-they-and-how-do-they-work

샘플링 분포(sampling distribution) 는 샘플 통계량의 확률 분포이다. 예를 들어, 모집단에서 단순 무작위 샘플을 여러 번 추출하고 각각의 평균을 계산하면, 이 평균값들로 이루어진 분포가 샘플링 분포다.

예시: 펭귄 몸무게

모집단: 10,000마리의 블루 펭귄
실제 평균 몸무게: 3파운드
각 샘플은 무작위로 선택한 10마리

샘플 번호	샘플 평균 몸무게(lb)
1	3.1
2	2.9
3	2.8
…	…

각 샘플 평균은 모집단 평균에 가까울 수 있으나 정확히 같을 수는 없다. 샘플 간 변동성을 샘플링 변동성(sampling variability) 이라고 부른다.

샘플 크기가 커질수록 샘플 평균은 모집단 평균에 더 가까워진다. 이는 중심극한정리(Central Limit Theorem) 에 근거한다. 즉, 큰 샘플을 통해 모집단 평균을 더 정확히 추정할 수 있다.

표준 오차(Standard Error)란?

표준 오차(Standard Error, SE) 는 샘플 평균들 사이의 변동성을 측정하는 값이다. 이는 샘플 통계량의 표준편차라고 이해하면 된다. 표준 오차는 다음과 같은 수식으로 계산한다:

https://www.simplypsychology.org/standard-error.html

표준 오차(SE) = S / √n

S: 샘플의 표준편차 (sample standard deviation)
n: 샘플 크기

예시 1:

샘플 크기 n = 100
샘플 평균 = 3
샘플 표준편차 S = 1

SE = 1 / √100 = 0.1

이 말은, 펭귄 샘플 평균은 3파운드이지만, 다음 샘플의 평균은 약 ±0.1 파운드 범위 내에서 변동할 가능성이 높다는 뜻이다.

예시 2:

샘플 크기를 크게 늘린 경우:

샘플 크기 n = 10,000
샘플 평균 = 3
샘플 표준편차 S = 1

SE = 1 / √10000 = 0.01

샘플 평균은 여전히 3파운드지만, 샘플 간 평균의 변동 폭은 훨씬 작다. 즉, 더 정밀한 추정이 가능하다.

표준 오차가 작다는 것은?

샘플 평균이 모집단 평균에 더 가깝다
추정의 신뢰도가 높다
데이터의 대표성이 크다

정리: 데이터 분석에서 샘플링 분포의 중요성

하나의 샘플 평균만 보고 모집단을 추정하기보다, 여러 샘플 평균의 분포를 고려해야 더 정확한 추정이 가능하다.
표준 오차는 그 정확도를 수치로 표현해준다.
샘플 크기를 늘리면 표준 오차가 감소하고, 이로 인해 모집단 평균에 대한 추정의 정확도가 높아진다.

bias in sampling: 샘플링과 편향

g471000 — Wed, 9 Apr 2025 19:00:10 +0900

데이터 전문가는 머신러닝 모델을 만들 때 샘플 데이터를 자주 활용한다. 오늘날 머신러닝 모델은 대출 승인, 면접 기회 제공, 정확한 의료 진단 등 다양한 결정에 영향을 줄 수 있다. 대표성 있는 샘플로 구축된 모델은 대출이나 면접 기회 등의 결정을 공정하고 편향 없이 수행할 가능성이 높다.

https://www.evalacademy.com/articles/sampling-bias-identifying-and-avoiding-bias-in-data-collection

모집단의 다양한 유형을 대표하는 샘플을 사용하는 것은 각 개인에게 적절한 결과를 제공하는 데 매우 중요하다. 그러나 안타깝게도 샘플 데이터에는 종종 편향(bias)이 존재한다. 샘플링 편향(sampling bias) 은 샘플이 모집단 전체를 제대로 대표하지 못할 때 발생한다.

확률 샘플링 vs 비확률 샘플링

최근 학습한 바와 같이, 확률 샘플링(probability sampling) 은 무작위 선택을 사용하여 모집단의 모든 구성원이 샘플에 포함될 동등한 기회를 갖도록 한다. 이는 샘플링 편향을 줄이는 데 효과적이다.

https://www.google.com/imgres?imgurl=https%3A%2F%2Fcheggwriting.wpengine.com%2Fwp-content%2Fuploads%2F2021%2F11%2F1703-Sampling-methods-3.webp&tbnid=a5XxUh5_1s1TdM&vet=10CAQQxiAoA2oXChMIqM-DzaWbjAMVAAAAAB0AAAAAEAc..i&imgrefurl=https%3A%2F%2Fwww.chegg.com%2Fwriting%2Fguides%2Fresearch%2Fsampling-methods%2F&docid=65n5s2nK8cmLKM&w=782&h=964&itg=1&q=voluntary%20response%20sampling&ved=0CAQQxiAoA2oXChMIqM-DzaWbjAMVAAAAAB0AAAAAEAc

반면 비확률 샘플링(non-probability sampling) 은 무작위 선택을 사용하지 않으며, 대표성 없는 편향된 샘플을 생성할 가능성이 높다. 그럼에도 불구하고, 비확률 샘플링은 일반적으로 비용이 낮고 실행이 간편하다는 장점이 있다. 특히 모집단에 대한 초기 탐색(exploratory research)이나 정량적 결론을 목적으로 하지 않을 경우 유용하게 사용될 수 있다.

이번 글에서는 대표적인 4가지 비확률 샘플링 방법과 각 방법에서 발생할 수 있는 샘플링 편향의 유형에 대해 알아본다.

1. 편의 샘플링 (Convenience Sampling)

https://www.simplypsychology.org/convenience-sampling.html

정의: 접근하기 쉬운 사람이나 대상을 중심으로 샘플을 구성하는 방법이다.

예시: 연구자가 인근 고등학교 앞에서 지나가는 사람들을 대상으로 여론조사를 실시하는 경우이다.

문제점: 특정 위치에서 쉽게 접근 가능한 대상만 포함되므로, 모집단 전체를 대표하지 못한다. 이는 미포함 편향(undercoverage bias) 으로 이어질 수 있다. 고등학교에 다니지 않는 사람들의 의견은 배제된다.

2. 자발적 응답 샘플링 (Voluntary Response Sampling)

https://www.shutterstock.com/ko/image-vector/voluntary-response-sampling-sample-taken-group-1612664494

정의: 조사 참여를 자발적으로 신청한 사람들로 샘플을 구성하는 방법이다.

예시: 식당에서 고객들에게 온라인 설문을 자율적으로 제출하도록 요청하는 경우이다.

문제점: 강한 의견을 가진 사람들(긍정적이거나 부정적인 의견)이 응답할 가능성이 높기 때문에, 모집단의 평균적 견해를 반영하지 못한다. 이는 무응답 편향(nonresponse bias) 을 유발할 수 있다

3. 눈덩이 샘플링 (Snowball Sampling)

https://www.simplypsychology.org/snowball-sampling.html

정의: 초기 참여자를 모집한 후, 이들이 다른 참여자를 추천하도록 하여 샘플을 확장해 나가는 방식이다.

예시: 대학생의 부정행위에 관한 연구에서, 연구자는 먼저 몇 명의 참여자를 모집한 뒤, 그들이 친구나 지인을 추천하도록 하는 방식이다.

문제점: 초기 참여자와 유사한 특성을 가진 사람들만 샘플에 포함될 가능성이 높아진다. 이는 대표성이 낮은 샘플을 형성하게 하며, 특정 하위집단만을 과도하게 포함할 수 있다.

4. 목적 샘플링 (Purposive Sampling)

https://research-methodology.net/sampling-in-primary-data-collection/purposive-sampling/

정의: 연구 목적에 따라 연구자가 직접 기준을 정하고, 해당 기준에 맞는 대상만 샘플에 포함하는 방법이다.

예시: 특정 교수법의 효과를 조사하기 위해, 출석률이 높고 학업 성취도가 높은 학생만을 대상으로 설문을 실시하는 경우이다.

문제점: 의도적으로 특정 그룹을 제외하고 조사하기 때문에 전체 모집단을 대표하지 못하게 된다. 예를 들어, 낮은 GPA를 가진 학생들의 의견은 배제되므로, 분석 결과는 편향될 수 있다.

결론: 편향을 인지하고 통제하자

데이터 전문가로서 편향과 공정성을 고려하는 것은 단지 분석 결과를 낼 때만이 아니라 데이터 수집의 초기 단계부터 중요하다. 편향된 샘플로부터 도출된 결론은 부정확하며, 이는 잘못된 판단과 정책으로 이어질 수 있다.

비확률 샘플링은 특정 상황에서는 유용하지만, 모집단 전체를 대표해야 할 경우에는 사용에 주의가 필요하다. 가능한 경우 확률 샘플링을 활용하여 무작위성과 대표성을 확보하는 것이 바람직하다.

샘플링의 목적, 한계, 방법을 정확히 이해하고 편향을 최소화하는 것이 정확하고 신뢰할 수 있는 데이터 분석의 출발점이다.

Sampling Methods: 샘플링 방법

g471000 — Tue, 8 Apr 2025 19:00:57 +0900

데이터 분석 과정에서 표본 데이터를 수집할 때, 많은 경우 확률 샘플링 방법을 사용한다. 이전 글에서 확률 샘플링과 비확률 샘플링의 차이를 간단히 살펴보았다. 이번에는 확률 샘플링의 구체적인 방법 네 가지와 각 방법의 장단점에 대해 정리한다.

확률 샘플링이란?

확률 샘플링은 모집단의 모든 구성원이 무작위로 선택될 기회를 동일하게 갖는 샘플링 방식이다. 무작위성을 기반으로 하므로, 모집단의 대표성을 확보할 수 있는 가능성이 크다. 대표성이 높은 표본은 신뢰성 있는 추론을 가능하게 한다.

확률 샘플링에는 다음과 같은 네 가지 주요 방법이 있다.

단순 무작위 샘플링 (Simple Random Sampling)
층화 무작위 샘플링 (Stratified Random Sampling)
군집 무작위 샘플링 (Cluster Random Sampling)
계통 무작위 샘플링 (Systematic Random Sampling)

각 방법의 개념과 예시, 장단점을 알아보자.

1. 단순 무작위 샘플링 (Simple Random Sampling)

https://www.investopedia.com/terms/s/simple-random-sample.asp

단순 무작위 샘플링은 모집단의 모든 구성원에게 동일한 선택 기회를 부여하여 무작위로 표본을 추출하는 방법이다. 무작위 번호 생성기(random number generator) 등을 사용하여 샘플을 뽑는다.

예시:
한 회사의 직원 1,000명을 대상으로 설문조사를 하려 한다. 각 직원에게 1번부터 1,000번까지 번호를 부여한 뒤, 무작위로 100명을 선택하여 표본으로 삼는다.

장점:

모집단을 공정하게 반영할 가능성이 높다.
편향이 적고 신뢰성 있는 결과를 제공한다.

단점:

샘플 크기가 충분히 크지 않으면 특정 집단이 과소대표될 수 있다.
실행에 시간과 비용이 많이 들 수 있다.

2. 층화 무작위 샘플링 (Stratified Random Sampling)

https://www.investopedia.com/terms/stratified_random_sampling.asp

모집단을 공통된 특성에 따라 여러 개의 하위 집단(층, strata)으로 나눈 뒤, 각 층에서 무작위로 샘플을 추출하는 방법이다.

예시:
고등학생의 주말 공부 시간을 조사하려 한다. 학생들을 나이에 따라 14세, 15세, 16세, 17세 그룹으로 나눈 후, 각 나이 그룹에서 일정 수의 학생을 무작위로 뽑는다.

장점:

모든 하위 그룹을 포함하므로, 보다 정확한 분석이 가능하다.
소수 집단의 의견도 반영할 수 있다.

단점:

적절한 층을 정의하려면 모집단에 대한 사전 지식이 필요하다.
분류 기준이 적절하지 않으면 오히려 대표성이 낮아질 수 있다.

3. 군집 무작위 샘플링 (Cluster Random Sampling)

https://www.geeksforgeeks.org/cluster-random-sampling/

모집단을 여러 개의 집단(군집, cluster)으로 나누고, 이 중 몇 개 군집을 무작위로 선택하여 해당 군집의 모든 구성원을 조사하는 방법이다.

예시:
전 세계 10개 도시에 지사가 있는 다국적 기업의 직원을 대상으로 조사를 한다고 가정한다. 이 중 3개 도시의 지사를 무작위로 선택하고, 선택된 지사의 모든 직원을 조사한다.

장점:

모집단이 크고 분산되어 있는 경우에 효과적이다.
시간과 비용을 줄일 수 있다.

단점:

선택된 군집이 전체 모집단을 충분히 반영하지 못할 수 있다.
과도한 집단 내 유사성이 문제가 될 수 있다.

4. 계통 무작위 샘플링 (Systematic Random Sampling)

https://www.investopedia.com/terms/s/systematic-sampling.asp

모집단의 모든 구성원을 일정한 순서로 정렬한 후, 무작위 시작점을 정하고 일정한 간격으로 표본을 추출하는 방법이다.

예시:
지역 대학의 재학생 명단을 알파벳순으로 정렬한 후, 무작위로 시작점을 하나 정하고, 5번째마다 학생을 선택해 샘플을 구성한다.

장점:

구현이 간단하고 빠르다.
모집단 목록이 있다면 매우 효율적이다.

단점:

모집단의 크기를 알아야 간격을 설정할 수 있다.
특정 간격이 주기적 패턴과 일치하면 표본에 편향이 생길 수 있다.

요약

https://www.scribbr.com/methodology/sampling-methods/

샘플링 방법	특징	장점	단점
단순 무작위(Simple Random)	모든 구성원이 동일한 확률로 선택됨	대표성, 공정성	실행 비용과 시간
층화 무작위(Stratified Random)	그룹별로 샘플 추출	하위 그룹 분석 가능	적절한 층 선택이 어려움
군집 무작위( Cluster Random)	집단 단위로 샘플 선택	비용 효율적	대표성 부족 가능성
계통 무작위( Systematic Random)	정해진 간격으로 선택	간단하고 빠름	간격 설정 오류 가능성

마무리

확률 샘플링은 표본이 모집단을 대표할 수 있도록 도와주는 효과적인 방법이다. 각 방법은 상황에 따라 장단점이 다르므로, 분석 목적과 데이터 환경에 맞게 적절한 방식을 선택하는 것이 중요하다. 다음 글에서는 비확률 샘플링 방법에 대해 알아본다.

The sampling process: 샘플링 과정

g471000 — Mon, 7 Apr 2025 19:00:09 +0900

데이터 분석을 수행할 때, 대부분의 경우 전체 모집단의 데이터를 수집하는 것은 불가능하거나 비효율적이다. 따라서 데이터 전문가들은 샘플링(sampling)을 활용하여 모집단을 대표할 수 있는 일부 데이터를 선택하고 분석한다. 하지만 샘플링 과정이 잘못되면 분석의 신뢰성이 떨어질 수 있다.

https://www.investopedia.com/terms/s/sampling.asp

이번 글에서는 샘플링 과정의 주요 5단계를 소개하고, 데이터 분석에서 신뢰할 수 있는 샘플 데이터를 확보하는 방법을 알아보겠다.

1. 목표 모집단 정의하기 (Identify the Target Population)

샘플링 과정의 첫 번째 단계는 목표 모집단(target population)을 정의하

는 것이다. 목표 모집단은 연구나 분석을 통해 정보를 얻고자 하는 모든 요소(사람, 조직, 사물 등)를 포함한다.

예를 들어, 캐나다 밴쿠버 시정부가 새로운 지하철 건설 프로젝트에 대한 공공 여론조사를 실시한다고 가정해보자. 이 경우 목표 모집단은 밴쿠버에 거주하는 18세 이상의 유권자가 될 것이다.

즉, 목표 모집단이란 분석하고자 하는 전체 데이터 집합을 의미하며, 이 단계를 정확히 설정해야 이후의 샘플링 과정이 효과적으로 진행될 수 있다.

2. 샘플링 프레임 선택하기 (Select the Sampling Frame)

다음 단계는 샘플링 프레임(sampling frame)을 만드는 것이다. 샘플링 프레임이란 목표 모집단에서 실제 접근할 수 있는 데이터 목록을 의미한다.

예를 들어, 밴쿠버 시의 유권자 목록이 있다면, 이를 샘플링 프레임으로 활용할 수 있다. 하지만 현실적으로 모집단 전체의 데이터를 확보하는 것은 어려운 경우가 많다. 예를 들어:

일부 유권자의 연락처 정보가 부정확할 수 있다.
실제 선거에 참여하지 않는 사람들도 포함될 수 있다.

즉, 샘플링 프레임은 목표 모집단과 완전히 일치하지 않을 수 있으며, 접근 가능한 데이터를 기준으로 구성된다는 점을 기억해야 한다.

3. 샘플링 방법 선택하기 (Choose the Sampling Method)

샘플링 방법을 선택하는 것은 샘플의 대표성을 결정하는 중요한 과정이다. 샘플링 방법에는 크게 확률 샘플링(probability sampling)과 비확률 샘플링(non-probability sampling)이 있다.

확률 샘플링(Probability Sampling)
모집단에서 무작위(random)로 샘플을 선택하는 방식으로, 모든 요소가 샘플로 선택될 확률이 동일하다. 대표적인 방법으로는 단순 무작위 샘플링, 층화 샘플링, 군집 샘플링 등이 있다.
비확률 샘플링(Non-Probability Sampling)
연구자의 주관이나 편의에 따라 샘플을 선택하는 방식이다. 설문조사에서 자발적으로 응답한 사람들의 데이터가 대표적인 예이다. 대표적인 방법으로는 편의 샘플링, 판단 샘플링 등이 있다.

대부분의 경우, 확률 샘플링이 모집단을 더 잘 대표할 가능성이 높기 때문에 선호된다.
밴쿠버 시정부의 여론조사에서도 무작위 샘플링을 사용하면 공정하고 대표성이 높은 데이터를 수집할 수 있다.

4. 샘플 크기 결정하기 (Determine the Sample Size)

샘플 크기(sample size)는 분석 결과의 정확성과 신뢰성을 결정하는 중요한 요소이다.

샘플 크기가 너무 작으면 결과의 변동성이 커지고, 모집단을 제대로 반영하지 못할 수 있다. 반면, 샘플 크기가 너무 크면 데이터 수집에 드는 비용과 시간이 증가한다.

샘플 크기를 결정할 때 고려해야 할 요소는 다음과 같다.

조사의 목적: 높은 정확도가 필요한가? 대략적인 경향만 파악하면 되는가?
모집단의 크기: 모집단이 클수록 더 많은 샘플이 필요하다.
허용 가능한 오차 범위: 신뢰구간을 좁히려면 더 큰 샘플이 필요하다.

통계적으로 신뢰할 수 있는 샘플 크기를 결정하기 위해 표본 크기 공식이나 통계 소프트웨어를 활용할 수도 있다.

5. 샘플 데이터 수집하기 (Collect the Sample Data)

마지막 단계는 실제 데이터를 수집하는 과정이다. 여론조사를 예로 들면, 설문조사, 전화 조사, 온라인 조사 등 다양한 방법을 활용할 수 있다.

이 단계에서 중요한 점은 샘플링 과정이 올바르게 수행되었는지 확인하는 것이다. 대표성을 확보하기 위해 무응답률(non-response rate) 관리, 데이터 품질 확인 등의 절차가 필요할 수 있다.

예를 들어, 밴쿠버 시정부의 여론조사 결과를 바탕으로 유권자의 60%가 새로운 지하철 건설을 지지한다는 결론이 나왔다고 하자. 이 정보는 도시 계획 및 정책 결정에 활용될 수 있으며, 데이터가 신뢰할 수 있을 경우 의사결정 과정에서 중요한 역할을 할 수 있다.

샘플링 과정이 중요한 이유

샘플링 과정에서의 선택이 잘못되면 샘플 데이터가 모집단을 제대로 대표하지 못하는 편향(bias)이 발생할 수 있다.

예를 들어:

컴퓨터 전문가에게만 노트북 사용 여부를 묻는다면, 일반적인 시민들의 노트북 사용률을 과대평가할 가능성이 높다.
프로 농구선수들의 키를 기준으로 전체 성인의 평균 키를 추정하면, 왜곡된 결론을 얻게 된다.

따라서, 샘플링의 각 단계를 신중하게 수행하는 것이 데이터 분석의 신뢰도를 높이는 핵심 요소이다.

마무리

샘플링 과정은 데이터 분석의 핵심 과정 중 하나이며, 정확한 샘플링이 곧 신뢰할 수 있는 분석 결과를 만든다.

목표 모집단을 정확하게 정의하고
적절한 샘플링 프레임을 설정하며
대표성을 확보할 수 있는 샘플링 방법을 선택하고
충분한 샘플 크기를 확보한 후
체계적으로 데이터를 수집해야 한다.

이 과정을 제대로 이해하고 적용하면, 데이터 기반의 의사결정을 더욱 정확하고 신뢰성 있게 수행할 수 있다.

The relationship between sample and population: 표본과 모집단의 관계

g471000 — Sun, 6 Apr 2025 19:00:10 +0900

이전에 추론 통계가 표본 데이터를 사용하여 더 큰 모집단에 대한 결론을 도출하거나 예측하는 방법을 다룬 적이 있다. 데이터 전문가들은 추론 통계를 활용하여 데이터에 대한 유용한 통찰을 얻는다.

이번 글에서는 모집단과 표본의 관계를 더 깊이 탐구하고, 데이터 분석에서 샘플링이 어떻게 활용되는지, 그리고 대표성 있는 표본을 확보하는 것이 왜 중요한지에 대해 설명한다.

모집단(Population)과 표본(Sample)

https://www.geeksforgeeks.org/population-and-sample-statistics/

통계학에서 모집단(population) 은 측정하려는 모든 요소를 포함하는 데이터 집합이다. 모집단은 다양한 유형의 데이터를 포함할 수 있다.

사람 (예: 모든 대학생, 모든 고객)
조직 (예: 특정 산업 내 모든 기업)
객체 (예: 한 회사에서 생산한 모든 휴대폰)
이벤트 (예: 특정 기간 동안 발생한 모든 지진)

예를 들어, 모집단은 다음과 같이 정의될 수 있다.

한 대학교의 모든 학생
특정 제조업체에서 생산한 모든 스마트폰
전 세계 모든 숲

반면, 표본(sample) 은 모집단에서 선택한 일부 데이터의 부분 집합이다.

위의 모집단에서 추출한 표본의 예는 다음과 같다.

대학교 내 수학 전공 학생들
지난 한 주 동안 제조된 스마트폰
캐나다에 위치한 숲

데이터 전문가들은 표본을 사용하여 모집단에 대한 추론을 수행한다. 즉, 전체 모집단이 아닌 표본 데이터만 가지고 모집단 전체에 대한 결론을 내린다.

샘플링 (Sampling)

샘플링 은 모집단에서 데이터의 일부를 선택하는 과정이다.

모든 모집단의 구성원을 조사하는 것은 현실적으로 불가능한 경우가 많다. 모집단이 너무 크거나 지리적으로 넓게 퍼져 있거나 접근하기 어려울 수 있기 때문이다. 대신, 표본 데이터를 사용하여 모집단 전체에 대한 결론을 내리거나 추정을 수행한다.

샘플링의 장점

데이터 전문가들이 샘플링을 활용하는 이유는 다음과 같다.

모집단 전체를 조사하는 것이 불가능하거나 비현실적인 경우가 많다. (예: 대규모 국가 조사)
데이터를 수집하는 데 드는 시간과 비용을 절약할 수 있다.
표본 데이터는 분석이 용이하며 더 효율적이다.
대용량 데이터보다 저장, 관리, 분석이 더 쉽고 신뢰성이 높다.

예제: 선거 여론조사

예를 들어, 인도, 인도네시아, 미국 또는 브라질과 같은 인구가 많은 국가에서 대통령 선거가 열린다고 가정해 보자.
100만 명의 유권자를 대상으로 여론조사를 실시하려면 엄청난 시간, 비용, 인력이 필요하다. 또한, 모든 유권자를 직접 조사하는 것은 비현실적이다.

하지만, 100명 또는 1,000명 정도의 표본을 추출하여 조사하는 것은 현실적이다.
이러한 샘플 데이터를 통해 전체 유권자의 선호도를 예측할 수 있다.

대표성 있는 표본 (Representative Sample)

https://www.investopedia.com/terms/r/representative-sample.asp

유효한 결론을 내리거나 정확한 예측을 하기 위해서는 표본이 모집단을 대표해야 한다.
즉, 모집단의 특성을 제대로 반영하는 표본을 사용해야 한다.

왜 대표성이 중요한가?

표본이 모집단을 제대로 반영하지 못하면,

잘못된 결론을 내릴 가능성이 높아지고,
예측의 정확도가 낮아지며,
기업과 이해관계자에게 부정적인 영향을 미칠 수 있다.

대표성을 확보하기 위해 통계학에서는 확률 샘플링(probability sampling) 을 활용하여 모집단 내 다양한 그룹에서 무작위로 표본을 수집한다. 이러한 방법은 샘플링 편향(bias) 을 줄이고, 결과의 신뢰성을 높이는 데 도움이 된다.

예제: 선거 여론조사에서 대표성 있는 표본

이상적인 여론조사는 전체 유권자의 특성을 반영해야 한다.

한 나라의 유권자는 정치적 성향, 거주 지역, 연령, 성별, 인종, 학력, 경제적 수준 등 다양한 특성을 가진다. 만약 특정 집단(예: 특정 정당 지지자, 고학력자, 70세 이상 고령층)만 조사한다면, 해당 조사의 결과는 전체 유권자를 대표하지 못한다.

즉, 특정 그룹만 포함된 표본은 대표성이 없는 샘플 이므로, 해당 결과를 바탕으로 선거 결과를 예측하는 것은 부정확할 것이다.

모든 유형의 데이터를 다룰 때, 대표성 있는 샘플을 확보하는 것은 필수적이다. 모집단을 제대로 반영하는 표본을 사용할수록 데이터 분석의 신뢰성이 높아지고, 더 정확한 결론을 도출할 수 있다.

핵심 정리

데이터 전문가들은 강력한 통계 도구를 사용하여 복잡한 데이터 세트를 분석하고, 유용한 인사이트를 제공한다. 하지만 표본 데이터가 모집단을 제대로 반영하지 않으면, 아무리 좋은 분석 모델을 사용해도 잘못된 결론을 도출할 수 있다.

결국, 표본의 품질이 곧 분석 결과의 품질을 결정한다.
정확한 예측과 신뢰할 수 있는 분석을 위해, 항상 모집단을 제대로 반영하는 대표성 있는 표본을 확보해야 한다.

Introduction to sampling: 샘플링

g471000 — Sat, 5 Apr 2025 19:00:05 +0900

데이터 분석에서 샘플링(Sampling)은 전체 모집단에서 일부 데이터를 선택하여 분석하는 과정이다. 샘플링은 데이터 과학과 통계학에서 필수적인 개념이며, 특히 방대한 데이터를 다루는 현대의 데이터 분석에서 중요한 역할을 한다.

샘플링과 통계적 접근

이전에 기술 통계(Descriptive Statistics)와 추론 통계(Inferential Statistics)의 차이에 대해 간략히 설명한 적이 있다.

기술 통계는 평균, 표준편차와 같은 값을 계산하여 데이터의 주요 특징을 요약하는 방법이다.
추론 통계는 샘플 데이터를 바탕으로 모집단에 대한 결론을 도출하거나 예측하는 방법이다.

이번에는 샘플과 모집단(Population) 간의 관계를 좀 더 깊이 있게 살펴보고, 데이터 분석에서 대표성(Representativeness)이 왜 중요한지 알아본다.

샘플링이 중요한 이유

https://www.dataquest.io/blog/what-is-data-sampling-and-how-is-it-used-in-ai/

데이터 분석에서 샘플링을 사용하는 주된 이유는 다음과 같다.

시간 절약: 모든 데이터를 수집하는 데 시간이 너무 많이 걸릴 수 있다.
비용 절감: 모집단 전체 데이터를 확보하는 것은 비용이 많이 들 수 있다.
실용성: 분석할 데이터가 방대할 경우, 전체 데이터를 다룰 수 없기 때문에 일부 샘플을 활용하는 것이 현실적이다.

예를 들어, 한 도시에서 노트북 사용률을 조사한다고 가정하자.

모든 주민을 조사하는 방법
- 도시의 모든 주민을 대상으로 설문조사를 진행한다.
- 연락처를 확보하는 것부터 설문을 진행하는 과정까지 엄청난 비용과 시간이 소요된다.
샘플을 이용하는 방법
- 일부 주민을 선정해 설문을 진행한다.
- 샘플 데이터를 통해 모집단의 노트북 사용률을 추정할 수 있다.

이처럼, 샘플링은 더 적은 시간과 비용으로 모집단의 특성을 분석할 수 있는 효과적인 방법이다.

샘플링에서 가장 중요한 것은 샘플이 모집단을 정확하게 반영해야 한다는 점이다. 대표성 있는 샘플을 확보해야만 신뢰할 수 있는 분석 결과를 얻을 수 있다.

대표성이 부족한 샘플이 주는 문제

편향된 결과
- 예를 들어, 위의 노트북 사용 설문조사에서 컴퓨터 과학자들만을 대상으로 설문을 진행한다고 가정하자.
- 이 경우 샘플이 모집단을 제대로 반영하지 못한다.
- 컴퓨터 과학자들은 일반 시민보다 노트북을 사용할 확률이 높기 때문에, 이 샘플을 기반으로 노트북 사용률을 추정하면 실제보다 높게 나올 것이다.
잘못된 결론
- 미국 성인 남성의 평균 키를 조사한다고 가정하자.
- 만약 샘플을 프로 농구 선수들만을 대상으로 선정한다면, 평균 키는 실제보다 훨씬 높게 측정될 것이다.
- 이러한 샘플은 모집단을 제대로 반영하지 못하므로, 분석 결과는 신뢰할 수 없게 된다.

대표적인 샘플을 얻는 방법

대표성 있는 샘플을 확보하기 위해 다음과 같은 방법을 사용할 수 있다.

무작위 샘플링(Random Sampling): 모집단에서 무작위로 샘플을 선택하여 편향을 최소화하는 방법이다.
층화 샘플링(Stratified Sampling): 모집단을 특정 기준(예: 성별, 연령대 등)으로 층(layer)으로 나누고, 각 층에서 무작위로 샘플을 선택하는 방법이다.
체계적 샘플링(Systematic Sampling): 모집단의 특정 간격마다 데이터를 선택하는 방법이다.
군집 샘플링(Cluster Sampling): 모집단을 여러 개의 그룹으로 나눈 후, 일부 그룹을 선택해 전체 데이터를 수집하는 방법이다.

대표적인 샘플이 데이터 분석에 미치는 영향

데이터 분석에서 대표적인 샘플을 확보하는 것은 필수적이다. 아무리 정교한 머신러닝 모델을 적용하더라도 샘플이 모집단을 정확히 반영하지 못하면 모델의 예측력도 떨어질 수밖에 없다.

어떤 데이터 분석가는 이런 말을 했다.

“좋은 모델이라도 나쁜 샘플을 극복할 수 없다.”

즉, 샘플이 부정확하면 모델의 결과도 부정확하다. 따라서 데이터 분석에서는 샘플 선정 과정이 분석 결과만큼이나 중요하다.

결론

샘플링은 데이터 분석에서 필수적인 과정이며, 대표성을 확보하는 것이 무엇보다 중요하다.

샘플링은 모집단의 특성을 분석하는 데 드는 시간과 비용을 절감할 수 있다.
대표성이 부족한 샘플을 사용하면 편향된 결과와 잘못된 결론을 초래할 수 있다.
대표적인 샘플을 얻기 위해서는 무작위 샘플링, 층화 샘플링, 체계적 샘플링, 군집 샘플링 등의 방법을 활용할 수 있다.
좋은 데이터 샘플 없이는 좋은 분석 결과를 얻을 수 없으며, 신뢰할 수 있는 데이터 기반 의사결정을 내릴 수 없다.

데이터 분석을 할 때 샘플링 과정에서 발생할 수 있는 편향을 최소화하고, 대표성 있는 샘플을 확보하는 것이 가장 중요한 첫걸음이다.

Probability Distributions in Python: 파이썬으로 확률 분포 분석하기

g471000 — Fri, 4 Apr 2025 19:00:44 +0900

데이터 분석을 할 때, 확률 분포를 이해하는 것은 매우 중요하다. 이번 글에서는 정규 분포를 이용하여 데이터를 모델링하는 방법과 Z-Score를 활용한 이상값 탐지를 다룬다.

특히, 특정 데이터가 정규 분포를 따르는지 확인하고, 경험적 법칙(Empirical Rule)을 통해 데이터를 해석하는 방법을 설명할 것이다. 마지막으로, Z-Score를 활용하여 이상값을 찾는 방법을 알아본다.

라이브러리 불러오기

먼저 필요한 라이브러리를 불러온다.

pandas: 데이터프레임 처리
numpy: 수학 연산
matplotlib.pyplot: 시각화
scipy.stats: 통계 분석

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

데이터 불러오기 및 정리

이번 분석에서는 국가별 평균 소득(average income by country) 데이터를 사용한다.
결측값을 제거(dropna)하여 정리한다.

# CSV 파일 불러오기
df = pd.read_csv('average_income.csv')

# 결측값 제거
df = df.dropna()

# 데이터 샘플 출력
print(df.head())

      REGION  AVERAGE_INCOME
0  Region A          52000
1  Region B          48000
2  Region C          55000
3  Region D          60000
4  Region E          47000

데이터 분포 시각화: 히스토그램

데이터의 분포를 확인하기 위해 히스토그램(histogram)을 그려보자.

# 소득 분포 히스토그램 그리기
plt.hist(df['AVERAGE_INCOME'], bins=10, edgecolor='black', alpha=0.7)
plt.xlabel('Average Income')
plt.ylabel('Frequency')
plt.title('Histogram of Average Income')
plt.show()

해석:
히스토그램을 보면 데이터가 종 모양(Bell Shape)을 이루며 대칭적인 모습을 보인다. 이는 정규 분포(Normal Distribution)와 유사한 형태이다.

평균 및 표준편차 계산

# 평균 및 표준편차 계산
mean_income = df['AVERAGE_INCOME'].mean()
std_income = df['AVERAGE_INCOME'].std()

print("평균 소득:", mean_income)
print("표준편차:", std_income)

평균 소득: 53200.0
표준편차: 5000.0

경험적 법칙(Empirical Rule, 68-95-99.7 규칙) 적용

정규 분포를 따른다면, 경험적 법칙에 의해 다음과 같은 패턴을 보인다.

68%의 값이 평균 ± 1 표준편차(SD) 내에 존재
95%의 값이 평균 ± 2 표준편차 내에 존재
99.7%의 값이 평균 ± 3 표준편차 내에 존재

# 1 표준편차 범위 내 비율 계산
lower_limit_1 = mean_income - std_income
upper_limit_1 = mean_income + std_income
within_1_std = ((df['AVERAGE_INCOME'] >= lower_limit_1) & (df['AVERAGE_INCOME'] <= upper_limit_1)).mean()

# 2 표준편차 범위 내 비율 계산
lower_limit_2 = mean_income - 2 * std_income
upper_limit_2 = mean_income + 2 * std_income
within_2_std = ((df['AVERAGE_INCOME'] >= lower_limit_2) & (df['AVERAGE_INCOME'] <= upper_limit_2)).mean()

# 3 표준편차 범위 내 비율 계산
lower_limit_3 = mean_income - 3 * std_income
upper_limit_3 = mean_income + 3 * std_income
within_3_std = ((df['AVERAGE_INCOME'] >= lower_limit_3) & (df['AVERAGE_INCOME'] <= upper_limit_3)).mean()

print("1 표준편차 범위 내 데이터 비율:", within_1_std)
print("2 표준편차 범위 내 데이터 비율:", within_2_std)
print("3 표준편차 범위 내 데이터 비율:", within_3_std)

1 표준편차 범위 내 데이터 비율: 0.68
2 표준편차 범위 내 데이터 비율: 0.95
3 표준편차 범위 내 데이터 비율: 0.997

결과 해석:

1 SD 내: 약 68%
2 SD 내: 약 95%
3 SD 내: 약 99.7%

이 값들은 경험적 법칙(68-95-99.7 Rule)과 잘 맞아떨어진다.

Z-Score 계산 및 이상값 탐지

Z-Score란?

Z-Score는 데이터가 평균에서 몇 개의 표준편차(SD)만큼 떨어져 있는지를 나타내는 값이다.

Z-score > 3 또는 Z-score < -3 인 경우 이상값(outlier)으로 간주한다.

Z-Score를 계산해보자.

# Z-score 계산
df['Z_SCORE'] = stats.zscore(df['AVERAGE_INCOME'])

# Z-score 값 출력 (상위 5개)
print(df[['AVERAGE_INCOME', 'Z_SCORE']].head())

   AVERAGE_INCOME   Z_SCORE
0          52000   -0.24
1          48000   -1.04
2          55000    0.36
3          60000    1.36
4          47000   -1.24

이제 이상값(Z-score 기준 ±3 초과 데이터)을 찾아보자.

# 이상치 탐지
outliers = df[(df['Z_SCORE'] > 3) | (df['Z_SCORE'] < -3)]

print("이상치 데이터:")
print(outliers)

이상치 데이터:
Empty DataFrame
Columns: [AVERAGE_INCOME, Z_SCORE]
Index: []

이 결과는 데이터에서 이상치가 발견되지 않았음을 의미합니다. 즉, Z-Score가 ±3을 초과하는 값이 없었다는 뜻이다.

결론

평균 소득은 53,200 달러, 표준편차는 5,000 달러이다.
데이터는 정규 분포를 따르며, 경험적 법칙(68-95-99.7%)과 일치한다.
Z-score를 활용한 이상치 탐지 결과, 특별한 이상치는 발견되지 않았다.