<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
    <title>G471000</title>
    <link>https://g471000.tistory.com/</link>
    <description>G47's Journey</description>
    <language>ko</language>
    <pubDate>Fri, 8 May 2026 19:35:45 +0900</pubDate>
    <generator>TISTORY</generator>
    <ttl>100</ttl>
    <managingEditor>g471000</managingEditor>
    <image>
      <title>G471000</title>
      <url>https://tistory1.daumcdn.net/tistory/4349146/attach/5c40149567e44c6aaa45ec3153c23d58</url>
      <link>https://g471000.tistory.com</link>
    </image>
    <item>
      <title>Generative AI(생성형 AI)의 중요성</title>
      <link>https://g471000.tistory.com/265</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;생성형 AI는 최근 기술 산업에서 가장 주목받는 분야 중 하나이다. 이 기술은 고품질의 텍스트, 이미지, 오디오, 심지어 3D 오브젝트와 음악까지 생성할 수 있는 능력을 가지고 있다. 이러한 AI 모델들은 기존의 데이터를 학습해 그 안의 패턴과 구조를 이해하고, 이를 바탕으로 새로운 데이터를 생성해낸다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1211&quot; data-origin-height=&quot;652&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bth7bV/btsOeXawV5z/K46ZAOkyb6B6JkiINWV9K1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bth7bV/btsOeXawV5z/K46ZAOkyb6B6JkiINWV9K1/img.png&quot; data-alt=&quot;https://www.devoteam.com/expert-view/unlimited-creativity-how-generative-ai-is-transforming-the-world-of-innovation/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bth7bV/btsOeXawV5z/K46ZAOkyb6B6JkiINWV9K1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbth7bV%2FbtsOeXawV5z%2FK46ZAOkyb6B6JkiINWV9K1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1211&quot; height=&quot;652&quot; data-origin-width=&quot;1211&quot; data-origin-height=&quot;652&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.devoteam.com/expert-view/unlimited-creativity-how-generative-ai-is-transforming-the-world-of-innovation/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;h4 data-end=&quot;313&quot; data-start=&quot;296&quot; data-ke-size=&quot;size20&quot;&gt;&amp;nbsp;&lt;/h4&gt;
&lt;h4 data-end=&quot;313&quot; data-start=&quot;296&quot; data-ke-size=&quot;size20&quot;&gt;생성형 AI의 개념과 모델 유형&lt;/h4&gt;
&lt;p data-end=&quot;438&quot; data-start=&quot;315&quot; data-ke-size=&quot;size16&quot;&gt;생성형 AI는 예술가가 수많은 그림을 관찰하고 자신만의 독창적인 작품을 창작하듯, 대규모 데이터를 학습하여 새로운 콘텐츠를 생성하는 방식으로 작동한다. 이 기술은 크게 텍스트, 이미지, 오디오 생성 모델로 나눌 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;438&quot; data-start=&quot;315&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;621&quot; data-start=&quot;440&quot; data-ke-size=&quot;size16&quot;&gt;텍스트 생성 모델은 문맥을 이해하고 단어 간의 관계를 파악하여 자연스럽고 연관성 있는 문장을 만들어낸다. 대표적인 예는 GPT(Generative Pre-trained Transformer)이다. 예를 들어 이야기의 첫 부분을 입력하면 이어질 내용을 지능적으로 생성하거나, 영어 문장을 프랑스어로 자연스럽게 번역할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;621&quot; data-start=&quot;440&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;811&quot; data-start=&quot;623&quot; data-ke-size=&quot;size16&quot;&gt;이미지 생성 모델은 텍스트로부터 이미지를 생성하거나, 기존 이미지를 변형해 새로운 스타일로 만들어낸다. 대표적인 예로는 DALL-E, GAN(Generative Adversarial Network), 그리고 디퓨전 모델이 있다. 예를 들어, &quot;피아노를 연주하는 로봇&quot;이라는 문장을 입력하면 이에 맞는 이미지를 자동으로 만들어낼 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;811&quot; data-start=&quot;623&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;916&quot; data-start=&quot;813&quot; data-ke-size=&quot;size16&quot;&gt;오디오 생성 모델은 자연스러운 음성을 생성하거나 텍스트를 음성으로 변환하는 데 사용된다. 대표적인 모델은 WaveNet으로, 실제 사람의 목소리와 매우 유사한 오디오를 생성할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;916&quot; data-start=&quot;813&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;927&quot; data-start=&quot;918&quot; data-ke-size=&quot;size23&quot;&gt;산업별 적용 사례&lt;/h3&gt;
&lt;p data-end=&quot;958&quot; data-start=&quot;929&quot; data-ke-size=&quot;size16&quot;&gt;생성형 AI는 다양한 산업에서 폭넓게 활용되고 있다.&lt;/p&gt;
&lt;p data-end=&quot;958&quot; data-start=&quot;929&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1121&quot; data-start=&quot;960&quot; data-ke-size=&quot;size16&quot;&gt;헬스케어 분야에서는 의료 이미지를 분석하고, 환자의 검사 결과를 이해하기 쉬운 언어로 요약하여 보고서를 작성하는 데에 활용된다. 예를 들어, 복잡한 혈액 검사 결과를 환자나 보호자가 쉽게 이해할 수 있도록 자연어로 요약해 제공할 수 있다. 이는 환자 경험을 향상시키는 데 큰 도움이 된다.&amp;nbsp;금융 산업에서는 대규모 금융 데이터를 분석하여 예측 모델을 만들고, 시장 동향을 예측하는 데 활용되고,&amp;nbsp;게임 산업에서는 플레이어의 선택에 따라 스토리가 동적으로 변하거나, 상호작용 요소가 풍부한 콘텐츠를 생성하는 데 사용된다. IT 분야에서는 AI 모델을 훈련시키기 위한 인공 데이터를 생성하여 데이터 사이언스와 머신러닝의 정확도를 높이는 데 기여하고 있다.&lt;/p&gt;
&lt;p data-end=&quot;1325&quot; data-start=&quot;1252&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1341&quot; data-start=&quot;1327&quot; data-ke-size=&quot;size23&quot;&gt;Generative(생성형) AI의 미래 가능성&lt;/h3&gt;
&lt;p data-end=&quot;1512&quot; data-start=&quot;1343&quot; data-ke-size=&quot;size16&quot;&gt;생성형 AI는 현재 콘텐츠 제작, 언어 번역, 요약, 고객 지원 챗봇 등 다양한 분야에서 활발히 사용되고 있으며, 앞으로 그 활용 범위는 더욱 넓어질 것으로 보인다. 특히 개인화 추천 시스템, 신약 개발을 통한 의료 혁신, 스마트홈 및 자율주행 기술 통합 등의 분야에서도 중요한 역할을 하게 될 것이다.&lt;/p&gt;
&lt;p data-end=&quot;1512&quot; data-start=&quot;1343&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1601&quot; data-start=&quot;1514&quot; data-ke-size=&quot;size16&quot;&gt;블룸버그 인텔리전스에 따르면, 생성형 AI 시장은 2032년까지 1.3조 달러 규모로 성장할 것으로 전망된다. 이 수치는 기술의 잠재력을 단적으로 보여준다.&lt;/p&gt;
&lt;p data-end=&quot;1606&quot; data-start=&quot;1603&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;1811&quot; data-start=&quot;1608&quot; data-ke-size=&quot;size16&quot;&gt;생성형 AI는 단순히 새로운 콘텐츠를 만드는 기술을 넘어서, 다양한 산업의 문제를 창의적이고 효율적으로 해결하는 도구로 자리 잡아가고 있다. 특히 헬스케어 산업에서는 환자 중심의 서비스를 강화하는 데 중요한 역할을 할 수 있으며, 그 잠재력은 앞으로도 계속 확장될 것이다. AI 기술을 이해하고 적극적으로 활용하는 것이 기술 전문가로서의 중요한 역량이 되고 있다.&lt;/p&gt;</description>
      <category>Machine Learning/Generative AI</category>
      <category>BART</category>
      <category>ChatGPT</category>
      <category>dall-e</category>
      <category>gan</category>
      <category>Generative AI</category>
      <category>GPT</category>
      <category>llm</category>
      <category>생성형 AI</category>
      <author>g471000</author>
      <guid isPermaLink="true">https://g471000.tistory.com/265</guid>
      <comments>https://g471000.tistory.com/265#entry265comment</comments>
      <pubDate>Wed, 28 May 2025 21:00:02 +0900</pubDate>
    </item>
    <item>
      <title>Infer population parameters with the central limit theorem: 극한정리를 활용한 모수 추정하기</title>
      <link>https://g471000.tistory.com/264</link>
      <description>&lt;p data-end=&quot;244&quot; data-start=&quot;136&quot; data-ke-size=&quot;size16&quot;&gt;최근 &lt;a href=&quot;https://g471000.tistory.com/263&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;중심극한정리&lt;/a&gt;에 대해 배우며 다양한 데이터셋을 다루는 방법을 익혔다. 데이터 전문가는 중심극한정리를 활용해 경제, 과학, 비즈니스 등 여러 분야의 데이터를 바탕으로 모집단의 모수를 추정한다.&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;853&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/G3XJn/btsMThUMgnM/ZUNZ8Ag5OafJ9jWEcU6nTk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/G3XJn/btsMThUMgnM/ZUNZ8Ag5OafJ9jWEcU6nTk/img.png&quot; data-alt=&quot;https://www.investopedia.com/terms/c/central_limit_theorem.asp&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/G3XJn/btsMThUMgnM/ZUNZ8Ag5OafJ9jWEcU6nTk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FG3XJn%2FbtsMThUMgnM%2FZUNZ8Ag5OafJ9jWEcU6nTk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1280&quot; height=&quot;853&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;853&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.investopedia.com/terms/c/central_limit_theorem.asp&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;244&quot; data-start=&quot;136&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;362&quot; data-start=&quot;246&quot; data-ke-size=&quot;size16&quot;&gt;이번 글에서는 중심극한정리에 대해 좀 더 자세히 살펴보고, 이를 통해 다양한 데이터에서 모집단의 평균을 추정하는 방법을 알아본다. 중심극한정리의 정의, 적용 조건, 그리고 실제 예제를 통해 내용을 구체화한다.&lt;/p&gt;
&lt;p data-end=&quot;362&quot; data-start=&quot;246&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;531&quot; data-start=&quot;383&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;정의&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;531&quot; data-start=&quot;383&quot; data-ke-size=&quot;size16&quot;&gt;&lt;br /&gt;중심극한정리는 &quot;표본평균의 분포는 표본 크기가 커질수록 정규분포에 가까워진다&quot;는 이론이다. 즉, 표본 크기가 충분히 크면, 표본평균의 분포는 종 모양(정규분포)의 형태를 띠게 된다. 또한, 표본을 많이 추출할수록 표본평균은 모집단의 평균에 근접한다.&lt;/p&gt;
&lt;p data-end=&quot;531&quot; data-start=&quot;383&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;667&quot; data-start=&quot;533&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어, 경량 픽업트럭의 평균 무게를 추정하고 싶다고 가정하자. 수백만 대의 트럭을 모두 측정하는 대신, 대표성이 있는 트럭 샘플을 선정한다. 표본 크기가 충분히 크다면, 이 샘플의 평균 무게는 모집단 전체의 평균 무게에 근접하게 된다.&lt;/p&gt;
&lt;blockquote data-end=&quot;777&quot; data-start=&quot;669&quot; data-ke-style=&quot;style1&quot;&gt;
&lt;p data-end=&quot;777&quot; data-start=&quot;671&quot; data-ke-size=&quot;size16&quot;&gt;중심극한정리는 모집단 분포의 형태가 어떻든 적용할 수 있다. 모집단 분포가 왜곡되었거나 비정규분포 형태일지라도, 충분한 크기의 표본을 여러 번 수집하면 그 평균들의 분포는 정규분포를 따른다.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;793&quot; data-start=&quot;784&quot; data-ke-size=&quot;size20&quot;&gt;적용 조건&lt;/h4&gt;
&lt;p data-end=&quot;829&quot; data-start=&quot;795&quot; data-ke-size=&quot;size16&quot;&gt;중심극한정리를 적용하기 위해서는 다음과 같은 조건이 필요하다.&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;1256&quot; data-start=&quot;831&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;916&quot; data-start=&quot;831&quot;&gt;&lt;b&gt;무작위성(Randomization)&lt;/b&gt;&lt;br /&gt;표본은 무작위로 추출되어야 한다. 즉, 모집단의 모든 구성원이 뽑힐 동일한 기회를 가져야 한다.&lt;/li&gt;
&lt;li data-end=&quot;1031&quot; data-start=&quot;918&quot;&gt;&lt;b&gt;독립성(Independence)&lt;/b&gt;&lt;br /&gt;표본 내 관측값은 서로 독립적이어야 한다. 하나의 관측값이 다른 관측값에 영향을 주지 않아야 한다. 일반적으로 무작위 추출을 통해 독립성이 확보된다.&lt;/li&gt;
&lt;li data-end=&quot;1102&quot; data-start=&quot;1033&quot;&gt;&lt;b&gt;10% 규칙&lt;/b&gt;&lt;br /&gt;복원추출이 아닌 경우, 표본 크기는 전체 모집단의 10%를 넘지 않아야 독립성이 유지된다.&lt;/li&gt;
&lt;li data-end=&quot;1256&quot; data-start=&quot;1104&quot;&gt;&lt;b&gt;충분한 표본 크기&lt;/b&gt;&lt;br /&gt;표본 크기가 클수록 중심극한정리가 성립될 가능성이 높다. 일반적으로 표본 크기 &lt;span&gt;&lt;span&gt;n &amp;ge; 30 &lt;/span&gt;&lt;/span&gt;이면 중심극한정리가 적용 가능하다고 본다. 모집단 분포가 극단적으로 왜곡되어 있을 경우에는 더 큰 표본 크기가 필요할 수 있다.&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;1276&quot; data-start=&quot;1263&quot; data-ke-size=&quot;size20&quot;&gt;예제: 연간 급여&lt;/h4&gt;
&lt;p data-end=&quot;1404&quot; data-start=&quot;1278&quot; data-ke-size=&quot;size16&quot;&gt;부에노스아이레스, 카이로, 델리, 서울 같은 대도시의 직장인을 대상으로 연간 급여를 분석한다고 가정하자. 모집단은 1,000만 명이며, 이들의 평균 연봉을 알고 싶다. 하지만 전부 설문조사하기엔 시간과 비용이 너무 많이 든다.&lt;/p&gt;
&lt;p data-end=&quot;1447&quot; data-start=&quot;1406&quot; data-ke-size=&quot;size16&quot;&gt;대신, 무작위로 100명의 직장인을 반복적으로 추출하여 표본평균을 구한다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1521&quot; data-start=&quot;1449&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1473&quot; data-start=&quot;1449&quot;&gt;첫 번째 표본 평균: $40,300&lt;/li&gt;
&lt;li data-end=&quot;1498&quot; data-start=&quot;1474&quot;&gt;두 번째 표본 평균: $41,100&lt;/li&gt;
&lt;li data-end=&quot;1521&quot; data-start=&quot;1499&quot;&gt;세 번째 표본 평균: $39,700&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1640&quot; data-start=&quot;1523&quot; data-ke-size=&quot;size16&quot;&gt;표본마다 평균은 조금씩 다르지만, 표본 크기를 늘리면 이들의 분포는 점점 종 모양(정규분포)에 가까워진다. 즉, 중심극한정리에 따라 &lt;b&gt;충분히 큰 표본을 무작위로 수집하면 그 평균은 모집단 평균에 근접한다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;1640&quot; data-start=&quot;1523&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1713&quot; data-start=&quot;1642&quot; data-ke-size=&quot;size16&quot;&gt;실제 분석에서는 일반적으로 하나의 표본만 수집하며, 표본 크기는 예산, 시간, 자원, 신뢰 수준 등의 요소를 고려하여 결정한다.&lt;/p&gt;
&lt;p data-end=&quot;1713&quot; data-start=&quot;1642&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1713&quot; data-start=&quot;1642&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;1729&quot; data-start=&quot;1720&quot; data-ke-size=&quot;size20&quot;&gt;핵심 정리&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1947&quot; data-start=&quot;1731&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1782&quot; data-start=&quot;1731&quot;&gt;중심극한정리는 &lt;b&gt;표본평균의 분포가 정규분포를 따르게 되는 경향&lt;/b&gt;을 설명하는 이론이다.&lt;/li&gt;
&lt;li data-end=&quot;1851&quot; data-start=&quot;1783&quot;&gt;&lt;b&gt;표본 크기가 클수록&lt;/b&gt;, &lt;b&gt;무작위 추출을 할수록&lt;/b&gt;, 그리고 &lt;b&gt;독립적인 데이터일수록&lt;/b&gt; 정확한 추정이 가능하다.&lt;/li&gt;
&lt;li data-end=&quot;1899&quot; data-start=&quot;1852&quot;&gt;모집단의 분포 형태와 무관하게, 충분히 큰 표본의 평균 분포는 정규분포를 따른다.&lt;/li&gt;
&lt;li data-end=&quot;1947&quot; data-start=&quot;1900&quot;&gt;중심극한정리를 통해 표본만으로도 모집단의 평균을 &lt;b&gt;정확하게 추정&lt;/b&gt;할 수 있다.&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Machine Learning/Statistics</category>
      <category>central limit theorem</category>
      <category>ML</category>
      <category>데이터과학</category>
      <category>데이터분석</category>
      <category>머신러닝</category>
      <category>샘플링</category>
      <category>정규분포</category>
      <category>중심극한정리</category>
      <category>통계학</category>
      <category>표본분포</category>
      <author>g471000</author>
      <guid isPermaLink="true">https://g471000.tistory.com/264</guid>
      <comments>https://g471000.tistory.com/264#entry264comment</comments>
      <pubDate>Sat, 12 Apr 2025 19:00:38 +0900</pubDate>
    </item>
    <item>
      <title>The Central Limit Theorem: 중심극한정리</title>
      <link>https://g471000.tistory.com/263</link>
      <description>&lt;p data-end=&quot;284&quot; data-start=&quot;162&quot; data-ke-size=&quot;size16&quot;&gt;데이터 분석 업무에서 중심극한정리(Central Limit Theorem, CLT)는 매우 강력한 도구이다. 통계적으로 신뢰할 수 있는 추론을 위해 중심극한정리를 이해하고 적용하는 것은 데이터 전문가에게 필수적이다.&lt;/p&gt;
&lt;p data-end=&quot;284&quot; data-start=&quot;162&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;853&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/b30DRP/btsMSQXIHCT/cVRzW3rryqHQULkKAw4KO1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/b30DRP/btsMSQXIHCT/cVRzW3rryqHQULkKAw4KO1/img.png&quot; data-alt=&quot;https://www.investopedia.com/terms/c/central_limit_theorem.asp&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/b30DRP/btsMSQXIHCT/cVRzW3rryqHQULkKAw4KO1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fb30DRP%2FbtsMSQXIHCT%2FcVRzW3rryqHQULkKAw4KO1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1280&quot; height=&quot;853&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;853&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.investopedia.com/terms/c/central_limit_theorem.asp&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;284&quot; data-start=&quot;162&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;349&quot; data-start=&quot;286&quot; data-ke-size=&quot;size16&quot;&gt;이번 글에서는 중심극한정리가 무엇인지, 그리고 왜 이 정리가 실제 데이터 분석에 유용한지를 예시와 함께 알아본다.&lt;/p&gt;
&lt;p data-end=&quot;399&quot; data-start=&quot;374&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;blockquote data-end=&quot;474&quot; data-start=&quot;401&quot; data-ke-style=&quot;style1&quot;&gt;&lt;span style=&quot;font-family: 'Noto Serif KR';&quot;&gt;표본의 크기가 충분히 크면, 어떤 분포를 가진 모집단이든 간에&lt;br /&gt;표본 평균의 분포는 정규 분포(종 모양의 곡선)를 따른다.&lt;br /&gt;&lt;br /&gt;&lt;/span&gt;&lt;/blockquote&gt;
&lt;p data-end=&quot;560&quot; data-start=&quot;476&quot; data-ke-size=&quot;size16&quot;&gt;이 말은 즉, 모집단의 분포가 치우쳐 있거나 정규 분포가 아니더라도, 표본 크기를 충분히 키우면 표본 평균들의 분포는 정규 분포에 가까워진다는 뜻이다.&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;458&quot; data-origin-height=&quot;361&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/pjDa9/btsMSB7njIF/5sGyJO9OAY9bEWM7Z336E1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/pjDa9/btsMSB7njIF/5sGyJO9OAY9bEWM7Z336E1/img.png&quot; data-alt=&quot;https://math.stackexchange.com/questions/3561114/does-the-central-limit-theorem-only-apply-to-the-sample-mean&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/pjDa9/btsMSB7njIF/5sGyJO9OAY9bEWM7Z336E1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FpjDa9%2FbtsMSB7njIF%2F5sGyJO9OAY9bEWM7Z336E1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;458&quot; height=&quot;361&quot; data-origin-width=&quot;458&quot; data-origin-height=&quot;361&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://math.stackexchange.com/questions/3561114/does-the-central-limit-theorem-only-apply-to-the-sample-mean&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;560&quot; data-start=&quot;476&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;584&quot; data-start=&quot;567&quot; data-ke-size=&quot;size23&quot;&gt;중심극한정리의 활용 예시&lt;/h3&gt;
&lt;h4 data-end=&quot;617&quot; data-start=&quot;586&quot; data-ke-size=&quot;size20&quot;&gt;&amp;nbsp;&lt;/h4&gt;
&lt;h4 data-end=&quot;617&quot; data-start=&quot;586&quot; data-ke-size=&quot;size20&quot;&gt;예시 1: 남아프리카 대학생의 평균 키 추정&lt;/h4&gt;
&lt;p data-end=&quot;739&quot; data-start=&quot;618&quot; data-ke-size=&quot;size16&quot;&gt;모든 학생을 측정하기는 어렵기 때문에, 일부 학생을 무작위로 샘플링하여 평균 키를 측정한다고 하자. 만약 표본의 크기가 충분히 크다면, 이 표본 평균은 전체 모집단(남아프리카 대학생 전체)의 평균 키에 근접하게 된다.&lt;/p&gt;
&lt;p data-end=&quot;739&quot; data-start=&quot;618&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;766&quot; data-start=&quot;741&quot; data-ke-size=&quot;size20&quot;&gt;예시 2: 미국 가구 소득 데이터&lt;/h4&gt;
&lt;p data-end=&quot;848&quot; data-start=&quot;767&quot; data-ke-size=&quot;size16&quot;&gt;미국 가구의 연간 소득 분포는 극소수의 고소득자 때문에 &lt;b&gt;우측으로 치우친(skewed)&lt;/b&gt; 형태를 가진다. 즉, 정규 분포와는 거리가 멀다.&amp;nbsp;하지만 이 분포에서 무작위로 표본을 반복적으로 추출하고, 각 표본의 평균 소득을 구한다면, 이 평균 값들의 분포는 정규 분포에 가까워진다.&lt;/p&gt;
&lt;p data-end=&quot;848&quot; data-start=&quot;767&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;994&quot; data-start=&quot;931&quot; data-ke-size=&quot;size16&quot;&gt;즉, &lt;b&gt;모집단이 정규 분포가 아니어도 표본 평균의 분포는 정규 분포를 따른다&lt;/b&gt;는 것이 중심극한정리의 핵심이다.&lt;/p&gt;
&lt;p data-end=&quot;994&quot; data-start=&quot;931&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;1022&quot; data-start=&quot;1001&quot; data-ke-size=&quot;size20&quot;&gt;예시 3: 미국 커피 소비량&lt;/h4&gt;
&lt;p data-end=&quot;1085&quot; data-start=&quot;1023&quot; data-ke-size=&quot;size16&quot;&gt;미국의 커피 음용자 약 1억 5천만 명 중 일부를 무작위로 샘플링하여 1일 평균 커피 섭취량을 조사한다고 하자.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1158&quot; data-start=&quot;1087&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1110&quot; data-start=&quot;1087&quot;&gt;첫 번째 표본의 평균: 22.5oz&lt;/li&gt;
&lt;li data-end=&quot;1134&quot; data-start=&quot;1111&quot;&gt;두 번째 표본의 평균: 28.2oz&lt;/li&gt;
&lt;li data-end=&quot;1158&quot; data-start=&quot;1135&quot;&gt;세 번째 표본의 평균: 25.4oz&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1234&quot; data-start=&quot;1160&quot; data-ke-size=&quot;size16&quot;&gt;이렇게 여러 번 표본을 추출하여 평균을 구하면, 이 표본 평균 값들의 분포는 점점 종 모양의 &lt;b&gt;정규 분포 곡선&lt;/b&gt;을 띠게 된다.&lt;/p&gt;
&lt;p data-end=&quot;1300&quot; data-start=&quot;1236&quot; data-ke-size=&quot;size16&quot;&gt;결과적으로, 충분한 크기의 대표성 있는 표본 하나만으로도 전체 모집단의 평균을 &lt;b&gt;정확히 추정&lt;/b&gt;할 수 있게 된다.&lt;/p&gt;
&lt;p data-end=&quot;1300&quot; data-start=&quot;1236&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;1325&quot; data-start=&quot;1307&quot; data-ke-size=&quot;size20&quot;&gt;중심극한정리가 유용한 이유&lt;/h4&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;2214&quot; data-origin-height=&quot;1354&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/GoPfD/btsMSnBECe7/qSzT98kDalUoKUIlYkC9eK/img.webp&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/GoPfD/btsMSnBECe7/qSzT98kDalUoKUIlYkC9eK/img.webp&quot; data-alt=&quot;https://corporatefinanceinstitute.com/resources/data-science/central-limit-theorem/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/GoPfD/btsMSnBECe7/qSzT98kDalUoKUIlYkC9eK/img.webp&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FGoPfD%2FbtsMSnBECe7%2FqSzT98kDalUoKUIlYkC9eK%2Fimg.webp&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;2214&quot; height=&quot;1354&quot; data-origin-width=&quot;2214&quot; data-origin-height=&quot;1354&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://corporatefinanceinstitute.com/resources/data-science/central-limit-theorem/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1486&quot; data-start=&quot;1327&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1371&quot; data-start=&quot;1327&quot;&gt;모집단의 분포를 모르더라도 정규성을 전제로 한 통계 기법을 적용할 수 있다.&lt;/li&gt;
&lt;li data-end=&quot;1429&quot; data-start=&quot;1372&quot;&gt;정규 분포를 전제로 하는 많은 통계 분석(예: z-점수, 신뢰 구간, 가설 검정 등)이 가능해진다.&lt;/li&gt;
&lt;li data-end=&quot;1486&quot; data-start=&quot;1430&quot;&gt;큰 표본일수록 평균의 신뢰성이 높아지고, &lt;b&gt;표준오차(Standard Error)&lt;/b&gt;는 작아진다.&lt;/li&gt;
&lt;li data-end=&quot;1597&quot; data-start=&quot;1507&quot;&gt;평균 소득, 평균 키, 평균 근무 시간 등 모집단 평균을 직접 구하기 어려운 경우, 중심극한정리를 기반으로 &lt;b&gt;표본 평균을 사용해 모집단 평균을 추정&lt;/b&gt;한다.&lt;/li&gt;
&lt;li data-end=&quot;1637&quot; data-start=&quot;1598&quot;&gt;이는 경제, 과학, 의료, 사회 통계 등 다양한 분야에서 활용된다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;1651&quot; data-start=&quot;1644&quot; data-ke-size=&quot;size20&quot;&gt;마무리&lt;/h4&gt;
&lt;p data-end=&quot;126&quot; data-start=&quot;92&quot; data-ke-size=&quot;size16&quot;&gt;중심극한정리는 다음 &lt;b&gt;전제 조건들&lt;/b&gt;을 만족할 때 작동한다:&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;268&quot; data-start=&quot;128&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;173&quot; data-start=&quot;128&quot;&gt;&lt;b&gt;표본이 무작위(random sampling)&lt;/b&gt; 로 추출되어야 한다.&lt;/li&gt;
&lt;li data-end=&quot;214&quot; data-start=&quot;174&quot;&gt;&lt;b&gt;표본들이 서로 독립(independent)&lt;/b&gt; 이어야 한다.&lt;/li&gt;
&lt;li data-end=&quot;268&quot; data-start=&quot;215&quot;&gt;&lt;b&gt;표본의 크기 n이 충분히 커야&lt;/b&gt; 한다. (보통 n &amp;ge; 30 이상이면 괜찮다고 본다.)&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-end=&quot;394&quot; data-start=&quot;372&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;하지만 &amp;ldquo;무조건&amp;rdquo; 그렇지는 않다. &lt;/b&gt;아래와 같은 경우에는 중심극한정리의 효과가 떨어지거나 적용되지 않을 수 있다:&lt;/p&gt;
&lt;p data-end=&quot;466&quot; data-start=&quot;441&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;466&quot; data-start=&quot;441&quot; data-ke-size=&quot;size16&quot;&gt;표본이 &lt;b&gt;무작위가 아닌 경우&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;524&quot; data-start=&quot;467&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;524&quot; data-start=&quot;467&quot;&gt;예: 전체 인구에서 특정 집단만 고의적으로 포함했다면 &amp;rarr; 대표성이 없음 &amp;rarr; 중심극한정리 적용 어려움&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;576&quot; data-start=&quot;526&quot; data-ke-size=&quot;size16&quot;&gt;데이터가 &lt;b&gt;강하게 왜곡(skewed)&lt;/b&gt; 되어 있고, 표본이 너무 작을 경우&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;691&quot; data-start=&quot;577&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;642&quot; data-start=&quot;577&quot;&gt;예: 극단적으로 오른쪽으로 긴 꼬리를 가진 분포(예: 소득 분포)에서 n = 10 정도면 아직 종모양이 되지 않음&lt;/li&gt;
&lt;li data-end=&quot;691&quot; data-start=&quot;643&quot;&gt;이런 경우에는 n = 100 이상 되어야 안정적인 정규 분포 형태가 나타나기 시작함&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;714&quot; data-start=&quot;693&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;독립성이 없는 경우&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;803&quot; data-start=&quot;715&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;764&quot; data-start=&quot;715&quot;&gt;예: 시간의 흐름에 따라 수집된 데이터(시계열)는 이전 데이터에 영향을 받을 수 있음&lt;/li&gt;
&lt;li data-end=&quot;764&quot; data-start=&quot;715&quot;&gt;이런 경우에는 단순 평균만으로는 정규 분포가 나오지 않을 수 있음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;907&quot; data-start=&quot;834&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;365&quot; data-start=&quot;270&quot; data-ke-size=&quot;size16&quot;&gt;이 조건을 만족하면, &lt;b&gt;모집단의 분포 모양이 어떤 형태든&lt;/b&gt; (극단적으로 비대칭이거나 정상이 아니어도), &lt;b&gt; &lt;b&gt;&amp;ldquo;어떤 분포라도, 표본 크기만 충분히 크고, 랜덤하게 잘 뽑으면, 평균들의 분포는 정규 분포처럼 행동한다&amp;rdquo;&lt;/b&gt;는 것이 핵심이다. &lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;365&quot; data-start=&quot;270&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1715&quot; data-start=&quot;1653&quot; data-ke-size=&quot;size16&quot;&gt;중심극한정리는 단순한 수학적 이론이 아니라, 실제 데이터를 이해하고 해석하는 데 있어 핵심적인 역할을 한다.&lt;/p&gt;
&lt;p data-end=&quot;1715&quot; data-start=&quot;1653&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1811&quot; data-start=&quot;1717&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&quot;큰 표본은 진실에 가깝다&quot;&lt;/b&gt; 는 말처럼, 대표성 있는 충분한 크기의 표본을 수집하고, 이를 통해 모집단을 추정하는 것이 데이터 전문가의 중요한 임무 중 하나이다.&lt;/p&gt;</description>
      <category>Machine Learning/Statistics</category>
      <category>ML</category>
      <category>데이터 분석</category>
      <category>데이터과학</category>
      <category>머신러닝</category>
      <category>샘플링</category>
      <category>정규분포</category>
      <category>중심극한정리</category>
      <category>통계 기초</category>
      <category>통계학</category>
      <category>표본분포</category>
      <author>g471000</author>
      <guid isPermaLink="true">https://g471000.tistory.com/263</guid>
      <comments>https://g471000.tistory.com/263#entry263comment</comments>
      <pubDate>Fri, 11 Apr 2025 19:00:12 +0900</pubDate>
    </item>
    <item>
      <title>How sampling affects your data: 샘플링이 데이터에 미치는 영향</title>
      <link>https://g471000.tistory.com/262</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;데이터 전문가로 일하면서, 종종 샘플 데이터를 활용해 미래의 매출 예측이나 제품 성능 평가 모델을 만든다. 이러한 작업은 종종 &lt;b&gt;모집단&lt;/b&gt;에 대한 &lt;b&gt;추론(inference)&lt;/b&gt; 을 필요로 한다. 그 중심에는 &lt;b&gt;샘플 통계량&lt;/b&gt;을 기반으로 모집단의 &lt;b&gt;모수(parameter)&lt;/b&gt; 를 추정하는 과정이 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;306&quot; data-start=&quot;293&quot; data-ke-size=&quot;size23&quot;&gt;샘플링과 점 추정&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;800&quot; data-origin-height=&quot;400&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/dqYD7V/btsMS5752im/F1qZcKx8UQH0k6vFI4BDX1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/dqYD7V/btsMS5752im/F1qZcKx8UQH0k6vFI4BDX1/img.png&quot; data-alt=&quot;https://www.geeksforgeeks.org/parameters-and-statistics/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/dqYD7V/btsMS5752im/F1qZcKx8UQH0k6vFI4BDX1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdqYD7V%2FbtsMS5752im%2FF1qZcKx8UQH0k6vFI4BDX1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;800&quot; height=&quot;400&quot; data-origin-width=&quot;800&quot; data-origin-height=&quot;400&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.geeksforgeeks.org/parameters-and-statistics/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;412&quot; data-start=&quot;308&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;358&quot; data-start=&quot;308&quot;&gt;&lt;b&gt;통계량(statistic)&lt;/b&gt;: 샘플의 특성 (예: 100마리 펭귄의 평균 몸무게)&lt;/li&gt;
&lt;li data-end=&quot;412&quot; data-start=&quot;359&quot;&gt;&lt;b&gt;모수(parameter)&lt;/b&gt;: 모집단의 특성 (예: 전체 10,000마리 펭귄의 평균 몸무게)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;505&quot; data-start=&quot;414&quot; data-ke-size=&quot;size16&quot;&gt;샘플 평균을 활용하여 모집단 평균을 추정하는 것을 &lt;b&gt;점 추정(point estimate)&lt;/b&gt; 이라고 한다. 이는 하나의 값으로 모집단의 특성을 추정하는 방식이다.&lt;/p&gt;
&lt;p data-end=&quot;505&quot; data-start=&quot;414&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;523&quot; data-start=&quot;512&quot; data-ke-size=&quot;size23&quot;&gt;샘플링 분포란?&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1080&quot; data-origin-height=&quot;637&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bLangH/btsMSVYMtGv/NpN07v6uMErj8FrYoYW6A0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bLangH/btsMSVYMtGv/NpN07v6uMErj8FrYoYW6A0/img.png&quot; data-alt=&quot;https://articles.outlier.org/understanding-sampling-distributions-what-are-they-and-how-do-they-work&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bLangH/btsMSVYMtGv/NpN07v6uMErj8FrYoYW6A0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbLangH%2FbtsMSVYMtGv%2FNpN07v6uMErj8FrYoYW6A0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1080&quot; height=&quot;637&quot; data-origin-width=&quot;1080&quot; data-origin-height=&quot;637&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://articles.outlier.org/understanding-sampling-distributions-what-are-they-and-how-do-they-work&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;581&quot; data-start=&quot;525&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;581&quot; data-start=&quot;525&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;샘플링 분포(sampling distribution)&lt;/b&gt; 는 &lt;b&gt;샘플 통계량의 확률 분포&lt;/b&gt;이다. 예를 들어, 모집단에서 &lt;b&gt;단순 무작위 샘플&lt;/b&gt;을 여러 번 추출하고 각각의 평균을 계산하면, 이 평균값들로 이루어진 분포가 샘플링 분포다.&lt;/p&gt;
&lt;p data-end=&quot;660&quot; data-start=&quot;583&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;676&quot; data-start=&quot;662&quot; data-ke-size=&quot;size20&quot;&gt;예시: 펭귄 몸무게&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;740&quot; data-start=&quot;678&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;700&quot; data-start=&quot;678&quot;&gt;모집단: 10,000마리의 블루 펭귄&lt;/li&gt;
&lt;li data-end=&quot;718&quot; data-start=&quot;701&quot;&gt;실제 평균 몸무게: 3파운드&lt;/li&gt;
&lt;li data-end=&quot;740&quot; data-start=&quot;719&quot;&gt;각 샘플은 무작위로 선택한 10마리&lt;/li&gt;
&lt;/ul&gt;
&lt;div&gt;&lt;br /&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%;&quot; border=&quot;1&quot; data-end=&quot;923&quot; data-start=&quot;742&quot; data-ke-align=&quot;alignLeft&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 35.814%;&quot;&gt;샘플 번호&lt;/td&gt;
&lt;td style=&quot;width: 64.0698%;&quot;&gt;샘플 평균 몸무게(lb)&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;827&quot; data-start=&quot;796&quot;&gt;
&lt;td style=&quot;width: 35.814%;&quot;&gt;1&lt;/td&gt;
&lt;td style=&quot;width: 64.0698%;&quot;&gt;3.1&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;859&quot; data-start=&quot;828&quot;&gt;
&lt;td style=&quot;width: 35.814%;&quot;&gt;2&lt;/td&gt;
&lt;td style=&quot;width: 64.0698%;&quot;&gt;2.9&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;891&quot; data-start=&quot;860&quot;&gt;
&lt;td style=&quot;width: 35.814%;&quot;&gt;3&lt;/td&gt;
&lt;td style=&quot;width: 64.0698%;&quot;&gt;2.8&lt;/td&gt;
&lt;/tr&gt;
&lt;tr data-end=&quot;923&quot; data-start=&quot;892&quot;&gt;
&lt;td style=&quot;width: 35.814%;&quot;&gt;&amp;hellip;&lt;/td&gt;
&lt;td style=&quot;width: 64.0698%;&quot;&gt;&amp;hellip;&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;/div&gt;
&lt;p data-end=&quot;1022&quot; data-start=&quot;925&quot; data-ke-size=&quot;size16&quot;&gt;각 샘플 평균은 모집단 평균에 가까울 수 있으나 정확히 같을 수는 없다. &lt;b&gt;샘플 간 변동성&lt;/b&gt;을 &lt;b&gt;샘플링 변동성(sampling variability)&lt;/b&gt; 이라고 부른다.&lt;/p&gt;
&lt;p data-end=&quot;1022&quot; data-start=&quot;925&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1135&quot; data-start=&quot;1049&quot; data-ke-size=&quot;size16&quot;&gt;샘플 크기가 커질수록 &lt;b&gt;샘플 평균은 모집단 평균에 더 가까워진다&lt;/b&gt;. 이는 &lt;b&gt;중심극한정리(Central Limit Theorem)&lt;/b&gt; 에 근거한다.&amp;nbsp;즉, 큰 샘플을 통해 모집단 평균을 더 정확히 추정할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1022&quot; data-start=&quot;925&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1022&quot; data-start=&quot;925&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1252&quot; data-start=&quot;1226&quot; data-ke-size=&quot;size23&quot;&gt;표준 오차(Standard Error)란?&lt;/h3&gt;
&lt;p data-end=&quot;1346&quot; data-start=&quot;1254&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;표준 오차(Standard Error, SE)&lt;/b&gt; 는 샘플 평균들 사이의 &lt;b&gt;변동성&lt;/b&gt;을 측정하는 값이다. 이는 &lt;b&gt;샘플 통계량의 표준편차&lt;/b&gt;라고 이해하면 된다. 표준 오차는 다음과 같은 수식으로 계산한다:&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;873&quot; data-origin-height=&quot;256&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/mUXXN/btsMS8Kmj98/2UkwHGC1KJgUr8uco4oHLK/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/mUXXN/btsMS8Kmj98/2UkwHGC1KJgUr8uco4oHLK/img.jpg&quot; data-alt=&quot;https://www.simplypsychology.org/standard-error.html&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/mUXXN/btsMS8Kmj98/2UkwHGC1KJgUr8uco4oHLK/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FmUXXN%2FbtsMS8Kmj98%2F2UkwHGC1KJgUr8uco4oHLK%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;873&quot; height=&quot;256&quot; data-origin-width=&quot;873&quot; data-origin-height=&quot;256&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.simplypsychology.org/standard-error.html&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;div&gt;
&lt;div&gt;
&lt;pre id=&quot;code_1742575812961&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;표준 오차(SE) = S / &amp;radic;n&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1454&quot; data-start=&quot;1402&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1443&quot; data-start=&quot;1402&quot;&gt;S: 샘플의 표준편차 (sample standard deviation)&lt;/li&gt;
&lt;li data-end=&quot;1454&quot; data-start=&quot;1444&quot;&gt;n: 샘플 크기&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 data-end=&quot;1465&quot; data-start=&quot;1456&quot; data-ke-size=&quot;size20&quot;&gt;&amp;nbsp;&lt;/h4&gt;
&lt;h4 data-end=&quot;1465&quot; data-start=&quot;1456&quot; data-ke-size=&quot;size20&quot;&gt;예시 1:&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1516&quot; data-start=&quot;1467&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1484&quot; data-start=&quot;1467&quot;&gt;샘플 크기 n = 100&lt;/li&gt;
&lt;li data-end=&quot;1498&quot; data-start=&quot;1485&quot;&gt;샘플 평균 = 3&lt;/li&gt;
&lt;li data-end=&quot;1516&quot; data-start=&quot;1499&quot;&gt;샘플 표준편차 S = 1&lt;/li&gt;
&lt;/ul&gt;
&lt;div&gt;
&lt;div&gt;
&lt;pre id=&quot;code_1742575838390&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;SE = 1 / &amp;radic;100 = 0.1&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;div&gt;&amp;nbsp;&lt;/div&gt;
&lt;/div&gt;
&lt;p data-end=&quot;1622&quot; data-start=&quot;1547&quot; data-ke-size=&quot;size16&quot;&gt;이 말은, 펭귄 샘플 평균은 3파운드이지만, 다음 샘플의 평균은 &lt;b&gt;약 &amp;plusmn;0.1 파운드 범위 내에서 변동&lt;/b&gt;할 가능성이 높다는 뜻이다.&lt;/p&gt;
&lt;p data-end=&quot;1622&quot; data-start=&quot;1547&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1622&quot; data-start=&quot;1547&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;1638&quot; data-start=&quot;1629&quot; data-ke-size=&quot;size20&quot;&gt;예시 2:&lt;/h4&gt;
&lt;p data-end=&quot;1656&quot; data-start=&quot;1640&quot; data-ke-size=&quot;size16&quot;&gt;샘플 크기를 크게 늘린 경우:&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1686&quot; data-start=&quot;1658&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1678&quot; data-start=&quot;1658&quot;&gt;샘플 크기 n = 10,000&lt;/li&gt;
&lt;li data-start=&quot;1485&quot; data-end=&quot;1498&quot;&gt;샘플 평균 = 3&lt;/li&gt;
&lt;li data-start=&quot;1499&quot; data-end=&quot;1516&quot;&gt;샘플 표준편차 S = 1&lt;/li&gt;
&lt;/ul&gt;
&lt;div&gt;
&lt;div&gt;
&lt;pre id=&quot;code_1742575860897&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;SE = 1 / &amp;radic;10000 = 0.01&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-end=&quot;1783&quot; data-start=&quot;1720&quot; data-ke-size=&quot;size16&quot;&gt;샘플 평균은 여전히 3파운드지만, &lt;b&gt;샘플 간 평균의 변동 폭은 훨씬 작다&lt;/b&gt;. 즉, 더 정밀한 추정이 가능하다.&lt;/p&gt;
&lt;p data-end=&quot;1022&quot; data-start=&quot;925&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1022&quot; data-start=&quot;925&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1808&quot; data-start=&quot;1790&quot; data-ke-size=&quot;size23&quot;&gt;표준 오차가 작다는 것은?&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1873&quot; data-start=&quot;1810&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1836&quot; data-start=&quot;1810&quot;&gt;&lt;b&gt;샘플 평균이 모집단 평균에 더 가깝다&lt;/b&gt;&lt;/li&gt;
&lt;li data-end=&quot;1854&quot; data-start=&quot;1837&quot;&gt;&lt;b&gt;추정의 신뢰도가 높다&lt;/b&gt;&lt;/li&gt;
&lt;li data-end=&quot;1873&quot; data-start=&quot;1855&quot;&gt;&lt;b&gt;데이터의 대표성이 크다&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1022&quot; data-start=&quot;925&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1907&quot; data-start=&quot;1880&quot; data-ke-size=&quot;size23&quot;&gt;정리: 데이터 분석에서 샘플링 분포의 중요성&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2073&quot; data-start=&quot;1909&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1976&quot; data-start=&quot;1909&quot;&gt;하나의 샘플 평균만 보고 모집단을 추정하기보다, &lt;b&gt;여러 샘플 평균의 분포&lt;/b&gt;를 고려해야 더 정확한 추정이 가능하다.&lt;/li&gt;
&lt;li data-end=&quot;2007&quot; data-start=&quot;1977&quot;&gt;&lt;b&gt;표준 오차는 그 정확도를 수치로 표현&lt;/b&gt;해준다.&lt;/li&gt;
&lt;li data-end=&quot;2073&quot; data-start=&quot;2008&quot;&gt;&lt;b&gt;샘플 크기를 늘리면 표준 오차가 감소&lt;/b&gt;하고, 이로 인해 &lt;b&gt;모집단 평균에 대한 추정의 정확도&lt;/b&gt;가 높아진다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1022&quot; data-start=&quot;925&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>Machine Learning/Statistics</category>
      <category>ML</category>
      <category>데이터과학</category>
      <category>데이터분석</category>
      <category>머신러닝</category>
      <category>모수</category>
      <category>샘플링</category>
      <category>샘플링 분포</category>
      <category>통계량</category>
      <category>통계학</category>
      <category>표준오차</category>
      <author>g471000</author>
      <guid isPermaLink="true">https://g471000.tistory.com/262</guid>
      <comments>https://g471000.tistory.com/262#entry262comment</comments>
      <pubDate>Thu, 10 Apr 2025 19:00:25 +0900</pubDate>
    </item>
    <item>
      <title>bias in sampling: 샘플링과 편향</title>
      <link>https://g471000.tistory.com/261</link>
      <description>&lt;p data-end=&quot;279&quot; data-start=&quot;112&quot; data-ke-size=&quot;size16&quot;&gt;데이터 전문가는 머신러닝 모델을 만들 때 샘플 데이터를 자주 활용한다. 오늘날 머신러닝 모델은 대출 승인, 면접 기회 제공, 정확한 의료 진단 등 다양한 결정에 영향을 줄 수 있다. 대표성 있는 샘플로 구축된 모델은 대출이나 면접 기회 등의 결정을 공정하고 편향 없이 수행할 가능성이 높다.&lt;/p&gt;
&lt;p data-end=&quot;279&quot; data-start=&quot;112&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;512&quot; data-origin-height=&quot;314&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bVmljw/btsMSl4SlcA/DfqoLghZ8iXcj4Ebkk91J1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bVmljw/btsMSl4SlcA/DfqoLghZ8iXcj4Ebkk91J1/img.png&quot; data-alt=&quot;https://www.evalacademy.com/articles/sampling-bias-identifying-and-avoiding-bias-in-data-collection&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bVmljw/btsMSl4SlcA/DfqoLghZ8iXcj4Ebkk91J1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbVmljw%2FbtsMSl4SlcA%2FDfqoLghZ8iXcj4Ebkk91J1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;512&quot; height=&quot;314&quot; data-origin-width=&quot;512&quot; data-origin-height=&quot;314&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.evalacademy.com/articles/sampling-bias-identifying-and-avoiding-bias-in-data-collection&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;439&quot; data-start=&quot;281&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;439&quot; data-start=&quot;281&quot; data-ke-size=&quot;size16&quot;&gt;모집단의 다양한 유형을 대표하는 샘플을 사용하는 것은 각 개인에게 적절한 결과를 제공하는 데 매우 중요하다. 그러나 안타깝게도 샘플 데이터에는 종종 편향(bias)이 존재한다. &lt;b&gt;샘플링 편향(sampling bias)&lt;/b&gt; 은 샘플이 모집단 전체를 제대로 대표하지 못할 때 발생한다.&lt;/p&gt;
&lt;p data-end=&quot;439&quot; data-start=&quot;281&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;467&quot; data-start=&quot;446&quot; data-ke-size=&quot;size23&quot;&gt;확률 샘플링 vs 비확률 샘플링&lt;/h3&gt;
&lt;p data-end=&quot;591&quot; data-start=&quot;469&quot; data-ke-size=&quot;size16&quot;&gt;최근 학습한 바와 같이, &lt;a href=&quot;https://g471000.tistory.com/260&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;&lt;b&gt;확률 샘플링(probability sampling)&lt;/b&gt;&lt;/a&gt; 은 무작위 선택을 사용하여 모집단의 모든 구성원이 샘플에 포함될 동등한 기회를 갖도록 한다. 이는 샘플링 편향을 줄이는 데 효과적이다.&lt;/p&gt;
&lt;p data-end=&quot;591&quot; data-start=&quot;469&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;782&quot; data-origin-height=&quot;964&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bf6S8s/btsMTjrvrKu/aTndH1KkVNfDTNngYCh900/img.webp&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bf6S8s/btsMTjrvrKu/aTndH1KkVNfDTNngYCh900/img.webp&quot; data-alt=&quot;https://www.google.com/imgres?imgurl=https%3A%2F%2Fcheggwriting.wpengine.com%2Fwp-content%2Fuploads%2F2021%2F11%2F1703-Sampling-methods-3.webp&amp;amp;amp;tbnid=a5XxUh5_1s1TdM&amp;amp;amp;vet=10CAQQxiAoA2oXChMIqM-DzaWbjAMVAAAAAB0AAAAAEAc..i&amp;amp;amp;imgrefurl=https%3A%2F%2Fwww.chegg.com%2Fwriting%2Fguides%2Fresearch%2Fsampling-methods%2F&amp;amp;amp;docid=65n5s2nK8cmLKM&amp;amp;amp;w=782&amp;amp;amp;h=964&amp;amp;amp;itg=1&amp;amp;amp;q=voluntary%20response%20sampling&amp;amp;amp;ved=0CAQQxiAoA2oXChMIqM-DzaWbjAMVAAAAAB0AAAAAEAc&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bf6S8s/btsMTjrvrKu/aTndH1KkVNfDTNngYCh900/img.webp&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbf6S8s%2FbtsMTjrvrKu%2FaTndH1KkVNfDTNngYCh900%2Fimg.webp&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;413&quot; height=&quot;509&quot; data-origin-width=&quot;782&quot; data-origin-height=&quot;964&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.google.com/imgres?imgurl=https%3A%2F%2Fcheggwriting.wpengine.com%2Fwp-content%2Fuploads%2F2021%2F11%2F1703-Sampling-methods-3.webp&amp;amp;tbnid=a5XxUh5_1s1TdM&amp;amp;vet=10CAQQxiAoA2oXChMIqM-DzaWbjAMVAAAAAB0AAAAAEAc..i&amp;amp;imgrefurl=https%3A%2F%2Fwww.chegg.com%2Fwriting%2Fguides%2Fresearch%2Fsampling-methods%2F&amp;amp;docid=65n5s2nK8cmLKM&amp;amp;w=782&amp;amp;h=964&amp;amp;itg=1&amp;amp;q=voluntary%20response%20sampling&amp;amp;ved=0CAQQxiAoA2oXChMIqM-DzaWbjAMVAAAAAB0AAAAAEAc&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;591&quot; data-start=&quot;469&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;814&quot; data-start=&quot;593&quot; data-ke-size=&quot;size16&quot;&gt;반면 &lt;b&gt;비확률 샘플링(non-probability sampling)&lt;/b&gt; 은 무작위 선택을 사용하지 않으며, 대표성 없는 편향된 샘플을 생성할 가능성이 높다. 그럼에도 불구하고, 비확률 샘플링은 일반적으로 &lt;b&gt;비용이 낮고 실행이 간편&lt;/b&gt;하다는 장점이 있다. 특히 모집단에 대한 초기 탐색(exploratory research)이나 정량적 결론을 목적으로 하지 않을 경우 유용하게 사용될 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;814&quot; data-start=&quot;593&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;889&quot; data-start=&quot;816&quot; data-ke-size=&quot;size16&quot;&gt;이번 글에서는 대표적인 &lt;b&gt;4가지 비확률 샘플링 방법&lt;/b&gt;과 각 방법에서 발생할 수 있는 &lt;b&gt;샘플링 편향&lt;/b&gt;의 유형에 대해 알아본다.&lt;/p&gt;
&lt;p data-end=&quot;889&quot; data-start=&quot;816&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;932&quot; data-start=&quot;896&quot; data-ke-size=&quot;size23&quot;&gt;1. 편의 샘플링 (Convenience Sampling)&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1200&quot; data-origin-height=&quot;750&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bovq01/btsMT1DF0PE/UBjK0KHnWpMYYnNMlDgDHK/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bovq01/btsMT1DF0PE/UBjK0KHnWpMYYnNMlDgDHK/img.jpg&quot; data-alt=&quot;https://www.simplypsychology.org/convenience-sampling.html&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bovq01/btsMT1DF0PE/UBjK0KHnWpMYYnNMlDgDHK/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbovq01%2FbtsMT1DF0PE%2FUBjK0KHnWpMYYnNMlDgDHK%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;639&quot; height=&quot;399&quot; data-origin-width=&quot;1200&quot; data-origin-height=&quot;750&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.simplypsychology.org/convenience-sampling.html&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;978&quot; data-start=&quot;934&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;정의&lt;/b&gt;: 접근하기 쉬운 사람이나 대상을 중심으로 샘플을 구성하는 방법이다.&lt;/p&gt;
&lt;p data-end=&quot;1036&quot; data-start=&quot;980&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;예시&lt;/b&gt;: 연구자가 인근 고등학교 앞에서 지나가는 사람들을 대상으로 여론조사를 실시하는 경우이다.&lt;/p&gt;
&lt;p data-end=&quot;1168&quot; data-start=&quot;1038&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;문제점&lt;/b&gt;: 특정 위치에서 쉽게 접근 가능한 대상만 포함되므로, 모집단 전체를 대표하지 못한다. 이는 &lt;b&gt;미포함 편향(undercoverage bias)&lt;/b&gt; 으로 이어질 수 있다. 고등학교에 다니지 않는 사람들의 의견은 배제된다.&lt;/p&gt;
&lt;p data-end=&quot;1168&quot; data-start=&quot;1038&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1222&quot; data-start=&quot;1175&quot; data-ke-size=&quot;size23&quot;&gt;2. 자발적 응답 샘플링 (Voluntary Response Sampling)&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1500&quot; data-origin-height=&quot;1038&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/Of6KQ/btsMSughGyI/KZPKdCFwPT2Az4s8bxdH4K/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/Of6KQ/btsMSughGyI/KZPKdCFwPT2Az4s8bxdH4K/img.jpg&quot; data-alt=&quot;https://www.shutterstock.com/ko/image-vector/voluntary-response-sampling-sample-taken-group-1612664494&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/Of6KQ/btsMSughGyI/KZPKdCFwPT2Az4s8bxdH4K/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FOf6KQ%2FbtsMSughGyI%2FKZPKdCFwPT2Az4s8bxdH4K%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;643&quot; height=&quot;445&quot; data-origin-width=&quot;1500&quot; data-origin-height=&quot;1038&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.shutterstock.com/ko/image-vector/voluntary-response-sampling-sample-taken-group-1612664494&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;1268&quot; data-start=&quot;1224&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1268&quot; data-start=&quot;1224&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;정의&lt;/b&gt;: 조사 참여를 자발적으로 신청한 사람들로 샘플을 구성하는 방법이다.&lt;/p&gt;
&lt;p data-end=&quot;1319&quot; data-start=&quot;1270&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;예시&lt;/b&gt;: 식당에서 고객들에게 온라인 설문을 자율적으로 제출하도록 요청하는 경우이다.&lt;/p&gt;
&lt;p data-end=&quot;1444&quot; data-start=&quot;1321&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;문제점&lt;/b&gt;: 강한 의견을 가진 사람들(긍정적이거나 부정적인 의견)이 응답할 가능성이 높기 때문에, 모집단의 평균적 견해를 반영하지 못한다. 이는 &lt;b&gt;무응답 편향(nonresponse bias)&lt;/b&gt; 을 유발할 수 있다&lt;/p&gt;
&lt;p data-end=&quot;1444&quot; data-start=&quot;1321&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1485&quot; data-start=&quot;1451&quot; data-ke-size=&quot;size23&quot;&gt;3. 눈덩이 샘플링 (Snowball Sampling)&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;800&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/ol9dh/btsMUj49HX3/HRpqvLWw3j91ueJRbkk7M0/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/ol9dh/btsMUj49HX3/HRpqvLWw3j91ueJRbkk7M0/img.jpg&quot; data-alt=&quot;https://www.simplypsychology.org/snowball-sampling.html&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/ol9dh/btsMUj49HX3/HRpqvLWw3j91ueJRbkk7M0/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fol9dh%2FbtsMUj49HX3%2FHRpqvLWw3j91ueJRbkk7M0%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1280&quot; height=&quot;800&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;800&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.simplypsychology.org/snowball-sampling.html&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;1548&quot; data-start=&quot;1487&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1548&quot; data-start=&quot;1487&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;정의&lt;/b&gt;: 초기 참여자를 모집한 후, 이들이 다른 참여자를 추천하도록 하여 샘플을 확장해 나가는 방식이다.&lt;/p&gt;
&lt;p data-end=&quot;1629&quot; data-start=&quot;1550&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;예시&lt;/b&gt;: 대학생의 부정행위에 관한 연구에서, 연구자는 먼저 몇 명의 참여자를 모집한 뒤, 그들이 친구나 지인을 추천하도록 하는 방식이다.&lt;/p&gt;
&lt;p data-end=&quot;1731&quot; data-start=&quot;1631&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;문제점&lt;/b&gt;: 초기 참여자와 유사한 특성을 가진 사람들만 샘플에 포함될 가능성이 높아진다. 이는 대표성이 낮은 샘플을 형성하게 하며, 특정 하위집단만을 과도하게 포함할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1731&quot; data-start=&quot;1631&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1731&quot; data-start=&quot;1631&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1772&quot; data-start=&quot;1738&quot; data-ke-size=&quot;size23&quot;&gt;4. 목적 샘플링 (Purposive Sampling)&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;728&quot; data-origin-height=&quot;333&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bIbH9E/btsMRYozm9g/2Xs98S044iuMowXfeUQpRK/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bIbH9E/btsMRYozm9g/2Xs98S044iuMowXfeUQpRK/img.jpg&quot; data-alt=&quot;https://research-methodology.net/sampling-in-primary-data-collection/purposive-sampling/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bIbH9E/btsMRYozm9g/2Xs98S044iuMowXfeUQpRK/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbIbH9E%2FbtsMRYozm9g%2F2Xs98S044iuMowXfeUQpRK%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;728&quot; height=&quot;333&quot; data-origin-width=&quot;728&quot; data-origin-height=&quot;333&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://research-methodology.net/sampling-in-primary-data-collection/purposive-sampling/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;1837&quot; data-start=&quot;1774&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1837&quot; data-start=&quot;1774&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;정의&lt;/b&gt;: 연구 목적에 따라 연구자가 직접 기준을 정하고, 해당 기준에 맞는 대상만 샘플에 포함하는 방법이다.&lt;/p&gt;
&lt;p data-end=&quot;1911&quot; data-start=&quot;1839&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;예시&lt;/b&gt;: 특정 교수법의 효과를 조사하기 위해, 출석률이 높고 학업 성취도가 높은 학생만을 대상으로 설문을 실시하는 경우이다.&lt;/p&gt;
&lt;p data-end=&quot;2020&quot; data-start=&quot;1913&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;문제점&lt;/b&gt;: 의도적으로 특정 그룹을 제외하고 조사하기 때문에 전체 모집단을 대표하지 못하게 된다. 예를 들어, 낮은 GPA를 가진 학생들의 의견은 배제되므로, 분석 결과는 편향될 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2020&quot; data-start=&quot;1913&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;2048&quot; data-start=&quot;2027&quot; data-ke-size=&quot;size23&quot;&gt;결론: 편향을 인지하고 통제하자&lt;/h3&gt;
&lt;p data-end=&quot;2173&quot; data-start=&quot;2050&quot; data-ke-size=&quot;size16&quot;&gt;데이터 전문가로서 편향과 공정성을 고려하는 것은 단지 분석 결과를 낼 때만이 아니라 &lt;b&gt;데이터 수집의 초기 단계&lt;/b&gt;부터 중요하다. 편향된 샘플로부터 도출된 결론은 부정확하며, 이는 잘못된 판단과 정책으로 이어질 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2173&quot; data-start=&quot;2050&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2287&quot; data-start=&quot;2175&quot; data-ke-size=&quot;size16&quot;&gt;비확률 샘플링은 특정 상황에서는 유용하지만, &lt;b&gt;모집단 전체를 대표해야 할 경우에는 사용에 주의&lt;/b&gt;가 필요하다. 가능한 경우 &lt;b&gt;확률 샘플링&lt;/b&gt;을 활용하여 무작위성과 대표성을 확보하는 것이 바람직하다.&lt;/p&gt;
&lt;p data-end=&quot;2287&quot; data-start=&quot;2175&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2356&quot; data-start=&quot;2289&quot; data-ke-size=&quot;size16&quot;&gt;샘플링의 목적, 한계, 방법을 정확히 이해하고 편향을 최소화하는 것이 정확하고 신뢰할 수 있는 데이터 분석의 출발점이다.&lt;/p&gt;</description>
      <category>Machine Learning/Statistics</category>
      <category>ML</category>
      <category>눈덩이 샘플링</category>
      <category>데이터과학</category>
      <category>목적 샘플링</category>
      <category>비확률 샘플링</category>
      <category>샘플링</category>
      <category>자발적 응답 샘플링</category>
      <category>통계학</category>
      <category>편의 샘플링</category>
      <category>편향</category>
      <author>g471000</author>
      <guid isPermaLink="true">https://g471000.tistory.com/261</guid>
      <comments>https://g471000.tistory.com/261#entry261comment</comments>
      <pubDate>Wed, 9 Apr 2025 19:00:10 +0900</pubDate>
    </item>
    <item>
      <title>Sampling Methods: 샘플링 방법</title>
      <link>https://g471000.tistory.com/260</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;데이터 분석 과정에서 표본 데이터를 수집할 때, 많은 경우 확률 샘플링 방법을 사용한다. 이전 글에서 확률 샘플링과 비확률 샘플링의 차이를 간단히 살펴보았다. 이번에는 확률 샘플링의 구체적인 방법 &lt;b&gt;네 가지와 각 방법의 장단점&lt;/b&gt;에 대해 정리한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h2 data-end=&quot;265&quot; data-start=&quot;253&quot; data-ke-size=&quot;size26&quot;&gt;확률 샘플링이란?&lt;/h2&gt;
&lt;p data-end=&quot;394&quot; data-start=&quot;267&quot; data-ke-size=&quot;size16&quot;&gt;확률 샘플링은 모집단의 모든 구성원이 무작위로 선택될 기회를 동일하게 갖는 샘플링 방식이다. 무작위성을 기반으로 하므로, 모집단의 대표성을 확보할 수 있는 가능성이 크다. 대표성이 높은 표본은 신뢰성 있는 추론을 가능하게 한다.&lt;/p&gt;
&lt;p data-end=&quot;427&quot; data-start=&quot;396&quot; data-ke-size=&quot;size16&quot;&gt;확률 샘플링에는 다음과 같은 네 가지 주요 방법이 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;595&quot; data-start=&quot;429&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;468&quot; data-start=&quot;429&quot;&gt;단순 무작위 샘플링 (Simple Random Sampling)&lt;/li&gt;
&lt;li data-end=&quot;512&quot; data-start=&quot;469&quot;&gt;층화 무작위 샘플링 (Stratified Random Sampling)&lt;/li&gt;
&lt;li data-end=&quot;553&quot; data-start=&quot;513&quot;&gt;군집 무작위 샘플링 (Cluster Random Sampling)&lt;/li&gt;
&lt;li data-end=&quot;595&quot; data-start=&quot;554&quot;&gt;계통 무작위 샘플링 (Systematic Random Sampling)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;621&quot; data-start=&quot;597&quot; data-ke-size=&quot;size16&quot;&gt;각 방법의 개념과 예시, 장단점을 알아보자.&lt;/p&gt;
&lt;p data-end=&quot;621&quot; data-start=&quot;597&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;669&quot; data-start=&quot;628&quot; data-ke-size=&quot;size23&quot;&gt;1. 단순 무작위 샘플링 (Simple Random Sampling)&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;853&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bhxeGo/btsMR8dc40o/ixwCQBB9tY79d2Lwc3IVt0/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bhxeGo/btsMR8dc40o/ixwCQBB9tY79d2Lwc3IVt0/img.jpg&quot; data-alt=&quot;https://www.investopedia.com/terms/s/simple-random-sample.asp&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bhxeGo/btsMR8dc40o/ixwCQBB9tY79d2Lwc3IVt0/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbhxeGo%2FbtsMR8dc40o%2FixwCQBB9tY79d2Lwc3IVt0%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;717&quot; height=&quot;478&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;853&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.investopedia.com/terms/s/simple-random-sample.asp&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;785&quot; data-start=&quot;671&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;785&quot; data-start=&quot;671&quot; data-ke-size=&quot;size16&quot;&gt;단순 무작위 샘플링은 모집단의 모든 구성원에게 동일한 선택 기회를 부여하여 무작위로 표본을 추출하는 방법이다. 무작위 번호 생성기(random number generator) 등을 사용하여 샘플을 뽑는다.&lt;/p&gt;
&lt;p data-end=&quot;785&quot; data-start=&quot;671&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;889&quot; data-start=&quot;787&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;예시:&lt;/b&gt;&lt;br /&gt;한 회사의 직원 1,000명을 대상으로 설문조사를 하려 한다. 각 직원에게 1번부터 1,000번까지 번호를 부여한 뒤, 무작위로 100명을 선택하여 표본으로 삼는다.&lt;/p&gt;
&lt;p data-end=&quot;900&quot; data-start=&quot;891&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;장점:&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;953&quot; data-start=&quot;901&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;927&quot; data-start=&quot;901&quot;&gt;모집단을 공정하게 반영할 가능성이 높다.&lt;/li&gt;
&lt;li data-end=&quot;953&quot; data-start=&quot;928&quot;&gt;편향이 적고 신뢰성 있는 결과를 제공한다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;964&quot; data-start=&quot;955&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;단점:&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1030&quot; data-start=&quot;965&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1005&quot; data-start=&quot;965&quot;&gt;샘플 크기가 충분히 크지 않으면 특정 집단이 과소대표될 수 있다.&lt;/li&gt;
&lt;li data-end=&quot;1030&quot; data-start=&quot;1006&quot;&gt;실행에 시간과 비용이 많이 들 수 있다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1082&quot; data-start=&quot;1037&quot; data-ke-size=&quot;size23&quot;&gt;2. 층화 무작위 샘플링 (Stratified Random Sampling)&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;853&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/beFKQz/btsMTFt3KcC/tKiA6UkJ9u1GvMGX0zdjhk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/beFKQz/btsMTFt3KcC/tKiA6UkJ9u1GvMGX0zdjhk/img.png&quot; data-alt=&quot;https://www.investopedia.com/terms/stratified_random_sampling.asp&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/beFKQz/btsMTFt3KcC/tKiA6UkJ9u1GvMGX0zdjhk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbeFKQz%2FbtsMTFt3KcC%2FtKiA6UkJ9u1GvMGX0zdjhk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;695&quot; height=&quot;463&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;853&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.investopedia.com/terms/stratified_random_sampling.asp&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;1156&quot; data-start=&quot;1084&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1156&quot; data-start=&quot;1084&quot; data-ke-size=&quot;size16&quot;&gt;모집단을 공통된 특성에 따라 여러 개의 하위 집단(층, strata)으로 나눈 뒤, 각 층에서 무작위로 샘플을 추출하는 방법이다.&lt;/p&gt;
&lt;p data-end=&quot;1156&quot; data-start=&quot;1084&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1264&quot; data-start=&quot;1158&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;예시:&lt;/b&gt;&lt;br /&gt;고등학생의 주말 공부 시간을 조사하려 한다. 학생들을 나이에 따라 14세, 15세, 16세, 17세 그룹으로 나눈 후, 각 나이 그룹에서 일정 수의 학생을 무작위로 뽑는다.&lt;/p&gt;
&lt;p data-end=&quot;1264&quot; data-start=&quot;1158&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1275&quot; data-start=&quot;1266&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;장점:&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1336&quot; data-start=&quot;1276&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1313&quot; data-start=&quot;1276&quot;&gt;모든 하위 그룹을 포함하므로, 보다 정확한 분석이 가능하다.&lt;/li&gt;
&lt;li data-end=&quot;1336&quot; data-start=&quot;1314&quot;&gt;소수 집단의 의견도 반영할 수 있다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1347&quot; data-start=&quot;1338&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;단점:&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1422&quot; data-start=&quot;1348&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1385&quot; data-start=&quot;1348&quot;&gt;적절한 층을 정의하려면 모집단에 대한 사전 지식이 필요하다.&lt;/li&gt;
&lt;li data-end=&quot;1422&quot; data-start=&quot;1386&quot;&gt;분류 기준이 적절하지 않으면 오히려 대표성이 낮아질 수 있다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1471&quot; data-start=&quot;1429&quot; data-ke-size=&quot;size23&quot;&gt;3. 군집 무작위 샘플링 (Cluster Random Sampling)&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1000&quot; data-origin-height=&quot;470&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/o02Lk/btsMTX8YLds/4ZrNVk5LzzMsAtgfb0koR0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/o02Lk/btsMTX8YLds/4ZrNVk5LzzMsAtgfb0koR0/img.png&quot; data-alt=&quot;https://www.geeksforgeeks.org/cluster-random-sampling/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/o02Lk/btsMTX8YLds/4ZrNVk5LzzMsAtgfb0koR0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fo02Lk%2FbtsMTX8YLds%2F4ZrNVk5LzzMsAtgfb0koR0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1000&quot; height=&quot;470&quot; data-origin-width=&quot;1000&quot; data-origin-height=&quot;470&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.geeksforgeeks.org/cluster-random-sampling/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;1554&quot; data-start=&quot;1473&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1554&quot; data-start=&quot;1473&quot; data-ke-size=&quot;size16&quot;&gt;모집단을 여러 개의 집단(군집, cluster)으로 나누고, 이 중 몇 개 군집을 무작위로 선택하여 해당 군집의 모든 구성원을 조사하는 방법이다.&lt;/p&gt;
&lt;p data-end=&quot;1554&quot; data-start=&quot;1473&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1663&quot; data-start=&quot;1556&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;예시:&lt;/b&gt;&lt;br /&gt;전 세계 10개 도시에 지사가 있는 다국적 기업의 직원을 대상으로 조사를 한다고 가정한다. 이 중 3개 도시의 지사를 무작위로 선택하고, 선택된 지사의 모든 직원을 조사한다.&lt;/p&gt;
&lt;p data-end=&quot;1663&quot; data-start=&quot;1556&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1674&quot; data-start=&quot;1665&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;장점:&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1724&quot; data-start=&quot;1675&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1705&quot; data-start=&quot;1675&quot;&gt;모집단이 크고 분산되어 있는 경우에 효과적이다.&lt;/li&gt;
&lt;li data-end=&quot;1724&quot; data-start=&quot;1706&quot;&gt;시간과 비용을 줄일 수 있다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1735&quot; data-start=&quot;1726&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;단점:&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1801&quot; data-start=&quot;1736&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1773&quot; data-start=&quot;1736&quot;&gt;선택된 군집이 전체 모집단을 충분히 반영하지 못할 수 있다.&lt;/li&gt;
&lt;li data-end=&quot;1801&quot; data-start=&quot;1774&quot;&gt;과도한 집단 내 유사성이 문제가 될 수 있다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1853&quot; data-start=&quot;1808&quot; data-ke-size=&quot;size23&quot;&gt;4. 계통 무작위 샘플링 (Systematic Random Sampling)&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;853&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/8geGJ/btsMTL1SIrn/3uukhNPK2KvkNfa25LMcXK/img.webp&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/8geGJ/btsMTL1SIrn/3uukhNPK2KvkNfa25LMcXK/img.webp&quot; data-alt=&quot;https://www.investopedia.com/terms/s/systematic-sampling.asp&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/8geGJ/btsMTL1SIrn/3uukhNPK2KvkNfa25LMcXK/img.webp&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2F8geGJ%2FbtsMTL1SIrn%2F3uukhNPK2KvkNfa25LMcXK%2Fimg.webp&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;593&quot; height=&quot;395&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;853&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.investopedia.com/terms/s/systematic-sampling.asp&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;1919&quot; data-start=&quot;1855&quot; data-ke-size=&quot;size16&quot;&gt;모집단의 모든 구성원을 일정한 순서로 정렬한 후, 무작위 시작점을 정하고 일정한 간격으로 표본을 추출하는 방법이다.&lt;/p&gt;
&lt;p data-end=&quot;2001&quot; data-start=&quot;1921&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2001&quot; data-start=&quot;1921&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;예시:&lt;/b&gt;&lt;br /&gt;지역 대학의 재학생 명단을 알파벳순으로 정렬한 후, 무작위로 시작점을 하나 정하고, 5번째마다 학생을 선택해 샘플을 구성한다.&lt;/p&gt;
&lt;p data-end=&quot;2012&quot; data-start=&quot;2003&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2012&quot; data-start=&quot;2003&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;장점:&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2054&quot; data-start=&quot;2013&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2030&quot; data-start=&quot;2013&quot;&gt;구현이 간단하고 빠르다.&lt;/li&gt;
&lt;li data-end=&quot;2054&quot; data-start=&quot;2031&quot;&gt;모집단 목록이 있다면 매우 효율적이다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2065&quot; data-start=&quot;2056&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;단점:&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2135&quot; data-start=&quot;2066&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2096&quot; data-start=&quot;2066&quot;&gt;모집단의 크기를 알아야 간격을 설정할 수 있다.&lt;/li&gt;
&lt;li data-end=&quot;2135&quot; data-start=&quot;2097&quot;&gt;특정 간격이 주기적 패턴과 일치하면 표본에 편향이 생길 수 있다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;2147&quot; data-start=&quot;2142&quot; data-ke-size=&quot;size23&quot;&gt;요약&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;701&quot; data-origin-height=&quot;638&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bP2LJE/btsMSPc9cxs/8QkD4oGzoBknfAKlKNkiXK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bP2LJE/btsMSPc9cxs/8QkD4oGzoBknfAKlKNkiXK/img.png&quot; data-alt=&quot;https://www.scribbr.com/methodology/sampling-methods/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bP2LJE/btsMSPc9cxs/8QkD4oGzoBknfAKlKNkiXK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbP2LJE%2FbtsMSPc9cxs%2F8QkD4oGzoBknfAKlKNkiXK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;701&quot; height=&quot;638&quot; data-origin-width=&quot;701&quot; data-origin-height=&quot;638&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.scribbr.com/methodology/sampling-methods/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;div&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%; height: 114px;&quot; border=&quot;1&quot; data-end=&quot;2419&quot; data-start=&quot;2149&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style13&quot;&gt;
&lt;tbody&gt;
&lt;tr style=&quot;height: 17px;&quot;&gt;
&lt;td style=&quot;height: 17px;&quot;&gt;샘플링 방법&lt;/td&gt;
&lt;td style=&quot;height: 17px;&quot;&gt;특징&lt;/td&gt;
&lt;td style=&quot;height: 17px;&quot;&gt;장점&lt;/td&gt;
&lt;td style=&quot;height: 17px;&quot;&gt;단점&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 20px;&quot; data-end=&quot;2267&quot; data-start=&quot;2212&quot;&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;단순 무작위(Simple Random)&lt;/td&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;모든 구성원이 동일한 확률로 선택됨&lt;/td&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;대표성, 공정성&lt;/td&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;실행 비용과 시간&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 20px;&quot; data-end=&quot;2321&quot; data-start=&quot;2268&quot;&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;층화 무작위(Stratified Random)&lt;/td&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;그룹별로 샘플 추출&lt;/td&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;하위 그룹 분석 가능&lt;/td&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;적절한 층 선택이 어려움&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 20px;&quot; data-end=&quot;2369&quot; data-start=&quot;2322&quot;&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;군집 무작위( Cluster Random)&lt;/td&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;집단 단위로 샘플 선택&lt;/td&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;비용 효율적&lt;/td&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;대표성 부족 가능성&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 20px;&quot; data-end=&quot;2419&quot; data-start=&quot;2370&quot;&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;계통 무작위( Systematic Random)&lt;/td&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;정해진 간격으로 선택&lt;/td&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;간단하고 빠름&lt;/td&gt;
&lt;td style=&quot;height: 20px;&quot;&gt;간격 설정 오류 가능성&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;/div&gt;
&lt;h2 data-end=&quot;2432&quot; data-start=&quot;2426&quot; data-ke-size=&quot;size26&quot;&gt;&amp;nbsp;&lt;/h2&gt;
&lt;h3 data-end=&quot;2432&quot; data-start=&quot;2426&quot; data-ke-size=&quot;size23&quot;&gt;마무리&lt;/h3&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;2573&quot; data-start=&quot;2434&quot; data-ke-size=&quot;size16&quot;&gt;확률 샘플링은 표본이 모집단을 대표할 수 있도록 도와주는 효과적인 방법이다. 각 방법은 상황에 따라 장단점이 다르므로, 분석 목적과 데이터 환경에 맞게 적절한 방식을 선택하는 것이 중요하다. 다음 글에서는 &lt;b&gt;비확률 샘플링&lt;/b&gt; 방법에 대해 알아본다.&lt;/p&gt;</description>
      <category>Machine Learning/Statistics</category>
      <category>ML</category>
      <category>random sampling</category>
      <category>계통 무작위</category>
      <category>군집 무작위</category>
      <category>단순 무작위</category>
      <category>데이터샘플링</category>
      <category>층화 무작위</category>
      <category>통계학</category>
      <category>표본추출</category>
      <category>확률 샘플링</category>
      <author>g471000</author>
      <guid isPermaLink="true">https://g471000.tistory.com/260</guid>
      <comments>https://g471000.tistory.com/260#entry260comment</comments>
      <pubDate>Tue, 8 Apr 2025 19:00:57 +0900</pubDate>
    </item>
    <item>
      <title>The sampling process: 샘플링 과정</title>
      <link>https://g471000.tistory.com/259</link>
      <description>&lt;p data-end=&quot;346&quot; data-start=&quot;179&quot; data-ke-size=&quot;size16&quot;&gt;데이터 분석을 수행할 때, 대부분의 경우 전체 모집단의 데이터를 수집하는 것은 불가능하거나 비효율적이다. 따라서 데이터 전문가들은 &lt;a href=&quot;https://g471000.tistory.com/257&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;샘플링(sampling)&lt;/a&gt;을 활용하여 모집단을 대표할 수 있는 일부 데이터를 선택하고 분석한다. 하지만 샘플링 과정이 잘못되면 분석의 신뢰성이 떨어질 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;346&quot; data-start=&quot;179&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;853&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/XDcX9/btsMQdszYyI/0DxfgX8sV4aLMKw9hsMdwK/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/XDcX9/btsMQdszYyI/0DxfgX8sV4aLMKw9hsMdwK/img.jpg&quot; data-alt=&quot;https://www.investopedia.com/terms/s/sampling.asp&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/XDcX9/btsMQdszYyI/0DxfgX8sV4aLMKw9hsMdwK/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FXDcX9%2FbtsMQdszYyI%2F0DxfgX8sV4aLMKw9hsMdwK%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1280&quot; height=&quot;853&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;853&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.investopedia.com/terms/s/sampling.asp&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;346&quot; data-start=&quot;179&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;423&quot; data-start=&quot;348&quot; data-ke-size=&quot;size16&quot;&gt;이번 글에서는 &lt;b&gt;샘플링 과정의 주요 5단계&lt;/b&gt;를 소개하고, 데이터 분석에서 신뢰할 수 있는 샘플 데이터를 확보하는 방법을 알아보겠다.&lt;/p&gt;
&lt;p data-end=&quot;423&quot; data-start=&quot;348&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;480&quot; data-start=&quot;430&quot; data-ke-size=&quot;size23&quot;&gt;1. 목표 모집단 정의하기 (Identify the Target Population)&lt;/h3&gt;
&lt;p data-end=&quot;602&quot; data-start=&quot;482&quot; data-ke-size=&quot;size16&quot;&gt;샘플링 과정의 첫 번째 단계는 &lt;b&gt;목표 모집단(target population)&lt;/b&gt;을 정의하&lt;/p&gt;
&lt;p data-end=&quot;602&quot; data-start=&quot;482&quot; data-ke-size=&quot;size16&quot;&gt;는 것이다. 목표 모집단은 연구나 분석을 통해 정보를 얻고자 하는 &lt;b&gt;모든 요소&lt;/b&gt;(사람, 조직, 사물 등)를 포함한다.&lt;/p&gt;
&lt;p data-end=&quot;602&quot; data-start=&quot;482&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;716&quot; data-start=&quot;604&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어, 캐나다 밴쿠버 시정부가 &lt;b&gt;새로운 지하철 건설 프로젝트에 대한 공공 여론조사&lt;/b&gt;를 실시한다고 가정해보자. 이 경우 목표 모집단은 &lt;b&gt;밴쿠버에 거주하는 18세 이상의 유권자&lt;/b&gt;가 될 것이다.&lt;/p&gt;
&lt;p data-end=&quot;716&quot; data-start=&quot;604&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;802&quot; data-start=&quot;718&quot; data-ke-size=&quot;size16&quot;&gt;즉, &lt;b&gt;목표 모집단&lt;/b&gt;이란 분석하고자 하는 전체 데이터 집합을 의미하며, 이 단계를 정확히 설정해야 이후의 샘플링 과정이 효과적으로 진행될 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;802&quot; data-start=&quot;718&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;802&quot; data-start=&quot;718&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;855&quot; data-start=&quot;809&quot; data-ke-size=&quot;size23&quot;&gt;2. 샘플링 프레임 선택하기 (Select the Sampling Frame)&lt;/h3&gt;
&lt;p data-end=&quot;950&quot; data-start=&quot;857&quot; data-ke-size=&quot;size16&quot;&gt;다음 단계는 &lt;b&gt;샘플링 프레임(sampling frame)&lt;/b&gt;을 만드는 것이다. 샘플링 프레임이란 &lt;b&gt;목표 모집단에서 실제 접근할 수 있는 데이터 목록&lt;/b&gt;을 의미한다.&lt;/p&gt;
&lt;p data-end=&quot;1055&quot; data-start=&quot;952&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어, 밴쿠버 시의 &lt;b&gt;유권자 목록&lt;/b&gt;이 있다면, 이를 샘플링 프레임으로 활용할 수 있다. 하지만 현실적으로 모집단 전체의 데이터를 확보하는 것은 어려운 경우가 많다. 예를 들어:&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1117&quot; data-start=&quot;1057&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1085&quot; data-start=&quot;1057&quot;&gt;일부 유권자의 연락처 정보가 부정확할 수 있다.&lt;/li&gt;
&lt;li data-end=&quot;1117&quot; data-start=&quot;1086&quot;&gt;실제 선거에 참여하지 않는 사람들도 포함될 수 있다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1196&quot; data-start=&quot;1119&quot; data-ke-size=&quot;size16&quot;&gt;즉, &lt;b&gt;샘플링 프레임은 목표 모집단과 완전히 일치하지 않을 수 있으며, 접근 가능한 데이터를 기준으로 구성된다&lt;/b&gt;는 점을 기억해야 한다.&lt;/p&gt;
&lt;p data-end=&quot;1196&quot; data-start=&quot;1119&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1249&quot; data-start=&quot;1203&quot; data-ke-size=&quot;size23&quot;&gt;3. 샘플링 방법 선택하기 (Choose the Sampling Method)&lt;/h3&gt;
&lt;p data-end=&quot;1379&quot; data-start=&quot;1251&quot; data-ke-size=&quot;size16&quot;&gt;샘플링 방법을 선택하는 것은 샘플의 대표성을 결정하는 중요한 과정이다. 샘플링 방법에는 크게 &lt;b&gt;확률 샘플링(probability sampling)&lt;/b&gt;과 &lt;b&gt;비확률 샘플링(non-probability sampling)&lt;/b&gt;이 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1674&quot; data-start=&quot;1381&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1527&quot; data-start=&quot;1381&quot;&gt;&lt;b&gt;확률 샘플링(Probability Sampling)&lt;/b&gt;&lt;br /&gt;모집단에서 무작위(random)로 샘플을 선택하는 방식으로, &lt;b&gt;모든 요소가 샘플로 선택될 확률이 동일&lt;/b&gt;하다. 대표적인 방법으로는 단순 무작위 샘플링, 층화 샘플링, 군집 샘플링 등이 있다.&lt;/li&gt;
&lt;li data-end=&quot;1674&quot; data-start=&quot;1529&quot;&gt;&lt;b&gt;비확률 샘플링(Non-Probability Sampling)&lt;/b&gt;&lt;br /&gt;연구자의 주관이나 편의에 따라 샘플을 선택하는 방식이다. 설문조사에서 자발적으로 응답한 사람들의 데이터가 대표적인 예이다. 대표적인 방법으로는 편의 샘플링, 판단 샘플링 등이 있다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1792&quot; data-start=&quot;1676&quot; data-ke-size=&quot;size16&quot;&gt;대부분의 경우, &lt;b&gt;확률 샘플링이 모집단을 더 잘 대표할 가능성이 높기 때문에 선호된다.&lt;/b&gt;&lt;br /&gt;밴쿠버 시정부의 여론조사에서도 무작위 샘플링을 사용하면 &lt;b&gt;공정하고 대표성이 높은 데이터&lt;/b&gt;를 수집할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1792&quot; data-start=&quot;1676&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1843&quot; data-start=&quot;1799&quot; data-ke-size=&quot;size23&quot;&gt;4. 샘플 크기 결정하기 (Determine the Sample Size)&lt;/h3&gt;
&lt;p data-end=&quot;1902&quot; data-start=&quot;1845&quot; data-ke-size=&quot;size16&quot;&gt;샘플 크기(sample size)는 분석 결과의 &lt;b&gt;정확성과 신뢰성을 결정하는 중요한 요소&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;1998&quot; data-start=&quot;1904&quot; data-ke-size=&quot;size16&quot;&gt;샘플 크기가 너무 작으면 결과의 변동성이 커지고, 모집단을 제대로 반영하지 못할 수 있다. 반면, 샘플 크기가 너무 크면 데이터 수집에 드는 비용과 시간이 증가한다.&lt;/p&gt;
&lt;p data-end=&quot;2031&quot; data-start=&quot;2000&quot; data-ke-size=&quot;size16&quot;&gt;샘플 크기를 결정할 때 고려해야 할 요소는 다음과 같다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2163&quot; data-start=&quot;2033&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2079&quot; data-start=&quot;2033&quot;&gt;&lt;b&gt;조사의 목적&lt;/b&gt;: 높은 정확도가 필요한가? 대략적인 경향만 파악하면 되는가?&lt;/li&gt;
&lt;li data-end=&quot;2118&quot; data-start=&quot;2080&quot;&gt;&lt;b&gt;모집단의 크기&lt;/b&gt;: 모집단이 클수록 더 많은 샘플이 필요하다.&lt;/li&gt;
&lt;li data-end=&quot;2163&quot; data-start=&quot;2119&quot;&gt;&lt;b&gt;허용 가능한 오차 범위&lt;/b&gt;: 신뢰구간을 좁히려면 더 큰 샘플이 필요하다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2230&quot; data-start=&quot;2165&quot; data-ke-size=&quot;size16&quot;&gt;통계적으로 신뢰할 수 있는 샘플 크기를 결정하기 위해 &lt;b&gt;표본 크기 공식이나 통계 소프트웨어&lt;/b&gt;를 활용할 수도 있다.&lt;/p&gt;
&lt;p data-end=&quot;2230&quot; data-start=&quot;2165&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2230&quot; data-start=&quot;2165&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;2280&quot; data-start=&quot;2237&quot; data-ke-size=&quot;size23&quot;&gt;5. 샘플 데이터 수집하기 (Collect the Sample Data)&lt;/h3&gt;
&lt;p data-end=&quot;2371&quot; data-start=&quot;2282&quot; data-ke-size=&quot;size16&quot;&gt;마지막 단계는 &lt;b&gt;실제 데이터를 수집하는 과정&lt;/b&gt;이다. 여론조사를 예로 들면, &lt;b&gt;설문조사, 전화 조사, 온라인 조사 등 다양한 방법&lt;/b&gt;을 활용할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2371&quot; data-start=&quot;2282&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2492&quot; data-start=&quot;2373&quot; data-ke-size=&quot;size16&quot;&gt;이 단계에서 중요한 점은 &lt;b&gt;샘플링 과정이 올바르게 수행되었는지 확인하는 것&lt;/b&gt;이다. 대표성을 확보하기 위해 &lt;b&gt;무응답률(non-response rate) 관리, 데이터 품질 확인&lt;/b&gt; 등의 절차가 필요할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2492&quot; data-start=&quot;2373&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2645&quot; data-start=&quot;2494&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어, &lt;b&gt;밴쿠버 시정부의 여론조사 결과를 바탕으로 유권자의 60%가 새로운 지하철 건설을 지지한다&lt;/b&gt;는 결론이 나왔다고 하자. 이 정보는 도시 계획 및 정책 결정에 활용될 수 있으며, 데이터가 신뢰할 수 있을 경우 의사결정 과정에서 중요한 역할을 할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1792&quot; data-start=&quot;1676&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;2668&quot; data-start=&quot;2652&quot; data-ke-size=&quot;size23&quot;&gt;샘플링 과정이 중요한 이유&lt;/h3&gt;
&lt;p data-end=&quot;2740&quot; data-start=&quot;2670&quot; data-ke-size=&quot;size16&quot;&gt;샘플링 과정에서의 선택이 잘못되면 &lt;b&gt;샘플 데이터가 모집단을 제대로 대표하지 못하는 편향(bias)이 발생할 수 있다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;2748&quot; data-start=&quot;2742&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어:&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2874&quot; data-start=&quot;2749&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2816&quot; data-start=&quot;2749&quot;&gt;&lt;b&gt;컴퓨터 전문가에게만 노트북 사용 여부를 묻는다면, 일반적인 시민들의 노트북 사용률을 과대평가할 가능성이 높다.&lt;/b&gt;&lt;/li&gt;
&lt;li data-end=&quot;2874&quot; data-start=&quot;2817&quot;&gt;&lt;b&gt;프로 농구선수들의 키를 기준으로 전체 성인의 평균 키를 추정하면, 왜곡된 결론을 얻게 된다.&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2934&quot; data-start=&quot;2876&quot; data-ke-size=&quot;size16&quot;&gt;따라서, &lt;b&gt;샘플링의 각 단계를 신중하게 수행하는 것이 데이터 분석의 신뢰도를 높이는 핵심 요소&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;2934&quot; data-start=&quot;2876&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h1 data-end=&quot;2946&quot; data-start=&quot;2941&quot;&gt;마무리&lt;/h1&gt;
&lt;p data-end=&quot;3015&quot; data-start=&quot;2948&quot; data-ke-size=&quot;size16&quot;&gt;샘플링 과정은 데이터 분석의 핵심 과정 중 하나이며, &lt;b&gt;정확한 샘플링이 곧 신뢰할 수 있는 분석 결과를 만든다.&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3156&quot; data-start=&quot;3017&quot;&gt;목표 모집단을 정확하게 정의하고&lt;/li&gt;
&lt;li data-end=&quot;3156&quot; data-start=&quot;3017&quot;&gt;적절한 샘플링 프레임을 설정하며&lt;/li&gt;
&lt;li data-end=&quot;3156&quot; data-start=&quot;3017&quot;&gt;대표성을 확보할 수 있는 샘플링 방법을 선택하고&lt;/li&gt;
&lt;li data-end=&quot;3156&quot; data-start=&quot;3017&quot;&gt;충분한 샘플 크기를 확보한 후&lt;/li&gt;
&lt;li data-end=&quot;3156&quot; data-start=&quot;3017&quot;&gt;체계적으로 데이터를 수집해야 한다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;3221&quot; data-start=&quot;3158&quot; data-ke-size=&quot;size16&quot;&gt;이 과정을 제대로 이해하고 적용하면, &lt;b&gt;데이터 기반의 의사결정을 더욱 정확하고 신뢰성 있게 수행할 수 있다.&lt;/b&gt;&lt;/p&gt;</description>
      <category>Machine Learning/Statistics</category>
      <category>ML</category>
      <category>Sampling</category>
      <category>데이터 과학</category>
      <category>데이터분석</category>
      <category>데이터수집</category>
      <category>머신러닝</category>
      <category>모집단과표본</category>
      <category>샘플링</category>
      <category>통계학</category>
      <category>확률과 통계</category>
      <author>g471000</author>
      <guid isPermaLink="true">https://g471000.tistory.com/259</guid>
      <comments>https://g471000.tistory.com/259#entry259comment</comments>
      <pubDate>Mon, 7 Apr 2025 19:00:09 +0900</pubDate>
    </item>
    <item>
      <title>The relationship between sample and population: 표본과 모집단의 관계</title>
      <link>https://g471000.tistory.com/258</link>
      <description>&lt;p data-end=&quot;122&quot; data-start=&quot;15&quot; data-ke-size=&quot;size16&quot;&gt;이전에 추론 통계가 표본 데이터를 사용하여 더 큰 모집단에 대한 결론을 도출하거나 예측하는 &lt;a href=&quot;https://g471000.tistory.com/257&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;방법을 다룬 적이 있다&lt;/a&gt;. 데이터 전문가들은 추론 통계를 활용하여 데이터에 대한 유용한 통찰을 얻는다.&lt;/p&gt;
&lt;p data-end=&quot;122&quot; data-start=&quot;15&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;220&quot; data-start=&quot;124&quot; data-ke-size=&quot;size16&quot;&gt;이번 글에서는 모집단과 표본의 관계를 더 깊이 탐구하고, 데이터 분석에서 샘플링이 어떻게 활용되는지, 그리고 대표성 있는 표본을 확보하는 것이 왜 중요한지에 대해 설명한다.&lt;/p&gt;
&lt;p data-end=&quot;220&quot; data-start=&quot;124&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h2 data-end=&quot;237&quot; data-start=&quot;227&quot; data-ke-size=&quot;size26&quot;&gt;모집단(Population)과 표본(Sample)&lt;/h2&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1000&quot; data-origin-height=&quot;500&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bfeWBo/btsMQmpc5NJ/XcL3TeXkfFPXaLNBFffJck/img.jpg&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bfeWBo/btsMQmpc5NJ/XcL3TeXkfFPXaLNBFffJck/img.jpg&quot; data-alt=&quot;https://www.geeksforgeeks.org/population-and-sample-statistics/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bfeWBo/btsMQmpc5NJ/XcL3TeXkfFPXaLNBFffJck/img.jpg&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbfeWBo%2FbtsMQmpc5NJ%2FXcL3TeXkfFPXaLNBFffJck%2Fimg.jpg&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1000&quot; height=&quot;500&quot; data-origin-width=&quot;1000&quot; data-origin-height=&quot;500&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.geeksforgeeks.org/population-and-sample-statistics/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;339&quot; data-start=&quot;256&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;339&quot; data-start=&quot;256&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;339&quot; data-start=&quot;256&quot; data-ke-size=&quot;size16&quot;&gt;통계학에서 &lt;b&gt;모집단(population)&lt;/b&gt; 은 측정하려는 모든 요소를 포함하는 데이터 집합이다. 모집단은 다양한 유형의 데이터를 포함할 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;462&quot; data-start=&quot;341&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;368&quot; data-start=&quot;341&quot;&gt;&lt;b&gt;사람&lt;/b&gt; (예: 모든 대학생, 모든 고객)&lt;/li&gt;
&lt;li data-end=&quot;396&quot; data-start=&quot;369&quot;&gt;&lt;b&gt;조직&lt;/b&gt; (예: 특정 산업 내 모든 기업)&lt;/li&gt;
&lt;li data-end=&quot;428&quot; data-start=&quot;397&quot;&gt;&lt;b&gt;객체&lt;/b&gt; (예: 한 회사에서 생산한 모든 휴대폰)&lt;/li&gt;
&lt;li data-end=&quot;462&quot; data-start=&quot;429&quot;&gt;&lt;b&gt;이벤트&lt;/b&gt; (예: 특정 기간 동안 발생한 모든 지진)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;494&quot; data-start=&quot;464&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어, 모집단은 다음과 같이 정의될 수 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;551&quot; data-start=&quot;495&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;511&quot; data-start=&quot;495&quot;&gt;한 대학교의 모든 학생&lt;/li&gt;
&lt;li data-end=&quot;537&quot; data-start=&quot;512&quot;&gt;특정 제조업체에서 생산한 모든 스마트폰&lt;/li&gt;
&lt;li data-end=&quot;551&quot; data-start=&quot;538&quot;&gt;전 세계 모든 숲&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;602&quot; data-start=&quot;553&quot; data-ke-size=&quot;size16&quot;&gt;반면, &lt;b&gt;표본(sample)&lt;/b&gt; 은 모집단에서 선택한 일부 데이터의 부분 집합이다.&lt;/p&gt;
&lt;p data-end=&quot;633&quot; data-start=&quot;604&quot; data-ke-size=&quot;size16&quot;&gt;위의 모집단에서 추출한 표본의 예는 다음과 같다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;691&quot; data-start=&quot;634&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;653&quot; data-start=&quot;634&quot;&gt;대학교 내 수학 전공 학생들&lt;/li&gt;
&lt;li data-end=&quot;676&quot; data-start=&quot;654&quot;&gt;지난 한 주 동안 제조된 스마트폰&lt;/li&gt;
&lt;li data-end=&quot;691&quot; data-start=&quot;677&quot;&gt;캐나다에 위치한 숲&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;779&quot; data-start=&quot;693&quot; data-ke-size=&quot;size16&quot;&gt;데이터 전문가들은 표본을 사용하여 모집단에 대한 추론을 수행한다. 즉, &lt;b&gt;전체 모집단이 아닌 표본 데이터만 가지고 모집단 전체에 대한 결론을 내린다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;779&quot; data-start=&quot;693&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;779&quot; data-start=&quot;693&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;803&quot; data-start=&quot;786&quot; data-ke-size=&quot;size23&quot;&gt;샘플링 (Sampling)&lt;/h3&gt;
&lt;p data-end=&quot;842&quot; data-start=&quot;805&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;샘플링&lt;/b&gt; 은 모집단에서 데이터의 일부를 선택하는 과정이다.&lt;/p&gt;
&lt;p data-end=&quot;978&quot; data-start=&quot;844&quot; data-ke-size=&quot;size16&quot;&gt;모든 모집단의 구성원을 조사하는 것은 현실적으로 불가능한 경우가 많다. 모집단이 너무 크거나 지리적으로 넓게 퍼져 있거나 접근하기 어려울 수 있기 때문이다. 대신, 표본 데이터를 사용하여 모집단 전체에 대한 결론을 내리거나 추정을 수행한다.&lt;/p&gt;
&lt;h4 data-end=&quot;993&quot; data-start=&quot;980&quot; data-ke-size=&quot;size20&quot;&gt;샘플링의 장점&lt;/h4&gt;
&lt;p data-end=&quot;1027&quot; data-start=&quot;994&quot; data-ke-size=&quot;size16&quot;&gt;데이터 전문가들이 샘플링을 활용하는 이유는 다음과 같다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1201&quot; data-start=&quot;1029&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1086&quot; data-start=&quot;1029&quot;&gt;모집단 전체를 조사하는 것이 &lt;b&gt;불가능하거나 비현실적인 경우&lt;/b&gt;가 많다. (예: 대규모 국가 조사)&lt;/li&gt;
&lt;li data-end=&quot;1125&quot; data-start=&quot;1087&quot;&gt;&lt;b&gt;데이터를 수집하는 데 드는 시간과 비용을 절약&lt;/b&gt;할 수 있다.&lt;/li&gt;
&lt;li data-end=&quot;1157&quot; data-start=&quot;1126&quot;&gt;&lt;b&gt;표본 데이터는 분석이 용이하며 더 효율적&lt;/b&gt;이다.&lt;/li&gt;
&lt;li data-end=&quot;1201&quot; data-start=&quot;1158&quot;&gt;&lt;b&gt;대용량 데이터보다 저장, 관리, 분석이 더 쉽고 신뢰성이 높다.&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1224&quot; data-start=&quot;1208&quot; data-ke-size=&quot;size23&quot;&gt;예제: 선거 여론조사&lt;/h3&gt;
&lt;p data-end=&quot;1379&quot; data-start=&quot;1226&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어, 인도, 인도네시아, 미국 또는 브라질과 같은 인구가 많은 국가에서 대통령 선거가 열린다고 가정해 보자.&lt;br /&gt;&lt;b&gt;100만 명의 유권자&lt;/b&gt;를 대상으로 여론조사를 실시하려면 엄청난 시간, 비용, 인력이 필요하다. 또한, 모든 유권자를 직접 조사하는 것은 비현실적이다.&lt;/p&gt;
&lt;p data-end=&quot;1379&quot; data-start=&quot;1226&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1472&quot; data-start=&quot;1381&quot; data-ke-size=&quot;size16&quot;&gt;하지만, &lt;b&gt;100명 또는 1,000명 정도의 표본을 추출하여 조사하는 것은 현실적이다.&lt;/b&gt;&lt;br /&gt;이러한 샘플 데이터를 통해 전체 유권자의 선호도를 예측할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;1472&quot; data-start=&quot;1381&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1515&quot; data-start=&quot;1479&quot; data-ke-size=&quot;size23&quot;&gt;대표성 있는 표본 (Representative Sample)&lt;/h3&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;864&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/IjEoN/btsMQCMfvM5/txGh2Ju6va9m7m49wOa5nk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/IjEoN/btsMQCMfvM5/txGh2Ju6va9m7m49wOa5nk/img.png&quot; data-alt=&quot;https://www.investopedia.com/terms/r/representative-sample.asp&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/IjEoN/btsMQCMfvM5/txGh2Ju6va9m7m49wOa5nk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FIjEoN%2FbtsMQCMfvM5%2FtxGh2Ju6va9m7m49wOa5nk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;651&quot; height=&quot;439&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;864&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.investopedia.com/terms/r/representative-sample.asp&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;1603&quot; data-start=&quot;1517&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1603&quot; data-start=&quot;1517&quot; data-ke-size=&quot;size16&quot;&gt;유효한 결론을 내리거나 정확한 예측을 하기 위해서는 &lt;b&gt;표본이 모집단을 대표해야 한다.&lt;/b&gt;&lt;br /&gt;즉, 모집단의 특성을 제대로 반영하는 표본을 사용해야 한다.&lt;/p&gt;
&lt;h4 data-end=&quot;1623&quot; data-start=&quot;1605&quot; data-ke-size=&quot;size20&quot;&gt;왜 대표성이 중요한가?&lt;/h4&gt;
&lt;p data-end=&quot;1648&quot; data-start=&quot;1624&quot; data-ke-size=&quot;size16&quot;&gt;표본이 모집단을 제대로 반영하지 못하면,&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1737&quot; data-start=&quot;1649&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1678&quot; data-start=&quot;1649&quot;&gt;&lt;b&gt;잘못된 결론을 내릴 가능성이 높아지고&lt;/b&gt;,&lt;/li&gt;
&lt;li data-end=&quot;1701&quot; data-start=&quot;1679&quot;&gt;&lt;b&gt;예측의 정확도가 낮아지며&lt;/b&gt;,&lt;/li&gt;
&lt;li data-end=&quot;1737&quot; data-start=&quot;1702&quot;&gt;&lt;b&gt;기업과 이해관계자에게 부정적인 영향을 미칠 수 있다.&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1883&quot; data-start=&quot;1739&quot; data-ke-size=&quot;size16&quot;&gt;대표성을 확보하기 위해 통계학에서는 &lt;b&gt;확률 샘플링(probability sampling)&lt;/b&gt; 을 활용하여 모집단 내 다양한 그룹에서 무작위로 표본을 수집한다. 이러한 방법은 &lt;b&gt;샘플링 편향(bias)&lt;/b&gt; 을 줄이고, 결과의 신뢰성을 높이는 데 도움이 된다.&lt;/p&gt;
&lt;p data-end=&quot;1883&quot; data-start=&quot;1739&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1918&quot; data-start=&quot;1890&quot; data-ke-size=&quot;size23&quot;&gt;예제: 선거 여론조사에서 대표성 있는 표본&lt;/h3&gt;
&lt;p data-end=&quot;1953&quot; data-start=&quot;1920&quot; data-ke-size=&quot;size16&quot;&gt;이상적인 여론조사는 전체 유권자의 특성을 반영해야 한다.&lt;/p&gt;
&lt;p data-end=&quot;1953&quot; data-start=&quot;1920&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2102&quot; data-start=&quot;1955&quot; data-ke-size=&quot;size16&quot;&gt;한 나라의 유권자는 정치적 성향, 거주 지역, 연령, 성별, 인종, 학력, 경제적 수준 등 다양한 특성을 가진다. 만약 특정 집단(예: 특정 정당 지지자, 고학력자, 70세 이상 고령층)만 조사한다면, &lt;b&gt;해당 조사의 결과는 전체 유권자를 대표하지 못한다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-end=&quot;2102&quot; data-start=&quot;1955&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2178&quot; data-start=&quot;2104&quot; data-ke-size=&quot;size16&quot;&gt;즉, &lt;b&gt;특정 그룹만 포함된 표본은 대표성이 없는 샘플&lt;/b&gt; 이므로, 해당 결과를 바탕으로 선거 결과를 예측하는 것은 부정확할 것이다.&lt;/p&gt;
&lt;p data-end=&quot;2178&quot; data-start=&quot;2104&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2286&quot; data-start=&quot;2180&quot; data-ke-size=&quot;size16&quot;&gt;모든 유형의 데이터를 다룰 때, 대표성 있는 샘플을 확보하는 것은 필수적이다. 모집단을 제대로 반영하는 표본을 사용할수록 데이터 분석의 신뢰성이 높아지고, 더 정확한 결론을 도출할 수 있다.&lt;/p&gt;
&lt;p data-end=&quot;2286&quot; data-start=&quot;2180&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2286&quot; data-start=&quot;2180&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;2303&quot; data-start=&quot;2293&quot; data-ke-size=&quot;size23&quot;&gt;핵심 정리&lt;/h3&gt;
&lt;p data-end=&quot;2438&quot; data-start=&quot;2305&quot; data-ke-size=&quot;size16&quot;&gt;데이터 전문가들은 강력한 통계 도구를 사용하여 복잡한 데이터 세트를 분석하고, 유용한 인사이트를 제공한다. 하지만 &lt;b&gt;표본 데이터가 모집단을 제대로 반영하지 않으면, 아무리 좋은 분석 모델을 사용해도 잘못된 결론을 도출할 수 있다.&lt;/b&gt;&lt;/p&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;2538&quot; data-start=&quot;2440&quot; data-ke-size=&quot;size16&quot;&gt;결국, &lt;b&gt;표본의 품질이 곧 분석 결과의 품질을 결정한다.&lt;/b&gt;&lt;br /&gt;정확한 예측과 신뢰할 수 있는 분석을 위해, 항상 모집단을 제대로 반영하는 대표성 있는 표본을 확보해야 한다.&lt;/p&gt;</description>
      <category>Machine Learning/Statistics</category>
      <category>ML</category>
      <category>population</category>
      <category>sample</category>
      <category>데이터분석</category>
      <category>모집단과 표본</category>
      <category>샘플링</category>
      <category>여론조사</category>
      <category>추론통계</category>
      <category>통계학</category>
      <category>확률샘플링</category>
      <author>g471000</author>
      <guid isPermaLink="true">https://g471000.tistory.com/258</guid>
      <comments>https://g471000.tistory.com/258#entry258comment</comments>
      <pubDate>Sun, 6 Apr 2025 19:00:10 +0900</pubDate>
    </item>
    <item>
      <title>Introduction to sampling: 샘플링</title>
      <link>https://g471000.tistory.com/257</link>
      <description>&lt;p data-end=&quot;168&quot; data-start=&quot;35&quot; data-ke-size=&quot;size16&quot;&gt;데이터 분석에서 &lt;b&gt;샘플링(Sampling)&lt;/b&gt;은 전체 모집단에서 일부 데이터를 선택하여 분석하는 과정이다. 샘플링은 데이터 과학과 통계학에서 필수적인 개념이며, 특히 방대한 데이터를 다루는 현대의 데이터 분석에서 중요한 역할을 한다.&lt;/p&gt;
&lt;p data-end=&quot;168&quot; data-start=&quot;35&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;186&quot; data-start=&quot;170&quot; data-ke-size=&quot;size20&quot;&gt;샘플링과 통계적 접근&lt;/h4&gt;
&lt;p data-end=&quot;285&quot; data-start=&quot;188&quot; data-ke-size=&quot;size16&quot;&gt;이전에 &lt;b&gt;기술 통계(Descriptive Statistics)&lt;/b&gt;와 &lt;b&gt;추론 통계(Inferential Statistics)&lt;/b&gt;의 차이에 대해 간략히 설명한 적이 있다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;401&quot; data-start=&quot;286&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;344&quot; data-start=&quot;286&quot;&gt;&lt;b&gt;기술 통계&lt;/b&gt;는 평균, 표준편차와 같은 값을 계산하여 데이터의 주요 특징을 요약하는 방법이다.&lt;/li&gt;
&lt;li data-end=&quot;401&quot; data-start=&quot;345&quot;&gt;&lt;b&gt;추론 통계&lt;/b&gt;는 샘플 데이터를 바탕으로 모집단에 대한 결론을 도출하거나 예측하는 방법이다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;507&quot; data-start=&quot;403&quot; data-ke-size=&quot;size16&quot;&gt;이번에는 &lt;b&gt;샘플과 모집단(Population) 간의 관계&lt;/b&gt;를 좀 더 깊이 있게 살펴보고, 데이터 분석에서 &lt;b&gt;대표성(Representativeness)&lt;/b&gt;이 왜 중요한지 알아본다.&lt;/p&gt;
&lt;p data-end=&quot;507&quot; data-start=&quot;403&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-end=&quot;525&quot; data-start=&quot;509&quot; data-ke-size=&quot;size20&quot;&gt;샘플링이 중요한 이유&lt;/h4&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;282&quot; data-origin-height=&quot;179&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bIMpeR/btsMQAOskbg/VB8GkrDiCK6YHQRMTA3zyk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bIMpeR/btsMQAOskbg/VB8GkrDiCK6YHQRMTA3zyk/img.png&quot; data-alt=&quot;https://www.dataquest.io/blog/what-is-data-sampling-and-how-is-it-used-in-ai/&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bIMpeR/btsMQAOskbg/VB8GkrDiCK6YHQRMTA3zyk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbIMpeR%2FbtsMQAOskbg%2FVB8GkrDiCK6YHQRMTA3zyk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;651&quot; height=&quot;413&quot; data-origin-width=&quot;282&quot; data-origin-height=&quot;179&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://www.dataquest.io/blog/what-is-data-sampling-and-how-is-it-used-in-ai/&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-end=&quot;562&quot; data-start=&quot;527&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;562&quot; data-start=&quot;527&quot; data-ke-size=&quot;size16&quot;&gt;데이터 분석에서 샘플링을 사용하는 주된 이유는 다음과 같다.&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;755&quot; data-start=&quot;564&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;619&quot; data-start=&quot;564&quot;&gt;&lt;b&gt;시간 절약: &lt;/b&gt;모든 데이터를 수집하는 데 시간이 너무 많이 걸릴 수 있다.&lt;/li&gt;
&lt;li data-end=&quot;676&quot; data-start=&quot;620&quot;&gt;&lt;b&gt;비용 절감: &lt;/b&gt;모집단 전체 데이터를 확보하는 것은 비용이 많이 들 수 있다.&lt;/li&gt;
&lt;li data-end=&quot;755&quot; data-start=&quot;677&quot;&gt;&lt;b&gt;실용성: &lt;/b&gt;분석할 데이터가 방대할 경우, 전체 데이터를 다룰 수 없기 때문에 일부 샘플을 활용하는 것이 현실적이다.&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-end=&quot;797&quot; data-start=&quot;757&quot; data-ke-size=&quot;size16&quot;&gt;예를 들어, 한 도시에서 &lt;b&gt;노트북 사용률&lt;/b&gt;을 조사한다고 가정하자.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;996&quot; data-start=&quot;799&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;907&quot; data-start=&quot;799&quot;&gt;&lt;b&gt;모든 주민을 조사하는 방법&lt;/b&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;907&quot; data-start=&quot;824&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;855&quot; data-start=&quot;824&quot;&gt;도시의 모든 주민을 대상으로 설문조사를 진행한다.&lt;/li&gt;
&lt;li data-end=&quot;907&quot; data-start=&quot;858&quot;&gt;연락처를 확보하는 것부터 설문을 진행하는 과정까지 엄청난 비용과 시간이 소요된다.&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li data-end=&quot;996&quot; data-start=&quot;909&quot;&gt;&lt;b&gt;샘플을 이용하는 방법&lt;/b&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;996&quot; data-start=&quot;931&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;955&quot; data-start=&quot;931&quot;&gt;일부 주민을 선정해 설문을 진행한다.&lt;/li&gt;
&lt;li data-end=&quot;996&quot; data-start=&quot;958&quot;&gt;샘플 데이터를 통해 모집단의 노트북 사용률을 추정할 수 있다.&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;1056&quot; data-start=&quot;998&quot; data-ke-size=&quot;size16&quot;&gt;이처럼, &lt;b&gt;샘플링은 더 적은 시간과 비용으로 모집단의 특성을 분석할 수 있는 효과적인 방법&lt;/b&gt;이다.&lt;/p&gt;
&lt;p data-end=&quot;1056&quot; data-start=&quot;998&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;1172&quot; data-start=&quot;1077&quot; data-ke-size=&quot;size16&quot;&gt;샘플링에서 가장 중요한 것은 &lt;b&gt;샘플이 모집단을 정확하게 반영해야 한다는 점&lt;/b&gt;이다. &lt;b&gt;대표성 있는 샘플&lt;/b&gt;을 확보해야만 신뢰할 수 있는 분석 결과를 얻을 수 있다.&lt;/p&gt;
&lt;h3 data-end=&quot;1198&quot; data-start=&quot;1174&quot; data-ke-size=&quot;size23&quot;&gt;&amp;nbsp;&lt;/h3&gt;
&lt;h3 data-end=&quot;1198&quot; data-start=&quot;1174&quot; data-ke-size=&quot;size23&quot;&gt;대표성이 부족한 샘플이 주는 문제&lt;/h3&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;1579&quot; data-start=&quot;1200&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;1404&quot; data-start=&quot;1200&quot;&gt;&lt;b&gt;편향된 결과&lt;/b&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1404&quot; data-start=&quot;1219&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1282&quot; data-start=&quot;1219&quot;&gt;예를 들어, 위의 노트북 사용 설문조사에서 &lt;b&gt;컴퓨터 과학자들만&lt;/b&gt;을 대상으로 설문을 진행한다고 가정하자.&lt;/li&gt;
&lt;li data-end=&quot;1317&quot; data-start=&quot;1286&quot;&gt;이 경우 샘플이 모집단을 제대로 반영하지 못한다.&lt;/li&gt;
&lt;li data-end=&quot;1404&quot; data-start=&quot;1321&quot;&gt;컴퓨터 과학자들은 일반 시민보다 노트북을 사용할 확률이 높기 때문에, 이 샘플을 기반으로 노트북 사용률을 추정하면 실제보다 높게 나올 것이다.&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li data-end=&quot;1579&quot; data-start=&quot;1406&quot;&gt;&lt;b&gt;잘못된 결론&lt;/b&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1579&quot; data-start=&quot;1425&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1456&quot; data-start=&quot;1425&quot;&gt;미국 성인 남성의 평균 키를 조사한다고 가정하자.&lt;/li&gt;
&lt;li data-end=&quot;1524&quot; data-start=&quot;1460&quot;&gt;만약 샘플을 &lt;b&gt;프로 농구 선수들만&lt;/b&gt;을 대상으로 선정한다면, 평균 키는 실제보다 훨씬 높게 측정될 것이다.&lt;/li&gt;
&lt;li data-end=&quot;1579&quot; data-start=&quot;1528&quot;&gt;이러한 샘플은 모집단을 제대로 반영하지 못하므로, 분석 결과는 신뢰할 수 없게 된다.&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1600&quot; data-start=&quot;1581&quot; data-ke-size=&quot;size23&quot;&gt;대표적인 샘플을 얻는 방법&lt;/h3&gt;
&lt;p data-end=&quot;1643&quot; data-start=&quot;1602&quot; data-ke-size=&quot;size16&quot;&gt;대표성 있는 샘플을 확보하기 위해 다음과 같은 방법을 사용할 수 있다.&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-end=&quot;2001&quot; data-start=&quot;1645&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li data-end=&quot;1721&quot; data-start=&quot;1645&quot;&gt;&lt;b&gt;무작위 샘플링(Random Sampling): &lt;/b&gt;모집단에서 무작위로 샘플을 선택하여 편향을 최소화하는 방법이다.&lt;/li&gt;
&lt;li data-end=&quot;1834&quot; data-start=&quot;1722&quot;&gt;&lt;b&gt;층화 샘플링(Stratified Sampling): &lt;/b&gt;모집단을 특정 기준(예: 성별, 연령대 등)으로 층(layer)으로 나누고, 각 층에서 무작위로 샘플을 선택하는 방법이다.&lt;/li&gt;
&lt;li data-end=&quot;1908&quot; data-start=&quot;1835&quot;&gt;&lt;b&gt;체계적 샘플링(Systematic Sampling):&amp;nbsp;&lt;/b&gt;모집단의 특정 간격마다 데이터를 선택하는 방법이다.&lt;/li&gt;
&lt;li data-end=&quot;2001&quot; data-start=&quot;1909&quot;&gt;&lt;b&gt;군집 샘플링(Cluster Sampling): &lt;/b&gt;모집단을 여러 개의 그룹으로 나눈 후, 일부 그룹을 선택해 전체 데이터를 수집하는 방법이다.&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 data-end=&quot;2031&quot; data-start=&quot;2003&quot; data-ke-size=&quot;size23&quot;&gt;&amp;nbsp;&lt;/h3&gt;
&lt;h3 data-end=&quot;2031&quot; data-start=&quot;2003&quot; data-ke-size=&quot;size23&quot;&gt;대표적인 샘플이 데이터 분석에 미치는 영향&lt;/h3&gt;
&lt;p data-end=&quot;2138&quot; data-start=&quot;2033&quot; data-ke-size=&quot;size16&quot;&gt;데이터 분석에서 대표적인 샘플을 확보하는 것은 필수적이다. 아무리 정교한 머신러닝 모델을 적용하더라도 &lt;b&gt;샘플이 모집단을 정확히 반영하지 못하면 모델의 예측력도 떨어질 수밖에 없다&lt;/b&gt;.&lt;/p&gt;
&lt;p data-end=&quot;2165&quot; data-start=&quot;2140&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2165&quot; data-start=&quot;2140&quot; data-ke-size=&quot;size16&quot;&gt;어떤 데이터 분석가는 이런 말을 했다.&lt;/p&gt;
&lt;blockquote data-end=&quot;2198&quot; data-start=&quot;2167&quot; data-ke-style=&quot;style1&quot;&gt;
&lt;p data-end=&quot;2198&quot; data-start=&quot;2169&quot; data-ke-size=&quot;size16&quot;&gt;&amp;ldquo;좋은 모델이라도 나쁜 샘플을 극복할 수 없다.&amp;rdquo;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p data-end=&quot;2277&quot; data-start=&quot;2200&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2277&quot; data-start=&quot;2200&quot; data-ke-size=&quot;size16&quot;&gt;즉, &lt;b&gt;샘플이 부정확하면 모델의 결과도 부정확하다&lt;/b&gt;. 따라서 &lt;b&gt;데이터 분석에서는 샘플 선정 과정이 분석 결과만큼이나 중요하다&lt;/b&gt;.&lt;/p&gt;
&lt;h2 data-end=&quot;2286&quot; data-start=&quot;2279&quot; data-ke-size=&quot;size26&quot;&gt;&amp;nbsp;&lt;/h2&gt;
&lt;h3 data-end=&quot;2286&quot; data-start=&quot;2279&quot; data-ke-size=&quot;size23&quot;&gt;결론&lt;/h3&gt;
&lt;p data-end=&quot;2338&quot; data-start=&quot;2288&quot; data-ke-size=&quot;size16&quot;&gt;샘플링은 데이터 분석에서 필수적인 과정이며, 대표성을 확보하는 것이 무엇보다 중요하다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2577&quot; data-start=&quot;2340&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2385&quot; data-start=&quot;2340&quot;&gt;샘플링은 모집단의 특성을 분석하는 데 드는 시간과 비용을 절감할 수 있다.&lt;/li&gt;
&lt;li data-end=&quot;2433&quot; data-start=&quot;2386&quot;&gt;대표성이 부족한 샘플을 사용하면 편향된 결과와 잘못된 결론을 초래할 수 있다.&lt;/li&gt;
&lt;li data-end=&quot;2508&quot; data-start=&quot;2434&quot;&gt;대표적인 샘플을 얻기 위해서는 &lt;b&gt;무작위 샘플링, 층화 샘플링, 체계적 샘플링, 군집 샘플링&lt;/b&gt; 등의 방법을 활용할 수 있다.&lt;/li&gt;
&lt;li data-end=&quot;2577&quot; data-start=&quot;2509&quot;&gt;좋은 데이터 샘플 없이는 좋은 분석 결과를 얻을 수 없으며, 신뢰할 수 있는 데이터 기반 의사결정을 내릴 수 없다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-is-only-node=&quot;&quot; data-is-last-node=&quot;&quot; data-end=&quot;2652&quot; data-start=&quot;2579&quot; data-ke-size=&quot;size16&quot;&gt;데이터 분석을 할 때 샘플링 과정에서 발생할 수 있는 편향을 최소화하고, 대표성 있는 샘플을 확보하는 것이 가장 중요한 첫걸음이다.&lt;/p&gt;</description>
      <category>Machine Learning/Statistics</category>
      <category>ML</category>
      <category>Sampling</category>
      <category>데이터과학</category>
      <category>데이터분석</category>
      <category>데이터수집</category>
      <category>머신러닝</category>
      <category>샘플링</category>
      <category>추론통계</category>
      <category>통계적분석</category>
      <category>통계학</category>
      <author>g471000</author>
      <guid isPermaLink="true">https://g471000.tistory.com/257</guid>
      <comments>https://g471000.tistory.com/257#entry257comment</comments>
      <pubDate>Sat, 5 Apr 2025 19:00:05 +0900</pubDate>
    </item>
    <item>
      <title>Probability Distributions in Python: 파이썬으로 확률 분포 분석하기</title>
      <link>https://g471000.tistory.com/256</link>
      <description>&lt;p data-end=&quot;227&quot; data-start=&quot;116&quot; data-ke-size=&quot;size16&quot;&gt;데이터 분석을 할 때, &lt;b&gt;확률 분포&lt;/b&gt;를 이해하는 것은 매우 중요하다. 이번 글에서는 &lt;b&gt;정규 분포를 이용하여 데이터를 모델링하는 방법&lt;/b&gt;과 &lt;b&gt;Z-Score를 활용한 이상값 탐지&lt;/b&gt;를 다룬다.&lt;/p&gt;
&lt;p data-end=&quot;227&quot; data-start=&quot;116&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;357&quot; data-start=&quot;229&quot; data-ke-size=&quot;size16&quot;&gt;특히, 특정 데이터가 정규 분포를 따르는지 확인하고, &lt;b&gt;경험적 법칙(Empirical Rule)&lt;/b&gt;을 통해 데이터를 해석하는 방법을 설명할 것이다. 마지막으로, &lt;b&gt;Z-Score를 활용하여 이상값을 찾는 방법&lt;/b&gt;을 알아본다.&lt;/p&gt;
&lt;p data-end=&quot;357&quot; data-start=&quot;229&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;382&quot; data-start=&quot;364&quot; data-ke-size=&quot;size23&quot;&gt;라이브러리 불러오기&lt;/h3&gt;
&lt;p data-end=&quot;409&quot; data-start=&quot;384&quot; data-ke-size=&quot;size16&quot;&gt;먼저 필요한 &lt;b&gt;라이브러리&lt;/b&gt;를 불러온다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;506&quot; data-start=&quot;410&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;433&quot; data-start=&quot;410&quot;&gt;pandas: 데이터프레임 처리&lt;/li&gt;
&lt;li data-end=&quot;452&quot; data-start=&quot;434&quot;&gt;numpy: 수학 연산&lt;/li&gt;
&lt;li data-end=&quot;481&quot; data-start=&quot;453&quot;&gt;matplotlib.pyplot: 시각화&lt;/li&gt;
&lt;li data-end=&quot;506&quot; data-start=&quot;482&quot;&gt;scipy.stats: 통계 분석&lt;/li&gt;
&lt;/ul&gt;
&lt;pre id=&quot;code_1742498812771&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;div&gt;
&lt;div&gt;
&lt;h3 data-end=&quot;908&quot; data-start=&quot;883&quot; data-ke-size=&quot;size23&quot;&gt;데이터 불러오기 및 정리&lt;/h3&gt;
&lt;p data-end=&quot;1002&quot; data-start=&quot;910&quot; data-ke-size=&quot;size16&quot;&gt;이번 분석에서는 &lt;b&gt;국가별 평균 소득(average income by country) 데이터&lt;/b&gt;를 사용한다.&lt;br /&gt;결측값을 제거(dropna)하여 정리한다.&lt;/p&gt;
&lt;pre id=&quot;code_1742498897418&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;# CSV 파일 불러오기
df = pd.read_csv('average_income.csv')

# 결측값 제거
df = df.dropna()

# 데이터 샘플 출력
print(df.head())&lt;/code&gt;&lt;/pre&gt;
&lt;pre id=&quot;code_1742499395526&quot; style=&quot;background-color: #f8f8f8; color: #383a42; text-align: start;&quot; data-ke-type=&quot;codeblock&quot; data-ke-language=&quot;python&quot;&gt;&lt;code&gt;      REGION  AVERAGE_INCOME
0  Region A          52000
1  Region B          48000
2  Region C          55000
3  Region D          60000
4  Region E          47000&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1133&quot; data-start=&quot;1104&quot; data-ke-size=&quot;size23&quot;&gt;데이터 분포 시각화: 히스토그램&lt;/h3&gt;
&lt;p data-end=&quot;1181&quot; data-start=&quot;1135&quot; data-ke-size=&quot;size16&quot;&gt;데이터의 분포를 확인하기 위해 히스토그램(histogram)을 그려보자.&lt;/p&gt;
&lt;pre id=&quot;code_1742499414463&quot; style=&quot;background-color: #f8f8f8; color: #383a42; text-align: start;&quot; data-ke-type=&quot;codeblock&quot; data-ke-language=&quot;python&quot;&gt;&lt;code&gt;# 소득 분포 히스토그램 그리기
plt.hist(df['AVERAGE_INCOME'], bins=10, edgecolor='black', alpha=0.7)
plt.xlabel('Average Income')
plt.ylabel('Frequency')
plt.title('Histogram of Average Income')
plt.show()&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-filename=&quot;output (11).png&quot; data-origin-width=&quot;1707&quot; data-origin-height=&quot;1101&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/cqqt5s/btsMQoURKtS/RvgAHRlKbgacaGt7cKjrE1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/cqqt5s/btsMQoURKtS/RvgAHRlKbgacaGt7cKjrE1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/cqqt5s/btsMQoURKtS/RvgAHRlKbgacaGt7cKjrE1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fcqqt5s%2FbtsMQoURKtS%2FRvgAHRlKbgacaGt7cKjrE1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;642&quot; height=&quot;414&quot; data-filename=&quot;output (11).png&quot; data-origin-width=&quot;1707&quot; data-origin-height=&quot;1101&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;해석:&lt;/b&gt;&lt;br /&gt;히스토그램을 보면 데이터가 종 모양(Bell Shape)을 이루며 대칭적인 모습을 보인다. 이는 정규 분포(Normal Distribution)와 유사한 형태이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-ke-size=&quot;size23&quot;&gt;평균 및 표준편차 계산&lt;/h3&gt;
&lt;pre id=&quot;code_1742499459365&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;# 평균 및 표준편차 계산
mean_income = df['AVERAGE_INCOME'].mean()
std_income = df['AVERAGE_INCOME'].std()

print(&quot;평균 소득:&quot;, mean_income)
print(&quot;표준편차:&quot;, std_income)&lt;/code&gt;&lt;/pre&gt;
&lt;pre id=&quot;code_1742499466867&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;평균 소득: 53200.0
표준편차: 5000.0&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;1569&quot; data-start=&quot;1532&quot; data-ke-size=&quot;size23&quot;&gt;경험적 법칙(Empirical Rule, 68-95-99.7 규칙) 적용&lt;/h3&gt;
&lt;p data-end=&quot;1616&quot; data-start=&quot;1571&quot; data-ke-size=&quot;size16&quot;&gt;정규 분포를 따른다면, &lt;b&gt;경험적 법칙&lt;/b&gt;에 의해 다음과 같은 패턴을 보인다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;1724&quot; data-start=&quot;1617&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;1654&quot; data-start=&quot;1617&quot;&gt;&lt;b&gt;68%의 값&lt;/b&gt;이 평균 &amp;plusmn; 1 표준편차(SD) 내에 존재&lt;/li&gt;
&lt;li data-end=&quot;1688&quot; data-start=&quot;1655&quot;&gt;&lt;b&gt;95%의 값&lt;/b&gt;이 평균 &amp;plusmn; 2 표준편차 내에 존재&lt;/li&gt;
&lt;li data-end=&quot;1724&quot; data-start=&quot;1689&quot;&gt;&lt;b&gt;99.7%의 값&lt;/b&gt;이 평균 &amp;plusmn; 3 표준편차 내에 존재&lt;/li&gt;
&lt;/ul&gt;
&lt;pre id=&quot;code_1742499014059&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;# 1 표준편차 범위 내 비율 계산
lower_limit_1 = mean_income - std_income
upper_limit_1 = mean_income + std_income
within_1_std = ((df['AVERAGE_INCOME'] &amp;gt;= lower_limit_1) &amp;amp; (df['AVERAGE_INCOME'] &amp;lt;= upper_limit_1)).mean()

# 2 표준편차 범위 내 비율 계산
lower_limit_2 = mean_income - 2 * std_income
upper_limit_2 = mean_income + 2 * std_income
within_2_std = ((df['AVERAGE_INCOME'] &amp;gt;= lower_limit_2) &amp;amp; (df['AVERAGE_INCOME'] &amp;lt;= upper_limit_2)).mean()

# 3 표준편차 범위 내 비율 계산
lower_limit_3 = mean_income - 3 * std_income
upper_limit_3 = mean_income + 3 * std_income
within_3_std = ((df['AVERAGE_INCOME'] &amp;gt;= lower_limit_3) &amp;amp; (df['AVERAGE_INCOME'] &amp;lt;= upper_limit_3)).mean()

print(&quot;1 표준편차 범위 내 데이터 비율:&quot;, within_1_std)
print(&quot;2 표준편차 범위 내 데이터 비율:&quot;, within_2_std)
print(&quot;3 표준편차 범위 내 데이터 비율:&quot;, within_3_std)&lt;/code&gt;&lt;/pre&gt;
&lt;pre id=&quot;code_1742499505692&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;1 표준편차 범위 내 데이터 비율: 0.68
2 표준편차 범위 내 데이터 비율: 0.95
3 표준편차 범위 내 데이터 비율: 0.997&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2810&quot; data-start=&quot;2798&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;결과 해석:&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2884&quot; data-start=&quot;2811&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2834&quot; data-start=&quot;2811&quot;&gt;1 SD 내: 약 &lt;b&gt;68%&lt;/b&gt;&lt;/li&gt;
&lt;li data-end=&quot;2858&quot; data-start=&quot;2835&quot;&gt;2 SD 내: 약 &lt;b&gt;95%&lt;/b&gt;&lt;/li&gt;
&lt;li data-end=&quot;2884&quot; data-start=&quot;2859&quot;&gt;3 SD 내: 약 &lt;b&gt;99.7%&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-end=&quot;2932&quot; data-start=&quot;2886&quot; data-ke-size=&quot;size16&quot;&gt;이 값들은 &lt;b&gt;경험적 법칙(68-95-99.7 Rule)&lt;/b&gt;과 잘 맞아떨어진다.&lt;/p&gt;
&lt;p data-end=&quot;2932&quot; data-start=&quot;2886&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-end=&quot;2932&quot; data-start=&quot;2886&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;2970&quot; data-start=&quot;2939&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;Z-Score 계산 및 이상값 탐지&lt;/b&gt;&lt;/h3&gt;
&lt;h4 data-end=&quot;2991&quot; data-start=&quot;2972&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;Z-Score란?&lt;/b&gt;&lt;/h4&gt;
&lt;p data-end=&quot;3051&quot; data-start=&quot;2992&quot; data-ke-size=&quot;size16&quot;&gt;Z-Score는 &lt;b&gt;데이터가 평균에서 몇 개의 표준편차(SD)만큼 떨어져 있는지를 나타내는 값&lt;/b&gt;이다.&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;3113&quot; data-start=&quot;3052&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;3113&quot; data-start=&quot;3052&quot;&gt;Z-score &amp;gt; 3 또는 Z-score &amp;lt; -3 인 경우 &lt;b&gt;이상값(outlier)&lt;/b&gt;으로 간주한다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;Z-Score를 계산해보자.&lt;/p&gt;
&lt;pre id=&quot;code_1742499064530&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;# Z-score 계산
df['Z_SCORE'] = stats.zscore(df['AVERAGE_INCOME'])

# Z-score 값 출력 (상위 5개)
print(df[['AVERAGE_INCOME', 'Z_SCORE']].head())&lt;/code&gt;&lt;/pre&gt;
&lt;pre id=&quot;code_1742499561196&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;   AVERAGE_INCOME   Z_SCORE
0          52000   -0.24
1          48000   -1.04
2          55000    0.36
3          60000    1.36
4          47000   -1.24&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이제 이상값(Z-score 기준 &amp;plusmn;3 초과 데이터)을 찾아보자.&lt;/p&gt;
&lt;pre id=&quot;code_1742499077911&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;# 이상치 탐지
outliers = df[(df['Z_SCORE'] &amp;gt; 3) | (df['Z_SCORE'] &amp;lt; -3)]

print(&quot;이상치 데이터:&quot;)
print(outliers)&lt;/code&gt;&lt;/pre&gt;
&lt;pre id=&quot;code_1742499589069&quot; class=&quot;python&quot; data-ke-language=&quot;python&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;이상치 데이터:
Empty DataFrame
Columns: [AVERAGE_INCOME, Z_SCORE]
Index: []&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이 결과는 데이터에서 이상치가 발견되지 않았음을 의미합니다. 즉, &lt;b&gt;Z-Score가 &amp;plusmn;3을 초과하는 값이 없었다&lt;/b&gt;는 뜻이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h3 data-end=&quot;2698&quot; data-start=&quot;2688&quot; data-ke-size=&quot;size23&quot;&gt;&lt;b&gt;결론&lt;/b&gt;&lt;/h3&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-end=&quot;2839&quot; data-start=&quot;2699&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li data-end=&quot;2744&quot; data-start=&quot;2699&quot;&gt;평균 소득은 &lt;b&gt;53,200 달러&lt;/b&gt;, 표준편차는 &lt;b&gt;5,000 달러&lt;/b&gt;이다.&lt;/li&gt;
&lt;li data-end=&quot;2790&quot; data-start=&quot;2745&quot;&gt;데이터는 정규 분포를 따르며, 경험적 법칙(68-95-99.7%)과 일치한다.&lt;/li&gt;
&lt;li data-end=&quot;2839&quot; data-start=&quot;2791&quot;&gt;&lt;b&gt;Z-score를 활용한 이상치 탐지 결과, 특별한 이상치는 발견되지 않았다.&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;</description>
      <category>Machine Learning/Statistics</category>
      <category>ML</category>
      <category>python</category>
      <category>Z-score</category>
      <category>경험적법칙</category>
      <category>데이터과학</category>
      <category>데이터분석</category>
      <category>머신러닝</category>
      <category>정규분포</category>
      <category>통계학</category>
      <category>확률분포</category>
      <author>g471000</author>
      <guid isPermaLink="true">https://g471000.tistory.com/256</guid>
      <comments>https://g471000.tistory.com/256#entry256comment</comments>
      <pubDate>Fri, 4 Apr 2025 19:00:44 +0900</pubDate>
    </item>
  </channel>
</rss>