Machine Learning
-
Measures of central tendency: 중심 경향 측정 값Machine Learning/Statistics 2025. 3. 19. 19:07
중심 경향 측정값(measures of central tendency)은 데이터셋의 중심을 나타내는 값이다. 대표적인 중심 경향 측정값에는 평균(mean), 중앙값(median), 최빈값(mode)이 있다.평균(Mean): 데이터셋의 모든 값을 더한 후 개수로 나눈 값중앙값(Median): 데이터셋을 정렬했을 때 가운데 위치하는 값최빈값(Mode): 가장 자주 등장하는 값이제 각각의 측정값을 계산하는 방법과 적절한 사용 사례를 살펴보자. 평균(Mean) 계산 방법평균은 데이터셋의 모든 값을 더한 후 전체 개수로 나누어 구한다.예를 들어, 데이터셋이 다음과 같다고 가정하자: 10, 5, 3, 50, 12평균을 계산하는 과정:(10 + 5 + 3 + 50 + 12) ÷ 5 = 80 ÷ 5 = 16이 데이터..
-
Descriptive Statistics vs Inferential Statistics: 기술 통계와 추론 통계의 차이점Machine Learning/Statistics 2025. 3. 18. 19:56
이제 통계와 데이터 과학의 역할에 대해 더 깊이 이해했으니, 두 가지 주요 통계 방법인 기술 통계와 추론 통계에 대해 알아보자. 데이터 전문가는 각 방법을 활용해 서로 다른 인사이트를 얻는다. 이번 글에서는 기술 통계와 추론 통계의 차이점, 그리고 데이터 전문가들이 이를 활용하는 방법에 대해 살펴본다. 기술 통계 (Descriptive Statistics)기술 통계는 데이터의 주요 특징을 요약하고 설명하는 데 사용된다. 이는 많은 양의 데이터를 빠르게 이해하는 데 유용하다. 예를 들어, 1,000만 명의 신장 데이터를 보유하고 있다고 가정해보자. 모든 데이터를 직접 살펴보는 것은 어렵고, 설령 가능하더라도 해석하는 것이 쉽지 않다. 하지만 데이터를 요약하면 즉시 의미 있는 정보를 얻을 수 있다. 예를 ..
-
A/B testing: 데이터 기반 의사결정과 A/B 테스트의 중요성Machine Learning/Statistics 2025. 3. 17. 18:51
현대 경제에서 데이터는 가장 중요한 자산 중 하나다. 기업의 성공 여부는 데이터를 얼마나 효과적으로 활용하는지에 달려 있으며, 이를 위해 데이터 기반 의사결정이 필수적이다. 데이터를 분석하고 인사이트를 제공하는 데이터 전문가는 기업의 성장과 혁신을 이끄는 중요한 역할을 한다. 이 글에서는 A/B 테스트라는 강력한 데이터 분석 기법과 이를 활용하는 방법에 대해 알아본다. A/B 테스트란?A/B 테스트는 두 가지 버전(A와 B)의 요소를 비교하여 어느 것이 더 나은 성과를 보이는지 평가하는 실험 방법이다. 웹사이트 디자인, 모바일 앱, 온라인 광고, 마케팅 이메일 등 다양한 분야에서 활용된다. 예를 들어, 기업은 웹페이지의 두 가지 버전을 제작하여 어떤 디자인이 더 많은 클릭, 구매 또는 구독을 유도하는지 ..
-
ML Development ProcessMachine Learning/Stanford ML Specialization 2024. 4. 28. 12:29
머신러닝을 개발하는 프로세스는 어떻게 진행될까? 먼저 어떤 모델과 데이터등을 사용할지 architecture를 결정하고 모델을 학습시킨다. 이후, bias, variance, error들을 이용해 모델을 진단하고, 만약 결과가 맘에 들지 않는다면 model이나 data를 변경해주고, 이 과정을 반복해준다. Error Analysis위 단계로 스팸 이메일을 찾아내는 Classification 모델을 트레이닝 했는데, 500개의 예시중 Cross Validation에서 100개를 잘못 분류했다고 가정해보자. Error Analysis는 매뉴얼하게 각 에러를 살펴보는 일이다. Cross Validation에서 알고리즘이 잘못 분류한 예제를 직접 찾아서 공통 주제나 속성 등으로 그룹화를 하는것이다. 예를 들어..
-
Bias and VarianceMachine Learning/Stanford ML Specialization 2024. 4. 27. 20:21
머신러닝 클래스들에서 예시로 주는, 잘 정제된 데이터로 모델을 생성하면, 8-90%의 예측률을 보여주는 모델을 만나가 되지만, 실제 현실에서는 그렇지가 않다. 선형 회귀 문제를 생각해보자. Bias가 높아서 underfit하거나, Variance가 높아서 Overfit하는 경우가 발생한다. Underfit의 경우, 오차값이 크기때문에 Jtrain값은 높아지고, Jcv값도 높을것이다. Overfit의 경우, Jtrain값은 낮더라도, Jcv값이 높을수 있다. 이렇게 Jtrain과 Jcv를 비교해서 Underfit인지, Overfit인지 예측할 수 있다. Good fit일 경우에는 Jtrain값도, Jcv값도 낮을것이다. 지난시간, 여러가지 다차항을 이용해서 모델의 성능을 살펴보고, 최적의 모델을 선택하는..
-
Model Selection and EvaluationMachine Learning/Stanford ML Specialization 2024. 4. 27. 11:55
머신러닝 모델을 만들었는데, 결과값이 심각하게 좋지 않을 때, 어떻게 해야할까? 아래를 포함한 여러가지 방법이 있을것이다.트레이닝 데이터 더 수집하기feature를 늘리거나 줄이기ploynomical feature등을 사용하거나 다른 feature engineering 기법을 사용해보기알파/감마값을 줄이거나 늘이기다른 모델 선택하기 Evaluation하지만, 이 모든것을 랜덤하게 해보는것은 수개월이 걸릴지도 모른다. 그렇기 때문에 어떤 문제가 발생하는지 모델을 Evaluation을 잘 하는것은 매우 중요하다. Linear Regression에서, 첫번째로, Train/Test error를 계산하는 방법이 있다. 많이 사용하는 Squared Error Cost를 이용해볼 수 있는데, train값은 0에 가..
-
Python BasicMachine Learning/ML Math with Python 2024. 4. 3. 22:59
Basic Operations Python의 Basic한 것들을 다시 상기해보자. Python에서는 변수(Variable)에 정수, 소수, 문자열 등 다양한 값을 넣을 수 있다. # 정수 123 a = 123 # 소수 b = 123.456 # 문자열 c = "hello world!" print()를 사용해 그 값을 콘솔에 표시할 수 있다. a = 123 print(a) 123 print를 할 때, 쉼표를 이용해서 값을 한꺼번에 프린트 할 수 있다. print(a, b, c) 이번엔 연산자를 사용해 여러 연산을 해보자. a = 3 b = 4 # 더하기 c = a + b print("+ :", c) # 빼기 d = a - b print("- :", d) # 곱하기 e = a * b print("* :", e..
-
지도학습 | 결정트리 (Decision Tree)Machine Learning/ML with Python Library 2024. 4. 3. 22:30
Decision Tree 만들기 결정트리(Decision Tree)는 분류와 회귀 문제에 널리 사용하는 모델이다. 기본적으로 결정 트리는 결정까지 Yes/No 질문을 이어 나가면서 학습한다. 마치 스무고개와 같다. 만약 포켓몬을 맞추는 문제라고 해보자. 뮤, 아르세우스, 피카츄, 파이리 중 두가지 질문을 통해 정답을 맞출 수 있다. 이런 방법을 이용해서 지도 학습 방식으로 데이터로부터 학습할 수 있다. Decision Tree를 만들어보자. 2차원 데이터셋을 분류하는 Tree이다. 이 데이터셋은 각 클래스에 데이터 포인트가 50개씩 있고, 반달 두개가 포개진 것 같은 모양을 하고 있다. 결정 트리를 학습한다는 것은 정답에 가장 빨리 도달하는 Yes/No질문 목록을 학습하는 것이다. ML에서는 이런 질문을..