OFMY (Ony for me and you)

[학습 블로그] 기초 Statistics 강의 정리 – 오영석 강사님 본문

포트폴리오/커널 14기 AI 부트캠퍼

[학습 블로그] 기초 Statistics 강의 정리 – 오영석 강사님

선뭉 2025. 6. 13. 16:37

 

이 강의는 데이터 분석 프로젝트를 시작하기 전에 꼭 알아야 할 통계 개념들을 빠르게 훑어보는 시간이었다. 통계 이론을 모르면 분석도 해석도 못하니까, 기본 개념을 잘 다지는 게 핵심이긴 한데 이미 다 알고 있는 내용이라 살짝 심심했습니다. 😅

 


 

 

1. 데이터의 종류

📌 데이터 구분

 

  • 정성적 데이터 (Qualitative)
  • → 카테고리형 (성별, 혈액형), 순서형 (학년, 만족도 등급)
  • 정량적 데이터 (Quantitative)
  • → 이산형 (정수값: 주사위), 연속형 (실수값: 키, 몸무게)

 


 

2. 데이터 요약 통계

📊 중심 경향성 (대표값)

 

  • 평균 (Mean): 전형적인 “다 더해서 나눈 값”
  • 중앙값 (Median): 가운데 값
  • 최빈값 (Mode): 가장 자주 나오는 값

 

 

📉 산포도 (흩어진 정도)

  • 분산 (Variance): 데이터가 평균에서 얼마나 퍼져 있는지
  • 표준편차 (Standard Deviation): 분산의 제곱근, 단위 복원
  • 사분위수 (Q1, Q3): 중간값 기준으로 나눠서 퍼짐을 본다

 

→ 정리: 평균만 보면 위험! 퍼짐 정도도 꼭 같이 봐야 함

 


 

3. 확률과 분포

🎯 확률 개념

  • 확률이란? 어떤 사건이 일어날 가능성
  • 0 ≤ 확률 ≤ 1

📈 확률 분포

  • 이항분포: 성공/실패 2가지 경우 (ex. 동전 던지기)
  • 정규분포: 종 모양! 평균 기준 대칭
  • 포아송분포: 드물게 일어나는 사건 (ex. 1시간 동안 고객 방문 수)

 

→ 정리: 데이터가 어떤 분포를 따르는지 알아야 분석도 정확

 


 

4. 중심극한정리 (Central Limit Theorem)

샘플 평균들이 모이면 정규분포처럼 된다는 법칙!

 

  • 샘플이 커질수록 더 정규분포를 따름
  • 실제 데이터를 분석할 때 이걸 기반으로 검정 진행

 

📌 결론: 정규분포를 기반으로 하는 많은 통계 기법들이 이 이론 덕분에 가능!

 


 

5. 신뢰구간 (Confidence Interval)

“우리는 평균 키가 170cm일 거라고 95% 확신한다” → 이게 신뢰구간 개념!

 

 

  • 보통 모평균 추정에 사용
  • 표본 평균 ± (신뢰계수 × 표준오차)

 

📌 예시: “170 ± 2” → 95% 신뢰로 평균이 168~172 사이


 

6. 가설검정 (Hypothesis Testing)

용어의미

귀무가설(H₀) 차이 없다 (기본 상태)
대립가설(H₁) 차이 있다 (우리가 검증하고 싶은 것)

 

검정 결과 해석

  • p-value < 0.05 → 귀무가설 기각 (즉, 유의미한 차이 있음!)
  • p-value > 0.05 → 귀무가설 채택 (차이 없음)

 

📌 사용 예:

 

  • “이 약이 효과 있을까?”
  • “새 광고가 매출에 영향 줄까?”

 

7. 상관관계와 인과관계

🔄 상관관계 (Correlation)

  • 두 변수가 함께 움직임
  • 양의 상관, 음의 상관
  • 0~1 사이의 값

📌 경고: 상관관계 ≠ 인과관계!

 


 

 

통계를 처음 배우는 사람이라면 좋은 기초 강의였겠지만, 이미 익숙한 개념들이 반복돼서 집중이 잘 안 됐네요..... 

 

 

#패스트캠퍼스 #패스트캠퍼스AI부트캠프 #업스테이지패스트캠퍼스 #UpstageAILab #국비지원 #패스트캠퍼스업스테이지에이아이랩 #패스트캠퍼스업스테이지부트캠프