codestates / ds-blog

blog sharing for data science bootcamp course
2 stars 4 forks source link

[조보현][beginner’s curiosity] DS에게 통계 (Statistics)란 말이죠? #111

Open bohyuncho opened 4 years ago

bohyuncho commented 4 years ago

데이터 전처리 및 EDA(Data Preprocessing and EDA) 정리가 끝나기도 전에, 시간이 벌써 이렇게 됬네요...~시간 너무 빠르다 ㅠ~ 02

기본으로 알아야 할 부분만 요약으로 적어두고, 나중에 더 넓게 공부할수 있도록 관련 자료들도 링크해두려해요.

처음 글을 보고 "갑자기 통계라니요? 데이터 사이언스에 왜 통계가...?"라는 분도 있을 거고, "당연히 필요하지! 그래, 내가 필요한 걸 잘 적어놨을까?"라는 마음으로 보는 분도 있을 거에요.

전자면 그대로 봐도 괜찮고요.(환영해요!)

뉴비_-_Google_검색

~만약 후자시면 코린이(Coding+어린이)라ㅠㅠㅠㅠ 다른걸 보시는게 나을것같...~

해당 자료는 지속적으로 업데이트 되는 이론 요약본입니다.

목차

1.기초 통계

2.가설 검정(Hypothesis Testing)

3.신뢰구간(Confidence Intervals)

4.베이지안 추론(Bayesian Inference)

Correlation(상관관계)

Covariance(공분산)

유의확률(P-value)

중심극한정리(Central Limit Theorem)

T-검정(T-test)

카이제곱검정(Chi-square tests)

시작하기전에

통계가 왜 필요한가요?

'DS는 데이터를 근거로 설득하는 사람'이라고 생각하는 분들껜 통계에 필요성을 굳이 말하지 않아도 아실거라고 생각합니다. 다만, 그럼에도 불구하고, 굳이?라는 생각을 갖고있는 분들을 위해 간단히 알려드립니다.

+) 2-02 Chapter 01 통계학의 이해 1 (통계학을 공부하는 이유) : 제대로 시작하는 기초통계학 통계학 전공자에게 듣는 데이터 분석 이야기

1.기초 통계(Basic Statistics)

기초 용어 ~알고있는지 한번 확인해보세요!~

  • 모집단
  • 모수
  • 표본
  • 통계적 추론
  • 통계량
  • 추정량

2. 가설 검정(Hypothesis Testing)

R1280x0

주어진 상황에 대해서, 하고자하는 주장이 맞는지 아닌지를 판정하는 과정

  • 사실여부 판정이 가능한 것으로 진행해야함

기술 통계치

count, mean, 등 데이터를 설명하는 값(통계치)

추리 통계치

전체 모집단을 통계적으로 진행하기엔, 자원에 한계가 있기 때문에, 일부분 샘플을 통해서 모집단에 대한 통계치를 추정 하는 과정

표본 평균의 표준 오차

image 표본의 수가 많을수록, 추측든 더 정확해지고 높은 신뢰도를 바탕으로 모집단에 대해 예측할 수 있도록 함

T- test

T통계치를 사용하는 것으로 평균이 어느정도 유의성을 가지고 있는지 확인 할수잇음

단일 표본 T 검정

The T-test Process:

1) 귀무 가설 (Null Hypothesis) 를 설정 𝐻0:𝜇=𝑥¯ 𝜇= 모집단의 평균 𝑥¯= 표본의 평균

2) 대안 가설 (Alternative Hypothesis) 를 설정 𝐻1:𝜇≠𝑥¯

3) 신뢰도를 설정 (Confidence Level) :

+) 2-28 Chapter 07. 가설검정 (미리 알고 학습하면 훨씬 편해요.)

3.신뢰구간(Confidence Intervals)

4.베이지안 추론(Bayesian Inference)

Correlation(상관관계)

Covariance(공분산)

유의확률(P-value)

중심극한정리(Central Limit Theorem)

T-검정(T-test)

카이제곱검정(Chi-square tests)

bohyuncho commented 4 years ago

처음에... 과제를 근거로 코딩 어떻게 했는지를 같이 넣고 정리하려고했는데.. ;ㅅ;..