hdonghun commented 2 years ago

Kernel Density Estimate plot : KDE(임의 변수의 확률 밀도 함수를 추정하는 비모수적 방법이다. 이 함수는 가우스 커널을 사용하며 자동 대역폭 결정을 포함한다.

비모수 통계:통계학에서 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석법이다.

사용 조건: 모집단의 현상이 정규분포가 아닐 떄, 정규분포로 적적히 변환되지 못할 때, 자료의 표번수가 적을 떄, 자료들이 서로 독립적일 때, 많은 표본을 추출하기 어려울 때

커널함수는 원점을 중심으로 대칭이며, 적분값이 1인 함수다.

확률 밀도 함수 : 확률 변수의 분포를 나타내는 함수, 적분값이 1이다.

정규분포 :확률론과 통계학에서, 정규 분포(normal distribution)또는 가우시안 분포(Gaussian distribution)는 연속 확률 분포의 하나이다. 정규분포는 수집된 자료의 분포를 근사하는 데에 자주 사용되며, 이것은 중심극한정리에 의하여 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 잇기 때문이다.

정규분포로 만들어줘야지 머신러닝이나 딥러닝할때 좋은 성능을 발휘한다.

hdonghun commented 2 years ago

Kaggle 독학하면서 추가적으로 꼭 챙겨야 할 것들

Kaggle 대회 참가
논문

hdonghun commented 2 years ago

용어 정리

이상값 : 데이터의 분포 상 다른 데이터들과 동떨어진 것

hdonghun commented 2 years ago

기본적인 kaggle 문법이랑 사용법을 공부하였고, 이제 이 도구를 가지고 어떻게 데이터를 분석하는지 공부와 데이터베이스에서 데이터를 가져오는 SQL에 대해서 공부해보자

hdonghun commented 2 years ago

### 공공데이터로 파이썬 데이터 분석 시작하기 공부하면서 내용 정리하기

판다스로 파일 읽어 오는 법 : pd.read_csv(파일 이름, encoding = "cp949") df_last.isnull().sum() : #isnull()을 통해 결측치 보기 #sum해서 결측치 합계 구하기

분양가격이 object 타입으로 되어 있어, 연산을 하기 편리하지 않아서 수치 타입으로 바꾸어 준다.

: df_last["분양가격"] = pd.to_numeric(df_last["분양가격(제곱미터)"], errors='coerce')

groupby 로 데이터 집계하기 groupby를 통해 데이터를 그룹화해서 연산하기 > 연산 결과 : series형태

: df.groupby(["인덱스로 사용할 컬럼명"])["계산할 컬럼 값"].연산() > pivot보다 연산결과가 좀 더 빠르다.

pivot_table로 데이터 연산하기 > 연산 결과 : dataframe 형태

: df_last.pivot_table(index="columns명", columns = "columns명", values="columns명" ) > 더 명시적이다.

unstack() : 끝에 있는 인덱스가 columns로 와서 더 이쁘게 보여준다.

.round() : 뒤에 지저분한 소수점이 한자리수로 정리되어 더 이쁘게 보여준다.

요약 결과가 다르다. object 타입과 수치데이터 타입 일떄, 비교

unique한 값은 중복되지 않은 값을 뜻한다.

top 가장 빈번하게 등장하는 값은 무엇이냐

freq 가장 빈번하게 등장하는 값이 얼마나 등장하느냐

한글폰트 사용하기 위해서! import matplotlib.pyplot as plt plt.rc("font", family="Malgun Gothic")

박스 플롯으로 시각화 하기

최솟값 제 1사분위수 제 2사분위수(), 즉 중앙값 제 3사분위 수() 최댓값

hdonghun commented 2 years ago

<데이터의 병합과 분해>

merge는 열개수 늘릴 때 많이씀
concat은 행개수 늘릴 대 많이씀
melt는 옆으로 되어있는걸 밑으로 늘어트릴 때 많이씀

hdonghun / Python_analysis-visualization

Kaggle study #1

정규분포로 만들어줘야지 머신러닝이나 딥러닝할때 좋은 성능을 발휘한다.

분양가격이 object 타입으로 되어 있어, 연산을 하기 편리하지 않아서 수치 타입으로 바꾸어 준다.

groupby 로 데이터 집계하기 groupby를 통해 데이터를 그룹화해서 연산하기 > 연산 결과 : series형태

pivot_table로 데이터 연산하기 > 연산 결과 : dataframe 형태

unstack() : 끝에 있는 인덱스가 columns로 와서 더 이쁘게 보여준다.

.round() : 뒤에 지저분한 소수점이 한자리수로 정리되어 더 이쁘게 보여준다.

요약 결과가 다르다. object 타입과 수치데이터 타입 일떄, 비교

unique한 값은 중복되지 않은 값을 뜻한다.

top 가장 빈번하게 등장하는 값은 무엇이냐

freq 가장 빈번하게 등장하는 값이 얼마나 등장하느냐

박스 플롯으로 시각화 하기