njy622 / Onnanana_second-Projct

- 휴먼교육센터 2차 프로젝트 (미세먼지 빅데이터 분석)
1 stars 2 forks source link

2023.11.20 데이터 분석 #30

Open njy622 opened 11 months ago

njy622 commented 11 months ago

미세먼지, 초미세먼지 데이터 수집 및 전처리

비염 데이터 수집 및 전처리

아토피 데이터 수집 및 전처리

천식 데이터 수집 및 전처리

초미세먼지(PM2.5)에 대한 대기환경 기준은 다음과 같습니다:

연간평균치 15㎍/㎥ 이하 24시간평균치 35㎍/㎥ 이하

'AVG_PM2.5'의 값이 35 이하이거나 NaN이면 'N', 35 초과면 'Y'를 'PM2_BAD' 열에 할당 df['PM2_35BAD'] = np.where((df['AVG_PM2.5'] <= 35) | pd.isna(df['AVG_PM2.5']), 'N', 'Y')

Image

데이터간의 격차가 크므로 분석에 쓰기 어려움

AVG_납의 평균 계산 avg_pm2 = df['AVG_PM2.5'].mean()

조건에 따라 납_BAD에 Y 또는 N 할당 df['PM2_BAD'] = df['AVG_PM2.5'].apply(lambda x: 'Y' if x > avg_pm2 else 'N')

Image

기준을 정해서 분석에 알맞게 조정함

상대적 비교: 데이터셋 내에서의 상대적인 대기질을 비교하는 데 중요합니다. 이 방법은 데이터 내에서의 변동성을 포착하고, 특정 시기나 지역에서의 대기질 변화를 이해하는 데 도움이 됩니다.

특정 연구 목적: 연구의 목적이나 가설에 따라 데이터 내에서의 기준 설정이 필요할 수 있습니다. 예를 들어, 특정 지역 또는 시간대의 대기질 변화를 연구하는 경우에 적합할 수 있습니다.

데이터 특성 고려: 사용 가능한 데이터의 특성과 한계를 고려하여, 가장 적합한 분석 방법을 선택하는 것이 중요합니다.

그러나 이러한 접근 방법은 다음과 같은 제한 사항을 고려해야 합니다:

주관적 기준: 자체적으로 설정한 기준은 주관적일 수 있으며, 다른 연구나 데이터셋과의 비교가 어려울 수 있습니다. 외부 요인의 영향: 데이터의 평균치가 특정한 외부 요인(예: 계절적 변화, 특정 사건)의 영향을 받을 수 있으므로, 이러한 요인들을 고려해야 합니다.

이 이유를 바탕으로 기준을 정했습니다.