LandvibeDev / 2024-spark

0 stars 7 forks source link

[4주차 과제][최종과제 준비] 분석해보고 싶은 데이터 소스를 구해오세요! #14

Open s5646s opened 1 month ago

s5646s commented 1 month ago

요구사항

우대사항

s5646s commented 1 month ago

데이터 구하기 좋은 사이트

Kaggle Datasets: https://www.kaggle.com/datasets 머신러닝 및 데이터 과학 커뮤니티를 위한 플랫폼으로, 다양한 주제의 데이터셋을 제공합니다. 사용자들은 데이터셋을 탐색하고, 다운로드하고, 분석 및 학습 프로젝트에 사용할 수 있습니다.

King County Data (King County, WA, USA): https://data.kingcounty.gov/ 미국 워싱턴주의 킹 카운티에서 제공하는 공개 데이터 포털입니다. 지역 내 다양한 공공 서비스, 인구 통계, 지리 공간 데이터 등 다양한 데이터를 제공합니다.

공공데이터포털 (Data.go.kr): https://www.data.go.kr/ 대한민국 정부의 공공 데이터 포털로, 다양한 정부 기관에서 제공하는 공공 데이터셋을 한곳에서 검색하고 다운로드할 수 있습니다. 경제, 사회, 건강, 교통 등 여러 분야의 데이터를 포함하고 있습니다.

UCI Machine Learning Repository: https://archive.ics.uci.edu/ml/index.php 다양한 연구 분야에서 사용 가능한 고품질의 데이터셋을 제공합니다.

Google Dataset Search: https://datasetsearch.research.google.com/ 구글의 데이터셋 검색 엔진으로, 전 세계의 다양한 공개 데이터셋을 찾을 수 있습니다.

Data.gov (미국 정부 데이터 포털): https://www.data.gov/ 미국 정부에서 제공하는 다양한 공개 데이터셋을 제공합니다.

Open Data Portal (유럽 데이터 포털): https://data.europa.eu/euodp/en/data/ 유럽연합의 데이터 포털로, 다양한 공공 데이터셋을 찾을 수 있습니다.

World Bank Open Data: https://data.worldbank.org/ 세계은행에서 제공하는 글로벌 경제, 인구 및 사회 통계 데이터를 제공합니다.

AWS Public Datasets: https://registry.opendata.aws/ 아마존 웹 서비스에서 제공하는 다양한 분야의 대용량 공개 데이터셋을 제공합니다.

FiveThirtyEight: https://data.fivethirtyeight.com/ 데이터 저널리즘 사이트로, 정치, 경제, 스포츠 등 다양한 주제의 데이터셋을 제공합니다.

Statista: https://www.statista.com/ 전 세계의 시장 통계와 소비자 데이터에 대한 데이터베이스입니다. 일부 데이터는 유료로 제공됩니다.

Quandl: https://www.quandl.com/ 금융, 경제, 사회 지표 등에 대한 다양한 데이터셋을 제공합니다. 일부 데이터는 유료입니다.

OpenWeatherMap: https://openweathermap.org/api 기상 데이터 API를 통해 전 세계의 날씨 데이터를 제공합니다.

통계청 (KOSIS, 통계정보시스템): http://kosis.kr/ 대한민국 통계청에서 제공하는 통계 포털로, 경제, 사회, 인구, 산업 등 다양한 주제의 통계를 제공합니다. 사용자는 원하는 형태로 데이터를 시각화하거나 다운로드할 수 있습니다.

서울 열린 데이터 광장: https://data.seoul.go.kr/ 서울시에서 제공하는 공공 데이터 포털로, 교통, 환경, 복지 등 서울시와 관련된 다양한 데이터를 제공합니다. 실시간 데이터를 포함하여 다양한 형식으로 다운로드 가능합니다.

국토교통부 실거래가 공개시스템: http://rt.molit.go.kr/ 국토교통부에서 제공하는 부동산 실거래가 데이터를 제공합니다. 아파트, 오피스텔, 상가 등의 실거래 정보를 검색하고 다운로드할 수 있습니다.

교육부 교육통계서비스 (EDSS): https://www.kedi.re.kr/khome/main/webhome/Home.do 교육부 및 한국교육개발원에서 제공하는 교육 관련 통계 데이터베이스입니다. 교육 인프라, 학생 및 교사 수, 학력 수준 등 교육 관련 다양한 데이터를 제공합니다.

한국은행 경제통계시스템 (ECOS): http://ecos.bok.or.kr/ 한국은행에서 제공하는 경제 및 금융 관련 통계 데이터 포털입니다. 국내외 경제 지표, 금융 시장, 환율, 물가 등 다양한 경제 데이터를 제공합니다.

Twitter API: https://developer.twitter.com/en/docs 트위터의 공공 트윗, 사용자 프로필, 트렌드 데이터를 제공하는 API입니다. 소셜 미디어 분석, 감정 분석 등에 활용할 수 있습니다.

Google Maps API: https://developers.google.com/maps 지도, 장소 검색, 거리 계산, 경로 안내 등을 위한 API입니다. 지리 공간 데이터 분석, 경로 최적화, 위치 기반 서비스 개발에 유용합니다.

YouTube Data API: https://developers.google.com/youtube/v3 유튜브의 동영상, 채널, 플레이리스트 데이터에 접근할 수 있는 API입니다. 비디오 콘텐츠 분석, 채널 성장 추적, 인기 콘텐츠 파악 등에 사용할 수 있습니다.

Spotify Web API: https://developer.spotify.com/documentation/web-api/ 음악 스트리밍 서비스인 스포티파이의 곡, 아티스트, 플레이리스트 등의 데이터를 제공하는 API입니다. 음악 추천 시스템, 사용자 선호도 분석 등에 활용할 수 있습니다.

Flickr API: https://www.flickr.com/services/api/ 사진 공유 사이트인 Flickr의 사진, 앨범, 태그 등의 데이터를 제공하는 API입니다. 이미지 분석, 태그 분석, 사용자 활동 분석 등에 사용할 수 있습니다.

NASA API: https://api.nasa.gov/ NASA에서 제공하는 다양한 천문학 데이터와 이미지를 제공하는 API입니다. 우주 과학 연구, 천문학 데이터 분석 등에 유용합니다.

Eventbrite API: https://www.eventbrite.com/developer/v3/ 이벤트 관리 및 티켓 판매 플랫폼인 Eventbrite의 이벤트, 티켓, 참석자 데이터에 접근할 수 있는 API입니다. 이벤트 분석, 사용자 행동 분석 등에 사용할 수 있습니다.

Facebook Graph API: https://developers.facebook.com/docs/graph-api 페이스북의 사용자, 페이지, 그룹, 이벤트 데이터에 접근할 수 있는 API입니다. 소셜 네트워크 분석, 사용자 행동 분석, 마케팅 캠페인 효과 분석 등에 유용합니다.

so3500 commented 1 month ago

소스 후보

1.3M Linkedin Jobs & Skills (2024)

https://www.kaggle.com/datasets/asaniczka/1-3m-linkedin-jobs-and-skills-2024

job market analysis, skill mapping, job recommendation system

공유내용 정리 ⭐️

데이터 크기

job_skills.csv 0.67GB

job_summary.csv 5.1GB

linkedin_job_postings.csv 0.41GB

액션 아이템

데이터 특징

상태 : 채용공고 없음 / 채용마감 / 채용중

Action Item : 크롤러로 현재 게시 여부 알아내고, 현재 채용중인 공고만 추려보기

Stock Market Data (NASDAQ, NYSE, S&P500)

https://www.kaggle.com/datasets/paultimothymooney/stock-market-data

공유내용 정리 ⭐️

처리방법

lee021 commented 1 month ago

선택 소스

1.3M Linkedin Jobs & Skills (2024)

- 어떤 특징을 갖고 있는 데이터인지?

링크드인의 채용공고를 분석한 데이터이다. 링크드인 : 채용공고와 비즈니스 관련 게시물 공유 사이트인 소셜 네트워크

• job_skills.csv (672.72 MB) 해당 직무의 요구 능력(skills)에 관한 데이터이다.

image

• job_summary.csv(5.1 GB) 링크드인에 게시된 직업 설명에 대한 데이터이다. image

• linkedin_job_postings.csv(415.33 MB) 링크드인에 게시된 게시물의 모든 정보를 분석해놓은 데이터이다. 상세내용은 아래와 같다.

image image

- 어디에 활용할 수 있을 것인지?

다양한 도시나 국가에서 가장 수요가 많은 직업 타이틀 또는 산업 분석 : linkedin_job_postings.csv의 job_location열 이용

특정 직책을 채용하는 주요 회사 분석 : linkedin_job_postings.csv의 company , job_title열 이용

다양한 직업 카테고리에서 가장 많이 요구되는 기술 파악 : (job_skills.csv와 linkedin_job_postings.csv을 job_link열을 기준으로 join해서 추출) job_title열과 job_skills열 이용

- 활용하려면 어떤 데이터 처리가 필요할지?

: csv로 잘 정제돼있는 형태라, 추가적인 데이터 처리가 필요하지 않아 보입니다.

- 결과를 뽑아내려면 어느 정도의 컴퓨팅 리소스가 필요할지?

데이터 총량 : 6GB

---요구사항---

RAM : 12GB 이상 => Colab에서 12GB까지 제공

CPU : 다중코어(4코어 이상) => Colab 커버 가능

디스크 I/O 성능 : HDD보단 SSD 추천. (데이터 읽,쓰기 빠름), 디스크 여유 공간 필수 => Colab은 데이터 처리에 유리, 디스크 용량 효율적 사용 가능

분산 처리 시스템 : PySpark 사용으로, 클러스터를 통해 데이터를 병렬로 처리 가능