스파크 사이드 프로젝트 목록

RyanKor commented 1 week ago

1. 스파크 사이드 프로젝트

프로젝트 제목	설명	원천 데이터 링크
소셜 미디어 데이터 분석	트위터 등 소셜 미디어 데이터를 분석하여 트렌드와 감성을 파악하는 프로젝트	Twitter API, Reddit API
고객 이탈 예측 모델	고객 데이터로 이탈 가능성을 예측하는 모델을 구축하여 고객 유지 전략 개선	IBM Telco Customer Churn
로그 데이터 기반 보안 위협 탐지	시스템 로그 분석으로 보안 위협을 실시간으로 감지하는 프로젝트	Microsoft Malware Prediction Dataset
실시간 가격 변동 모니터링	API에서 가상화폐의 실시간 가격 변동을 가져와 예측 및 알림 설정	CoinGecko API, Binance API
영화 추천 시스템	사용자 취향에 맞는 영화를 추천하는 시스템을 구축하는 프로젝트	MovieLens Dataset, IMDB Dataset
교통량 예측 시스템	교통 데이터를 분석해 시간대별 혼잡을 예측하고 실시간 교통 정보를 제공하는 프로젝트	Metro Interstate Traffic Volume Dataset
자연어 처리 기반 감성 분석	제품 리뷰 등 텍스트 데이터를 통해 사용자 감성을 분류하는 프로젝트	Amazon Reviews Dataset, Twitter Sentiment

2. 추천 이유

Spark는 대규모 데이터 처리와 실시간 데이터 스트리밍을 지원하여, 대규모 데이터를 다룰 때 안정적이고 효율적입니다. 이 프로젝트들은 데이터를 분산 처리하여 성능을 높이거나 실시간 처리가 필요한 작업에 Spark가 유리한 사례로, Spark의 장점을 잘 활용할 수 있는 프로젝트들입니다.

3. 성능 비교 애플리케이션 목록

프로젝트 제목	Spark 비교 애플리케이션 목록
소셜 미디어 데이터 분석	Pandas, Dask, Apache Flink
고객 이탈 예측 모델	Pandas, Dask, Apache Flink
로그 데이터 기반 보안 위협 탐지	Pandas, Apache Flink, Apache Hadoop + MapReduce
실시간 가격 변동 모니터링	Pandas, Apache Flink
영화 추천 시스템	Pandas, Dask, Presto (Trino)
교통량 예측 시스템	Pandas, Dask, Apache Flink
자연어 처리 기반 감성 분석	Pandas, Dask

각 프로젝트마다 Spark와 유사한 성능 테스트를 위한 분산 데이터 분석 애플리케이션들을 함께 비교할 수 있습니다.

RyanKor commented 3 days ago

aws lambda? web socket 기반 가상화폐 api 호출 해보기??

이미 만들어 놓은 오픈 소스가 있기도 함.

RyanKor commented 6 hours ago

Bithumb API 기반 스파크 - 월드 코인 tick 데이터 처리 알고리즘 초안

시스템 트레이딩 레포는 private 이라 초대 불가.

RyanKor / book-review

스파크 사이드 프로젝트 목록 #3

1. 스파크 사이드 프로젝트

2. 추천 이유

3. 성능 비교 애플리케이션 목록

Bithumb API 기반 스파크 - 월드 코인 tick 데이터 처리 알고리즘 초안

결과물