strange-study / ss-spark

스팤 스터디 ✨
4 stars 2 forks source link

TF-IDF 까지 1차 구현 완료 #54

Open jin5335 opened 3 years ago

jin5335 commented 3 years ago

분석

진행 상황

결과

part-00000-4fdac083-77ee-4add-b15e-79a0e10d5c88-c000.csv

시각화

진행상황

결과

스크린샷 2021-09-23 오후 9 36 29
jin5335 commented 3 years ago

SVD 결과

스크린샷 2021-07-29 오후 7 49 55
jin5335 commented 3 years ago

날짜 + 갤러리로 tf-idf 한 결과

스크린샷 2021-08-06 오후 1 04 38 스크린샷 2021-08-06 오후 1 06 28 스크린샷 2021-08-06 오후 1 06 37
jin5335 commented 3 years ago

dc_scraper.py에 날짜(20210808, %Y%m%d)를 인자로 받아서, 주어진 날짜 이후부터 프로그램 실행 시간까지 page 가져올 수 있도록 코드 추가했습니다~

jin5335 commented 3 years ago

TF-IDF를 이용하여 갤러리별 top20 단어 추출

top20_terms_by_gal.csv

20000_top20_terms_by_gal.csv

morphs_top20_terms_by_gal.csv

morphs_10000_top20_terms_by_gal.csv

스크린샷 2021-08-19 오후 1 31 59 스크린샷 2021-08-19 오후 1 32 24
jin5335 commented 3 years ago

d3, d3-cloud를 이용해서 짜치게 구현만 해봤어요 ㅋㅋㅋㅋ

스크린샷 2021-09-09 오후 6 33 50
jin5335 commented 3 years ago