da-analysis / asac_5_dataanalysis

ASAC 5기 Data Analysis Project (google map recommendation system)
0 stars 1 forks source link

PCA > 텍스트 리뷰 코사인 유사도 #43

Open syleeie2310 opened 2 months ago

syleeie2310 commented 2 months ago

Summary

Todo

Importance

Reference

syleeie2310 commented 2 months ago
syleeie2310 commented 2 months ago

128차원 -> 20~60 (코사인 유사도 9개)

9개 중에서 몇개 feature만 사용해서 평균 코사인 유사도. candinate 추천시스템

syleeie2310 commented 2 months ago
syleeie2310 commented 2 months ago

아이템 to 아이템 1) gbdt 2) 하이브리드 (feature add) 3) 텍스트 to 텍스트 코사인 유사도

2번 평가해보고 괜찮으면 2번 쓰고 아니면 1,3번 -> gmap_id1 기준으로 겹치는 거 대략 1천개 정도만 X 20개 -> 1,2번 / 3번 (2만개식 / 2만개식)

희선님이 3번 데이터셋의 (2만개) -> 텍스트 리뷰 merge한 데이터 그걸로 왼쪽 데이터로 조인해서 따로 데이터셋 만들어서 -> 수정님 수정님 -> LLM 요약 테스트