da-analysis / asac_4_dataanalysis

ASAC 4기 Data Analysis Project
0 stars 1 forks source link

추천 모델(초안) 랭킹 평가 #21

Open syleeie2310 opened 3 months ago

syleeie2310 commented 3 months ago

추천 모델(초안) 랭킹 평가

위 4가지 기준 평가하고 기준 아이템 당 추천 몇개가 평균적으로 나오는지 확인 필요 (평가 데이터 기준으로 커버리지도 확인 필요)

syleeie2310 commented 2 months ago

https://nbviewer.org/github/sberbank-ai-lab/RePlay/blob/main/experiments/02_models_comparison.ipynb

syleeie2310 commented 2 months ago

https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.regression.GeneralizedLinearRegression.html

이걸로 바꿔서 실험해보고 아래로 TrainingSummary 함수에서 pvalue 값 확인하기

https://spark.apache.org/docs/3.1.1/api/python/reference/api/pyspark.ml.regression.GeneralizedLinearRegressionTrainingSummary.html

syleeie2310 commented 2 months ago

1) https://github.com/da-analysis/asac_4_dataanalysis/issues/19#issuecomment-2081388951 2) https://github.com/da-analysis/asac_4_dataanalysis/issues/20#issuecomment-2081389140

1,2번 실험 끝나면 테스트 데이터로 train모델에 나온 prediction 결과 값 기준으로 추천 랭킹 성능 확인하기

syleeie2310 commented 2 months ago

https://tacademykr-daanalysis.cloud.databricks.com/?o=647747681770278#notebook/92927258425207/command/1489378255554963

traindata 로 prediction 데이터 만들고 testdata 로 평가하기 만든 모델 데이터 학습 1:1 버전까지 해보고 다시 평가해보기 (https://github.com/da-analysis/asac_4_dataanalysis/issues/19#issuecomment-2081388951) ㄴ 모델에서 나오는 결과 확률 값 분포 보면서 판단해봐주세요.

testdata 평가할 때 함수로 만들어서 한번에 쭉 돌려보기 (코드 참고할 것) testdata 에서 2개 이상인 reviews_cnts만 가지고 평가하기

syleeie2310 commented 2 months ago

제가 공유해드린 변경한 recall 함수로 map, coverage rate, hit rate, ndcg, recall, precision 계산 정리 하고

그 중에 가장 좋은 모델만 형섭님이 사용할 수 있도록 저장해주세요. (아래 이슈) https://github.com/da-analysis/asac_4_dataanalysis/issues/25