brand2vec, category2vec 만들기

syleeie2310 commented 3 months ago

brand2vec, category2vec

mllib word2vec 알고리즘으로 계산하기

리뷰어의 시퀀스를 계산해서 학습 데이터에 넣으면 결과가 뿅 나옵니다.

syleeie2310 commented 2 months ago

@JIYUN0710 - brand2vec

https://tacademykr-daanalysis.cloud.databricks.com/?o=647747681770278#notebook/4338674024914098/command/4237968628707888

amazon_data = spark.sql(""" select * from asac.cellphone where 1=1 and date_column < 날짜 """)

grouped_df = ( amazon_data .groupby("reviewerID") .agg( F.sort_array(F.collect_list(F.struct("date_column", "brand"))) .alias("collected_list") ) .withColumn("sorted_list", F.col("collected_list.asin")) .drop("collected_list") )

word2Vec = Word2Vec(vectorSize=30, seed=2310, inputCol="sorted_list", outputCol="model", minCount=5, maxIter = 30, numPartitions = 16, windowSize = 5) ### 파라미터 (코어 X Executor) model = word2Vec.fit(grouped_df) model.write().overwrite().save('')

brand_vec = model.getVectors() brand_vec.createOrReplaceTempView("brand_vec") brand_vec & brand_vec = 유사도 (brand_vec 갯수 보고 너무 많으면 조절해서 브랜드가 5천개 = 5000 X 5000 = 25,000,000) 브랜드 명 입력하면 유사한 브랜드 나올 수 있도록 결과 만들기

-> 삼성 > 애플,...

syleeie2310 commented 2 months ago

만약 결과를 잘 보여주고 싶으면 tSNE 라이브러리로 결과 시각화 하면 끝

syleeie2310 commented 2 months ago

from pyspark.sql.functions import format_number as fmt model.findSynonyms("a", 2).select("word", fmt("similarity", 5).alias("similarity")).show()