da-analysis / asac_4_dataanalysis

ASAC 4기 Data Analysis Project
0 stars 1 forks source link

텍스트 데이터 ngram 분석 #12

Open syleeie2310 opened 3 months ago

syleeie2310 commented 3 months ago

형태소 분석 필요

JIYUN0710 commented 3 months ago

스포츠 + 셀폰 reviewText만 있는 pyspark pandas 데이터 프레임을 spark 데이터프레임으로 변경하는 과정에서 계속 꺼집니다(메모리?) image image

JIYUN0710 commented 3 months ago

image

JIYUN0710 commented 3 months ago

1000개까지는 맨 아래 방법으로 가능합니다! image image

syleeie2310 commented 3 months ago

이거 코드 참고하세요

https://www.johnsnowlabs.com/scaling-up-text-analysis-best-practices-with-spark-nlp-n-gram-generation/

JIYUN0710 commented 3 months ago

image

syleeie2310 commented 3 months ago
JIYUN0710 commented 3 months ago

cell phone 2gram 결과 groupby 하고 count 하는데, 연결 끊고 다시돌려봐도 1시간 넘게 돌아가고 있습니다!! pandas로 중간에 바꾸고 하는게 좋을까요? 우선 orderby빼고 다시 돌려보도록 하겠습니다! image

syleeie2310 commented 3 months ago

데이터 클 때 패턴 확인 하기 위해서 몇개 데이터만 잘라서 본 다음에 전체적으로 돌리는게 좋을 듯 해요. (1만개 정도만 review 데이터로 2gram 어떤 패턴 볼지 미리 확인)

JIYUN0710 commented 3 months ago

1만개를 groupby하고, 딕셔너리로 바꾸는게 6분정도 걸리는데 전체 다 돌려야할까요?! image image

syleeie2310 commented 3 months ago

key가 많아서 그런거 같은데.. 오래걸리는거면 count 보고 갯수 적은 애들은 뺴고 wordcloud 그림 될거 같은데..!?

JIYUN0710 commented 3 months ago

sport와 cell 각각 10000개씩만 4gram돌린것이 각각 3시간, 4시간 넘게 걸렸습니다! image

syleeie2310 commented 3 months ago