Open syleeie2310 opened 3 months ago
스포츠 + 셀폰 reviewText만 있는 pyspark pandas 데이터 프레임을 spark 데이터프레임으로 변경하는 과정에서 계속 꺼집니다(메모리?)
1000개까지는 맨 아래 방법으로 가능합니다!
스포츠, 셀폰 나눠서
cell phone 2gram 결과 groupby 하고 count 하는데, 연결 끊고 다시돌려봐도 1시간 넘게 돌아가고 있습니다!! pandas로 중간에 바꾸고 하는게 좋을까요? 우선 orderby빼고 다시 돌려보도록 하겠습니다!
데이터 클 때 패턴 확인 하기 위해서 몇개 데이터만 잘라서 본 다음에 전체적으로 돌리는게 좋을 듯 해요. (1만개 정도만 review 데이터로 2gram 어떤 패턴 볼지 미리 확인)
1만개를 groupby하고, 딕셔너리로 바꾸는게 6분정도 걸리는데 전체 다 돌려야할까요?!
key가 많아서 그런거 같은데.. 오래걸리는거면 count 보고 갯수 적은 애들은 뺴고 wordcloud 그림 될거 같은데..!?
sport와 cell 각각 10000개씩만 4gram돌린것이 각각 3시간, 4시간 넘게 걸렸습니다!
형태소 분석 필요