da-analysis / asac_4_dataanalysis

ASAC 4기 Data Analysis Project
0 stars 1 forks source link

reviewText 데이터 전처리 리서치 #5

Open syleeie2310 opened 4 months ago

syleeie2310 commented 4 months ago

형태소 분석을 할지말지

그대로 쓸지?

태그 값들을 제거해서 쓸지?

==? 소문자 변환/ 불용어 처리(i,he,she,is,am,the 등)/ 특수문자제거( :) 이런거는 가져가도 좋을듯

고민? 어떻게 할지?

syleeie2310 commented 3 months ago

허깅페이스 토크나이저 방식 리서치 필요 https://wikidocs.net/99893

syleeie2310 commented 3 months ago

Spark NLP

https://towardsdatascience.com/introduction-to-spark-nlp-foundations-and-basic-components-part-i-c83b7629ed59