medal-challenger / jigsaw-rate-severity-of-toxic-comments

0 stars 0 forks source link

불용어 제거 필요성 #21

Closed Kingthegarden closed 2 years ago

Kingthegarden commented 2 years ago

데이터셋 전처리 과정에서 불용어 제거에 대한 논의가 필요하다고 생각합니다.

불용어 제거 전 : it is not fuking working 불용어 제거 후 : it is fuking working

쉽게말해서 불용어를 제거한다는 것은, 위와 같이 문장의 의미가 아예 바뀌는 것이라 BERT 문맥을 학습하는 과정에서 제대로된 학습이 되지 않을까 우려됩니다. 따라서, 불용어를 제거하지 않은 데이터로 학습을 진행하여야 한다고 생각합니다. 혹시 다른 의견 있으시면 의견주세요.

ympaik87 commented 2 years ago

동의합니다. BERT기반 모델들은 불용어 제거를 하지 않는게 보통이라고 저도 알고있습니다. 저희 baseline model로 (roberta-base) 성능 비교 테스트 결과 보고 최종 결정 하시죠.

kkbwilldo commented 2 years ago

동의합니다. BERT기반 모델들은 불용어 제거를 하지 않는게 보통이라고 저도 알고있습니다. 저희 baseline model로 (roberta-base) 성능 비교 테스트 결과 보고 최종 결정 하시죠.

두 분 말씀 모두에 동의합니다. 어텐션 기반 언어 모델링은 항상 전처리를 최소화해서 진행하는 것 같습니다. 그러나 영민님 말씀처럼 실험 결과를 보고 결정하는게 저희 방향성이랑 맞는 것 같습니다.


불용어 안제거에 찬성입니다!

Kingthegarden commented 2 years ago

불용어 제거를 하지 않는 걸로 결정됬습니다. 이에 따라, 다음과 같이 네이밍 방식을 변경해서 제출해주세요 !

[dataset_name] model_name V1 ← 노트북 & 데이터셋 이름 ex) [Medal-Challenger] RoBERTa V1 Version: Forward Pass를 깊게 쌓음 ← 버저닝 내용

jerife commented 2 years ago

넵 확인하고 전처리 진행해서 Notion에 전처리 과정 코드(jigsaw4-last-data.ipynb)와 전처리된 파일 (Medal_Challenger_Jigsaw_dataset_v3 / Medal_Challenger_Jigsaw_dataset_v3_1) 을 업로드 했습니다.

전처리 과정 코드 확인해보시고 과정에 오류가 있는지 확인 부탁드립니다.

v3의 경우 추가 데이터의 worker가 980 ~ 995 에 분포하고 , v3_1 의 경우 추가 데이터의 worker가 990 ~ 995 에 분포합니다.

참고해서 작업하시면 될것같습니다.