ko-nlp / Korpora

Korean corpus repository
Creative Commons Attribution 4.0 International
693 stars 80 forks source link

Translated korean_hate_speech.md (#139) #141

Closed warnikchow closed 3 years ago

warnikchow commented 4 years ago

Pull Request

1. 해당 PR은 어떤 내용인가요?

2. PR과 관련된 이슈가 있나요?

lovit commented 3 years ago

fetch 함수는 일단 fetch function으로 기재하였습니다. `get_all_texts' 메소드는 처음 등장할 때는 method라는 표현을 써 주고, 두 번째에서는 생략하였습니다.

위 두 의견 감사합니다. 확인하였습니다.

lovit commented 3 years ago

Korean Hate Speech Corpus는 크게 gender_bias (binary label), bias (ternary; gender-related/others/none), hate (ternary; hate/offensive/none) 으로 구성되어 있는데, bias와 hate가 각각 ternary라는 점이 한국어 버젼에 나타나 있지 않은 것 같아 영어 버젼에는 이를 반영하였습니다. 배포가 진행된 캐글 링크에서 이를 확인하실 수 있습니다. https://www.kaggle.com/c/korean-gender-bias-detection https://www.kaggle.com/c/korean-bias-detection https://www.kaggle.com/c/korean-hate-speech-detection 만약 원본 데이터셋의 레이블에 대한 별도 수정이 없이 업로드된 것이라면, 이에 관하여 한국어 버젼의 수정이 필요할 수도 있을 것 같습니다.

위의 내용은 새로운 이슈로 제안해주시면 이후에 잊지 않고 수정할 듯 합니다. 이슈 제안 요청드립니다.

lovit commented 3 years ago

또한, Property에서 Attribute의 세부 레이블을 데이터 형식과 통일해야 한다면 (예컨대 gender-related/other/none이 아니라 gender/others/none으로, 배포된 데이터와 동일하게 해야 한다면) 그 점을 반영해야 할지도 생각해 보아야 할 것 같고, 이 부분은 별도의 통일이 필요 없다면 (다른 문서에서도) 넘어가도 괜찮을 것 같습니다.

위의 커멘트에서 gender/others/none으로, 배포된 데이터와 동일하게 해야 한다면 라는 의미를 잘 이해하지 못했습니다. 원 데이터의 값을 수정한다는 말씀이신거죠?

Korpora 는 원 데이터의 변형없이 로딩의 기능만을 제공하는 것이 목적이므로 저자의 의견을 따를 예정입니다. 다른 말뭉치와의 통일성은 고려하지 않으셔도 될 듯 합니다.

lovit commented 3 years ago

@warnikchow 원익님과의 작업에서 PR merge 의 조건을 @ratsgo, @lovit 중 한 명 이상 approve 로 논의하였기에, 위의 커멘트와 관계없이 merge 진행하셔도 좋습니다.