한국어 위키 데이터 관련 질문

안녕하세요, 질문에 앞서 누구나 이해하고 따라가기 쉽게 코드 작성 및 공유 해주셔서 감사드립니다. 막 자연어 처리에 입문한 저에게는 정말 큰 도움이 되고 있습니다. 다름이 아니라 readme.md 에 작성하신 instruction을 따라가던 중 step 3에서 자꾸 걸려서 질문 드립니다.

TLDR;

현재 리포에서 활용되는 한국 위키 데이터 덤프 파일 kowiki-20220120-pages-articles.xml 을 공유받을 수 있을까요?

Issue 설명

현재로써는 20200120 KorWiki dump data은 접근이 불가능한 상황입니다. 그래서 placeholder로 2024 데이터를 활용하여 이후 step을 따라가려 했지만, step4을 마치고 step5인 훈련으로 넘어가려 할 때에 dev split에서의 전처리된 데이터가 빈 데이터로 전처리가 된 것을 확인하였습니다.

그리고 그 이유를 살펴 본 결과, 제목과 매칭하는 과정에서 매칭되는 제목이 전혀 없어 빈 데이터로 전처리가 된 것을 확인하였습니다.

저는 현재 공유해주신 코드 그대로 전처리하여 훈련시키는 것과 더불어, 조금 다른 방식의 전처리 방식도 시도를 해보고 싶은 상황인지라 본 리포에서 활용중인 kowiki-20220120-pages-articles.xml을 가지고 계시다면 혹시 공유 받을 수 있을지 여쭙고 싶습니다.

감사합니다.

TmaxEdu / KorDPR

한국어 위키 데이터 관련 질문 #6

TLDR;

Issue 설명