TmaxEdu / KorDPR

This repo Implements "Dense Passage Retrieval for Open-Domain Question Answering" using Korean Dataset
Other
74 stars 14 forks source link

한국어 위키 데이터 관련 질문 #6

Closed hamgcho closed 6 months ago

hamgcho commented 6 months ago

안녕하세요, 질문에 앞서 누구나 이해하고 따라가기 쉽게 코드 작성 및 공유 해주셔서 감사드립니다. 막 자연어 처리에 입문한 저에게는 정말 큰 도움이 되고 있습니다. 다름이 아니라 readme.md 에 작성하신 instruction을 따라가던 중 step 3에서 자꾸 걸려서 질문 드립니다.

TLDR;

현재 리포에서 활용되는 한국 위키 데이터 덤프 파일 kowiki-20220120-pages-articles.xml 을 공유받을 수 있을까요?

Issue 설명

image 현재로써는 20200120 KorWiki dump data은 접근이 불가능한 상황입니다. 그래서 placeholder로 2024 데이터를 활용하여 이후 step을 따라가려 했지만, step4을 마치고 step5인 훈련으로 넘어가려 할 때에 dev split에서의 전처리된 데이터가 빈 데이터로 전처리가 된 것을 확인하였습니다.

그리고 그 이유를 살펴 본 결과, 제목과 매칭하는 과정에서 매칭되는 제목이 전혀 없어 빈 데이터로 전처리가 된 것을 확인하였습니다.

저는 현재 공유해주신 코드 그대로 전처리하여 훈련시키는 것과 더불어, 조금 다른 방식의 전처리 방식도 시도를 해보고 싶은 상황인지라 본 리포에서 활용중인 kowiki-20220120-pages-articles.xml을 가지고 계시다면 혹시 공유 받을 수 있을지 여쭙고 싶습니다.

감사합니다.

DaehanKim commented 6 months ago

안녕하세요! @hamgcho 님 다른 분들께도 문의를 몇 번 받아서 확인해봤는데 현재 해당 위키 파일은 저도 가지고 있지 않습니다. 사전학습된 모델과 index을 그대로 사용하려면 해당 wiki dump가 있어야 하기 때문에 당장은 그대로 사용은 어렵다고 볼 수 있습니다.

대신 다음과 같은 방법을 고려해보실 수 있을 것 같습니다.

  1. 사전학습된 모델을 그대로 활용 : 새로운 wiki dump로 index를 다시 만드셔서 사용하시면 됩니다. 3,4,6,7 순서로 진행하시면 됩니다.
  2. 처음부터 학습 진행 : 3~7 순서로 진행하셔서 모델을 새로 학습합니다.