boostcampaitech2 / mrc-level2-nlp-04

mrc-level2-nlp-04 created by GitHub Classroom
4 stars 5 forks source link

Retriever에 BM25/DPR 적용 #17

Open sangjun-Leee opened 2 years ago

sangjun-Leee commented 2 years ago

Retriever에 BM25 적용해보고 성능 비교해보기

실험 상세 내용

  1. rank_bm25 모듈을 사용하여 wikipedia_doc에 대하여 sparse embedding을 진행합니다.

  2. Mecab의 형태소 분석 tokenizer를 사용하여 context를 tokenize합니다.

  3. topk에 대하여 문서를 k개 가져올 때(k개의 context를 하나의 context로 concat)의 성능을 비교합니다.

실험 결과

model : bert-base-multilingual-cased tokenizer : mecab.morphs() sparse embedding : rank_bm25

k = 10 image

k = 20 image

k = 30 image

k = 50 image

k = 80 image

k = 100 image

k = 200 image

k별 topk score & 걸린시간 image

이슈