Open kimziont opened 2 years ago
고생하셨습니다 😁😁
제안드리는 부분은
가 있으면 좋겠습니다.!
감사합니다 상민님ㅎㅎ
우선 말씀 주신 1번 같은 경우는 100, 300, 500개에 대해서 진행을 했습니다. sequential이 가장 성능이 좋아보이기 때문에 밑에 조금 더 추가해 놓도록 하겠습니다.
2번의 경우는 지금 위의 실험 결과가 이미 wiki corpus에서 retrieval하는 실험인데, 혹시 이 부분을 말씀하시는 게 맞나요?
와 정말 성능이 기대가 되네요... 고생하셨어요! 아마 상민님께서 말씀하신 건 240개가 아닌 모든 wiki corpus에 대한 실험이 아닐까 싶습니다
고생하셨어요!!
여러분들 죄송합니다. 실험에 문제가 조금(조금 아님) 있었습니다. 지금은 희락님의 도움으로 문제는 해결이 되어, 실험 마치는 대로 수정하겠습니다.
상준님 말씀이 맞습니다 ㅎㅎ
고생하셨습니다. 제안드릴 부분은,
제안 감사드립니다 상민님!
실험 목적
Retrieval하는 방법을 바꿔가며 성능을 비교해보자
실험 방법
retrieval_type을 dense, elastic, both(rerank입니다), sequential 로 바꿔가며 실험 진행 (이번 실험은 validation에 있는 240개의 query에 대해서만 성능 분석을 진행하였습니다)
실험 결과
우선 가장 성능이 좋을 것으로 기대되는 Elasticsearch 와 Sequential 두 가지 방법을 우선 실험하였습니다. 그리고 Sequential의 경우 Elasticsearch로부터 가져오는 passage의 수에 따라 성능이 달라질 것으로 예상되어 개수를 바꿔가며 실험을 진행하였습니다.
이 때 모델을 bert-base로 사용한 이유는 roberta 계열의 모델과 비교했을 때 성능이 더 좋았고, 또한 batch_size를 어느 정도 크게 가져가는 것이 성능 향상에 도움이 된다고 판단하였기 때문입니다.
Dense만 사용했을 때 Retrieval accuracy
Sequential 적용했을 때 Retrieval accuracy
BERT-base의 batch_size가 12일 때 성능이 가장 좋다
실험 요약