NovelEval 데이터셋은 논문에서 제시한 새로운 데이터셋으로 GPT4 공개 이후의 정보를 담고 있는 데이터셋
Compare with Difference Instructions
PG 좋음
개인적으론 gpt-3.5나 gpt-4에 대해서도 RG, QG 실험 결과 궁금ㅎㅎ
Ablation Study on TREC
initial passage order 중요 (본 논문에서는 BM25를 가지고 후보 생성)
1번 모델은 랜덤 순서 / 2번 모델은 BM25 결과를 역으로 재정렬
re-ranking 많이 하면 약간 더 좋아지긴 하는데, top passage에 대해선 성능이 약해지기도 - 3,4번 모델)
1) 한 번 전체적으로 reranking하고, 또 reranking하는건지 2)sliding window를 조절해서 한 passage가 window에 몇 번 걸려서 몇 번 re-ranking 되는건지... 잘 모르겠는데, 아마 후자일 것 같음
GPT-4로 re-rank했을 때 매우 좋은 성능 (5번 모델)
Results of LLMs beyond ChatGPT
GPT4가 nDCG@5/10에서 가장 좋음
Experimental Results of Specialization
작은 모델로 distill 했을 떄의 실험 결과로, 기존 sota 보다 좋은 성능
아래 표에서 가장 아래 2개가 distill한 모델, monoT5 (3B)가 기존 sota
ChatGPT보다 좋은 성능 (student 모델이 teacher 모델보다 더 좋은 성능)
ChatGPT는 permutation 생성에 있어서 unstable
Analysis on Model Size and Data Size
BEIR 데이터셋에서 1K의 queries만으로 학습해서 permutation-distilled DeBERTa model은 기존 sota보다 좋은 성능을 보임
음, TREC에선 성능이 그렇게 좋지는 않네
데이터 사이즈보단 모델 사이즈가 더 영향
Limitations
ChatGPT나 GPT-4에 집중된 실험, Open-source model에 대해서도 실험을 진행해봤지만 ChatGPT와 결과가 다름 -> 고민 필요
LLM의 re-ranking에 집중하기 때문에 이는 BM25와 같이 first-stage retrieval에 어떤 것이 사용되는지에 따라 민감하게 바뀜
생각보다 방법에는 별게 없었고ㅎㅎ (PG, sliding window 정도) 데이터셋공개나 처음으로 분석을 해봤다 (다양한 실험)에 의의가 있는 것 같기도 함...
shoppoing 쪽에선 question을 query로, passage를 product name이나 description으로 바꾸면 해볼만할 것 같음.
GPT-like model 즉 생성모델에서 token 생성확률을 relevance score로 사용한다는 걸 이용하면 golden set 만들 때 써볼만할 것 같음
개인적으로 supple도 정리가 잘 되어 있는 듯~
paper code Outstanding Paper Award of EMNLP2023
Passage Re-Ranking with LLMs
Instructional Permutation Generation
Sliding Window Strategy
Specialization by Permutation Distillation
Permutation Distillation
Training Objective
Specialized Model Architecture
Experiments
Results
Compare with Difference Instructions
Ablation Study on TREC
Results of LLMs beyond ChatGPT
Experimental Results of Specialization
Analysis on Model Size and Data Size
Limitations
생각보다 방법에는 별게 없었고ㅎㅎ (PG, sliding window 정도) 데이터셋공개나 처음으로 분석을 해봤다 (다양한 실험)에 의의가 있는 것 같기도 함... shoppoing 쪽에선 question을 query로, passage를 product name이나 description으로 바꾸면 해볼만할 것 같음. GPT-like model 즉 생성모델에서 token 생성확률을 relevance score로 사용한다는 걸 이용하면 golden set 만들 때 써볼만할 것 같음 개인적으로 supple도 정리가 잘 되어 있는 듯~