[3] Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents

paper code Outstanding Paper Award of EMNLP2023

LLM이 주목받고 있는 요즘, IR에 사용하려는 시도가 많다. 하지만, 대부분 LLM의 생성 능력을 이용할 뿐 직접 passage ranking을 하지는 않음
passage re-ranking task을 위한 permutation generation 제안
LLM의 re-ranking 성능 평가 (다양한 실험)
작은 모델에 GPT의 ranking 능력 (permutation)을 distillation 하는 방식 제안

Passage Re-Ranking with LLMs

Instructional Permutation Generation

위의 그림에서 (c)

Sliding Window Strategy

sliding window strategy와 함께 사용 (token 제한이 있어서 전체 passage를 llm에 줄 수가 없음)

Specialization by Permutation Distillation

LLM을 그냥 사용하면 latency 너무 큼
비용도 들고
생성이 불안정하기도 하고
따라서 작은 모델에 llm의 re-ranking 능력을 distill

Permutation Distillation

model-generated permutation을 target으로 사용
MS MARCO에서 10k개의 쿼리를 샘플하고, BM25를 통해서 각 쿼리마다 20개의 후보를 선정
student 모델의 permutation과 ChatGPT로 생성한 permutation이 차이가 없도록 학습

Training Objective

RankNet loss 이용

Specialized Model Architecture

BERT-like model은 cls token을 통해 relevance를 예측하도록
GPT-like model은 relevance token을 생성 (relevance 한지 irrelevance 한지 분류), 그 때 relevance token이 생성될 확률을 relevance score로 사용

Experiments

Results

테이블 순서대로 TREC, BEIR 데이터셋 / Mr.TyDi 데이터셋 / NovelEval 데이터셋
- NovelEval 데이터셋은 논문에서 제시한 새로운 데이터셋으로 GPT4 공개 이후의 정보를 담고 있는 데이터셋

Compare with Difference Instructions

PG 좋음
- 개인적으론 gpt-3.5나 gpt-4에 대해서도 RG, QG 실험 결과 궁금ㅎㅎ

Ablation Study on TREC

initial passage order 중요 (본 논문에서는 BM25를 가지고 후보 생성)
- 1번 모델은 랜덤 순서 / 2번 모델은 BM25 결과를 역으로 재정렬
re-ranking 많이 하면 약간 더 좋아지긴 하는데, top passage에 대해선 성능이 약해지기도 - 3,4번 모델)
- 1) 한 번 전체적으로 reranking하고, 또 reranking하는건지 2)sliding window를 조절해서 한 passage가 window에 몇 번 걸려서 몇 번 re-ranking 되는건지... 잘 모르겠는데, 아마 후자일 것 같음
GPT-4로 re-rank했을 때 매우 좋은 성능 (5번 모델)

Results of LLMs beyond ChatGPT

GPT4가 nDCG@5/10에서 가장 좋음

Experimental Results of Specialization

작은 모델로 distill 했을 떄의 실험 결과로, 기존 sota 보다 좋은 성능
- 아래 표에서 가장 아래 2개가 distill한 모델, monoT5 (3B)가 기존 sota
ChatGPT보다 좋은 성능 (student 모델이 teacher 모델보다 더 좋은 성능)
- ChatGPT는 permutation 생성에 있어서 unstable

Analysis on Model Size and Data Size

BEIR 데이터셋에서 1K의 queries만으로 학습해서 permutation-distilled DeBERTa model은 기존 sota보다 좋은 성능을 보임
- 음, TREC에선 성능이 그렇게 좋지는 않네
데이터 사이즈보단 모델 사이즈가 더 영향

Limitations

ChatGPT나 GPT-4에 집중된 실험, Open-source model에 대해서도 실험을 진행해봤지만 ChatGPT와 결과가 다름 -> 고민 필요
LLM의 re-ranking에 집중하기 때문에 이는 BM25와 같이 first-stage retrieval에 어떤 것이 사용되는지에 따라 민감하게 바뀜

생각보다 방법에는 별게 없었고ㅎㅎ (PG, sliding window 정도) 데이터셋공개나 처음으로 분석을 해봤다 (다양한 실험)에 의의가 있는 것 같기도 함... shoppoing 쪽에선 question을 query로, passage를 product name이나 description으로 바꾸면 해볼만할 것 같음. GPT-like model 즉 생성모델에서 token 생성확률을 relevance score로 사용한다는 걸 이용하면 golden set 만들 때 써볼만할 것 같음 개인적으로 supple도 정리가 잘 되어 있는 듯~

noparkee / paper

[3] Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents #4