RAFT discussion - Githubissues

RAFT 방식으로 학습한 모델은 RAG를 사용하지 않고 쓰면 성능 하락하지 않을까? 실제 서비스를 만들때, RAG를 하지 않고 답변해야 하는 상황과 RAG를 하고 답변해야하는 상황이 멀티턴으로 발생한다면? ( https://platform.openai.com/docs/guides/optimizing-llm-accuracy/understanding-the-tools )
이전 논문인 lost in the middle 과 결합해서 보면, RAFT는 'oracle'의 document배치 또는 evaluation 단계에서 'gold'문서의 위치가 성능결과에 영향을 미치진 않았을까? 예를 들어 Figure6에서 문서의 위치가 영향을 더 미쳤을지? 아니면 논문처럼 'gold'의 비율일지? (Figure5도 일부분?..)
P % of data: Q + D∗ + D1 + D2 + . . . + Dk → A∗ (1 − P) % of data: Q + D1 + D2 + . . . + Dk → A∗ 위 (1-p) % 의 case는 답변을 "memorize"하도록 강요한 설정으로 되어 있는데, 정말 이렇게 하면 golden documents가 없을때 LLM이 암기한 답변을 내는 효과를 가져올까? 주장을 그대로 받아들인다고 해도, 실제 서비스에서 RAG는 hallucination을 줄이기 위해 주어진 context내에서만 답변하도록 일부러 강제할려고 사용할텐데 오히려 역효과가 날 수 있지 않을까?

3-1. 'golden dataset'이 없는 상황에서 FT가 memorize 하는 법을 학습했는데, 해당 부분에 대한 실험은 없는 것 아닌가? 해당 실험에 대한 효용성을 증명하는 실험이 가능할까? 의미가 있을까?(gold가 없는데 LLM 답변을 잘한다? )

cf) Generalization to a variable number of test-time documents. 부분은, gold+ (# ofdistractor)에 대한 실험 결과

5.1 Making Model Robust to top-K RAG 위 두 실험결과 각각 일관성이 좀 떨어지는 건 아닌지? 주장하기에 좀 약한건 아닌지?

DUETRAG: COLLABORATIVE RETRIEVAL-AUGMENTED GENERATION ( https://arxiv.org/pdf/2405.13002 )

ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented GENERATOR ( https://arxiv.org/pdf/2405.18111 )

ZiminPark / coffee-augmented-rag