[KE] Editing Factual Knowledge in Language Models

Problem statement

LM의 internal memory가 다양한 다운스트림 태스크에 사용될 수 있음을 보여주는 사례가 많지만, 이에 대한 명확한 규명은 없음
- LM의 memories를 수정하는 Knowledge Editing 태스크와 그에 맞는 평가 벤치마크 제안
- LM의 reliability를 잃지 않으면서 LM의 memories를 수정하는 KnowledgeEditor 제안
- LM의 어떤 파트가 memories에 관여하는지에 대한 인사이트 분석

Knowledge Editing의 평가 attributes:
- Generality: meta-learning이나 specific pre-training 방법 없이 일반적인 LM에 대해 적용될 수 있는지
- Reliability: 해당 model edit이 관련 없는 다른 지식에는 영향을 주지 않는지, 후속 논문들의 Locality와 동일한 속성
- Consistency: 유사한 paraphrase 문장에 대해서도 동일한 edited behaviour를 보이는지
Hyper-network: 다른 모델의 parameter 혹은 gradient를 예측하는 모델

FT:
- updated knowledge가 포함된 데이터셋으로 다시 학습한 모델
- FT 기반의 접근은 결국은 비용이 큰 pre-training을 다시 해야하고, hparams에 민감하다는 공통적인 단점이 있다.
FT + regularization:
- 원래 모델의 reliability를 잃지 않도록 update에 제한을 두며 FT
- 원래 모델의 params와 edited model의 params 간에 L2 constraints를 주는 방식이 대표적
- 그러나, norm-based constraint는 LM의 non-linear function과의 효율이 좋지 않다 (i.e. ignores the highly nonlinear nature of LMs and how parameters determine the outputs of the model)
서로 다른 LM의 구조로 대표성 있는 BERT와 BART를 사용
- BERT의 경우 FEVER에 FT한 후 Fact-Checking 데이터셋에 대해 평가
- BART는 zsRE에 대해 FT한 후 Closed-book QA에 대해 평가

학습
- FEVER (KILT)
- zsRE (zero-shot Relation Extraction)
평가:
- human-generated paraphrased question이 없는 데이터셋의 경우, back-translation으로 유사한 문장 생성
- edited target에 대해 fact-checking은 bool type의 답변이라 뒤짚었고, QA의 경우 beam search에서 top-1이 아닌 후보군을 사용했다.
- closed-book fact-checking
- closed-book QA

- hyper-network인 Knowledge Editor의 구조
- 원래 모델 f의 parameters를 θ, edited target a에 대한 parameters를 θ'라 할 때, θ'를 예측해야 한다. (i.e. θ' = g(x, a))
- 이 때 θ'을 바로 예측하는 것은 비용이 많이 들기 때문에 θ' = θ + g(x, y, a)를 예측한다.
- g(x, y, a)는 결국 a가 주어졌을 때 어떤 paramter를 업데이트해야 하는지에 대한 정보를 담고 있고, tractable한 방법이다.
- 이 때, Reliability를 위해 g는 x != x'인 set O, constraint C, margin m에 대해 C(θ, θ', f; O) <= m 또한 동시에 만족해야 한다.
- C는 Kullback-Leibler divergence를 사용
- 동시에 Lp norm 또한 대안으로 사용하는 실험도 진행하는데, Lp norm은 결과적으로 success rate는 높지만 retain acc이 매우 낮아진다는 점에서 기존 FT 방법론과 유사한 경향성을 보였다.
- 이는 앞선 FT+reg에서 언급했던 것처럼, LM의 non-linear 함수를 고려할 때 효과적인 방법이 아님을 알 수 있다.

모든 메트릭은 기능적으로는 EM (ExactMatch) accuracy를 사용
한 개의 샘플에 대해 아래의 메트릭들을 계산
- success rate: θ'로 예측했을 때의 정확도
- retain accuracy: 해당 샘플을 제외한 다른 샘플들의 정확도의 평균
- equivalence accuracy: 해당 샘플과 semantically equivalent한 문장(i.e. paraphrased sentence)의 정확도
- performance deterioration: 기존 모델 대비 업데이트된 모델의 성능 저하도 (i.e. 1 - acc(y;θ') / acc(y;θ))

- diagonal한 분포는 원래 모델의 logits 분포와 edited 모델의 분포가 유사하다는 걸 의미하는데, FT 모델은 상관성을 유지하고는 있으나, KnowledgeEditor보다는 분포의 변화가 조금 더 일어났음을 확인할 수 있다.
- L2 norm-based FT의 경우, 분포가 완전히 달라졌음을 알 수 있다. 위의 정량 결과에서 봤듯이 success rate는 유지되거나 더 높을지라도, retain accuracy가 낮아진 원인을 확인할 수 있다.
- fig4-a는 본래 모델을 학습했을 때의 gradients를 정규화하여 magnitude로 시각화한 것이다. Encoder의 첫째 레이어의 gradient와 Decoder의 last layer가 가장 높은 강도를 보이는데, 1-layer FT의 성능이 제일 높은 것을 설명한다고 볼 수 있다.
- FT의 경우, Encoder & Decoder의 모든 레이어에서 모두 활발히 업데이트되었음을 알 수 있다. 따라서, seq2seq 모델의 sensitive함을 고려할 때 기존 모델의 예측결과와 달라질 가능성이 높으므로, reliability를 기대하기 어려움을 설명한다.
- KnowledgeEditor의 경우, gradient magnitude가 더 sparse하다. 이는 hyper-network로서 어떤 파라미터에 집중해야 하는지 유의미하게 학습했음을 보여준다.