Generality: meta-learning이나 specific pre-training 방법 없이 일반적인 LM에 대해 적용될 수 있는지
Reliability: 해당 model edit이 관련 없는 다른 지식에는 영향을 주지 않는지, 후속 논문들의 Locality와 동일한 속성
Consistency: 유사한 paraphrase 문장에 대해서도 동일한 edited behaviour를 보이는지
Hyper-network: 다른 모델의 parameter 혹은 gradient를 예측하는 모델
Baseline
FT:
updated knowledge가 포함된 데이터셋으로 다시 학습한 모델
FT 기반의 접근은 결국은 비용이 큰 pre-training을 다시 해야하고, hparams에 민감하다는 공통적인 단점이 있다.
FT + regularization:
원래 모델의 reliability를 잃지 않도록 update에 제한을 두며 FT
원래 모델의 params와 edited model의 params 간에 L2 constraints를 주는 방식이 대표적
그러나, norm-based constraint는 LM의 non-linear function과의 효율이 좋지 않다 (i.e. ignores the highly nonlinear nature of LMs and how parameters determine the outputs of the model)
서로 다른 LM의 구조로 대표성 있는 BERT와 BART를 사용
BERT의 경우 FEVER에 FT한 후 Fact-Checking 데이터셋에 대해 평가
BART는 zsRE에 대해 FT한 후 Closed-book QA에 대해 평가
Data details
학습
FEVER (KILT)
zsRE (zero-shot Relation Extraction)
평가:
human-generated paraphrased question이 없는 데이터셋의 경우, back-translation으로 유사한 문장 생성
edited target에 대해 fact-checking은 bool type의 답변이라 뒤짚었고, QA의 경우 beam search에서 top-1이 아닌 후보군을 사용했다.
closed-book fact-checking
closed-book QA
Approach
hyper-network인 Knowledge Editor의 구조
원래 모델 f의 parameters를 θ, edited target a에 대한 parameters를 θ'라 할 때, θ'를 예측해야 한다. (i.e. θ' = g(x, a))
이 때 θ'을 바로 예측하는 것은 비용이 많이 들기 때문에 θ' = θ + g(x, y, a)를 예측한다.
g(x, y, a)는 결국 a가 주어졌을 때 어떤 paramter를 업데이트해야 하는지에 대한 정보를 담고 있고, tractable한 방법이다.
이 때, Reliability를 위해 g는 x != x'인 set O, constraint C, margin m에 대해 C(θ, θ', f; O) <= m 또한 동시에 만족해야 한다.
C는 Kullback-Leibler divergence를 사용
동시에 Lp norm 또한 대안으로 사용하는 실험도 진행하는데, Lp norm은 결과적으로 success rate는 높지만 retain acc이 매우 낮아진다는 점에서 기존 FT 방법론과 유사한 경향성을 보였다.
이는 앞선 FT+reg에서 언급했던 것처럼, LM의 non-linear 함수를 고려할 때 효과적인 방법이 아님을 알 수 있다.
Evaluation
Metric
모든 메트릭은 기능적으로는 EM (ExactMatch) accuracy를 사용
한 개의 샘플에 대해 아래의 메트릭들을 계산
success rate: θ'로 예측했을 때의 정확도
retain accuracy: 해당 샘플을 제외한 다른 샘플들의 정확도의 평균
equivalence accuracy: 해당 샘플과 semantically equivalent한 문장(i.e. paraphrased sentence)의 정확도
performance deterioration: 기존 모델 대비 업데이트된 모델의 성능 저하도 (i.e. 1 - acc(y;θ') / acc(y;θ))
Result
baselines의 경우, 대체로 success rate는 높더라도 다른 메트릭에서는 감소했으며, FC와 QA 중 하나에선 열세를 보인다.
baselines의 success rate가 높은 이유는 FT는 대체로 거의 모든 train 샘플에 대해 수렴할 때까지 학습하거나, 일정한 수의 update iteration을 돌기 때문이며, 반면에 KnowledgeEditor는 다른 메트릭을 고려하여 각 샘플 당 1회의 edit만 수행한다.
KnowledgeEditor도 baselines의 stopping criteria와 동일하게 적용할 경우, 마찬가지로 success rate가 100%에 가깝게 상승한다.
all-layers에 대한 FT는 대체로 1-layer FT보다 높은 success rate를 보이지만, 그만큼 retain acc이 더 많이 하락한다.
FT baselines는 FC에서 equivalence acc이 매우 낮은데, FT는 generality에 그만큼 효과적이지 않은 것으로 볼 수 있다.
output space가 bool이 아닌 string인 QA에서 KnowledgeEditor의 성능은 reliability와 generality 측면에서 더 우세하다.
QA에서 FT+reg는 의도한대로 높은 retain accuracy를 보였으나, 그만큼 success rate에 대해선 트레이드오프를 보인다.
QA에서 BART의 equivalence accuracy가 낮은 것으로 보아, 제한된 paramater update도 prediction 분포에 큰 영향을 줄만큼 seq2seq 모델이 민감함을 알 수 있다.
Analysis
diagonal한 분포는 원래 모델의 logits 분포와 edited 모델의 분포가 유사하다는 걸 의미하는데, FT 모델은 상관성을 유지하고는 있으나, KnowledgeEditor보다는 분포의 변화가 조금 더 일어났음을 확인할 수 있다.
L2 norm-based FT의 경우, 분포가 완전히 달라졌음을 알 수 있다. 위의 정량 결과에서 봤듯이 success rate는 유지되거나 더 높을지라도, retain accuracy가 낮아진 원인을 확인할 수 있다.
fig4-a는 본래 모델을 학습했을 때의 gradients를 정규화하여 magnitude로 시각화한 것이다. Encoder의 첫째 레이어의 gradient와 Decoder의 last layer가 가장 높은 강도를 보이는데, 1-layer FT의 성능이 제일 높은 것을 설명한다고 볼 수 있다.
FT의 경우, Encoder & Decoder의 모든 레이어에서 모두 활발히 업데이트되었음을 알 수 있다. 따라서, seq2seq 모델의 sensitive함을 고려할 때 기존 모델의 예측결과와 달라질 가능성이 높으므로, reliability를 기대하기 어려움을 설명한다.
KnowledgeEditor의 경우, gradient magnitude가 더 sparse하다. 이는 hyper-network로서 어떤 파라미터에 집중해야 하는지 유의미하게 학습했음을 보여준다.
Problem statement
Glossary
Baseline
ignores the highly nonlinear nature of LMs and how parameters determine the outputs of the model
)Data details
Approach
θ' = g(x, a)
)θ' = θ + g(x, y, a)
를 예측한다.g(x, y, a)
는 결국 a가 주어졌을 때 어떤 paramter를 업데이트해야 하는지에 대한 정보를 담고 있고, tractable한 방법이다.x != x'
인 set O, constraint C, margin m에 대해C(θ, θ', f; O) <= m
또한 동시에 만족해야 한다.Evaluation
Metric
1 - acc(y;θ') / acc(y;θ)
)Result
Analysis