cfiken / paper-reading

34 stars 3 forks source link

[2022] Large Language Models with Controllable Working Memory #164

Open cfiken opened 1 year ago

cfiken commented 1 year ago

0. 論文

タイトル Large Language Models with Controllable Working Memory
リンク https://arxiv.org/abs/2211.05110
著者 Daliang Li, Ankit Singh Rawat, Manzil Zaheer, Xin Wang, Michal Lukasik, Andreas Veit, Felix Yu, Sanjiv Kumar (Google Research/Deep Mind)
投稿日付 2022/11/09 on arxiv

1. どんなもの?

Large Language Model (LLM) は内部に(重みとして) world knowledge を記憶していることや、prefix として与えられる context をうまく活用することも知られている。ただし、context の内容がタスクと無関係である場合や、LLM の持つ world knowledge と矛盾する場合の振る舞いについては調査されていない。 特に、知識のアップデートや修正を考えるときに、モデルは次の順序で情報を処理してほしいと主張。 (1) relevant context (2) model's pretrained world knowledge (3) irrelevant context 本研究では LLM の context による controllability や robustness について分析し、既存モデルの性能が低いことを発見、合わせて解決策である knowledge aware finetuning (KAFT) を提案し、改善を確認した。

2. 先行研究と比べてどこがすごい?

3. 技術や手法のキモはどこ?

スクリーンショット 2022-11-22 17 28 26

4. どうやって有効だと検証した?

T5 と PaLM の LLM を用いて、いくつかの fine-tuning 手法や pre-trained 状態でのモデルと controllability/robustness を比較した。

スクリーンショット 2022-11-22 17 32 01

また、ablation study として KAFT データセットの irrelevant の数や counterfactual の数を減らした場合の挙動も実験し、減らした分 controllability/robustness がそれぞれ悪化することを確認した。

5. 議論はある?

6. 次に読むべき論文は?