このエンティティを知っていますか？言語モデルにおける知識認識とハルシネーション

fulfulggg commented 2 days ago

タイトル: このエンティティを知っていますか？言語モデルにおける知識認識とハルシネーション

リンク: https://arxiv.org/abs/2411.14257

概要:

大規模言語モデルの幻覚は広範な問題ですが、モデルが幻覚を起こすメカニズムは解明されておらず、問題解決を難しくしています。解釈ツールとしてスパースオートエンコーダーを用いることで、これらのメカニズムの重要な部分が実体認識、つまりモデルが事実を想起できる実体かどうかを検出する機能であることを発見しました。スパースオートエンコーダーは、表現空間における意味のある方向性を明らかにし、モデルが実体を認識しているかどうか、例えば、特定のアスリートや映画について知らないことを検出します。これは、モデルが自己認識、つまり自身の能力に関する内部表現を持っていることを示唆しています。これらの認識方向は因果的に関連しており、既知の実体に関する質問に答えないようにしたり、本来なら答えないはずの未知の実体の属性を幻覚として生成したりするようにモデルを誘導できます。スパースオートエンコーダーはベースモデルで学習されていますが、これらの認識方向はチャットモデルの拒否行動に因果的影響を与えることを示しており、チャットの微調整がこの既存のメカニズムを再利用していることが示唆されます。さらに、これらの認識方向がモデル内で果たすメカニズム的役割について初期的な探究を行い、通常は実体属性を最終トークンに移動させる下流のヘッドの注意を阻害することを発見しました。

fulfulggg commented 2 days ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

hallucination-reduction
llm
interpretability

fulfulggg commented 2 days ago

論文要約

論文要約：LLMの幻覚は「知らないこと」が原因？

大規模言語モデル(LLM)が事実と異なる内容を生成する「幻覚」現象について、その原因がLLMの知識認識能力、つまり「知っている/知らない」の判断に関連していることをこの論文は示しています。

LLMは「知っているか/知らないか」を認識できる: LLM内部には、特定の人物や映画などの「実体(entity)」に関する知識の有無を表現するメカニズムが存在することを発見。
「知らない」ことが幻覚につながる: LLMが知らない実体について質問されると、幻覚を生み出す傾向がある。
「知っている」と「答える」は別: LLMは「知っている」実体についても、意図的に答えないように操作できる。これはLLMが知識の有無と回答の生成を別々に制御できることを示唆。
知識認識メカニズムの解明: スパースオートエンコーダーという手法を用いて、LLM内部の知識認識メカニズムを解析。このメカニズムは、LLMが回答生成時に特定の実体に関する情報をどのように扱うかに影響を与えていることを発見。
チャットモデルでも同様のメカニズム: ベースモデルだけでなく、対話に特化したチャットモデルでも同様の知識認識メカニズムが働いていることを確認。

つまり、LLMの幻覚は単なる情報の誤りではなく、「知らない」という自己認識が適切に処理されないことが原因の一つである可能性を示唆しています。

fulfulggg / Information-gathering