Open fulfulggg opened 2 days ago
大規模言語モデルの幻覚は広範な問題ですが、モデルが幻覚を起こすメカニズムは解明されておらず、問題解決を難しくしています。解釈ツールとしてスパースオートエンコーダーを用いることで、これらのメカニズムの重要な部分が実体認識、つまりモデルが事実を想起できる実体かどうかを検出する機能であることを発見しました。スパースオートエンコーダーは、表現空間における意味のある方向性を明らかにし、モデルが実体を認識しているかどうか、例えば、特定のアスリートや映画について知らないことを検出します。これは、モデルが自己認識、つまり自身の能力に関する内部表現を持っていることを示唆しています。これらの認識方向は因果的に関連しており、既知の実体に関する質問に答えないようにしたり、本来なら答えないはずの未知の実体の属性を幻覚として生成したりするようにモデルを誘導できます。スパースオートエンコーダーはベースモデルで学習されていますが、これらの認識方向はチャットモデルの拒否行動に因果的影響を与えることを示しており、チャットの微調整がこの既存のメカニズムを再利用していることが示唆されます。さらに、これらの認識方向がモデル内で果たすメカニズム的役割について初期的な探究を行い、通常は実体属性を最終トークンに移動させる下流のヘッドの注意を阻害することを発見しました。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
大規模言語モデル(LLM)が事実と異なる内容を生成する「幻覚」現象について、その原因がLLMの知識認識能力、つまり「知っている/知らない」の判断に関連していることをこの論文は示しています。
つまり、LLMの幻覚は単なる情報の誤りではなく、「知らない」という自己認識が適切に処理されないことが原因の一つである可能性を示唆しています。
タイトル: このエンティティを知っていますか? 言語モデルにおける知識認識とハルシネーション
リンク: https://arxiv.org/abs/2411.14257
概要:
大規模言語モデルの幻覚は広範な問題ですが、モデルが幻覚を起こすメカニズムは解明されておらず、問題解決を難しくしています。解釈ツールとしてスパースオートエンコーダーを用いることで、これらのメカニズムの重要な部分が実体認識、つまりモデルが事実を想起できる実体かどうかを検出する機能であることを発見しました。スパースオートエンコーダーは、表現空間における意味のある方向性を明らかにし、モデルが実体を認識しているかどうか、例えば、特定のアスリートや映画について知らないことを検出します。これは、モデルが自己認識、つまり自身の能力に関する内部表現を持っていることを示唆しています。これらの認識方向は因果的に関連しており、既知の実体に関する質問に答えないようにしたり、本来なら答えないはずの未知の実体の属性を幻覚として生成したりするようにモデルを誘導できます。スパースオートエンコーダーはベースモデルで学習されていますが、これらの認識方向はチャットモデルの拒否行動に因果的影響を与えることを示しており、チャットの微調整がこの既存のメカニズムを再利用していることが示唆されます。さらに、これらの認識方向がモデル内で果たすメカニズム的役割について初期的な探究を行い、通常は実体属性を最終トークンに移動させる下流のヘッドの注意を阻害することを発見しました。