Closed takachino closed 3 months ago
@offloading が以下のラベルを提案し、適用しました:
この論文は、大規模言語モデルの応用例である「情報検索増強生成」とチャットボットにおいて、長い入力コンテキストを処理する新しい方法である「Finch」を提案しています。Finchは、入力コンテキストをpromptに基づいてキー値キャッシュに圧縮することで、モデルが大規模なテキストを処理する際にGPUメモリを節約し、高い圧縮率(最大93倍)を実現します。これにより、モデルは微調整が必要なく、セマンティックの整合性を保ちながら、大規模な入力を処理できるようになります。
タイトル: フィンチ:プロンプトによるキー値キャッシュ圧縮
リンク: https://arxiv.org/abs/2408.00167
概要:
最近の大規模言語モデルの応用例である「情報検索増強生成」とチャットボットは、より長い入力コンテキストを処理する必要性が高まっています。しかし、この要求は固有の制限によって阻害されています。アーキテクチャ的には、モデルはトレーニング中に定義されたコンテキストウィンドウによって制約されています。さらに、大規模なテキストを処理するには相当なGPUメモリが必要です。我々は、入力コンテキストを圧縮する革新的な手法であるFinchを提案しています。Finchは、promptと長いテキストを与えられた場合、self-attentionの事前学習済みモデルの重みを利用して、テキストのチャンクごとにpromptに基づいて最も関連性の高いKey(K)とValue(V)のペアを反復的に特定します。そのようなペアだけがKVキャッシュに格納され、最終的には長いテキストの圧縮バージョンがコンテキストウィンドウに制約されたスペース内に含まれます。私たちの提案により、モデルは高い圧縮(最大93倍)でも、セマンティックの整合性を保ちながら、微調整が必要ないまま大規模な入力を処理できるようになります。