オンデマンドトークン: トークン圧縮による学習不要なテスト時適応

fulfulggg / Information-gathering

Fusion of Python and GIMP

MIT License

0 stars 0 forks source link

タイトル: オンデマンドトークン: トークン圧縮による学習不要なテスト時適応

リンク: https://arxiv.org/abs/2410.14729

概要:

本研究では、テスト時の推論中にビジョン言語モデル（VLM）が遭遇する分布シフトを軽減するために設計された、トレーニングフリーのアプローチであるトークン縮約による適応（TCA）を紹介します。TCAは、トークンに対する注意度が低い画像トークンを縮約することで、パッチレベルで分布のギャップを埋めます。トークンが普遍的な概念に対応している可能性があることを認識し、TCAは過去のデータストリームからターゲットクラスに特に一致する、最も信頼性の高いトークンを識別して追跡します。これを達成するために、コンテキストトークンリザーバー（CTR）を提案します。これは、不確実性が最も低いトークンを「アンカー」として保持し、推論中のクラス関連トークンの保持をガイドします。これらのアンカーは、VLMの予測を修正し、視覚テキストの整合性を向上させるためのトークンレベルの分類器として機能します。CTRからサンプリングされたアンカーを利用して、TCAは2つの操作を通じてトークンを縮約します。（1）すべての注意ヘッドにわたって一貫して低いランクに位置し、無関係性に関するヘッド間の合意に達する、クラスに無関係なトークンをプルーニングすること、（2）コアセット選択を使用して、残りのクラスがあいまいなトークンを表す中心にマージし、線形計算の複雑さを維持すること。テスト時の適応におけるトークン効率を探求する最初の方法として、TCAは、データセット間および分布外の適応タスクにおいて一貫して優れたパフォーマンスを示し、GFLOPSを12.2％から48.9％削減すると同時に、追加のパラメーターを導入することなく、最強のベースラインに対して最大21.4％の精度向上を実現します。

論文要約: オンデマンドトークン: トークン圧縮による学習不要なテスト時適応

この論文は、学習不要で、画像認識AIの精度を向上させる新しい技術 TCA (Token Compression Adaptation) を提案しています。

課題: 画像認識AIは、事前に学習したデータとは異なるデータで評価すると、精度が低下することがあります。

TCAのアプローチ:

トークン圧縮による適応: 画像を分析する際に、重要度の低い情報を圧縮することで、未知のデータへの対応力を高めます。

トークンに基づく重要度判断: 画像全体の特徴を表す<cls>トークンに着目し、その信頼性に基づいて、重要度の低い情報を特定します。

コンテキストトークンリザーバー(CTR): 過去のデータから、信頼性の高い<cls>トークンを蓄積しておき、新しい画像の分析に活用します。

2段階のトークン圧縮:

プルーニング: 分析に不要なトークンを削除します。
マージ: 残ったトークンを、計算量を抑えつつ、より重要な情報に集約します。

結果:

TCAは、追加の学習なしに、既存手法を上回る精度向上を実現しました。

計算量も削減できるため、効率的な画像認識AIの実現に貢献します。

要点:

学習不要: 事前の学習データに依存せず、未知のデータにも対応可能

高精度: 既存手法を超える精度を実現

効率的: 計算量を削減し、高速な処理が可能

結論: TCAは、画像認識AIの精度と効率を向上させる、有望な技術です。

fulfulggg / Information-gathering