Open fulfulggg opened 1 month ago
この論文は、学習不要で、画像認識AIの精度を向上させる新しい技術 TCA (Token Compression Adaptation) を提案しています。
課題: 画像認識AIは、事前に学習したデータとは異なるデータで評価すると、精度が低下することがあります。
TCAのアプローチ:
<cls>
トークンに着目し、その信頼性に基づいて、重要度の低い情報を特定します。<cls>
トークンを蓄積しておき、新しい画像の分析に活用します。結果:
要点:
結論: TCAは、画像認識AIの精度と効率を向上させる、有望な技術です。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: オンデマンドトークン: トークン圧縮による学習不要なテスト時適応
リンク: https://arxiv.org/abs/2410.14729
概要:
本研究では、テスト時の推論中にビジョン言語モデル(VLM)が遭遇する分布シフトを軽減するために設計された、トレーニングフリーのアプローチであるトークン縮約による適応(TCA)を紹介します。TCAは、トークンに対する注意度が低い画像トークンを縮約することで、パッチレベルで分布のギャップを埋めます。トークンが普遍的な概念に対応している可能性があることを認識し、TCAは過去のデータストリームからターゲットクラスに特に一致する、最も信頼性の高いトークンを識別して追跡します。これを達成するために、コンテキストトークンリザーバー(CTR)を提案します。これは、不確実性が最も低いトークンを「アンカー」として保持し、推論中のクラス関連トークンの保持をガイドします。これらのアンカーは、VLMの予測を修正し、視覚テキストの整合性を向上させるためのトークンレベルの分類器として機能します。CTRからサンプリングされたアンカーを利用して、TCAは2つの操作を通じてトークンを縮約します。(1)すべての注意ヘッドにわたって一貫して低いランクに位置し、無関係性に関するヘッド間の合意に達する、クラスに無関係なトークンをプルーニングすること、(2)コアセット選択を使用して、残りのクラスがあいまいなトークンを表す中心にマージし、線形計算の複雑さを維持すること。テスト時の適応におけるトークン効率を探求する最初の方法として、TCAは、データセット間および分布外の適応タスクにおいて一貫して優れたパフォーマンスを示し、GFLOPSを12.2%から48.9%削減すると同時に、追加のパラメーターを導入することなく、最強のベースラインに対して最大21.4%の精度向上を実現します。