医療ビジョン言語モデルの少数事例適応

fulfulggg commented 1 week ago

タイトル: 医療ビジョン言語モデルの少数事例適応

リンク: https://arxiv.org/abs/2409.03868

概要:

画像とテキストデータをマルチモーダル学習で統合することは、コンピュータービジョンでの成功を受けて、医用画像研究における新しいアプローチとして浮上してきました。医療基盤モデルの確立とそのダウンストリームタスクへのゼロショット転移に多くの努力が払われてきましたが、人気のあるフューショット設定は比較的未開拓のままです。コンピュータービジョンにおけるこの設定の現在の急速な進展を受けて、厳密なフューショットレジームにおける医療ビジョン言語モデル（VLM）の適応のための最初の構造化ベンチマークを導入し、自然画像のコンテキストで一般的に使用されるさまざまな適応戦略を調査します。さらに、学習可能なクラスごとの乗数を使用して、視覚的なプロトタイプとテキストの埋め込みの最適なブレンドを追求する、線形プローブ適応ベースラインの単純な一般化を評価します。驚くべきことに、このようなテキスト情報に基づく線形プローブは、畳み込みプロンプト学習やアダプターベースの戦略と比較して、競争力のあるパフォーマンスをもたらすと同時に、はるかに高速に実行され、ブラックボックス設定にも対応します。我々の広範な実験は、3つの異なる医療モダリティと特殊な基盤モデル、9つのダウンストリームタスク、およびいくつかの最先端のフューショット適応方法に及びます。この新たなテーマのさらなる発展を促すために、ベンチマークとコードを公開しました。\url{https://github.com/FereshteShakeri/few-shot-MedVLMs}。

fulfulggg commented 1 week ago

論文要約

論文要約:

背景: 医療画像とテキストデータを組み合わせた分析は、医療分野におけるAI活用として期待されています。既存研究は、事前学習モデルを直接利用する「ゼロショット学習」に焦点を当てていましたが、「少数事例学習」は未開拓でした。
提案: 本論文では、医療画像とテキストデータを扱う「医療ビジョン言語モデル(MedVLM)」に、少数のデータで学習させる「少数事例学習」を適用するためのベンチマークを提案します。
評価: 様々なMedVLMと少数事例学習手法を、医療画像を用いた9つのタスクで評価しました。
結果: 画像の特徴とテキスト情報を組み合わせたシンプルな学習方法が、複雑な手法に匹敵する性能を示しました。
貢献: 本研究は、医療分野における少数事例学習のベンチマークとコードを公開し、今後の研究発展を促進します。

fulfulggg commented 1 week ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

few-shot-learning
medical-imaging
benchmark

fulfulggg / Information-gathering