Open fulfulggg opened 1 month ago
arXiv:2409.03109v1 発表タイプ: 新規 概要: 本稿では、Vision-Languageモデルを用いた偽画像の検出と帰属を行うFIDAVL (Fake Image Detection and Attribution using a Vision-Language Model) を紹介します。FIDAVLは、視覚処理と言語処理の相乗効果に着想を得た、新規かつ効率的なマルチタスクアプローチです。ゼロショット学習の利点を活用し、FIDAVLは、ソフトプロンプトチューニング戦略とともに、視覚と言語の相補性を活用して、偽画像を検出し、その発信元モデルに正確に帰属させます。私たちは、最先端の様々なモデルによって生成された合成画像を含む包括的なデータセットを用いて、広範な実験を行いました。その結果、FIDAVLは、平均95.42%という encouraging な検出精度と95.47%のF1スコアを達成すると同時に、合成画像をそれぞれのソース生成モデルに帰属させるタスクにおいて、平均92.64%のF1スコアと96.50%のROUGE-Lスコアという注目すべき性能指標も得られました。このソースコードは、https://github.com/Mamadou-Keita/FIDAVL にて公開する予定です。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: FIDAVL: Vision-Languageモデルを用いた偽画像の検出と帰属
リンク: https://arxiv.org/abs/2409.03109
概要:
arXiv:2409.03109v1 発表タイプ: 新規 概要: 本稿では、Vision-Languageモデルを用いた偽画像の検出と帰属を行うFIDAVL (Fake Image Detection and Attribution using a Vision-Language Model) を紹介します。FIDAVLは、視覚処理と言語処理の相乗効果に着想を得た、新規かつ効率的なマルチタスクアプローチです。ゼロショット学習の利点を活用し、FIDAVLは、ソフトプロンプトチューニング戦略とともに、視覚と言語の相補性を活用して、偽画像を検出し、その発信元モデルに正確に帰属させます。私たちは、最先端の様々なモデルによって生成された合成画像を含む包括的なデータセットを用いて、広範な実験を行いました。その結果、FIDAVLは、平均95.42%という encouraging な検出精度と95.47%のF1スコアを達成すると同時に、合成画像をそれぞれのソース生成モデルに帰属させるタスクにおいて、平均92.64%のF1スコアと96.50%のROUGE-Lスコアという注目すべき性能指標も得られました。このソースコードは、https://github.com/Mamadou-Keita/FIDAVL にて公開する予定です。