axinc-ai / ailia-models

The collection of pre-trained, state-of-the-art AI models for ailia SDK
2.05k stars 326 forks source link

Survey recent face identification model #1392

Open kyakuno opened 9 months ago

kyakuno commented 9 months ago

現状、arcfaceとinsightfaceしかないので、商用に耐えうる最新のモデルがないかなと考えています。

mucunwuxian commented 8 months ago

取り急ぎ、slackにて共有させて頂いた内容 https://axincai.slack.com/archives/C019HCVQBCP/p1710974187099469?thread_ts=1707350225.508149&cid=C019HCVQBCP



筋が良いと感じた3手法 ──────────────────────── ①UNPG https://paperswithcode.com/paper/unified-negative-pair-generation-toward-well

──────────────────────── ②DeepFace-EMD: Re-ranking Using Patch-wise Earth Mover’s Distance Improves Out-Of-Distribution Face Identification https://paperswithcode.com/paper/deepface-emd-re-ranking-using-patch-wise

──────────────────────── ③Fast and Interpretable Face Identification for Out-Of-Distribution Data Using Vision Transformers https://paperswithcode.com/paper/fast-and-interpretable-face-identification

────────────────────────

mucunwuxian commented 7 months ago

📝 (論文まとめRough)


Fast and Interpretable Face Identification for Out-Of-Distribution Data Using

Vision Transformers (ビジョントランスフォーマーを使用した分布外データの顔識別を高速かつ解釈可能に)


Abstract


1. Introduction


Figure 1

image



2. Related Work

配布外の顔識別

パッチごとの比較のためのSiamese networks

パッチごとの比較のための Vision Transformers

ビジョン トランスフォーマーのモデルの解釈可能性


3. Method

3.1. 問題の定式化

3.2. アーキテクチャ: 2 つのイメージのハイブリッド ViT


Figure 2.

image


Table 1.

image


Face embeddings.

image

Position embeddings

Attention-based outputs.


3.3. Dataset


Figure 3.

image


3.4. Evaluation against various network structures


4. Ablation Studies (手法の中からある条件だけを抜くことで,その要素の重要さについて考察するような実験)

Datasets.

Model training.


4.1. クロスアテンション 2 画像 ViT は 1 画像より優れています

Experiment.

Results.


4.2. Cross-Attentionにて、2-linear-outputは、1-output [CLS] を上回ります

Experiment.

Results.


Figure 5.


5. Main Results


...

mucunwuxian commented 6 months ago

📝 (Githubリポジトリ確認Rough)

Fast and Interpretable Face Identification for Out-Of-Distribution Data Using Vision Transformers


記載のデータやモデル等について



日本人の顔認証でのテスト精度