Avaliar FaceTransformer

vitalwarley commented 1 year ago

https://github.com/zhongyy/Face-Transformer

matheuslevi11 commented 1 year ago

Objetivo do paper é analisar a viabilidade de usar transformers para a tarefa de reconhecimento facial, desconsiderando o potencial problema de eficiência devido aos mecanismos de auto-atenção.
Diferente de ViT [1], os autores propuseram uma abordagem melhorada para dividir a imagem em patches. Ao invés de apenas separar a imagem, os patches possuem sobreposições de outros patches, assim descrevendo melhor as informações entre patches, pois na abordagem original, os cortes podem dividir features importantes.

Arquitetura da Rede arch

O treino foi feito em duas bases: CASIA-WebFace ( menor, 0.5M de imagens de 10.575 pessoas ) e MS-Celeb-1M ( maior, 5.3M de imagens de 93.431 pessoas )
Na base de dados menor ( CASIA-WebFace ), os modelos de transformer se saíram piores do que a ResNet
Já os resultados com a base de dados maior se mostram promissores,competitiva com a ResNet
O overlapping feito nos patches parece ter melhorado um pouco a performance, de fato.

[1] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly et al., “An image is worth 16x16 words: Transformers for image recognition at scale,” arXiv preprint arXiv:2010.11929, 2020.

matheuslevi11 commented 1 year ago

Execução do projeto:

O projeto é relativamente simples de se executar, porém precisa de algumas adaptações para fazer funcionar, eis o passo a passo:

Clonar o projeto e instalar as dependências. ( O requirements.txt precisa de um pequeno ajuste )
Mover arquivos para o diretório de instalação do vit-pytorch, conforme descrito no tópico Preparation do README
Baixar as bases de testes presentes em Databases no README e colocá-las numa pasta chamada eval na raiz do projeto
Para executar testes, é preciso criar uma pasta chamada Results e colocar dentro os modelos pré-treinados disponíveis no item 4 do README

vitalwarley commented 1 year ago

Muito bom, @matheuslevi11.

Já os resultados com a base de dados maior se mostram promissores,competitiva com a ResNet

Previsível, de fato, que isso poderia acontecer. Transformers são bem famintos em termos de número de amostras.

Clonar o projeto e instalar as dependências. ( O requirements.txt precisa de um pequeno ajuste )

Qual ajuste?

matheuslevi11 commented 1 year ago

@@ -1,14 +1,13 @@
-sklearn~=0.0
-scikit-learn~=0.24.2
+scikit-learn

Estes são os ajustes, se trata somente de ajustar a instalação do scikit-learn para a forma atual

vitalwarley / research

Avaliar FaceTransformer #32