Closed vitalwarley closed 1 year ago
Objetivo do paper é analisar a viabilidade de usar transformers para a tarefa de reconhecimento facial, desconsiderando o potencial problema de eficiência devido aos mecanismos de auto-atenção.
Diferente de ViT [1], os autores propuseram uma abordagem melhorada para dividir a imagem em patches. Ao invés de apenas separar a imagem, os patches possuem sobreposições de outros patches, assim descrevendo melhor as informações entre patches, pois na abordagem original, os cortes podem dividir features importantes.
Arquitetura da Rede
O treino foi feito em duas bases: CASIA-WebFace ( menor, 0.5M de imagens de 10.575 pessoas ) e MS-Celeb-1M ( maior, 5.3M de imagens de 93.431 pessoas )
Na base de dados menor ( CASIA-WebFace ), os modelos de transformer se saíram piores do que a ResNet
Já os resultados com a base de dados maior se mostram promissores,competitiva com a ResNet
O overlapping feito nos patches parece ter melhorado um pouco a performance, de fato.
[1] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly et al., “An image is worth 16x16 words: Transformers for image recognition at scale,” arXiv preprint arXiv:2010.11929, 2020.
Execução do projeto:
O projeto é relativamente simples de se executar, porém precisa de algumas adaptações para fazer funcionar, eis o passo a passo:
Muito bom, @matheuslevi11.
Já os resultados com a base de dados maior se mostram promissores,competitiva com a ResNet
Previsível, de fato, que isso poderia acontecer. Transformers são bem famintos em termos de número de amostras.
Clonar o projeto e instalar as dependências. ( O requirements.txt precisa de um pequeno ajuste )
Qual ajuste?
@@ -1,14 +1,13 @@
-sklearn~=0.0
-scikit-learn~=0.24.2
+scikit-learn
Estes são os ajustes, se trata somente de ajustar a instalação do scikit-learn para a forma atual
https://github.com/zhongyy/Face-Transformer