Open matheuslevi11 opened 6 months ago
Este paper apresenta uma nova métrica para avaliação de qualidade facial, que é interpretável e considera características específicas de face, se diferenciando de outras métricas de qualidade e apresentando uma maior proximidade da percepção humana. Essa métrica serve para qualidade de face em geral, mas o contexto em que foi criada é o de reconstrução facial, sendo mais interessante nesse cenário, na minha opinião, podendo servir tanto para avaliar o desempenho de GAN’s de age transformation, como imagens gerada pelo DisVAE.
Anteriormente ao desenvolvimento deste trabalho, foi gerado uma pesquisa com humanos que constatou que a percepção humana de qualidade facial está altamente atrelada à estrutura geral e distorções nas regiões faciais primárias, como olhos, nariz e boca. Portanto, o método proposto prioriza estas regiões. Neste trabalho, os autores utilizam uma arquitetura adversarial para gerar um mapa de qualidade de face interpretável, em que cada pixel possui um score da região da face correspondente e a métrica final é a média de todos os pixels do mapa.
Na imagem abaixo, podemos observar com clareza que as imagens B possuem maior qualidade. Entretanto, métricas como PSNR e SSIM atribuem maiores valores para as imagens A.
Em uma etapa anterior ao treinamento, as imagens do dataset FFHQ passam por um processo de corrupção para se tornarem imagens de baixa qualidade ( LQ ). Neste processo, é aplicado nestas imagens uma convolução com um kernel gaussiano ou motion-blur, seguido de um downsampling e da adição de um ruído gaussiano. Por fim, essas imagens são convertidas em JPEG. No treinamento, o Generator ( encoder-decoder ) vai ser treinado para restaurar imagens LQ para imagens HQ, ao passo que o Discriminator irá classificar as regiões da imagem entre HQ e LQ ( real e fake, fazendo alusão ao discriminator tradicional ). Um ponto importante é que ele classifica cada pixel da imagem, ao invés da imagem inteira, isto é o que dá a característica de interpretável ao método, isto é feito com uma arquitetura similar a U-Net.
Por fim, também tem um método de aumento de dados chamado Facial Primary Regions Swap (FPRS) em que regiões aleatórias da face são escolhidas e trocadas entre as imagens de alta qualidade e as imagens de baixa qualidade. Na imagem abaixo, temos um exemplo de FPRS e como essa mudança reflete no mapa de qualidade da imagem ( amarelo é alta qualidade e roxo é baixa qualidade ).
Estudar este paper que apresenta uma métrica de qualidade de imagem específica para face