Open jcolares opened 4 years ago
Durante a normalização, quando todas as silhuetas são redimensionadas para ficar com a mesma altura, é possível aplicar alguma técnica de upscaling. Pode-se por exemplo utilizar ML para fazer desconvolução (transposed convolution), usando filtros cujos valores podem ser aprendidos. Podem-se também usar métodos manuais como interpolação bi-linear ou algo parecido. Pesquisar se algo na mesma linha já foi feito em outros artigos
Um frame do CASIA B tem 320x240 pixels. Nas sequências capturadas em ângulos oblíquos, a pessoa filmada ora está próxima, ora distante da câmera. Quando ela está distante, sua silhueta parece pixelada (aliased). Isso porque os pixels da silhueta só podem ter 2 cores (preta ou branca) e por isso não é possível aplicar nenhum tipo de anti-aliasing (seriam tons de cinza). Ou seja, o problema não é a silhueta, e sim, a resolução do vídeo. Deste modo, mudar a técnica utilizada para obter a silhueta não diminuirá os problemas causados pela baixa resolução da imagem original. Uma forma de obter uma GEI de melhor qualidade seria aumentando a resolução do vídeo, mas neste caso, não há necessidade de escrever um artigo para fazer esta constatação, porque isso é óbvio.
Frame completo do CASIA-B (320x240 px) mostrando silhueta em baixa resolução
Detalhe da silhueta
Alguns artigos úteis: https://medium.com/activating-robotic-minds/up-sampling-with-transposed-convolution-9ae4f2df52d0#:~:text=the%20convolution%20matrix.-,Summary,but%20in%20the%20backward%20direction.&text=We%20up-sample%20the%20input,effect%20as%20the%20transposed%20convolution.
https://distill.pub/2016/deconv-checkerboard/