williamcfrancis Visual-Question-Answering-using-Stacked-Attention-Networks issues

williamcfrancis / Visual-Question-Answering-using-Stacked-Attention-Networks

Pytorch implementation of VQA using Stacked Attention Networks: Multimodal architecture for image and question input, using CNN and LSTM, with stacked attention layer for improved accuracy (54.82%). Includes visualization of attention layers. Contributions welcome. Utilizes Visual VQA v2.0 dataset.

Apache License 2.0

5 stars 5 forks source link

williamcfrancis / Visual-Question-Answering-using-Stacked-Attention-Networks

issues

Trained model availability?

trained models