Open Real-UtopiaNo opened 5 months ago
文章中提到,在训练阶段,增强后的视觉查询的特征会和对应的文本特征进行交叉注意力融合。那么在验证阶段,视觉查询特征如何选择和哪个文本特征进行融合增强?期待您的回复!
文章中提到,在训练阶段,增强后的视觉查询的特征会和对应的文本特征进行交叉注意力融合。那么在验证阶段,视觉查询特征如何选择和哪个文本特征进行融合增强?期待您的回复!