Closed zzchust closed 1 year ago
1. 图像->文本: 这里输入的是图像的token-ID还是vector啊, 我看这里说对图像的表示用FC进行了处理映射,然后再和text embeeding串起来的?
输入的是图像的token-ID在visual codebook里对应的visual codes(vector),再接FC(使得和word embedding的dimenison对齐)。
1. 图像->文本: 这里输入的是图像的token-ID还是vector啊, 我看这里说对图像的表示用FC进行了处理映射,然后再和text embeeding串起来的?