diyiiyiii / StyTR-2

StyTr2 : Image Style Transfer with Transformers
352 stars 64 forks source link

PatchEmbed源码和论文图中好像操作方法好像不太一样 #13

Closed panda66666666 closed 2 years ago

panda66666666 commented 2 years ago

作者您好!我有一个问题,你们源码中每一个patch就是将图像输入到卷积之后一个通道维度的张量,但是原论文图中好像是对一张图像的不同区域分块之后得到patch,请问这是为啥

diyiiyiii commented 2 years ago

通过这个卷积分块

panda66666666 commented 2 years ago

用卷积的话每一个patch都会有全局信息,论文示意图中好像每一个patch都是切分的,只是局部信息

tweee1234 commented 2 years ago

用卷积的话每一个patch都会有全局信息,论文示意图中好像每一个patch都是切分的,只是局部信息

你好,我注意到源码中kernel_size和stride都是patch_size,每次卷积区域没有重合,所以我认为这里的全局信息应该仅限于同一个patch内的,从整幅图像的角度看,每一个独立的patch所生成的新向量包含的仍是局部信息,或许论文示意图所表达的也是这个意思。

panda66666666 commented 2 years ago

哦哦,又看了一遍是这样的,每一个卷积核只覆盖一小个范围,文章没毛病