PatchEmbed源码和论文图中好像操作方法好像不太一样

diyiiyiii / StyTR-2

StyTr2 : Image Style Transfer with Transformers

352 stars 64 forks source link

Closed panda66666666 closed 2 years ago

panda66666666 commented 2 years ago

作者您好！我有一个问题，你们源码中每一个patch就是将图像输入到卷积之后一个通道维度的张量，但是原论文图中好像是对一张图像的不同区域分块之后得到patch，请问这是为啥

diyiiyiii commented 2 years ago

通过这个卷积分块

panda66666666 commented 2 years ago

用卷积的话每一个patch都会有全局信息，论文示意图中好像每一个patch都是切分的，只是局部信息

tweee1234 commented 2 years ago

用卷积的话每一个patch都会有全局信息，论文示意图中好像每一个patch都是切分的，只是局部信息

你好，我注意到源码中kernel_size和stride都是patch_size，每次卷积区域没有重合，所以我认为这里的全局信息应该仅限于同一个patch内的，从整幅图像的角度看，每一个独立的patch所生成的新向量包含的仍是局部信息，或许论文示意图所表达的也是这个意思。

panda66666666 commented 2 years ago

哦哦，又看了一遍是这样的，每一个卷积核只覆盖一小个范围，文章没毛病