yoxu515 / aot-benchmark

An efficient modular implementation of Associating Objects with Transformers for Video Object Segmentation in PyTorch
BSD 3-Clause "New" or "Revised" License
600 stars 108 forks source link

Hello, I would like to ask some questions about AOT architecture #52

Open zhanghongyong123456 opened 1 year ago

zhanghongyong123456 commented 1 year ago

我最近在看一篇关于抠像的论文(Adaptive Human Matting for Dynamic Videos) https://arxiv.org/abs/2304.06018 ;这个论文是基于 AOT结构修改的,对于transformer这块有点不太明白,请您解答一下,

  1. 这个抠像框架有用到身份验证吗,是不是不需要身份ID,
  2. 对于长期注意力机制,这里写的每10帧执行一次,那么输入的图像序列帧需要多少呢,是否需要超过10帧,
  3. 公式中有提到 Ef 和 Eb 是前景 f 和背景 b 的可学习嵌入,这个可学习嵌入是基于 输入图像使用 16x16 的卷积核还是基于已经提取的特征图进行卷积,或者是其他操作呢
  4. 对于transformer 架构,Adam 中的转换器由三层组成,隐藏层大小为 256D。 long-term attention的step l为10。为了降低计算复杂度,网络存储了多达10组的Key和Value特征用于long-term attention。窗口大小,w和 s,对于短期注意力来说分别是 7 和 1,我没有在AOT架构中找到储存10组value,这个是否对应AOT中的10个物体呢。对于AOT架构是否只需要去除身份ID,就可以得到这个抠像的transformer了, 下面是论文的tranformer的一些描述,期待您的解答,谢谢

0 1 2 3 4 5 6

z-x-yang commented 1 year ago
  1. 应该有用到,但应该只有一个前景目标。
  2. 视频一般都超过10帧。
    1. 建议联系这篇论文的原作者来了解相关的实现细节。