Hello, I would like to ask some questions about AOT architecture

我最近在看一篇关于抠像的论文（Adaptive Human Matting for Dynamic Videos） https://arxiv.org/abs/2304.06018 ；这个论文是基于 AOT结构修改的，对于transformer这块有点不太明白，请您解答一下，

这个抠像框架有用到身份验证吗，是不是不需要身份ID，
对于长期注意力机制，这里写的每10帧执行一次，那么输入的图像序列帧需要多少呢，是否需要超过10帧，
公式中有提到 Ef 和 Eb 是前景 f 和背景 b 的可学习嵌入，这个可学习嵌入是基于输入图像使用 16x16 的卷积核还是基于已经提取的特征图进行卷积，或者是其他操作呢
对于transformer 架构，Adam 中的转换器由三层组成，隐藏层大小为 256D。 long-term attention的step l为10。为了降低计算复杂度，网络存储了多达10组的Key和Value特征用于long-term attention。窗口大小，w和 s，对于短期注意力来说分别是 7 和 1，我没有在AOT架构中找到储存10组value，这个是否对应AOT中的10个物体呢。对于AOT架构是否只需要去除身份ID，就可以得到这个抠像的transformer了，下面是论文的tranformer的一些描述，期待您的解答，谢谢

yoxu515 / aot-benchmark