Closed ZihaoZheng98 closed 2 years ago
嗨 ,又打扰你了,想请教一下关于论文模型的部分,,,,老师让我明天向他汇报,,看代码应该是来不及了,麻烦您了!! 我知道模型的大概过程是首先使用self attention得到每个帧中,关系的上下文表示。然后得到T个大X,每个大X看论文应该是 K(t)1936,然后按照论文中的说法是u个frame,那就是 Z = uK(t)*1936.然后再decoder阶段,是如何对Z做attention的呢? 总结的话 有三个疑问: 一个是 Z如何和Ef相加,是将Ei与所有K(t)相加吗? 第二个是如何对Z做attention?是将每个帧中所有x^k_t融合成一个表示还是怎么做attention?第三个是,我最常见到的transformer decoder都是K和V一致,这里采用Q和K一致是基于什么考虑呢?
最近在出差😂
1.在temporal decoder中 u个frame的relationships被组合成一个batch,在来自相同帧的relationships上加上相同的frame encoding。
嗨 ,又打扰你了,想请教一下关于论文模型的部分,,,,老师让我明天向他汇报,,看代码应该是来不及了,麻烦您了!! 我知道模型的大概过程是首先使用self attention得到每个帧中,关系的上下文表示。然后得到T个大X,每个大X看论文应该是 K(t)1936,然后按照论文中的说法是u个frame,那就是 Z = uK(t)*1936.然后再decoder阶段,是如何对Z做attention的呢? 总结的话 有三个疑问: 一个是 Z如何和Ef相加,是将Ei与所有K(t)相加吗? 第二个是如何对Z做attention?是将每个帧中所有x^k_t融合成一个表示还是怎么做attention?第三个是,我最常见到的transformer decoder都是K和V一致,这里采用Q和K一致是基于什么考虑呢?