Closed shibefore closed 3 years ago
你好,在阅读论文和代码后有以下两个疑问。 1.论文里Baseline采用的是3d+resnet18+3 layers GRU。在LRW1000上指标是46.5 之前论文类似的方法只能到38.7,如table5中引用29提到的《Mutual information maximization for effective lip reading》 我想问下这个提升怎么做到的?
2.table3中alignedLip是指做了嘴部对齐的,但是在LRW-1000上没有看到相关指标。想问下嘴唇对齐在LRW-1000上能提高多少?
你好,在阅读论文和代码后有以下两个疑问。 1.论文里Baseline采用的是3d+resnet18+3 layers GRU。在LRW1000上指标是46.5 之前论文类似的方法只能到38.7,如table5中引用29提到的《Mutual information maximization for effective lip reading》 我想问下这个提升怎么做到的?
2.table3中alignedLip是指做了嘴部对齐的,但是在LRW-1000上没有看到相关指标。想问下嘴唇对齐在LRW-1000上能提高多少?