Open userLx888 opened 1 year ago
想请教您咱这篇论文的多模态transformer能否应用与融合音视觉模态,其中视觉模态包括了背景图片和人脸图片特征。 如果可以,我该具体提取代码中的哪些部分进行修改。 我尝试提取了models.py,发现被hyp_params这个参数困住了,想请问能否提前给该参数都定义好,直接不使用该参数。 或者有什么好的办法,能让这个模块融入我们的代码中,十分感谢!
想请教您咱这篇论文的多模态transformer能否应用与融合音视觉模态,其中视觉模态包括了背景图片和人脸图片特征。 如果可以,我该具体提取代码中的哪些部分进行修改。 我尝试提取了models.py,发现被hyp_params这个参数困住了,想请问能否提前给该参数都定义好,直接不使用该参数。 或者有什么好的办法,能让这个模块融入我们的代码中,十分感谢!