How to call models.py - Githubissues

想请教您咱这篇论文的多模态transformer能否应用与融合音视觉模态，其中视觉模态包括了背景图片和人脸图片特征。如果可以，我该具体提取代码中的哪些部分进行修改。我尝试提取了models.py，发现被hyp_params这个参数困住了，想请问能否提前给该参数都定义好，直接不使用该参数。或者有什么好的办法，能让这个模块融入我们的代码中，十分感谢！