-
Hi,
Thanks for sharing this repo!
I am trying to test the video model and I keep getting the same error:
```
---------------------------------------------------------------------------
…
-
## タイトル: BoViLA: 大規模言語モデルベースの自己質問応答によるビデオと言語の連携のブートストラップ手法
## リンク: https://arxiv.org/abs/2410.02768
## 概要:
マルチモーダルモデルの開発は急速に進歩しており、中には目覚ましい能力を示すものも登場しています。しかし、ビデオとテキストのペアのアノテーションは依然として費用がかかり、十分ではあ…
-
Hi, Thanks for you share. It's a beautiful work. But it seems to have a problem when i run this code.
Traceback (most recent call last):
File "main_qa.py", line 1, in
from videoqa import *…
-
We test the performance of VideoClip through the video-text retrieval task on the COIN dataset, but the performance is much lower than the reported performance of VideoQA (26%
-
I have trained the HGA model and evaluated the model on the testing set. But WUPS is 23-24.
I also tested the generated answers provided in this repository (HGA-same-att-qns23ans7-test.json), and…
-
InstructBLIP 论文中指出,即使他们没有针对视频进行训练和微调,他们在VideoQA测试集上,将Video切帧后直接拼接输入Q-Former,亦有一定的理解能力。想问VisualGLM是否进行过类似实验?
-
Hello,
Thank you for sharing the great work and code base!
But I noticed that your TGIF_QA training is unreasonable, causing gradient leakage and ultimately resulting in false over-accuracy on the …
-
-
## タイトル: テキストベース動画質問応答のためのシーンテキストグラウンディング
## リンク: https://arxiv.org/abs/2409.14319
## 概要:
既存のテキストベース動画質問応答(TextVideoQA)は、その意思決定過程が不透明で、シーンテキスト認識に過度に依存しているという批判があります。本稿では、モデルに質問に答えさせると同時に、関連するシーンテキ…
-
Hello @linjieli222,
I'm trying to train a model for VideoQA but I obtain the following error:
```
[1,0]:Stalled ranks:
[1,0]:1: [allgather.noname.1]
[1,0]:[2021-07-20 09:23:22.936726: W horov…