Kamino666 / Video-Captioning-Transformer

这是一个基于Pytorch平台、Transformer框架实现的视频描述生成 (Video Captioning) 深度学习模型。 视频描述生成任务指的是:输入一个视频,输出一句描述整个视频内容的文字(前提是视频较短且可以用一句话来描述)。本repo主要目的是帮助视力障碍者欣赏网络视频、感知周围环境,促进“无障碍视频”的发展。
Apache License 2.0
79 stars 17 forks source link

用您的训练好的模型好像效果不好,请问您的模型的训练集多大 #5

Closed WindSearcher closed 2 years ago

Kamino666 commented 2 years ago

训练集是MSR-VTT的训练集,有6513个视频,验证集有497个视频

WindSearcher commented 2 years ago

好像还没SVT2架构好

------------------ 原始邮件 ------------------ 发件人: "Kamino666/Video-Captioning-Transformer" @.>; 发送时间: 2021年11月30日(星期二) 上午9:08 @.>; @.**@.>; 主题: Re: [Kamino666/Video-Captioning-Transformer] 用您的训练好的模型好像效果不好,请问您的模型的训练集多大 (Issue #5)

训练集是MSR-VTT的训练集,有6513个视频,验证集有497个视频

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android.

Kamino666 commented 2 years ago

hh可能哪里出问题了吧,我这边弄出来在所有指标上都挺好的呢

WindSearcher commented 2 years ago

我们的数据集是一条视频对应五个描述语句,不知道您的模型能做嘛

------------------ 原始邮件 ------------------ 发件人: "Kamino666/Video-Captioning-Transformer" @.>; 发送时间: 2021年11月30日(星期二) 上午9:15 @.>; @.**@.>; 主题: Re: [Kamino666/Video-Captioning-Transformer] 用您的训练好的模型好像效果不好,请问您的模型的训练集多大 (Issue #5)

hh可能哪里出问题了吧,我这边弄出来在所有指标上都挺好的呢

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android.

Kamino666 commented 2 years ago

是Video Captioning任务就可以用呀,像VATEX数据集、MSVD数据集都是这样的。假如你的数据集更小,可以试试迁移学习

WindSearcher commented 2 years ago

麻烦再问下,您用自己的tokenizer,而不用bert-base-uncase是基于啥考虑嘛?您的分词器是基于自己的训练集文本训练得到的嘛

------------------ 原始邮件 ------------------ 发件人: "Kamino666/Video-Captioning-Transformer" @.>; 发送时间: 2021年11月30日(星期二) 上午9:27 @.>; @.**@.>; 主题: Re: [Kamino666/Video-Captioning-Transformer] 用您的训练好的模型好像效果不好,请问您的模型的训练集多大 (Issue #5)

是Video Captioning任务就可以用呀,像VATEX数据集、MSVD数据集都是这样的。假如你的数据集更小,可以试试迁移学习

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android.

Kamino666 commented 2 years ago

我用的就是bert-base-uncase的tokenizer,之前因为网络原因下载到了本地,现在这个库最新的版本我应该是都替换成了能够直接下载hugging face的tokenizer文件的。可能你clone的还是上一个版本?

WindSearcher commented 2 years ago

嗷嗷,好的,谢谢,我自己手动换了

------------------ 原始邮件 ------------------ 发件人: "Kamino666/Video-Captioning-Transformer" @.>; 发送时间: 2021年11月30日(星期二) 上午10:08 @.>; @.**@.>; 主题: Re: [Kamino666/Video-Captioning-Transformer] 用您的训练好的模型好像效果不好,请问您的模型的训练集多大 (Issue #5)

我用的就是bert-base-uncase的tokenizer,之前因为网络原因下载到了本地,现在这个库最新的版本我应该是都替换成了能够直接下载hugging face的tokenizer文件的。可能你clone的还是上一个版本?

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android.

WindSearcher commented 2 years ago

麻烦再问下,这个视频得转成npy格式嘛?

------------------ 原始邮件 ------------------ 发件人: "Kamino666/Video-Captioning-Transformer" @.>; 发送时间: 2021年11月30日(星期二) 上午10:08 @.>; @.**@.>; 主题: Re: [Kamino666/Video-Captioning-Transformer] 用您的训练好的模型好像效果不好,请问您的模型的训练集多大 (Issue #5)

我用的就是bert-base-uncase的tokenizer,之前因为网络原因下载到了本地,现在这个库最新的版本我应该是都替换成了能够直接下载hugging face的tokenizer文件的。可能你clone的还是上一个版本?

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android.

WindSearcher commented 2 years ago

Traceback (most recent call last):   File "train.py", line 330, in <module>     train_loss = train_epoch(transformer, optimizer, train_dataloader)   File "train.py", line 75, in train_epoch     src_mask=None, src_padding_mask=src_padding_mask)  # N T-1 vocab_szie   File "/home/mmifhost/miniconda3/envs/pytorchenv/lib/python3.7/site-packages/torch/nn/modules/module.py", line 1102, in _call_impl     return forward_call(*input, *kwargs)   File "/home/lab-space/personal/lq/code/Video-Captioning-Transformer-master/model/model.py", line 58, in forward     src_emb = self.positional_encoding(self.src_to_emb(src))  # src: torch.Size([16, 768, 20])   File "/home/mmifhost/miniconda3/envs/pytorchenv/lib/python3.7/site-packages/torch/nn/modules/module.py", line 1102, in _call_impl     return forward_call(input, **kwargs)   File "/home/mmifhost/miniconda3/envs/pytorchenv/lib/python3.7/site-packages/torch/nn/modules/linear.py", line 103, in forward     return F.linear(input, self.weight, self.bias)   File "/home/mmifhost/miniconda3/envs/pytorchenv/lib/python3.7/site-packages/torch/nn/functional.py", line 1848, in linear     return torch._C._nn.linear(input, weight, bias) RuntimeError: mat1 and mat2 shapes cannot be multiplied (2560x2048 and 512x768)

您好,换成我的数据集后报这种错,请问是否是把hidden_dim维度换成512?

------------------ 原始邮件 ------------------ 发件人: "Kamino666/Video-Captioning-Transformer" @.>; 发送时间: 2021年11月30日(星期二) 上午10:08 @.>; @.**@.>; 主题: Re: [Kamino666/Video-Captioning-Transformer] 用您的训练好的模型好像效果不好,请问您的模型的训练集多大 (Issue #5)

我用的就是bert-base-uncase的tokenizer,之前因为网络原因下载到了本地,现在这个库最新的版本我应该是都替换成了能够直接下载hugging face的tokenizer文件的。可能你clone的还是上一个版本?

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android.

Kamino666 commented 2 years ago

hidden_dim可以改呀 这个报错应该是2048这个维度弄错了,检查一下输入

WindSearcher commented 2 years ago

应该是我当时抽取的视频特征npy文件不对,所以用大佬提供的CLIP来重新抽取,就发生了上一封邮件存在的问题

------------------ 原始邮件 ------------------ 发件人: "Kamino666/Video-Captioning-Transformer" @.>; 发送时间: 2021年11月30日(星期二) 下午2:39 @.>; @.**@.>; 主题: Re: [Kamino666/Video-Captioning-Transformer] 用您的训练好的模型好像效果不好,请问您的模型的训练集多大 (Issue #5)

hidden_dim可以改呀 这个报错应该是2048这个维度弄错了,检查一下输入

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android.