Kamino666 / Video-Captioning-Transformer

这是一个基于Pytorch平台、Transformer框架实现的视频描述生成 (Video Captioning) 深度学习模型。 视频描述生成任务指的是:输入一个视频,输出一句描述整个视频内容的文字(前提是视频较短且可以用一句话来描述)。本repo主要目的是帮助视力障碍者欣赏网络视频、感知周围环境,促进“无障碍视频”的发展。
Apache License 2.0
79 stars 18 forks source link

关于跑train报错的问题 #2

Closed sy0507 closed 2 years ago

sy0507 commented 2 years ago

大佬您好,我跑train.py那个文件报了这样一个错误这个要咋办啊,求教一下 %_ MJRNNCT}(QZV)2`89RX

Kamino666 commented 2 years ago

抱歉,这是一个早就发现的bug但是一直没时间改hhh 假如你网络能够连接海外的话,可以把所有AutoTokenizer.from_pretrained()函数的参数改成"bert-base-uncased",但是我这边就算挂了梯子也下不下来: ( 所以可以访问这个链接,将里面所示的4个文件下载下来,存在一个文件夹里,然后把所有AutoTokenizer.from_pretrained()函数的参数改成这个文件夹的路径。

config.json tokenizer.json tokenizer_config.json vocab.txt

sy0507 commented 2 years ago

不好意思再打扰您一下,就是这一段是不是要替换成自己的数据集? H8(R{R_55M$K`ERAK%{M`D9

Kamino666 commented 2 years ago

annotation就是数据集的标注,feat_dir就是数据集特征的文件夹,每个视频的特征存成单独的npy文件 我目前只对MSR-VTT数据集做了适配,所以你要用自己的数据集的话建议修改代码或者把标注设置成MSR-VTT annotation那样的格式哦

sy0507 commented 2 years ago

不好意思,还是上面那个问题,为啥两个json文件是一样的?

Kamino666 commented 2 years ago

因为那个文件里同时包含train和val的信息,我的代码是通过Dataloader选择性加载json里的一部分信息的

sy0507 commented 2 years ago

不好意思,再打扰您一下就是我在跑测试文件的时候报了这样一个错,但是我已经把submodules中的两个文件都git下来了,为啥还是会出现找不到的情况。 KM26E9`Z9~{NNUUANJML LE

Kamino666 commented 2 years ago

检查一下submodules路径下是否有这些文件?也许你git错版本了?

sy0507 commented 2 years ago

额,上面那个确实是我clone的时候clone少了,不好意思,但是我这边跑了一下报了个type的错误,大佬有遇到过嘛?还是我操作有什么不对的地方 image

Kamino666 commented 2 years ago

可能是python版本问题,我也不太确定,但是把preprocess_func这个参数的type hint删掉应该不会报这个错了 def extract(self, device: torch.device, model: torch.nn.Module, preprocess_func, video_path: Union[str, None] = None) -> Dict[str, np.ndarray]:

sy0507 commented 2 years ago

大佬,用那个clip库报了这样一个错误,请问是我的clip版本问题嘛?没法识别load属性 image

xwx666666 commented 2 years ago

这个clip的问题我也遇到了,同求大佬解决一下,救救孩子

Kamino666 commented 2 years ago

这个感觉……也不是我的锅呜呜 你们看看CLIP原库的demo能不能正常运行

import torch
import clip
from PIL import Image

device = "cuda" if torch.cuda.is_available() else "cpu"
model, preprocess = clip.load("ViT-B/32", device=device)
Kamino666 commented 2 years ago

问题有点多不好意思,我最近会针对这些问题维护一下这个库,但是最近有点忙时间不太能确定QWQ 目前已知的问题:

  1. hugging face的AutoTokenizer下载问题
  2. 关于数据集的文档
  3. 子模块环境配置文档
  4. Python type hint使用出错导致的bug
  5. CLIP环境配置文档
sy0507 commented 2 years ago

不不,是我太菜了,那个clip我已经解决了,不能直接import clip 要从那个github库弄下来才行

sy0507 commented 2 years ago

大佬,如果用你提供的那个video-features进行特征提取,可以批量嘛?命令是什么样的?

sy0507 commented 2 years ago

大佬,我在跑自己的数据集的时候,把第一二轮的模型弄出来想先测试试一下的,为啥会报这样的错误? image

Kamino666 commented 2 years ago

你模型的参数填写错了,文档里有默认的训练参数

默认训练参数如下: batch_size = 64 lr = 1e-4 enc_layer_num = 4ndec_layer_num = 4 head_num = 8 feat_size = 512 emb_dim = 768 hid_dim = 2048 dropout = 0.3 epoch_num = 30 use_bert = False