Closed aspnetcs closed 7 months ago
I've addressed this issue in #1 . Correcting these should be fine.
我都调试好了,视频特征是如何提取出来的?能给出源代码吗?
--
At 2023-07-09 20:41:58, "xjtupanda" @.***> wrote:
I've addressed this issue in #1 . Correcting these should be fine.
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
我都调试好了,视频特征是如何提取出来的?能给出源代码吗?
特征是数据集作者给出的,提取代码和细节可以看Link。一般人没能力也没必要自己提视频特征。这个数据集3FPS的都100多个G了,原特征是用15FPS提取的,而且还不开放原始帧。
原来如此,你的PRVR算法输出结果是什么?是检索出的时间段吗?在算法中,能够加入其他特征吗?比如声音特征,通过clip,frame,文本,声音的相似度学习,进行检索,是否可行?
--
在 2023-07-09 22:34:07,"xjtupanda" @.***> 写道:
我都调试好了,视频特征是如何提取出来的?能给出源代码吗?
特征是数据集作者给出的,提取代码和细节可以看Link。一般人没能力也没必要自己提视频特征。这个数据集3FPS的都100多个G了,原特征是用15FPS提取的,而且还不开放原始帧。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
原来如此,你的PRVR算法输出结果是什么?是检索出的时间段吗?在算法中,能够加入其他特征吗?比如声音特征,通过clip,frame,文本,声音的相似度学习,进行检索,是否可行?
输出是检索出的长视频,长视频里有文本对应的片段。加入其他模态特征理论上是更好的,要怎么做多模态特征融合就需要自己探索了。
PRVR输出结果与T2VR是一样的?都是视频? 如何自定义数据集,然后让你的PRVR在自定义数据集上进行训练,测试?
https://github.com/aspnetcs/VLTinT 这个能够实时输出时间与对应的文本。
--
在 2023-07-10 11:19:17,"xjtupanda" @.***> 写道:
原来如此,你的PRVR算法输出结果是什么?是检索出的时间段吗?在算法中,能够加入其他特征吗?比如声音特征,通过clip,frame,文本,声音的相似度学习,进行检索,是否可行?
输出是检索出的长视频,长视频里有文本对应的片段。加入其他模态特征理论上是更好的,要怎么做多模态特征融合就需要自己探索了。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
PRVR输出结果与T2VR是一样的?都是视频? 如何自定义数据集,然后让你的PRVR在自定义数据集上进行训练,测试? https://github.com/aspnetcs/VLTinT 这个能够实时输出时间与对应的文本。
PRVR不是我做的,我只是follow一下。T2VR的视频是裁剪好的,对应文本描述;PRVR是未裁剪的长视频,一般有多段文本描述,分别对应视频里的某个片段。自定义数据集只要为一段长视频的几个片段标注文本描述就行了,直接用T2VR的数据集也行。
好的,T2VR的数据集有MSRVTT,MSVD ,DiDeMo,LSMDC,Activity-Net,我都试试,到时,请您指教。 还有,就是这个PRVR,有前端吗?比如我输入一个文本:视频检索是溯源的基础。然后可以检索出相关的视频。这个能做到吗?
--
在 2023-07-10 15:58:08,"xjtupanda" @.***> 写道:
PRVR输出结果与T2VR是一样的?都是视频? 如何自定义数据集,然后让你的PRVR在自定义数据集上进行训练,测试? https://github.com/aspnetcs/VLTinT 这个能够实时输出时间与对应的文本。
PRVR不是我做的,我只是follow一下。T2VR的视频是裁剪好的,对应文本描述;PRVR是未裁剪的长视频,一般有多段文本描述,分别对应视频里的某个片段。自定义数据集只要为一段长视频的几个片段标注文本描述就行了,直接用T2VR的数据集也行。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
好的,T2VR的数据集有MSRVTT,MSVD ,DiDeMo,LSMDC,Activity-Net,我都试试,到时,请您指教。 还有,就是这个PRVR,有前端吗?比如我输入一个文本:视频检索是溯源的基础。然后可以检索出相关的视频。这个能做到吗?
我不知道你说的前端指的是什么。PRVR要做的本来就是输入文本检索相关的长视频
好的,“PRVR要做的本来就是输入文本检索相关的长视频“,我在哪里输入文本,才能检索相关的长视频?github中没给出。
方便给我你的微信或QQ号吗?我好加你,进行讨论,只要帮我解决那个问题,我可以付给你专家咨询费。
--
在 2023-07-10 20:58:41,"xjtupanda" @.***> 写道:
好的,T2VR的数据集有MSRVTT,MSVD ,DiDeMo,LSMDC,Activity-Net,我都试试,到时,请您指教。 还有,就是这个PRVR,有前端吗?比如我输入一个文本:视频检索是溯源的基础。然后可以检索出相关的视频。这个能做到吗?
我不知道你说的前端指的是什么。PRVR要做的本来就是输入文本检索相关的长视频
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
好的,“PRVR要做的本来就是输入文本检索相关的长视频“,我在哪里输入文本,才能检索相关的长视频?github中没给出。 方便给我你的微信或QQ号吗?我好加你,进行讨论,只要帮我解决那个问题,我可以付给你专家咨询费。
我的微信是 xjtupanda
我加你微信了,风清云淡,同意一下。 这个PRVR是,可认为是VCMR的第一阶段的模型。对吧?
--
在 2023-07-11 10:01:39,"xjtupanda" @.***> 写道:
好的,“PRVR要做的本来就是输入文本检索相关的长视频“,我在哪里输入文本,才能检索相关的长视频?github中没给出。 方便给我你的微信或QQ号吗?我好加你,进行讨论,只要帮我解决那个问题,我可以付给你专家咨询费。
我的微信是 xjtupanda
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
(ms_sl) root@acd91bbbb0c2:/home/ms-sl-main# ./do_test.sh $DATASET $FEATURE $ROOTPATH $MODELDIR 2023-06-22 08:24:36.436:INFO:main - Setup config, data and model... ------------ Options ------------- {'bsz': '128', 'ckpt_filepath': '/root/VisualSearch/tvr/results/checkpoint_tvr/model.ckpt', 'clip_scale_w': '0.7', 'collection': 'tvr', 'debug': 'False', 'device': '0', 'device_ids': '[0]', 'drop': '0.1', 'dset_name': 'tvr', 'eval_context_bsz': '200', 'eval_id': 'None', 'eval_log_filepath': '/root/VisualSearch/tvr/results/checkpoint_tvr/eval.log.txt', 'eval_path': 'None', 'eval_query_bsz': '50', 'eval_split_name': 'val', 'eval_untrained': 'False', 'exp_id': 'checkpoint_tvr', 'frame_scale_w': '0.3', 'grad_clip': '-1', 'hard_negative_start_epoch': '20', 'hard_pool_size': '20', 'hidden_size': '384', 'initializer_range': '0.02', 'input_drop': '0.1', 'lr': '0.00025', 'lr_warmup_proportion': '0.01', 'map_size': '32', 'margin': '0.1', 'max_ctx_l': '128', 'max_desc_l': '30', 'max_es_cnt': '10', 'max_position_embeddings': '300', 'max_sub_l': '50', 'model_dir': '/root/VisualSearch/tvr/results/checkpoint_tvr', 'model_name': 'MS_SL_Net', 'n_epoch': '100', 'n_heads': '4', 'no_core_driver': 'False', 'no_norm_tfeat': 'False', 'no_norm_vfeat': 'False', 'no_pin_memory': 'False', 'num_workers': '8', 'q_feat_size': '768', 'results_dir': 'checkpoint_tvr', 'results_root': 'results', 'root_path': '/home/cxk/pvr/VisualSearch', 'seed': '2018', 'sub_feat_size': '768', 'tensorboard_log_dir': '/root/VisualSearch/tvr/results/checkpoint_tvr/tensorboard_log', 'train_log_filepath': '/root/VisualSearch/tvr/results/checkpoint_tvr/train.log.txt', 'train_path': 'None', 'train_span_start_epoch': '0', 'use_sub': 'False', 'vid_feat_size': 'None', 'visual_feature': 'i3d_resnet', 'wd': '0.01'}
[BigFile] 1110332x3072 instances loaded from /home/cxk/pvr/VisualSearch/tvr/FeatureData/i3d_resnet 2023-06-22 08:24:45.549:INFO:main - Loaded model saved at epoch 96 from checkpoint: /root/VisualSearch/tvr/results/checkpoint_tvr/model.ckpt 2023-06-22 08:24:45.549:INFO:main - CUDA enabled. 2023-06-22 08:24:45.558:INFO:main - Starting inference... 2023-06-22 08:24:45.559:INFO:main - Computing scores Computing query2video scores: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:26<00:00, 2.40s/it] Computing q embedding: 0%| | 0/218 [00:00<?, ?it/s] Traceback (most recent call last): File "method/eval.py", line 280, in
start_inference()
File "method/eval.py", line 275, in start_inference
score = eval_epoch(model, test_vid_dataset, test_text_dataset, opt)
File "method/eval.py", line 201, in eval_epoch
query_context_scores, global_query_context_scores, score_sum, query_metas = compute_query2ctx_info(model,
File "method/eval.py", line 164, in compute_query2ctx_info
_clip_scale_scores, _frame_scale_scores = model.get_pred_from_raw_query(
TypeError: get_pred_from_raw_query() got an unexpected keyword argument 'cross'
Exception in thread Thread-3:
Traceback (most recent call last):
File "/root/anaconda3/envs/ms_sl/lib/python3.8/threading.py", line 932, in _bootstrap_inner
self.run()
File "/root/anaconda3/envs/ms_sl/lib/python3.8/threading.py", line 870, in run
self._target(*self._args, **self._kwargs)
File "/root/anaconda3/envs/ms_sl/lib/python3.8/site-packages/torch/utils/data/_utils/pin_memory.py", line 51, in _pin_memory_loop
do_one_step()
File "/root/anaconda3/envs/ms_sl/lib/python3.8/site-packages/torch/utils/data/_utils/pin_memory.py", line 28, in do_one_step
r = in_queue.get(timeout=MP_STATUS_CHECK_INTERVAL)
File "/root/anaconda3/envs/ms_sl/lib/python3.8/multiprocessing/queues.py", line 116, in get
(ms_sl) root@acd91bbbb0c2:/home/ms-sl-main#