hulianyuyy / CorrNet

Continuous Sign Language Recognition with Correlation Network (CVPR 2023)
84 stars 14 forks source link

训练问题 #26

Closed percise closed 5 months ago

percise commented 6 months ago

我在使用csl-daily数据集当中,按照您的操作,lr设置未0.00005,gaama设置为0.5,但是最后一个禁用时间重采样策略(注释行 121)在 dataloader_video.py 中。我直接将该函数注释掉报错,然后将main.py当中的collate_fn=self.feeder.collate_fn,这条删掉了 运行会报AttributeError: 'str' object has no attribute 'shape',。如果不按照你这个设置 默认配置,可以直接运行成功训练,但是训练一轮需要4个多小时,gpu是A100,40轮达到了160多小时,和您训练的33小时差距太大,怎么可以改进训练时间呢?属于正常吗还是 1702469923185

percise commented 6 months ago

log_csl-dailyt.txt 这是我的一个训练的日志配置,训练时长大概4小时一轮 1702471380141

hulianyuyy commented 6 months ago

lr设置为0.00005,gamma设置为0.5,在 dataloader_video.py 中禁用时间重采样策略(注释行 121)。这些都没问题。不需要将将main.py当中的collate_fn=self.feeder.collate_fn这条删掉。 此外,正常训练不应该这么慢,你看下A100上是否还有其他程序在GPU上运行?我在3090上33小时就能跑完。

percise commented 6 months ago

lr设置为0.00005,gamma设置为0.5,在dataloader_video.py中取消时间重采样策略(注释行121)。这些都不是问题。不需要将main.py涉及的collat​​e_fn=self.feeder.collat​​e_fn这条删除另外 ,正常训练不应该这么慢,你看下A100上是否还有其他程序在GPU上运行?我在3090上33小时就能跑完。

好的 谢谢,那我大概清楚了 好像是有其他的程序也在跑,只是显存没占用满。取消时间重采样策略该怎样进行呢?现在已经修改了那两个参数正在跑了。

hulianyuyy commented 6 months ago

把dataloader_video.py中的101行”video_augmentation.TemporalRescale(0.2, self.frame_interval)“注释掉就行。

percise commented 6 months ago

把dataloader_video.py中的101行”video_augmentation.TemporalRescale(0.2, self.frame_interval)“注释掉就行。

好的 谢谢

percise commented 6 months ago

lr设置为0.00005,gamma设置为0.5,在 dataloader_video.py 中禁用时间重采样策略(注释行 121)。这些都没问题。不需要将将main.py当中的collate_fn=self.feeder.collate_fn这条删掉。 此外,正常训练不应该这么慢,你看下A100上是否还有其他程序在GPU上运行?我在3090上33小时就能跑完。

你好,我从新训练并没用其他程序再跑,显卡是A100,参数是默认的,占用显存40g左右,训练时长大概4个多小时一轮,按照您的要求已经禁用同时修改那些参数了,想问下您的cpu是什么呢,我的cpu和内存(目前查询了是e3 12xx-v2)估计配的内存条是ddr3的,导致训练时间久嘛? 214551

percise commented 6 months ago

csl_daily_log .txt 这是我的log,麻烦您看下参数有问题嘛 我是否需要修改baseline中num_class參數從1296到2001 654

percise commented 6 months ago

561421 这是我的数据集文件,是对的吧,已经链接到/dataset/CSL-Daily下

hulianyuyy commented 6 months ago

我的CPU是Intel(R) Xeon(R) Gold 6348。我看了你的log文件,配置没问题。你的数据集文件中,图片是512×512加载来训练的。我觉得可能是图片过大,导致加载时间比较长。如果你用我们提供的预处理文件,将其处理到256×256,可能会快一些。

percise commented 6 months ago

我的CPU是Intel(R) Xeon(R) Gold 6348。我看了你的log文件,配置没问题。你的数据集文件中,图片是512×512加载来训练的。我觉得可能是图片过大,导致加载时间比较长。如果你用我们提供的预处理文件,将其处理到256×256,可能会快一些。 是的,我已经执行process文件,处理到256*256,那么那个baseline文件中需要修改成2001吗对于csldaily

hulianyuyy commented 6 months ago

You dont need to change it into 2001, as the num classes will be automatically decided in the files.

---原始邮件--- 发件人: @.> 发送时间: 2023年12月15日(周五) 下午5:48 收件人: @.>; 抄送: @.**@.>; 主题: Re: [hulianyuyy/CorrNet] 训练问题 (Issue #26)

我的CPU是Intel(R) Xeon(R) Gold 6348。我看了你的log文件,配置没问题。你的数据集文件中,图片是512×512加载来训练的。我觉得可能是图片过大,导致加载时间比较长。如果你用我们提供的预处理文件,将其处理到256×256,可能会快一些。 是的,我已经执行process文件,处理到256*256,那么那个baseline文件中需要修改成2001吗对于csldaily

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>