TsingWei / LiteTrack

A fast and high-performance visual object tracker with real-time speed on Jetson.
MIT License
41 stars 4 forks source link

预训练骨干权重 #3

Open C-C-Y opened 8 months ago

C-C-Y commented 8 months ago

你好,我在CAE仓库里发现了三个权重,cae_base_300,cae_base_800,cae_base_1600,请问你用的是哪个?

TsingWei commented 8 months ago

我用的1600。不过经过我自己后续的实验,MAE,CAE,CAEv2最终精度其实差别不大,CAE会早一点收敛而已。

C-C-Y commented 8 months ago

我用的1600。不过经过我自己后续的实验,MAE,CAE,CAEv2最终精度其实差别不大,CAE会早一点收敛而已。

好的,非常感谢,我还有个问题,我刚用CAE_800的权重试了下,只训练got,B8模型,每轮Epoch Time 差不多为9分钟左右,用的单个3090GPU,这个时间是不是有些长,可能问题出在哪里

TsingWei commented 8 months ago

got的图片分辨率比较大,数据预处理吃cpu和内存带宽。你可以看下是不是数据处理时间太长了。全量数据集训练会快一点。

---原始邮件--- 发件人: "Double @.> 发送时间: 2023年12月22日(周五) 下午2:10 收件人: @.>; 抄送: "Qingmao @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

我用的1600。不过经过我自己后续的实验,MAE,CAE,CAEv2最终精度其实差别不大,CAE会早一点收敛而已。

好的,非常感谢,我还有个问题,我刚用CAE_800的权重试了下,只训练got,B8模型,每轮Epoch Time 差不多为9分钟左右,用的单个3090GPU,这个时间是不是有些长,可能问题出在哪里

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

C-C-Y commented 8 months ago

got的图片分辨率比较大,数据预处理吃cpu和内存带宽。你可以看下是不是数据处理时间太长了。全量数据集训练会快一点。 ---原始邮件--- 发件人: "Double @.> 发送时间: 2023年12月22日(周五) 下午2:10 收件人: @.>; 抄送: "Qingmao @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3) 我用的1600。不过经过我自己后续的实验,MAE,CAE,CAEv2最终精度其实差别不大,CAE会早一点收敛而已。 好的,非常感谢,我还有个问题,我刚用CAE_800的权重试了下,只训练got,B8模型,每轮Epoch Time 差不多为9分钟左右,用的单个3090GPU,这个时间是不是有些长,可能问题出在哪里 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

这样啊,好的我后面试一下,想问下数据处理时间是指图中的Avg Data Time么 1703225954(1)

TsingWei commented 8 months ago

对。8分多钟也没慢多少,个人认为是可以接受的。

---原始邮件--- 发件人: "Double @.> 发送时间: 2023年12月22日(周五) 下午2:22 收件人: @.>; 抄送: "Qingmao @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

got的图片分辨率比较大,数据预处理吃cpu和内存带宽。你可以看下是不是数据处理时间太长了。全量数据集训练会快一点。 … ---原始邮件--- 发件人: "Double @.> 发送时间: 2023年12月22日(周五) 下午2:10 收件人: @.>; 抄送: "Qingmao @.@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3) 我用的1600。不过经过我自己后续的实验,MAE,CAE,CAEv2最终精度其实差别不大,CAE会早一点收敛而已。 好的,非常感谢,我还有个问题,我刚用CAE_800的权重试了下,只训练got,B8模型,每轮Epoch Time 差不多为9分钟左右,用的单个3090GPU,这个时间是不是有些长,可能问题出在哪里 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

这样啊,好的我后面试一下,想问下数据处理时间是指图中的Avg Data Time么 1703225954.1.png (view on web)

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

C-C-Y commented 8 months ago

对。8分多钟也没慢多少,个人认为是可以接受的。 ---原始邮件--- 发件人: "Double @.> 发送时间: 2023年12月22日(周五) 下午2:22 收件人: @.>; 抄送: "Qingmao @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3) got的图片分辨率比较大,数据预处理吃cpu和内存带宽。你可以看下是不是数据处理时间太长了。全量数据集训练会快一点。 … ---原始邮件--- 发件人: "Double @.> 发送时间: 2023年12月22日(周五) 下午2:10 收件人: @.>; 抄送: "Qingmao @.@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3) 我用的1600。不过经过我自己后续的实验,MAE,CAE,CAEv2最终精度其实差别不大,CAE会早一点收敛而已。 好的,非常感谢,我还有个问题,我刚用CAE_800的权重试了下,只训练got,B8模型,每轮Epoch Time 差不多为9分钟左右,用的单个3090GPU,这个时间是不是有些长,可能问题出在哪里 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.> 这样啊,好的我后面试一下,想问下数据处理时间是指图中的Avg Data Time么 1703225954.1.png (view on web) — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>

好的,我也觉得已经很快了,非常感谢你的解答

Duranin commented 6 months ago

您好,我同样是单张3090显卡,其他配置是i7-12700fCPU 64g内存。我未做更改直接训练的B9_got,epoch time大概需要28分钟。请问下您怎么训练时间比我快这么多呢?我需要更改哪些参数呢?另外,总计需要跑100个epoch,最优的结果大概出现在第几个epoch呢?非常期待您的回复。

TsingWei commented 6 months ago

您好,我同样是单张3090显卡,其他配置是i7-12700fCPU 64g内存。我未做更改直接训练的B9_got,epoch time大概需要28分钟。请问下您怎么训练时间比我快这么多呢?我需要更改哪些参数呢?另外,总计需要跑100个epoch,最优的结果大概出现在第几个epoch呢?非常期待您的回复。

@Duranin 你的时间应该是卡在IO部分,我这里数据集都放在固态上,尽量去避免GPU之外的瓶颈。我论文的拿数据和公开的权重都是最后一个ep的,不过最后几个ep的性能会有微小的波动。也算误差范围内吧。除非没活整了才去精挑细选。

Duranin commented 6 months ago

非常感谢您的回复。我的数据集也是在固态上,确实应该跟IO部分有关,因为我的CPU和内存利用率始终比较低。

TsingWei commented 6 months ago

利用率低可能是多线程的问题,要么是pytorch的num_workers相关,要么是opencv的多线程相关

---原始邮件--- 发件人: @.> 发送时间: 2024年3月8日(周五) 中午1:36 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

非常感谢您的回复。我的数据集也是在固态上,确实应该跟IO部分有关,因为我的CPU和内存利用率始终比较低。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

goodnight111111111 commented 6 months ago

您好,我同样是单张3090显卡,显存24G,直接训练的B8_got,epoch time大概需要1小时20分钟。请问我的这种情况也是和IO和线程有关吗?非常期待您的回复!

TsingWei commented 6 months ago

你这有点夸张了,感觉单线程加机械硬盘都没你这慢

---原始邮件--- 发件人: @.> 发送时间: 2024年3月8日(周五) 晚上9:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

您好,我同样是单张3090显卡,显存24G,直接训练的B8_got,epoch time大概需要1小时20分钟。请问我的这种情况也是和IO和线程有关吗?非常期待您的回复!

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

goodnight111111111 commented 6 months ago

感谢您百忙之中回复我!我附上两张训练时图片,您能发现什么问题,期待您的回信!

---原始邮件--- 发件人: @.> 发送时间: 2024年3月9日(周六) 凌晨1:08 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

你这有点夸张了,感觉单线程加机械硬盘都没你这慢

---原始邮件--- 发件人: @.> 发送时间: 2024年3月8日(周五) 晚上9:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

您好,我同样是单张3090显卡,显存24G,直接训练的B8_got,epoch time大概需要1小时20分钟。请问我的这种情况也是和IO和线程有关吗?非常期待您的回复!

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.> — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>

TsingWei commented 6 months ago

没看到你的训练时图片哦。训练的时候可以用htop命令看下cpu占用情况。

---原始邮件--- 发件人: @.> 发送时间: 2024年3月9日(周六) 晚上10:46 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

我用的1600。不过经过我自己后续的实验,MAE,CAE,CAEv2最终精度其实差别不大,CAE会早一点收敛而已。

好的,非常感谢,我还有个问题,我刚用CAE_800的权重试了下,只训练got,B8模型,每轮Epoch Time 差不多为9分钟左右,用的单个3090GPU,这个时间是不是有些长,可能问题出在哪里

请问您的线程数是多少,我训练时时间长的离谱,不知道那里有问题,期待你的回复! 非常感谢

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

goodnight111111111 commented 6 months ago

没看到你的训练时图片哦。训练的时候可以用htop命令看下cpu占用情况。 ---原始邮件--- 发件人: @.> 发送时间: 2024年3月9日(周六) 晚上10:46 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3) 我用的1600。不过经过我自己后续的实验,MAE,CAE,CAEv2最终精度其实差别不大,CAE会早一点收敛而已。 好的,非常感谢,我还有个问题,我刚用CAE_800的权重试了下,只训练got,B8模型,每轮Epoch Time 差不多为9分钟左右,用的单个3090GPU,这个时间是不是有些长,可能问题出在哪里 请问您的线程数是多少,我训练时时间长的离谱,不知道那里有问题,期待你的回复! 非常感谢 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

非常感谢您的回信!抱歉我再次附上我的图片 IMG_20240309_090154_edit_319921397157953 IMG_20240309_090245 IMG_20240309_225830

TsingWei commented 6 months ago

@goodnight111111111 训练log里datatime非常长,top命令可以看到你的训练进程只跑了单线程(CPU占用率只有32.7),要么是环境问题导致pytorch或者opencv的多线程/多进程失效,要么是在等图片读取的io。

goodnight111111111 commented 6 months ago

非常感谢您的不吝赐教!我的 Linux 系统装的 cuda 是 11.1 的自己的 python 环境里面装的是 11.3 的 这个会不会有影响。

---原始邮件--- 发件人: @.> 发送时间: 2024年3月12日(周二) 中午11:57 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

训练log里datatime非常长,top命令可以看到你的训练进程只跑了单线程(CPU占用率只有32.7),要么是环境问题导致pytorch或者opencv的多线程/多进程失效,要么是在等图片读取的io。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

TsingWei commented 6 months ago

可能性不大,不过也可以多试几个版本,注意torch和cuda版本对应上就行

---原始邮件--- 发件人: @.> 发送时间: 2024年3月12日(周二) 中午1:26 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

非常感谢您的不吝赐教!我的 Linux 系统装的 cuda 是 11.1 的自己的 python 环境里面装的是 11.3 的 这个会不会有影响。

---原始邮件--- 发件人: @.> 发送时间: 2024年3月12日(周二) 中午11:57 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

训练log里datatime非常长,top命令可以看到你的训练进程只跑了单线程(CPU占用率只有32.7),要么是环境问题导致pytorch或者opencv的多线程/多进程失效,要么是在等图片读取的io。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.> — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>

goodnight111111111 commented 6 months ago

好的 好的 非常感谢!

---原始邮件--- 发件人: @.> 发送时间: 2024年3月13日(周三) 凌晨0:07 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

可能性不大,不过也可以多试几个版本,注意torch和cuda版本对应上就行

---原始邮件--- 发件人: @.> 发送时间: 2024年3月12日(周二) 中午1:26 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

非常感谢您的不吝赐教!我的 Linux 系统装的 cuda 是 11.1 的自己的 python 环境里面装的是 11.3 的 这个会不会有影响。

---原始邮件---
发件人: @.>
发送时间: 2024年3月12日(周二) 中午11:57
收件人:
@.>;
抄送: @.**@.>;
主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

训练log里datatime非常长,top命令可以看到你的训练进程只跑了单线程(CPU占用率只有32.7),要么是环境问题导致pytorch或者opencv的多线程/多进程失效,要么是在等图片读取的io。


Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you commented.Message ID: @.>
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID:
@.> — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>

NakrAi commented 5 months ago

请问from lib.train.data.wandb_logger import WandbWriter 这个怎么解决啊。train里面没有data

goodnight111111111 commented 5 months ago

把 OSTrack 里面的复制过来就行

---原始邮件--- 发件人: @.> 发送时间: 2024年3月24日(周日) 晚上8:56 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

请问from lib.train.data.wandb_logger import WandbWriter 这个怎么解决啊。train里面没有data

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>

goodnight111111111 commented 4 months ago

打扰了,我在测试的时候GPU爆满,有什么解决办法吗

TsingWei commented 3 months ago

打扰了,我在测试的时候GPU爆满,有什么解决办法吗

我修改了测试代码,默认开多线程同时测多个权重。你可以降低同时测的数量或者直接改为单线程。

goodnight111111111 commented 2 months ago

您好,非常感谢您的回复。我在压缩提取trackingnet数据集时遇到问题,是否可以分享您提取好的trackingnet数据集,非常感谢

TsingWei commented 2 months ago

链接:https://pan.baidu.com/s/1UBAd0nXwPMJSK9qE5OQQAg?pwd=1111 提取码:1111 --来自百度网盘超级会员V5的分享

另外,Pytracking的作者有提到TrackingNet的数据集只需要其中部分子集即可,见: https://github.com/visionml/pytracking/issues/373#issuecomment-1435986847https://github.com/visionml/pytracking/issues/251#issuecomment-823120469

goodnight111111111 commented 2 months ago

好的 非常感谢您的回复,本文是否也是使用0-4的训练数据集

TsingWei commented 2 months ago

我用了全部。在我看来,这些情况可以用子集训练:1. 想把数据集放在固态上减少io瓶颈,但是固态空间不够;2在云平台上训练,想省存储空间的钱。

goodnight111111111 commented 2 months ago

好的 非常感谢,如果我使用部分子集会对性能产生影响吗

TsingWei commented 2 months ago

我只在一个玩具模型上验证过,最后10ep在lasot和got上的平均测试集精度下降了~0.05,非常轻微

goodnight111111111 commented 2 weeks ago

尊敬的作者您好!我在训练的过程中由于硬盘不小心人为中断,原来epoch已经训练了240个,再次训练时epoch从1开始了,怎么不是241,我应该怎么解决,还是对训练结果没有影响。期待您的回复,我不胜感激!

TsingWei commented 1 week ago

目前训练的代码逻辑是:先检查硬盘上的权重文件是否存在,权重文件的命名中有表示该文件是第几个epoch保存的,然后就会加载这个权重并从对应的ep恢复训练。具体命名规则你需要自己看下。如果找不到权重文件就会从0开始。哪些ep会保存权重,目前是写死在代码里的,你可以搜索一下load和save关键字。

---原始邮件--- 发件人: @.> 发送时间: 2024年8月20日(周二) 上午10:14 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

尊敬的作者您好!我在训练的过程中由于硬盘不小心人为中断,原来epoch已经训练了240个,再次训练时epoch从1开始了,怎么不是241,我应该怎么解决,还是对训练结果没有影响。期待您的回复,我不胜感激!

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

goodnight111111111 commented 1 week ago

目前是写死在代码里的,你可以搜索一下load和save关键字。

感谢作者的回复,非常感谢!原来epoch已经训练了240个,并且我已经保存了前面第230,231,...,240epoch,再次训练时epoch计数从1开始了,但是损失及其他训练参数是在240ep的基础上继续的。怎么不是接上我保存的epoch从第241个开始,期待您的回复,我不胜感激!

TsingWei commented 1 week ago

有点奇怪,我想起来读取ep数是靠读取文件中优化器的部分,所以会不会是保存权重的时候只保存了网络的参数,优化器的没保存?你可以看下权重文件的体积,和我网盘提供的文件体积对比下,如果和我的差不多那就是没存优化器的参数。

---原始邮件--- 发件人: @.> 发送时间: 2024年8月26日(周一) 下午5:23 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

目前是写死在代码里的,你可以搜索一下load和save关键字。 …

感谢作者的回复,非常感谢!原来epoch已经训练了240个,并且我已经保存了前面第230,231,...,240epoch,再次训练时epoch计数从1开始了,但是损失及其他训练参数是在240ep的基础上继续的。怎么不是接上我保存的epoch从第241个开始,期待您的回复,我不胜感激!

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>