预训练骨干权重 - Githubissues

C-C-Y commented 8 months ago

你好，我在CAE仓库里发现了三个权重，cae_base_300,cae_base_800,cae_base_1600,请问你用的是哪个？

TsingWei commented 8 months ago

我用的1600。不过经过我自己后续的实验，MAE，CAE，CAEv2最终精度其实差别不大，CAE会早一点收敛而已。

C-C-Y commented 8 months ago

我用的1600。不过经过我自己后续的实验，MAE，CAE，CAEv2最终精度其实差别不大，CAE会早一点收敛而已。

好的，非常感谢，我还有个问题，我刚用CAE_800的权重试了下，只训练got，B8模型，每轮Epoch Time 差不多为9分钟左右，用的单个3090GPU，这个时间是不是有些长，可能问题出在哪里

TsingWei commented 8 months ago

got的图片分辨率比较大，数据预处理吃cpu和内存带宽。你可以看下是不是数据处理时间太长了。全量数据集训练会快一点。

---原始邮件--- 发件人: "Double @.> 发送时间: 2023年12月22日(周五) 下午2:10 收件人: @.>; 抄送: "Qingmao @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

我用的1600。不过经过我自己后续的实验，MAE，CAE，CAEv2最终精度其实差别不大，CAE会早一点收敛而已。

好的，非常感谢，我还有个问题，我刚用CAE_800的权重试了下，只训练got，B8模型，每轮Epoch Time 差不多为9分钟左右，用的单个3090GPU，这个时间是不是有些长，可能问题出在哪里

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

C-C-Y commented 8 months ago

got的图片分辨率比较大，数据预处理吃cpu和内存带宽。你可以看下是不是数据处理时间太长了。全量数据集训练会快一点。 … ---原始邮件--- 发件人: "Double @.> 发送时间: 2023年12月22日(周五) 下午2:10 收件人: @.>; 抄送: "Qingmao @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3) 我用的1600。不过经过我自己后续的实验，MAE，CAE，CAEv2最终精度其实差别不大，CAE会早一点收敛而已。好的，非常感谢，我还有个问题，我刚用CAE_800的权重试了下，只训练got，B8模型，每轮Epoch Time 差不多为9分钟左右，用的单个3090GPU，这个时间是不是有些长，可能问题出在哪里 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

这样啊，好的我后面试一下，想问下数据处理时间是指图中的Avg Data Time么 1703225954(1)

TsingWei commented 8 months ago

对。8分多钟也没慢多少，个人认为是可以接受的。

---原始邮件--- 发件人: "Double @.> 发送时间: 2023年12月22日(周五) 下午2:22 收件人: @.>; 抄送: "Qingmao @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

got的图片分辨率比较大，数据预处理吃cpu和内存带宽。你可以看下是不是数据处理时间太长了。全量数据集训练会快一点。 … ---原始邮件--- 发件人: "Double @.> 发送时间: 2023年12月22日(周五) 下午2:10 收件人: @.>; 抄送: "Qingmao @.@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3) 我用的1600。不过经过我自己后续的实验，MAE，CAE，CAEv2最终精度其实差别不大，CAE会早一点收敛而已。好的，非常感谢，我还有个问题，我刚用CAE_800的权重试了下，只训练got，B8模型，每轮Epoch Time 差不多为9分钟左右，用的单个3090GPU，这个时间是不是有些长，可能问题出在哪里 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

这样啊，好的我后面试一下，想问下数据处理时间是指图中的Avg Data Time么 1703225954.1.png (view on web)

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

C-C-Y commented 8 months ago

对。8分多钟也没慢多少，个人认为是可以接受的。 … ---原始邮件--- 发件人: "Double @.> 发送时间: 2023年12月22日(周五) 下午2:22 收件人: @.>; 抄送: "Qingmao @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3) got的图片分辨率比较大，数据预处理吃cpu和内存带宽。你可以看下是不是数据处理时间太长了。全量数据集训练会快一点。 … ---原始邮件--- 发件人: "Double @.> 发送时间: 2023年12月22日(周五) 下午2:10 收件人: @.>; 抄送: "Qingmao @.@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3) 我用的1600。不过经过我自己后续的实验，MAE，CAE，CAEv2最终精度其实差别不大，CAE会早一点收敛而已。好的，非常感谢，我还有个问题，我刚用CAE_800的权重试了下，只训练got，B8模型，每轮Epoch Time 差不多为9分钟左右，用的单个3090GPU，这个时间是不是有些长，可能问题出在哪里 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.> 这样啊，好的我后面试一下，想问下数据处理时间是指图中的Avg Data Time么 1703225954.1.png (view on web) — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>

好的，我也觉得已经很快了，非常感谢你的解答

Duranin commented 6 months ago

您好，我同样是单张3090显卡，其他配置是i7-12700fCPU 64g内存。我未做更改直接训练的B9_got，epoch time大概需要28分钟。请问下您怎么训练时间比我快这么多呢？我需要更改哪些参数呢？另外，总计需要跑100个epoch，最优的结果大概出现在第几个epoch呢？非常期待您的回复。

TsingWei commented 6 months ago

您好，我同样是单张3090显卡，其他配置是i7-12700fCPU 64g内存。我未做更改直接训练的B9_got，epoch time大概需要28分钟。请问下您怎么训练时间比我快这么多呢？我需要更改哪些参数呢？另外，总计需要跑100个epoch，最优的结果大概出现在第几个epoch呢？非常期待您的回复。

@Duranin 你的时间应该是卡在IO部分，我这里数据集都放在固态上，尽量去避免GPU之外的瓶颈。我论文的拿数据和公开的权重都是最后一个ep的，不过最后几个ep的性能会有微小的波动。也算误差范围内吧。除非没活整了才去精挑细选。

Duranin commented 6 months ago

非常感谢您的回复。我的数据集也是在固态上，确实应该跟IO部分有关，因为我的CPU和内存利用率始终比较低。

TsingWei commented 6 months ago

利用率低可能是多线程的问题，要么是pytorch的num_workers相关，要么是opencv的多线程相关

---原始邮件--- 发件人: @.> 发送时间: 2024年3月8日(周五) 中午1:36 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

非常感谢您的回复。我的数据集也是在固态上，确实应该跟IO部分有关，因为我的CPU和内存利用率始终比较低。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

goodnight111111111 commented 6 months ago

您好，我同样是单张3090显卡，显存24G,直接训练的B8_got，epoch time大概需要1小时20分钟。请问我的这种情况也是和IO和线程有关吗？非常期待您的回复!

TsingWei commented 6 months ago

你这有点夸张了，感觉单线程加机械硬盘都没你这慢

---原始邮件--- 发件人: @.> 发送时间: 2024年3月8日(周五) 晚上9:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

您好，我同样是单张3090显卡，显存24G,直接训练的B8_got，epoch time大概需要1小时20分钟。请问我的这种情况也是和IO和线程有关吗？非常期待您的回复!

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

goodnight111111111 commented 6 months ago

感谢您百忙之中回复我！我附上两张训练时图片，您能发现什么问题，期待您的回信！

---原始邮件--- 发件人: @.> 发送时间: 2024年3月9日(周六) 凌晨1:08 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

你这有点夸张了，感觉单线程加机械硬盘都没你这慢

---原始邮件--- 发件人: @.> 发送时间: 2024年3月8日(周五) 晚上9:33 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

您好，我同样是单张3090显卡，显存24G,直接训练的B8_got，epoch time大概需要1小时20分钟。请问我的这种情况也是和IO和线程有关吗？非常期待您的回复!

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.> — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>

TsingWei commented 6 months ago

没看到你的训练时图片哦。训练的时候可以用htop命令看下cpu占用情况。

---原始邮件--- 发件人: @.> 发送时间: 2024年3月9日(周六) 晚上10:46 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

我用的1600。不过经过我自己后续的实验，MAE，CAE，CAEv2最终精度其实差别不大，CAE会早一点收敛而已。

好的，非常感谢，我还有个问题，我刚用CAE_800的权重试了下，只训练got，B8模型，每轮Epoch Time 差不多为9分钟左右，用的单个3090GPU，这个时间是不是有些长，可能问题出在哪里

请问您的线程数是多少，我训练时时间长的离谱，不知道那里有问题，期待你的回复！非常感谢

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

goodnight111111111 commented 6 months ago

没看到你的训练时图片哦。训练的时候可以用htop命令看下cpu占用情况。 … ---原始邮件--- 发件人: @.> 发送时间: 2024年3月9日(周六) 晚上10:46 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3) 我用的1600。不过经过我自己后续的实验，MAE，CAE，CAEv2最终精度其实差别不大，CAE会早一点收敛而已。好的，非常感谢，我还有个问题，我刚用CAE_800的权重试了下，只训练got，B8模型，每轮Epoch Time 差不多为9分钟左右，用的单个3090GPU，这个时间是不是有些长，可能问题出在哪里请问您的线程数是多少，我训练时时间长的离谱，不知道那里有问题，期待你的回复！非常感谢 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

非常感谢您的回信！抱歉我再次附上我的图片 IMG_20240309_090154_edit_319921397157953 IMG_20240309_090245 IMG_20240309_225830

TsingWei commented 6 months ago

@goodnight111111111 训练log里datatime非常长，top命令可以看到你的训练进程只跑了单线程（CPU占用率只有32.7），要么是环境问题导致pytorch或者opencv的多线程/多进程失效，要么是在等图片读取的io。

goodnight111111111 commented 6 months ago

非常感谢您的不吝赐教！我的 Linux 系统装的 cuda 是 11.1 的自己的 python 环境里面装的是 11.3 的这个会不会有影响。

---原始邮件--- 发件人: @.> 发送时间: 2024年3月12日(周二) 中午11:57 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

训练log里datatime非常长，top命令可以看到你的训练进程只跑了单线程（CPU占用率只有32.7），要么是环境问题导致pytorch或者opencv的多线程/多进程失效，要么是在等图片读取的io。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

TsingWei commented 6 months ago

可能性不大，不过也可以多试几个版本，注意torch和cuda版本对应上就行

---原始邮件--- 发件人: @.> 发送时间: 2024年3月12日(周二) 中午1:26 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

非常感谢您的不吝赐教！我的 Linux 系统装的 cuda 是 11.1 的自己的 python 环境里面装的是 11.3 的这个会不会有影响。

---原始邮件--- 发件人: @.> 发送时间: 2024年3月12日(周二) 中午11:57 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

训练log里datatime非常长，top命令可以看到你的训练进程只跑了单线程（CPU占用率只有32.7），要么是环境问题导致pytorch或者opencv的多线程/多进程失效，要么是在等图片读取的io。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.> — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.>

goodnight111111111 commented 6 months ago

好的好的非常感谢！

---原始邮件--- 发件人: @.> 发送时间: 2024年3月13日(周三) 凌晨0:07 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

可能性不大，不过也可以多试几个版本，注意torch和cuda版本对应上就行

---原始邮件--- 发件人: @.> 发送时间: 2024年3月12日(周二) 中午1:26 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

非常感谢您的不吝赐教！我的 Linux 系统装的 cuda 是 11.1 的自己的 python 环境里面装的是 11.3 的这个会不会有影响。

---原始邮件---
发件人: @.&gt;
发送时间: 2024年3月12日(周二) 中午11:57
收件人: @.&gt;;
抄送: @.**@.&gt;;
主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

训练log里datatime非常长，top命令可以看到你的训练进程只跑了单线程（CPU占用率只有32.7），要么是环境问题导致pytorch或者opencv的多线程/多进程失效，要么是在等图片读取的io。

—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you commented.Message ID: @.&gt;
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.> — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>

NakrAi commented 5 months ago

请问from lib.train.data.wandb_logger import WandbWriter 这个怎么解决啊。train里面没有data

goodnight111111111 commented 5 months ago

把 OSTrack 里面的复制过来就行

---原始邮件--- 发件人: @.> 发送时间: 2024年3月24日(周日) 晚上8:56 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

请问from lib.train.data.wandb_logger import WandbWriter 这个怎么解决啊。train里面没有data

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>

goodnight111111111 commented 4 months ago

打扰了，我在测试的时候GPU爆满，有什么解决办法吗

TsingWei commented 3 months ago

打扰了，我在测试的时候GPU爆满，有什么解决办法吗

我修改了测试代码，默认开多线程同时测多个权重。你可以降低同时测的数量或者直接改为单线程。

goodnight111111111 commented 2 months ago

您好，非常感谢您的回复。我在压缩提取trackingnet数据集时遇到问题，是否可以分享您提取好的trackingnet数据集，非常感谢

TsingWei commented 2 months ago

链接：https://pan.baidu.com/s/1UBAd0nXwPMJSK9qE5OQQAg?pwd=1111 提取码：1111 --来自百度网盘超级会员V5的分享

另外，Pytracking的作者有提到TrackingNet的数据集只需要其中部分子集即可，见： https://github.com/visionml/pytracking/issues/373#issuecomment-1435986847 ， https://github.com/visionml/pytracking/issues/251#issuecomment-823120469

goodnight111111111 commented 2 months ago

好的非常感谢您的回复，本文是否也是使用0-4的训练数据集

TsingWei commented 2 months ago

我用了全部。在我看来，这些情况可以用子集训练：1. 想把数据集放在固态上减少io瓶颈，但是固态空间不够；2在云平台上训练，想省存储空间的钱。

goodnight111111111 commented 2 months ago

好的非常感谢，如果我使用部分子集会对性能产生影响吗

TsingWei commented 2 months ago

我只在一个玩具模型上验证过，最后10ep在lasot和got上的平均测试集精度下降了~0.05，非常轻微

goodnight111111111 commented 2 weeks ago

尊敬的作者您好！我在训练的过程中由于硬盘不小心人为中断，原来epoch已经训练了240个，再次训练时epoch从1开始了，怎么不是241，我应该怎么解决，还是对训练结果没有影响。期待您的回复，我不胜感激！

TsingWei commented 1 week ago

目前训练的代码逻辑是：先检查硬盘上的权重文件是否存在，权重文件的命名中有表示该文件是第几个epoch保存的，然后就会加载这个权重并从对应的ep恢复训练。具体命名规则你需要自己看下。如果找不到权重文件就会从0开始。哪些ep会保存权重，目前是写死在代码里的，你可以搜索一下load和save关键字。

---原始邮件--- 发件人: @.> 发送时间: 2024年8月20日(周二) 上午10:14 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

尊敬的作者您好！我在训练的过程中由于硬盘不小心人为中断，原来epoch已经训练了240个，再次训练时epoch从1开始了，怎么不是241，我应该怎么解决，还是对训练结果没有影响。期待您的回复，我不胜感激！

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

goodnight111111111 commented 1 week ago

目前是写死在代码里的，你可以搜索一下load和save关键字。 …

感谢作者的回复，非常感谢！原来epoch已经训练了240个，并且我已经保存了前面第230，231,...,240epoch，再次训练时epoch计数从1开始了，但是损失及其他训练参数是在240ep的基础上继续的。怎么不是接上我保存的epoch从第241个开始，期待您的回复，我不胜感激！

TsingWei commented 1 week ago

有点奇怪，我想起来读取ep数是靠读取文件中优化器的部分，所以会不会是保存权重的时候只保存了网络的参数，优化器的没保存？你可以看下权重文件的体积，和我网盘提供的文件体积对比下，如果和我的差不多那就是没存优化器的参数。

---原始邮件--- 发件人: @.> 发送时间: 2024年8月26日(周一) 下午5:23 收件人: @.>; 抄送: @.**@.>; 主题: Re: [TsingWei/LiteTrack] 预训练骨干权重 (Issue #3)

目前是写死在代码里的，你可以搜索一下load和save关键字。 …

感谢作者的回复，非常感谢！原来epoch已经训练了240个，并且我已经保存了前面第230，231,...,240epoch，再次训练时epoch计数从1开始了，但是损失及其他训练参数是在240ep的基础上继续的。怎么不是接上我保存的epoch从第241个开始，期待您的回复，我不胜感激！

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

TsingWei / LiteTrack

预训练骨干权重 #3