关于训练轮次问题

todesti2 commented 9 months ago

您好！我看到DETR基本是跑500epoch，或者几十epoch，为什么detrex框架中只有12,24,36,50这些数目较少的轮次呢？我想问问这里的epoch和其他框架中的epoch是相同效果的吗

todesti2 commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。

请问我这样推理对吗：

假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？

那么max_iters如果改成32360，就能跑120轮吗

rentainhe commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。

请问我这样推理对吗：

假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？

那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

todesti2 commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

我还想问一下，对于我这种情况的话，先将epoch改成120，而红框内的值应该是3236对么？那么对于train.max_iter是下面这样计算的吗？

todesti2 commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

您好！我使用32GB显存的V100进行训练，total_batchsize都调低到2了，但是为什么还是会出现显存不够的问题呀

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

于是我将bs调到了1，可以跑。能麻烦你帮我看下上面的对不对吗

todesti2 commented 9 months ago

天呐，跑多少iters精度都是这样没有改变

rentainhe commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

您好！我使用32GB显存的V100进行训练，total_batchsize都调低到2了，但是为什么还是会出现显存不够的问题呀

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

于是我将bs调到了1，可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size，换成DINO模型，记得看看evaluate有没有类别的超参要设置

todesti2 commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

您好！我使用32GB显存的V100进行训练，total_batchsize都调低到2了，但是为什么还是会出现显存不够的问题呀 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 于是我将bs调到了1，可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size，换成DINO模型，记得看看evaluate有没有类别的超参要设置

哈哈增大就更跑不动了我在跑detr-dc5，麻烦问下我上面说的配置正确吗？还有就是我的精度不知道为啥一直都是那么多,所以我觉得是配置的问题

todesti2 commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

我还想问一下，对于我这种情况的话，先将epoch改成120，而红框内的值应该是3236对么？那么对于train.max_iter是下面这样计算的吗？

请问我这样计算是正确的吗

rentainhe commented 9 months ago

DETR本身收敛很慢，前期AP很低是正常的

todesti2 commented 9 months ago

DETR本身收敛很慢，前期AP很低是正常的

噢噢好的，那请问上面图示我的计算正确吗┭┮﹏┭┮这个非常重要

todesti2 commented 9 months ago

DETR本身收敛很慢，前期AP很低是正常的

我不知道我上面的红框里面的值是不是这样计算的，看了好多配置文件感觉不一样。

这个total_steps_16bs = epochs *X里面的X值是怎么得出的呢

rentainhe commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

您好！我使用32GB显存的V100进行训练，total_batchsize都调低到2了，但是为什么还是会出现显存不够的问题呀 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 于是我将bs调到了1，可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size，换成DINO模型，记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高，dc5比较消耗显存，但是这个out of memory也有点奇怪，按理来说不应该这么高，你可以试试DAB-DETR

todesti2 commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

您好！我使用32GB显存的V100进行训练，total_batchsize都调低到2了，但是为什么还是会出现显存不够的问题呀 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 于是我将bs调到了1，可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size，换成DINO模型，记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高，dc5比较消耗显存，但是这个out of memory也有点奇怪，按理来说不应该这么高，你可以试试DAB-DETR

好的~那我换您说的模型。但我还是想问问上面我的计算max_iter以及total_steps_16bs = epochs * X里面的X值是否计算正确，或者您可以告诉我怎么计算这两个值吗？

是不是我没发出来呀，我问好几次了感觉您没看到哈哈哈

rentainhe commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

您好！我使用32GB显存的V100进行训练，total_batchsize都调低到2了，但是为什么还是会出现显存不够的问题呀 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 于是我将bs调到了1，可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size，换成DINO模型，记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高，dc5比较消耗显存，但是这个out of memory也有点奇怪，按理来说不应该这么高，你可以试试DAB-DETR

好的~那我换您说的模型。但我还是想问问上面我的计算max_iter以及total_steps_16bs = epochs * X里面的X值是否计算正确，或者您可以告诉我怎么计算这两个值吗？

是不是我没发出来呀，我问好几次了感觉您没看到哈哈哈

注释里已经写的很清楚了，你可以写 3236，一个epoch是3236个iters，对于你的数据集来说，train.max_iter = 120 * 3236

todesti2 commented 9 months ago

你可以写 3236，一个epoch是3236个iters，对于你的数据集来说，train.max_iter = 120 * 323

好的！谢谢您的耐心回复❤我现在就去试试DINO

mebius-coder commented 9 months ago

你好，请问你的AP有正常过吗，无论是用这个库或者是DETR系列的源码

todesti2 commented 9 months ago

你好，请问你的AP有正常过吗，无论是用这个库或者是DETR系列的源码

你好！刚开始跑DETR的时候一直为0，但是使用官网的预训练模型之后就有了值但还是很低，而且跑一万多迭代还是很低，网上说是因为Transformer的什么选择是随机的，所以很难收敛。不过值为0的话你可以试试使用官网的预训练模型！

todesti2 commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

您好！我使用32GB显存的V100进行训练，total_batchsize都调低到2了，但是为什么还是会出现显存不够的问题呀 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 于是我将bs调到了1，可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size，换成DINO模型，记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高，dc5比较消耗显存，但是这个out of memory也有点奇怪，按理来说不应该这么高，你可以试试DAB-DETR

您好!我想知道如何测量FPS

rentainhe commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

您好！我使用32GB显存的V100进行训练，total_batchsize都调低到2了，但是为什么还是会出现显存不够的问题呀 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 于是我将bs调到了1，可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size，换成DINO模型，记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高，dc5比较消耗显存，但是这个out of memory也有点奇怪，按理来说不应该这么高，你可以试试DAB-DETR

您好!我想知道如何测量FPS

FPS可以在每次eval结束的时候看inference time，在terminal里会显示

todesti2 commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

您好！我使用32GB显存的V100进行训练，total_batchsize都调低到2了，但是为什么还是会出现显存不够的问题呀于是我将bs调到了1，可以跑。能麻烦你帮我看下上面的对不对吗torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

可以增大total batch size，换成DINO模型，记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高，dc5比较消耗显存，但是这个out of memory也有点奇怪，按理来说不应该这么高，你可以试试DAB-DETR

您好！

FPS可以在每次eval结束的时候看inference time，在terminal里会显示

好的，我看到啦~DINO跑出来效果真的不错！还想问一句有没有出DINO deformable-detr模型呀~

rentainhe commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

您好！我使用32GB显存的V100进行训练，total_batchsize都调低到2了，但是为什么还是会出现显存不够的问题呀于是我将bs调到了1，可以跑。能麻烦你帮我看下上面的对不对吗torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

可以增大total batch size，换成DINO模型，记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高，dc5比较消耗显存，但是这个out of memory也有点奇怪，按理来说不应该这么高，你可以试试DAB-DETR

您好！

FPS可以在每次eval结束的时候看inference time，在terminal里会显示

好的，我看到啦~DINO跑出来效果真的不错！还想问一句有没有出DINO deformable-detr模型呀~

DINO是在Deformable-DETR上改进的

todesti2 commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

您好！我使用32GB显存的V100进行训练，total_batchsize都调低到2了，但是为什么还是会出现显存不够的问题呀于是我将bs调到了1，可以跑。能麻烦你帮我看下上面的对不对吗torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

可以增大total batch size，换成DINO模型，记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高，dc5比较消耗显存，但是这个out of memory也有点奇怪，按理来说不应该这么高，你可以试试DAB-DETR

您好！

FPS可以在每次eval结束的时候看inference time，在terminal里会显示

好的，我看到啦~DINO跑出来效果真的不错！还想问一句有没有出DINO deformable-detr模型呀~

DINO是在Deformable-DETR上改进的

哈哈哈，原来DINO就是DINO-deformable-detr！！原谅我了解得少啦~

todesti2 commented 9 months ago

您好！关于这个训练轮次的问题，我有点没搞清楚。请问我这样推理对吗：假设我的训练图片为6471张，total_batch_size=2，那么我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗？那么max_iters如果改成32360，就能跑120轮吗

您好，如果你的图片数量是 6471 张， total_batch_size 设置为 2的情况下，一个epoch就是 3236 个iters，需要跑120 epoch的话，总共需要 3236 * 120 个steps

您好！我使用32GB显存的V100进行训练，total_batchsize都调低到2了，但是为什么还是会出现显存不够的问题呀于是我将bs调到了1，可以跑。能麻烦你帮我看下上面的对不对吗torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

可以增大total batch size，换成DINO模型，记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高，dc5比较消耗显存，但是这个out of memory也有点奇怪，按理来说不应该这么高，你可以试试DAB-DETR

您好！

FPS可以在每次eval结束的时候看inference time，在terminal里会显示

好的，我看到啦~DINO跑出来效果真的不错！还想问一句有没有出DINO deformable-detr模型呀~

DINO是在Deformable-DETR上改进的

您好！我还训练了DETR-DC5，我设置的是跑120epochs也就是776520次迭代，但是我不知道为什么，到20万迭代的时候本来还是1.023的精度，在那之后突然精度就下降得非常猛，不久就一直为0，我不知道该怎么办，到后面一直都是这样

rentainhe commented 9 months ago

不太确定，不建议用DETR-DC5

todesti2 commented 9 months ago

不太确定，不建议用DETR-DC5

好的，还想问下，如何计算FPS呀？乘以总的iterations嘛

rentainhe commented 9 months ago

不太确定，不建议用DETR-DC5

好的，还想问下，如何计算FPS呀？乘以总的iterations嘛

1 / iter per device 只看 pure compute time 这里是 1 / 0.066453

todesti2 commented 9 months ago

1 / 0.066453

1.您的意思是 FPS = 1 / 0.066453=1.5048229 吗 2顺便还想问问detrex的输入图片为1333×800吗（跑出来的配置是max_size: 1333, short_edge_length: 800） 3.当训练50轮之后，发现精度似乎还能上升，扩展至70轮并训练 --resume 后，发现精度反而从一个很低的值开始上升，且怎么都达不到之前50轮的精度，这是为什么呢？

rentainhe commented 9 months ago

1 / 0.066453

1.您的意思是 FPS = 1 / 0.066453=1.5048229 吗 2顺便还想问问detrex的输入图片为1333×800吗（跑出来的配置是max_size: 1333, short_edge_length: 800） 3.当训练50轮之后，发现精度似乎还能上升，扩展至70轮并训练 --resume 后，发现精度反而从一个很低的值开始上升，且怎么都达不到之前50轮的精度，这是为什么呢？

FPS = 1 / 0.066453
输入的图像大小未必是800, 1333，这个是数据增强，会resize到短边不超过800，长边不超过1333
--resume后注意学习率设置等，可能从一个较大的学习率开始，会影响性能

todesti2 commented 9 months ago

短边不超过800，长边不超过1333

--resume后注意学习率设置等，可能从一个较大的学习率开始，会影响性能

图像在eval时能设置为[1333，800]吗，因为我需要统一输入大小进行评估
所以iterations可以设置大一点，到精度没什么变化的时候就可以中断选择最佳的轮次对么

rentainhe commented 9 months ago

短边不超过800，长边不超过1333

--resume后注意学习率设置等，可能从一个较大的学习率开始，会影响性能

图像在eval时能设置为[1333，800]吗，因为我需要统一输入大小进行评估

所以iterations可以设置大一点，到精度没什么变化的时候就可以中断选择最佳的轮次对么

都可以

todesti2 commented 9 months ago

短边不超过800，长边不超过1333

--resume后注意学习率设置等，可能从一个较大的学习率开始，会影响性能

图像在eval时能设置为[1333,800]吗，因为我需要统一输入大小进行评估

所以迭代可以设置大一点，到精度没什么变化的时候就可以中断选择最佳的轮次对么

都可以

谢谢您的回复！但是我发现对conditional detr训练100 epochs 期间，精度都极其不稳定且低，在13.0到15.0之间徘徊！

rentainhe commented 9 months ago

短边不超过800，长边不超过1333

--resume后注意学习率设置等，可能从一个较大的学习率开始，会影响性能

图像在eval时能设置为[1333,800]吗，因为我需要统一输入大小进行评估

所以迭代可以设置大一点，到精度没什么变化的时候就可以中断选择最佳的轮次对么

都可以

谢谢您的回复！但是我发现对conditional detr训练100 epochs 期间，精度都极其不稳定且低，在13.0到15.0之间徘徊！

我不确定你跑的数据集是什么，我们的默认设置都是8卡，单卡bs=2，其他环境我们没有尝试过，也不清楚情况

todesti2 commented 9 months ago

短边不超过800，长边不超过1333

--resume后注意学习率设置等，可能从一个较大的学习率开始，会影响性能

图像在eval时能设置为[1333,800]吗，因为我需要统一输入大小进行评估

所以迭代可以设置大一点，到精度没什么变化的时候就可以中断选择最佳的轮次对么

都可以

但是我发现对conditional detr训练100 epochs 期间，精度都极其不稳定且低，在13.0到15.0之间徘徊！

我不确定你跑的数据集是什么，我们的默认设置都是8卡，单卡bs=2，其他环境我们没有尝试过，也不清楚情况

噢噢好的谢谢你~~

rentainhe commented 9 months ago

我会暂时关闭这个issue，有需要的话可以reopen

IDEA-Research / detrex

关于训练轮次问题 #329