IDEA-Research / detrex

detrex is a research platform for DETR-based object detection, segmentation, pose estimation and other visual recognition tasks.
https://detrex.readthedocs.io/en/latest/
Apache License 2.0
1.99k stars 206 forks source link

关于训练轮次问题 #329

Closed todesti2 closed 9 months ago

todesti2 commented 9 months ago

您好!我看到DETR基本是跑500epoch,或者几十epoch, 为什么detrex框架中只有12,24,36,50这些数目较少的轮次呢? 我想问问这里的epoch和其他框架中的epoch是相同效果的吗

image

todesti2 commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。

请问我这样推理对吗:

假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗?

那么max_iters如果改成32360,就能跑120轮吗

rentainhe commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。

请问我这样推理对吗:

假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗?

那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

todesti2 commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

我还想问一下,对于我这种情况的话,先将epoch改成120,而红框内的值应该是3236对么?那么对于train.max_iter是下面这样计算的吗?

image

image

todesti2 commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

您好!我使用32GB显存的V100进行训练,total_batchsize都调低到2了,但是为什么还是会出现显存不够的问题呀

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

于是我将bs调到了1,可以跑。能麻烦你帮我看下上面的对不对吗

todesti2 commented 9 months ago

天呐,跑多少iters精度都是这样没有改变 image

rentainhe commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

您好!我使用32GB显存的V100进行训练,total_batchsize都调低到2了,但是为什么还是会出现显存不够的问题呀

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

于是我将bs调到了1,可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size,换成DINO模型,记得看看evaluate有没有类别的超参要设置

todesti2 commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

您好!我使用32GB显存的V100进行训练,total_batchsize都调低到2了,但是为什么还是会出现显存不够的问题呀 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 于是我将bs调到了1,可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size,换成DINO模型,记得看看evaluate有没有类别的超参要设置

哈哈 增大就更跑不动了 我在跑detr-dc5,麻烦问下我上面说的配置正确吗?还有就是我的精度不知道为啥一直都是那么多,所以我觉得是配置的问题

todesti2 commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

我还想问一下,对于我这种情况的话,先将epoch改成120,而红框内的值应该是3236对么?那么对于train.max_iter是下面这样计算的吗?

image

image

请问我这样计算是正确的吗

rentainhe commented 9 months ago

DETR本身收敛很慢,前期AP很低是正常的

todesti2 commented 9 months ago

DETR本身收敛很慢,前期AP很低是正常的

噢噢好的,那请问上面图示我的计算正确吗┭┮﹏┭┮这个非常重要

todesti2 commented 9 months ago

DETR本身收敛很慢,前期AP很低是正常的

我不知道我上面的红框里面的值是不是这样计算的,看了好多配置文件感觉不一样。

这个total_steps_16bs = epochs *X里面的X值是怎么得出的呢

rentainhe commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

您好!我使用32GB显存的V100进行训练,total_batchsize都调低到2了,但是为什么还是会出现显存不够的问题呀 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 于是我将bs调到了1,可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size,换成DINO模型,记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高,dc5比较消耗显存,但是这个out of memory也有点奇怪,按理来说不应该这么高,你可以试试DAB-DETR

todesti2 commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

您好!我使用32GB显存的V100进行训练,total_batchsize都调低到2了,但是为什么还是会出现显存不够的问题呀 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 于是我将bs调到了1,可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size,换成DINO模型,记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高,dc5比较消耗显存,但是这个out of memory也有点奇怪,按理来说不应该这么高,你可以试试DAB-DETR

好的~那我换您说的模型。 但我还是想问问上面我的计算max_iter以及total_steps_16bs = epochs * X里面的X值是否计算正确,或者您可以告诉我怎么计算这两个值吗?

是不是我没发出来呀,我问好几次了感觉您没看到哈哈哈

rentainhe commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

您好!我使用32GB显存的V100进行训练,total_batchsize都调低到2了,但是为什么还是会出现显存不够的问题呀 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 于是我将bs调到了1,可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size,换成DINO模型,记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高,dc5比较消耗显存,但是这个out of memory也有点奇怪,按理来说不应该这么高,你可以试试DAB-DETR

好的~那我换您说的模型。 但我还是想问问上面我的计算max_iter以及total_steps_16bs = epochs * X里面的X值是否计算正确,或者您可以告诉我怎么计算这两个值吗?

是不是我没发出来呀,我问好几次了感觉您没看到哈哈哈

注释里已经写的很清楚了,你可以写 3236,一个epoch是3236个iters,对于你的数据集来说,train.max_iter = 120 * 3236

todesti2 commented 9 months ago

你可以写 3236,一个epoch是3236个iters,对于你的数据集来说,train.max_iter = 120 * 323

好的!谢谢您的耐心回复❤我现在就去试试DINO

mebius-coder commented 9 months ago

你好,请问你的AP有正常过吗,无论是用这个库或者是DETR系列的源码

todesti2 commented 9 months ago

你好,请问你的AP有正常过吗,无论是用这个库或者是DETR系列的源码

你好!刚开始跑DETR的时候一直为0,但是使用官网的预训练模型之后就有了值但还是很低,而且跑一万多迭代还是很低,网上说是因为Transformer的什么选择是随机的,所以很难收敛。不过值为0的话你可以试试使用官网的预训练模型!

todesti2 commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

您好!我使用32GB显存的V100进行训练,total_batchsize都调低到2了,但是为什么还是会出现显存不够的问题呀 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 于是我将bs调到了1,可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size,换成DINO模型,记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高,dc5比较消耗显存,但是这个out of memory也有点奇怪,按理来说不应该这么高,你可以试试DAB-DETR

您好!我想知道如何测量FPS

rentainhe commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

您好!我使用32GB显存的V100进行训练,total_batchsize都调低到2了,但是为什么还是会出现显存不够的问题呀 torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 于是我将bs调到了1,可以跑。能麻烦你帮我看下上面的对不对吗

可以增大total batch size,换成DINO模型,记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高,dc5比较消耗显存,但是这个out of memory也有点奇怪,按理来说不应该这么高,你可以试试DAB-DETR

您好!我想知道如何测量FPS

FPS可以在每次eval结束的时候看inference time,在terminal里会显示

todesti2 commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

您好!我使用32GB显存的V100进行训练,total_batchsize都调低到2了,但是为什么还是会出现显存不够的问题呀 于是我将bs调到了1,可以跑。能麻烦你帮我看下上面的对不对吗torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

可以增大total batch size,换成DINO模型,记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高,dc5比较消耗显存,但是这个out of memory也有点奇怪,按理来说不应该这么高,你可以试试DAB-DETR

您好!

FPS可以在每次eval结束的时候看inference time,在terminal里会显示

好的,我看到啦~DINO跑出来效果真的不错! 还想问一句有没有出DINO deformable-detr模型呀~

rentainhe commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

您好!我使用32GB显存的V100进行训练,total_batchsize都调低到2了,但是为什么还是会出现显存不够的问题呀 于是我将bs调到了1,可以跑。能麻烦你帮我看下上面的对不对吗torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

可以增大total batch size,换成DINO模型,记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高,dc5比较消耗显存,但是这个out of memory也有点奇怪,按理来说不应该这么高,你可以试试DAB-DETR

您好!

FPS可以在每次eval结束的时候看inference time,在terminal里会显示

好的,我看到啦~DINO跑出来效果真的不错! 还想问一句有没有出DINO deformable-detr模型呀~

DINO是在Deformable-DETR上改进的

todesti2 commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

您好!我使用32GB显存的V100进行训练,total_batchsize都调低到2了,但是为什么还是会出现显存不够的问题呀 于是我将bs调到了1,可以跑。能麻烦你帮我看下上面的对不对吗torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

可以增大total batch size,换成DINO模型,记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高,dc5比较消耗显存,但是这个out of memory也有点奇怪,按理来说不应该这么高,你可以试试DAB-DETR

您好!

FPS可以在每次eval结束的时候看inference time,在terminal里会显示

好的,我看到啦~DINO跑出来效果真的不错! 还想问一句有没有出DINO deformable-detr模型呀~

DINO是在Deformable-DETR上改进的

哈哈哈,原来DINO就是DINO-deformable-detr!!原谅我了解得少啦~

todesti2 commented 9 months ago

您好!关于这个训练轮次的问题,我有点没搞清楚。 请问我这样推理对吗: 假设我的训练图片为6471张,total_batch_size=2,那么 我需要的steps=total_batch_size/2=3236 那么我的epoch也是12吗? 那么max_iters如果改成32360,就能跑120轮吗

您好,如果你的图片数量是 6471 张, total_batch_size 设置为 2的情况下,一个epoch就是 3236 个iters,需要跑120 epoch的话,总共需要 3236 * 120 个steps

您好!我使用32GB显存的V100进行训练,total_batchsize都调低到2了,但是为什么还是会出现显存不够的问题呀 于是我将bs调到了1,可以跑。能麻烦你帮我看下上面的对不对吗torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.72 GiB (GPU 0; 31.74 GiB total capacity; 28.09 GiB already allocated; 1.70 GiB free; 29.64 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

可以增大total batch size,换成DINO模型,记得看看evaluate有没有类别的超参要设置

detr-dc5对于显存的要求比较高,dc5比较消耗显存,但是这个out of memory也有点奇怪,按理来说不应该这么高,你可以试试DAB-DETR

您好!

FPS可以在每次eval结束的时候看inference time,在terminal里会显示

好的,我看到啦~DINO跑出来效果真的不错! 还想问一句有没有出DINO deformable-detr模型呀~

DINO是在Deformable-DETR上改进的

您好!我还训练了DETR-DC5,我设置的是跑120epochs也就是776520次迭代,但是我不知道为什么,到20万迭代的时候本来还是1.023的精度,在那之后突然精度就下降得非常猛,不久就一直为0,我不知道该怎么办,到后面一直都是这样

rentainhe commented 9 months ago

不太确定,不建议用DETR-DC5

todesti2 commented 9 months ago

不太确定,不建议用DETR-DC5

好的,还想问下,如何计算FPS呀?乘以总的iterations嘛 image

rentainhe commented 9 months ago

不太确定,不建议用DETR-DC5

好的,还想问下,如何计算FPS呀?乘以总的iterations嘛 image

1 / iter per device 只看 pure compute time 这里是 1 / 0.066453

todesti2 commented 9 months ago

1 / 0.066453

1.您的意思是 FPS = 1 / 0.066453=1.5048229 吗 2顺便还想问问detrex的输入图片为1333×800吗(跑出来的配置是max_size: 1333, short_edge_length: 800) 3.当训练50轮之后,发现精度似乎还能上升,扩展至70轮并训练 --resume 后,发现精度反而从一个很低的值开始上升,且怎么都达不到之前50轮的精度,这是为什么呢?

rentainhe commented 9 months ago

1 / 0.066453

1.您的意思是 FPS = 1 / 0.066453=1.5048229 吗 2顺便还想问问detrex的输入图片为1333×800吗(跑出来的配置是max_size: 1333, short_edge_length: 800) 3.当训练50轮之后,发现精度似乎还能上升,扩展至70轮并训练 --resume 后,发现精度反而从一个很低的值开始上升,且怎么都达不到之前50轮的精度,这是为什么呢?

todesti2 commented 9 months ago
  • 短边不超过800,长边不超过1333
  • --resume后注意学习率设置等,可能从一个较大的学习率开始,会影响性能
rentainhe commented 9 months ago
  • 短边不超过800,长边不超过1333
  • --resume后注意学习率设置等,可能从一个较大的学习率开始,会影响性能
  • 图像在eval时能设置为[1333,800]吗,因为我需要统一输入大小进行评估
  • 所以iterations可以设置大一点,到精度没什么变化的时候就可以中断选择最佳的轮次对么

都可以

todesti2 commented 9 months ago
  • 短边不超过800,长边不超过1333
  • --resume后注意学习率设置等,可能从一个较大的学习率开始,会影响性能
  • 图像在eval时能设置为[1333,800]吗,因为我需要统一输入大小进行评估
  • 所以迭代可以设置大一点,到精度没什么变化的时候就可以中断选择最佳的轮次对么

都可以

谢谢您的回复!但是我发现对conditional detr训练100 epochs 期间,精度都极其不稳定且低,在13.0到15.0之间徘徊!

rentainhe commented 9 months ago
  • 短边不超过800,长边不超过1333
  • --resume后注意学习率设置等,可能从一个较大的学习率开始,会影响性能
  • 图像在eval时能设置为[1333,800]吗,因为我需要统一输入大小进行评估
  • 所以迭代可以设置大一点,到精度没什么变化的时候就可以中断选择最佳的轮次对么

都可以

谢谢您的回复!但是我发现对conditional detr训练100 epochs 期间,精度都极其不稳定且低,在13.0到15.0之间徘徊!

我不确定你跑的数据集是什么,我们的默认设置都是8卡,单卡bs=2,其他环境我们没有尝试过,也不清楚情况

todesti2 commented 9 months ago
  • 短边不超过800,长边不超过1333
  • --resume后注意学习率设置等,可能从一个较大的学习率开始,会影响性能
  • 图像在eval时能设置为[1333,800]吗,因为我需要统一输入大小进行评估
  • 所以迭代可以设置大一点,到精度没什么变化的时候就可以中断选择最佳的轮次对么

都可以

但是我发现对conditional detr训练100 epochs 期间,精度都极其不稳定且低,在13.0到15.0之间徘徊!

我不确定你跑的数据集是什么,我们的默认设置都是8卡,单卡bs=2,其他环境我们没有尝试过,也不清楚情况

噢噢好的谢谢你~~

rentainhe commented 9 months ago

我会暂时关闭这个issue,有需要的话可以reopen