Open Sunstroperao opened 1 month ago
Hi, 训练有一定随机性造成结果不稳定是正常的,但是波动不会太大,L2从0.59-0.70波动有点太大了,我们也没有遇到过类似情况。有没有更多的训练相关细节可以补充?
Hi, 训练有一定随机性造成结果不稳定是正常的,但是波动不会太大,L2从0.59-0.70波动有点太大了,我们也没有遇到过类似情况。有没有更多的训练相关细节可以补充?
sys.platform: linux Python: 3.8.19 (default, Mar 20 2024, 19:58:24) [GCC 11.2.0] CUDA available: True GPU 0,1,2,3,4,5,6,7: NVIDIA GeForce RTX 4090 CUDA_HOME: /usr/local/cuda NVCC: Cuda compilation tools, release 11.6, V11.6.124 GCC: gcc (Ubuntu 9.4.0-1ubuntu1~20.04.2) 9.4.0 PyTorch: 1.13.0+cu116 PyTorch compiling details: PyTorch built with:
TorchVision: 0.14.0+cu116 OpenCV: 4.8.1 MMCV: 1.7.1 MMCV Compiler: GCC 9.4 MMCV CUDA Compiler: 11.6 MMDetection: 2.28.2+ddb706b
环境包: Package Version Editable project location
absl-py 2.1.0 addict 2.4.0 aiohappyeyeballs 2.4.0 aiohttp 3.10.6 aiosignal 1.3.1 anyio 4.5.0 archspec 0.2.3 argon2-cffi 23.1.0 argon2-cffi-bindings 21.2.0 arrow 1.3.0 asttokens 2.0.5 async-lru 2.0.4 async-timeout 4.0.3 attrs 24.2.0 babel 2.16.0 backcall 0.2.0 beautifulsoup4 4.12.3 bleach 6.1.0 boltons 23.0.0 boto3 1.35.26 botocore 1.35.26 Brotli 1.0.9 cachetools 5.5.0 certifi 2024.8.30 cffi 1.17.1 charset-normalizer 3.3.2 comm 0.2.1 conda 24.7.1 conda-content-trust 0.1.3 conda-libmamba-solver 24.7.0 conda-package-handling 2.3.0 conda_package_streaming 0.10.0 cryptography 39.0.1 cycler 0.12.1 debugpy 1.6.7 decorator 5.1.1 deformable_aggregation_ext 0.0.0 /kargobot-vepfs/SparseDrive/projects/mmdet3d_plugin/ops defusedxml 0.7.1 descartes 1.1.0 distro 1.9.0 einops 0.8.0 exceptiongroup 1.2.2 executing 0.8.3 fastjsonschema 2.20.0 fire 0.6.0 flash-attn 2.3.2 fonttools 4.54.1 fqdn 1.5.1 frozendict 2.4.2 frozenlist 1.4.1 google-auth 2.35.0 google-auth-oauthlib 1.0.0 grpcio 1.66.1 h11 0.14.0 httpcore 1.0.5 httpx 0.27.2 idna 3.7 importlib-metadata 7.0.1 importlib_resources 6.4.5 ipykernel 6.28.0 ipython 8.12.2 ipywidgets 8.1.5 isoduration 20.11.0 jedi 0.19.1 Jinja2 3.1.4 jmespath 1.0.1 joblib 1.4.2 json5 0.9.25 jsonpatch 1.33 jsonpointer 2.1 jsonschema 4.23.0 jsonschema-specifications 2023.12.1 jupyter 1.1.1 jupyter_client 8.6.0 jupyter-console 6.6.3 jupyter_core 5.7.2 jupyter-events 0.10.0 jupyter-lsp 2.2.5 jupyter_server 2.14.2 jupyter_server_terminals 0.5.3 jupyterlab 4.2.5 jupyterlab_pygments 0.3.0 jupyterlab_server 2.27.3 jupyterlab_widgets 3.0.13 kiwisolver 1.4.7 libmambapy 1.5.8 Markdown 3.7 MarkupSafe 2.1.5 matplotlib 3.5.2 matplotlib-inline 0.1.6 menuinst 2.1.2 mistune 3.0.2 mmcv-full 1.7.1 mmdet 2.28.2 motmetrics 1.1.3 multidict 6.1.0 nbclient 0.10.0 nbconvert 7.16.4 nbformat 5.10.4 nest-asyncio 1.6.0 ninja 1.11.1.1 notebook 7.2.2 notebook_shim 0.2.4 numpy 1.23.5 nuscenes-devkit 1.1.10 oauthlib 3.2.2 opencv-python 4.8.1.78 overrides 7.7.0 packaging 24.1 pandas 1.1.5 pandocfilters 1.5.1 parso 0.8.3 pexpect 4.8.0 pickleshare 0.7.5 pillow 10.4.0 pip 24.2 pkgutil_resolve_name 1.3.10 platformdirs 3.10.0 pluggy 1.0.0 prettytable 3.7.0 prometheus_client 0.21.0 prompt-toolkit 3.0.43 protobuf 5.28.2 psutil 5.9.0 ptyprocess 0.7.0 pure-eval 0.2.2 pyasn1 0.6.1 pyasn1_modules 0.4.1 pybind11 2.13.6 pycocotools 2.0.7 pycosat 0.6.6 pycparser 2.21 Pygments 2.15.1 pyparsing 3.1.4 pyprof 0.0.7 pyquaternion 0.9.9 PySocks 1.7.1 python-dateutil 2.9.0.post0 python-json-logger 2.0.7 pytz 2024.2 PyYAML 6.0.2 pyzmq 25.1.2 referencing 0.35.1 regex 2024.9.11 requests 2.32.3 requests-oauthlib 2.0.0 rfc3339-validator 0.1.4 rfc3986-validator 0.1.1 rpds-py 0.20.0 rsa 4.9 ruamel.yaml 0.17.21 ruamel.yaml.clib 0.2.6 s3transfer 0.10.2 scikit-learn 1.3.0 scipy 1.10.1 Send2Trash 1.8.3 setuptools 75.1.0 Shapely 1.8.5 six 1.16.0 sniffio 1.3.1 soupsieve 2.6 stack-data 0.2.0 tensorboard 2.14.0 tensorboard-data-server 0.7.2 termcolor 2.4.0 terminado 0.18.1 terminaltables 3.1.10 threadpoolctl 3.5.0 tinycss2 1.3.0 tomli 2.0.1 torch 1.13.0+cu116 torchaudio 0.13.0+cu116 torchvision 0.14.0+cu116 tornado 6.4.1 tqdm 4.66.5 traitlets 5.14.3 types-python-dateutil 2.9.0.20240906 typing_extensions 4.11.0 uri-template 1.3.0 urllib3 1.26.16 wcwidth 0.2.5 webcolors 24.8.0 webencodings 0.5.1 websocket-client 1.8.0 Werkzeug 3.0.4 wheel 0.44.0 widgetsnbextension 4.0.13 yapf 0.33.0 yarl 1.12.1 zipp 3.17.0 zstandard 0.22.0 训练的相关的参数都是按照默认的参数,并没有进行修改,另外按照文档中的命令启动训练是不是没有固定随机种子呀?
bash ./tools/dist_train.sh \ projects/configs/sparsedrive_small_stage1.py \ 8 \ --deterministic
deterministic设置了seed,不过由于cuda并行计算也有一定随机性,并不能保证训练过程完全可复现。
bash ./tools/dist_train.sh projects/configs/sparsedrive_small_stage1.py 8 --deterministic
deterministic设置了seed,不过由于cuda并行计算也有一定随机性,并不能保证训练过程完全可复现。
我又继续重新训练测试了两次,两次的结果分别如下: 从结果来看,感觉波动还是很大呀,尤其是obj_box_col指标,有其他人遇到过类似的问题吗?
bash ./tools/dist_train.sh projects/configs/sparsedrive_small_stage1.py 8 --deterministic deterministic设置了seed,不过由于cuda并行计算也有一定随机性,并不能保证训练过程完全可复现。
我又继续重新训练测试了两次,两次的结果分别如下: 从结果来看,感觉波动还是很大呀,尤其是obj_box_col指标,有其他人遇到过类似的问题吗?
同样的问题,L2和其他指标都还好,obj_box_col指标的结果始终复现不出来
col rate和后处理的一些超参数相关,可以在rescore函数这里尝试调整一下。
好的好的,非常感谢您的回复。
您好,我在复现的时候发现训练不稳定,第一次训练完执行测试得到的结果和第二次得到的结果差别还蛮大,其中col指标两次结果都无法复现论文中的结果。 第一次的结果: 第二次的结果: 使用官方训练权重的测试结果:
请问这可能是什么原因造成的?期待您的回复,谢谢!