关于训练时显存爆掉

Rubics-Xuan / TransBTS

This repo provides the official code for : 1) TransBTS: Multimodal Brain Tumor Segmentation Using Transformer (https://arxiv.org/abs/2103.04430) , accepted by MICCAI2021. 2) TransBTSV2: Towards Better and More Efficient Volumetric Segmentation of Medical Images(https://arxiv.org/abs/2201.12785).

Apache License 2.0

386 stars 81 forks source link

关于训练时显存爆掉 #14

Closed xigua1025 closed 3 years ago

xigua1025 commented 3 years ago

您好，我使用了4块1080并行训练，并且设置将batchsize改小为4，可每次训练显存还是会不足，根据代码可知batchsize设置为4已经是最小值，您有什么建议？

Rubics-Xuan commented 3 years ago

您好，根据您的硬件配置对于我们原版的TransBTS应该bs=4也跑不起来，所以我建议您如果想复现结果，可以跑我们最轻量化的版本（numer_layers=1,hidden dim=2048），对于您当前的配置应该bs=8可以跑起来。

xigua1025 commented 3 years ago

感谢您的回复，根据您的建议，我修改了(numer_layers=1,hidden dim=2048)，运行后出现了报错，然后我将TransBTS_downsample8x_skipconnection.py文件116行中的auxillary_output_layers由[1, 2, 3, 4]修改为[1]后运行成功了，请问这样修改是否正确？此外，numer_layers是tranformer块的个数L，hidden dim是论文中（d×N）的N对吗？

chjwhere commented 7 months ago

感谢您的回复，根据您的建议，我修改了(numer_layers=1,hidden dim=2048)，运行后出现了报错，然后我将TransBTS_downsample8x_skipconnection.py文件116行中的auxillary_output_layers由[1, 2, 3, 4]修改为[1]后运行成功了，请问这样修改是否正确？此外，numer_layers是tranformer块的个数L，hidden dim是论文中（d×N）的N对吗？

你好，请问你做了四个修改（numer_layers=1，hidden dim=2048，auxillary_output_layers由[1, 2, 3, 4]修改为[1]以及将batch_size修改为4）后，按照你的配置（4张1080）后能否成功复现训练？训练的时间大概是多久？期待你的回复，万分感谢！