bubbliiiing / mask-rcnn-tf2

这是一个mask-rcnn-tf2的库,可以用于训练自己的模型。
MIT License
63 stars 9 forks source link

训练一半LOSS为NAN是怎么回事呢? #45

Open Comedynormal opened 1 week ago

Comedynormal commented 1 week ago

环境为python3.10 , cuda 11.8 , cudnn 8.6

Configurations: BACKBONE_STRIDES [4, 8, 16, 32, 64] BATCH_SIZE 1 BBOX_STD_DEV [0.1 0.1 0.2 0.2] DETECTION_MAX_INSTANCES 100 DETECTION_MIN_CONFIDENCE 0.7 DETECTION_NMS_THRESHOLD 0.3 FPN_CLASSIF_FC_LAYERS_SIZE 1024 GPU_COUNT 1 IMAGES_PER_GPU 1 IMAGE_MAX_DIM 512 IMAGE_META_SIZE 14 IMAGE_SHAPE [512 512 3] LOSS_WEIGHTS {'rpn_class_loss': 1.0, 'rpn_bbox_loss': 1.0, 'mrcnn_class_loss': 1.0, 'mrcnn_bbox_loss': 1.0, 'mrcnn_mask_loss': 1.0} MASK_POOL_SIZE 14 MASK_SHAPE [28, 28] MAX_GT_INSTANCES 100 MINI_MASK_SHAPE (56, 56) NUM_CLASSES 2 POOL_SIZE 7 POST_NMS_ROIS_INFERENCE 1000 POST_NMS_ROIS_TRAINING 2000 PRE_NMS_LIMIT 6000 ROI_POSITIVE_RATIO 0.33 RPN_ANCHOR_RATIOS [0.5, 1, 2] RPN_ANCHOR_SCALES [32, 64, 128, 256, 512] RPN_ANCHOR_STRIDE 1 RPN_BBOX_STD_DEV [0.1 0.1 0.2 0.2] RPN_NMS_THRESHOLD 0.7 RPN_TRAIN_ANCHORS_PER_IMAGE 256 TOP_DOWN_PYRAMID_SIZE 256 TRAIN_BN False TRAIN_ROIS_PER_IMAGE 200 USE_MINI_MASK True WEIGHT_DECAY 0


刚开始还是能跑100转的,但是后来增加数据集到25000张左右之后只能跑50次左右就报nan。

数据集中有一些空shape会有影响吗?我没有删除空shape的数据集。

麻烦您了。

Comedynormal commented 1 week ago

新的一轮,损失值0.8几突然爆炸到7000多,是怎么回事呢?数据的问题么