关于代码的具体实现

在计算传入dual_grus的sample随机因素的时候，mu_log_sigma = self.present_distribution(present_features)获得了高斯分布的均值和log方差，然后后面经过操作采样出一个随机特征，在没有监督的情况下这个过程真的可以建模论文中描述的在高斯分布采样吗，即均值反映均值，方差反映方差？（注意到代码中有一个ProbabilisticLoss，但是没有用到，fiery是用了的）
在混合高斯计算出future bev feature之后，按照论文的表述，直接和前面时刻的bev feature进行concat就可以传入decoder获得场景表示了，但是在代码实现中，FuturePrediction类的forward里面，还对预测的bev feature进行卷积，再结合前面时刻的bev特征，然后使用spatial_grus进行若干次gru操作再投影，想知道这么做的原因和道理
请问在perception、prediction、planning训练的时候，按论文前两个训练过程都要进行semantic_seg和instance_seg并计算loss，但是注意到carla的xml文件里面，包含感知，预测，规划的instance_seg和instance_flow都是false，在nuscenes的设置中，也只有prediction.xml的INSTANCE_FLOW为True，这是为什么呢？ Look forward to your early reply！

OpenDriveLab / ST-P3