Closed Lin-Tianwei closed 3 months ago
作者您好,首先感谢您的开源。基于您的代码,我在约2.5M的多任务数据集上进行SFT,并期望获得如LoRAMoE文献中那样显著强于朴素LoRA的效果。 然而事实上,我发现当没有设置L_{lbc}损失时,LoRAMoE和LoRA在我构建的多任务benchmark上并没有显著差异,具体表现为难分伯仲,想问问作者是否遇到过类似情况呢。 此外,目前moe普遍使用topk策略,因此我非常有兴趣想知道您出于什么目的并未使用这一策略,它拥有更少的激活参数和更快的推理速度。 再次感谢您对于该项目的分享!
作者您好,首先感谢您的开源。基于您的代码,我在约2.5M的多任务数据集上进行SFT,并期望获得如LoRAMoE文献中那样显著强于朴素LoRA的效果。 然而事实上,我发现当没有设置L_{lbc}损失时,LoRAMoE和LoRA在我构建的多任务benchmark上并没有显著差异,具体表现为难分伯仲,想问问作者是否遇到过类似情况呢。 此外,目前moe普遍使用topk策略,因此我非常有兴趣想知道您出于什么目的并未使用这一策略,它拥有更少的激活参数和更快的推理速度。 再次感谢您对于该项目的分享!