复现结果与实验相差较大

suntea233 / DualLoRA

Implementation of ACL 2024 paper "Zero-Shot Cross-Domain Dialogue State Tracking via Dual Low-Rank Adaptation".

8 stars 0 forks source link

复现结果与实验相差较大 #1

Closed peng913 closed 3 weeks ago

peng913 commented 1 month ago

按照您回复的邮箱，设置超参python train.py--train_batch_size 8 --gradient_accumulation_steps 8 --except_domain restaurant --n_epochs 5 --desc normal --zero_initialization lora.，在3090服务器上仍和实验原文相差较大，请问您能不能再给些调参建议，非常非常非常感谢！

suntea233 commented 1 month ago

您好，在每台机器上所适配的最佳超参数不会都是一致的。我们在论文中报告的都是最好的结果。我刚刚尝试了跑了一下epochs=1的情况，在restaurant上得到的效果与论文中的性能相差并不是很大，基本上在跑完一个epoch后，loss都能下降到0.1左右，您可以对照着调整您自己的超参数，或者是在加载预训练参数时是否出现问题，以及版本匹配的问题。

peng913 commented 1 month ago

您好，在每台机器上所适配的最佳超参数不会都是一致的。我们在论文中报告的都是最好的结果。我刚刚尝试了跑了一下epochs=1的情况，在restaurant上得到的效果与论文中的性能相差并不是很大，基本上在跑完一个epoch后，loss都能下降到0.1左右，您可以对照着调整您自己的超参数，或者是在加载预训练参数时是否出现问题，以及版本匹配的问题。感谢您的回复，下面我将严格按照论文和github所给信息进行还原。根据论文，想知道哪些步骤由3090完成，哪些步骤由4090完成

suntea233 commented 1 month ago

您好，我们主要实验都是在4090上完成的，小部分消融实验是在3090上完成的

peng913 commented 1 week ago

感谢您的帮助，按照您的建议成功复现了woz2.1数据集上的实验结果。下面想复现SDG数据集，经过我的调试模型可以训练，但我想知道我的调试方法是否和您的思路一样，向您请教怎样使用模型训练SDG