suntea233 / DualLoRA

Implementation of ACL 2024 paper "Zero-Shot Cross-Domain Dialogue State Tracking via Dual Low-Rank Adaptation".
8 stars 0 forks source link

复现结果与实验相差较大 #1

Closed peng913 closed 3 weeks ago

peng913 commented 1 month ago

按照您回复的邮箱,设置超参python train.py--train_batch_size 8 --gradient_accumulation_steps 8 --except_domain restaurant --n_epochs 5 --desc normal --zero_initialization lora.,在3090服务器上仍和实验原文相差较大,请问您能不能再给些调参建议,非常非常非常感谢!

suntea233 commented 1 month ago

您好,在每台机器上所适配的最佳超参数不会都是一致的。我们在论文中报告的都是最好的结果。我刚刚尝试了跑了一下epochs=1的情况,在restaurant上得到的效果与论文中的性能相差并不是很大,基本上在跑完一个epoch后,loss都能下降到0.1左右,您可以对照着调整您自己的超参数,或者是在加载预训练参数时是否出现问题,以及版本匹配的问题。

peng913 commented 1 month ago

您好,在每台机器上所适配的最佳超参数不会都是一致的。我们在论文中报告的都是最好的结果。我刚刚尝试了跑了一下epochs=1的情况,在restaurant上得到的效果与论文中的性能相差并不是很大,基本上在跑完一个epoch后,loss都能下降到0.1左右,您可以对照着调整您自己的超参数,或者是在加载预训练参数时是否出现问题,以及版本匹配的问题。 感谢您的回复,下面我将严格按照论文和github所给信息进行还原。根据论文,想知道哪些步骤由3090完成,哪些步骤由4090完成

suntea233 commented 1 month ago

您好,我们主要实验都是在4090上完成的,小部分消融实验是在3090上完成的

peng913 commented 1 week ago

感谢您的帮助,按照您的建议成功复现了woz2.1数据集上的实验结果。下面想复现SDG数据集,经过我的调试模型可以训练,但我想知道我的调试方法是否和您的思路一样,向您请教怎样使用模型训练SDG