song-wx / SIFT

[ICML2024 Spotlight] Fine-Tuning Pre-trained Large Language Models Sparsely
10 stars 2 forks source link

SIFT #1

Open skxgogo opened 4 months ago

skxgogo commented 4 months ago
image image

当我在RoBERTA-LARGE上对GLUE benchmark的cola 任务进行微调时,发生了这个错误。显示得到的稀疏参数的梯度和稀疏参数的维度不同。

song-wx commented 4 months ago

请问你有修改任何代码吗,我看第一幅图里面你加了个squeeze(0),不过这个应该不是问题所在,或许你可以print一下idx的尺寸,grad的尺寸还有sparse grad的尺寸方便我看的更清楚点

skxgogo commented 4 months ago

是的。如果没有加squeeze(0),第一步报错就是sparse_param.grad的shape为【9】,grad[sparse.param.idx]的shape就为[1,9]

---Original--- From: "Weixi @.> Date: Mon, Mar 18, 2024 22:25 PM To: @.>; Cc: @.**@.>; Subject: Re: [song-wx/SIFT] SIFT (Issue #1)

请问你有修改任何代码吗,我看第一幅图里面你加了个squeeze(0),不过这个应该不是问题所在,或许你可以print一下idx的尺寸,grad的尺寸还有sparse grad的尺寸方便我看的更清楚点

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

skxgogo commented 4 months ago
image image
song-wx commented 4 months ago

我在新环境里面试了一下没发现相关的问题,初步怀疑可能是pytorch版本不同导致通过索引出来的tensor尺寸可能有些区别,我提供一些可能与这个问题有关的包版本,你更换尝试一下。 torch==2.0.1 torchaudio==2.0.2 torchvision==0.15.2 transformers==4.34.1