BugMakerzzz / toxic_cot

2 stars 0 forks source link

llm_cot_probe.py中 torch.autograd.grad的问题 #2

Open CoverZhao opened 1 month ago

CoverZhao commented 1 month ago

你好!我在运行llm_cot_probe.py时候发现第160行的attn_grad = torch.autograd.grad(loss, attn_values, create_graph=True, allow_unused=True)[0].detach().cpu()会在部分层出现 attn_grad 变成NoneType的情况,并且不是在第一层就有,而是中间某一层出现的。

BugMakerzzz commented 1 month ago

您好,感谢关注我们的工作。想请问下你的运行环境是什么样呢,这里需要单卡运行,多卡运行情况下由于不同layer位于不同gpu上是会出现错误情况

CoverZhao commented 1 month ago

您好,感谢关注我们的工作。想请问下你的运行环境是什么样呢,这里需要单卡运行,多卡运行情况下由于不同layer位于不同gpu上是会出现错误情况

在3090上运行的,只用单卡貌似跑不起来

BugMakerzzz commented 1 month ago

你好,我们实际运行时用了单张A100,这里考虑到3090要多卡的情况,我们复现了一个早期的多卡probe版本,现在已经push到仓库上(llm_cot_probe_multi.py)。由于比较急,所以实现的比较粗糙,有什么问题欢迎反馈!

BugMakerzzz commented 1 month ago

另:这里我们指定了4张卡来分配LLama2-13B的不同层,如果你实际卡的数目不一样,请更改line59处的代码

CoverZhao commented 4 weeks ago

你好,我们实际运行时用了单张A100,这里考虑到3090要多卡的情况,我们复现了一个早期的多卡probe版本,现在已经push到仓库上(llm_cot_probe_multi.py)。由于比较急,所以实现的比较粗糙,有什么问题欢迎反馈!

好的,非常感谢!