llm_cot_probe.py中 torch.autograd.grad的问题

BugMakerzzz / toxic_cot

2 stars 0 forks source link

llm_cot_probe.py中 torch.autograd.grad的问题 #2

Open CoverZhao opened 1 month ago

CoverZhao commented 1 month ago

你好！我在运行llm_cot_probe.py时候发现第160行的attn_grad = torch.autograd.grad(loss, attn_values, create_graph=True, allow_unused=True)[0].detach().cpu()会在部分层出现 attn_grad 变成NoneType的情况，并且不是在第一层就有，而是中间某一层出现的。

BugMakerzzz commented 1 month ago

您好，感谢关注我们的工作。想请问下你的运行环境是什么样呢，这里需要单卡运行，多卡运行情况下由于不同layer位于不同gpu上是会出现错误情况

CoverZhao commented 1 month ago

您好，感谢关注我们的工作。想请问下你的运行环境是什么样呢，这里需要单卡运行，多卡运行情况下由于不同layer位于不同gpu上是会出现错误情况

在3090上运行的，只用单卡貌似跑不起来

BugMakerzzz commented 1 month ago

你好，我们实际运行时用了单张A100，这里考虑到3090要多卡的情况，我们复现了一个早期的多卡probe版本，现在已经push到仓库上（llm_cot_probe_multi.py)。由于比较急，所以实现的比较粗糙，有什么问题欢迎反馈！

BugMakerzzz commented 1 month ago

另：这里我们指定了4张卡来分配LLama2-13B的不同层，如果你实际卡的数目不一样，请更改line59处的代码

CoverZhao commented 4 weeks ago

你好，我们实际运行时用了单张A100，这里考虑到3090要多卡的情况，我们复现了一个早期的多卡probe版本，现在已经push到仓库上（llm_cot_probe_multi.py)。由于比较急，所以实现的比较粗糙，有什么问题欢迎反馈！

好的，非常感谢！