Open CoverZhao opened 1 month ago
您好,感谢关注我们的工作。想请问下你的运行环境是什么样呢,这里需要单卡运行,多卡运行情况下由于不同layer位于不同gpu上是会出现错误情况
您好,感谢关注我们的工作。想请问下你的运行环境是什么样呢,这里需要单卡运行,多卡运行情况下由于不同layer位于不同gpu上是会出现错误情况
在3090上运行的,只用单卡貌似跑不起来
你好,我们实际运行时用了单张A100,这里考虑到3090要多卡的情况,我们复现了一个早期的多卡probe版本,现在已经push到仓库上(llm_cot_probe_multi.py)。由于比较急,所以实现的比较粗糙,有什么问题欢迎反馈!
另:这里我们指定了4张卡来分配LLama2-13B的不同层,如果你实际卡的数目不一样,请更改line59处的代码
你好,我们实际运行时用了单张A100,这里考虑到3090要多卡的情况,我们复现了一个早期的多卡probe版本,现在已经push到仓库上(llm_cot_probe_multi.py)。由于比较急,所以实现的比较粗糙,有什么问题欢迎反馈!
好的,非常感谢!
你好!我在运行llm_cot_probe.py时候发现第160行的attn_grad = torch.autograd.grad(loss, attn_values, create_graph=True, allow_unused=True)[0].detach().cpu()会在部分层出现 attn_grad 变成NoneType的情况,并且不是在第一层就有,而是中间某一层出现的。