模型选择和显存问题

yuanzhiyong1999 commented 4 weeks ago

请问这项工作中，筛选数据的模型和待训练的模型是同一个对吗？我简单试了一下发现计算hessian矩阵的时候，显存消耗极大，这是正常的吗？

xypan0 commented 4 weeks ago

感谢关注G-DIG！

在我们的实验里，筛选数据的模型和待训练的模型是同一个。

计算hessian矩阵时显存消耗极大是正常的，可以通过设置CUR_LC实现仅计算模型部分层的Hessian来减小显存占用，如https://github.com/xypan0/G-DIG/blob/main/kfac_mapper.py#L22 ; ignore layer通过字符串匹配来忽略模型的某些层(https://github.com/xypan0/G-DIG/blob/main/nngeometry/llama_layercollection.py#L20)

需注意要对https://github.com/xypan0/G-DIG/blob/main/kfac_mapper.py和https://github.com/xypan0/G-DIG/blob/main/query_loss_mapper.py设置相同的ignore layer。

yuanzhiyong1999 commented 4 weeks ago

我是不是可以这样理解：比如我先用llama3-8b模型，用我的candidate数据训练一遍，然后再用训练之后的模型来筛数据，最后再用筛完的高质量数据在llama3-8b上面重新训练一遍？

xypan0 commented 4 weeks ago

是的

yuanzhiyong1999 commented 4 weeks ago

GitHub中的代码只是第一阶段的部分是吗？第二阶段通过聚类增加数据多样性的部分是之后会更新吗？

xypan0 commented 3 weeks ago

会持续更新，感谢您的关注

xypan0 / G-DIG

模型选择和显存问题 #2