xypan0 / G-DIG

10 stars 0 forks source link

模型选择和显存问题 #2

Open yuanzhiyong1999 opened 4 weeks ago

yuanzhiyong1999 commented 4 weeks ago

请问这项工作中,筛选数据的模型和待训练的模型是同一个对吗?我简单试了一下发现计算hessian矩阵的时候,显存消耗极大,这是正常的吗?

xypan0 commented 4 weeks ago

感谢关注G-DIG!

在我们的实验里,筛选数据的模型和待训练的模型是同一个。

计算hessian矩阵时显存消耗极大是正常的,可以通过设置CUR_LC实现仅计算模型部分层的Hessian来减小显存占用,如https://github.com/xypan0/G-DIG/blob/main/kfac_mapper.py#L22 ; ignore layer通过字符串匹配来忽略模型的某些层(https://github.com/xypan0/G-DIG/blob/main/nngeometry/llama_layercollection.py#L20)

需注意要对https://github.com/xypan0/G-DIG/blob/main/kfac_mapper.py和https://github.com/xypan0/G-DIG/blob/main/query_loss_mapper.py设置相同的ignore layer。

yuanzhiyong1999 commented 4 weeks ago

我是不是可以这样理解: 比如我先用llama3-8b模型,用我的candidate数据训练一遍,然后再用训练之后的模型来筛数据,最后再用筛完的高质量数据在llama3-8b上面重新训练一遍?

xypan0 commented 4 weeks ago

是的

yuanzhiyong1999 commented 4 weeks ago

GitHub中的代码只是第一阶段的部分是吗?第二阶段通过聚类增加数据多样性的部分是之后会更新吗?

xypan0 commented 3 weeks ago

会持续更新,感谢您的关注