Open yuanzhiyong1999 opened 4 weeks ago
感谢关注G-DIG!
在我们的实验里,筛选数据的模型和待训练的模型是同一个。
计算hessian矩阵时显存消耗极大是正常的,可以通过设置CUR_LC实现仅计算模型部分层的Hessian来减小显存占用,如https://github.com/xypan0/G-DIG/blob/main/kfac_mapper.py#L22 ; ignore layer通过字符串匹配来忽略模型的某些层(https://github.com/xypan0/G-DIG/blob/main/nngeometry/llama_layercollection.py#L20)
需注意要对https://github.com/xypan0/G-DIG/blob/main/kfac_mapper.py和https://github.com/xypan0/G-DIG/blob/main/query_loss_mapper.py设置相同的ignore layer。
我是不是可以这样理解: 比如我先用llama3-8b模型,用我的candidate数据训练一遍,然后再用训练之后的模型来筛数据,最后再用筛完的高质量数据在llama3-8b上面重新训练一遍?
是的
GitHub中的代码只是第一阶段的部分是吗?第二阶段通过聚类增加数据多样性的部分是之后会更新吗?
会持续更新,感谢您的关注
请问这项工作中,筛选数据的模型和待训练的模型是同一个对吗?我简单试了一下发现计算hessian矩阵的时候,显存消耗极大,这是正常的吗?