长对话的微调训练

model: internlm2.5 基于官方文档的多轮对话格式，训练一批次数据，但单个messages，就有上千个json，数据大小达到了60K，两个conversation就能达到129k，有如下几个问题：

基于chat模型训练还是base模型比较好一些？
如果基于base模型，那么微调训练后，能有chat模型的效果么？是不是还需要再做什么处理？
GPU为96GB的前提下，xtuner能支持两轮129K的conversation训练吗？或者单轮的conversation，可以实现微调训练吗？主要是这个长对话的微调效果。

InternLM / xtuner