Closed allenliuvip closed 9 months ago
实验性项目,max_len=320,batch_size=8,预训练数据较少。预训练,sft及dpo阶段均为单机单卡,配置如下:
CPU: Intel(R) i5-13600k @ 5.1GHz
内存:32 GB
显卡:NVIDIA GeForce RTX 4060 Ti 16GB * 1
请问该配置训练用了多长时间?
预训练我跑了4-5天,sft跑了一天,rlhf跑了半天好像。大差不差吧,我后面换过数据集,有点忘了。
4060没ti 能训练吗 只有8GB 显存
能,设置半精度bf16,batch_size调小一些(得自己试),不爆显存就可以了,4060可能训练时间比较感人。
不能用显卡加速,tokenizer训练主要是对txt语料做char/byte级别的分割、统计、合并操作,本质上是对字符串进行操作,不是对float/int类型的向量、矩阵进行操作。
rt