Closed af-74413592 closed 9 months ago
visualglm只有FewshotData,数据直接加载到内存中会爆掉,改成 large_dataset_streamed = load_dataset("json", data_files=path,split="train", streaming=True) dataset = large_dataset_streamed.map(datapreprocess) 的形式后,发现也不支持流式dataset。
支持流式,只需要在训练脚本里传入参数--iterable-dataset
--iterable-dataset
谢谢
visualglm只有FewshotData,数据直接加载到内存中会爆掉,改成 large_dataset_streamed = load_dataset("json", data_files=path,split="train", streaming=True) dataset = large_dataset_streamed.map(datapreprocess) 的形式后,发现也不支持流式dataset。