Open TITONIChen opened 1 year ago
大佬们在预训练生成特定格式的文件时,如果输入文件很大时(如news_zh_1.txt,我自己是600M左右),运行create_pretrain_data.sh需要跑很久(>4小时)并且96G内存使用率达100%后killed掉,各位大佬们是怎么处理这种情况的呀?只能拆分文件分步无监督学习么
同问
大佬们在预训练生成特定格式的文件时,如果输入文件很大时(如news_zh_1.txt,我自己是600M左右),运行create_pretrain_data.sh需要跑很久(>4小时)并且96G内存使用率达100%后killed掉,各位大佬们是怎么处理这种情况的呀?只能拆分文件分步无监督学习么