brightmart / albert_zh

A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS, 海量中文预训练ALBERT模型
https://arxiv.org/pdf/1909.11942.pdf
3.93k stars 753 forks source link

在预训练生成特定格式的文件(tfrecords) 时内存不足问题 #173

Open TITONIChen opened 1 year ago

TITONIChen commented 1 year ago

大佬们在预训练生成特定格式的文件时,如果输入文件很大时(如news_zh_1.txt,我自己是600M左右),运行create_pretrain_data.sh需要跑很久(>4小时)并且96G内存使用率达100%后killed掉,各位大佬们是怎么处理这种情况的呀?只能拆分文件分步无监督学习么

zhuchenxi commented 1 year ago

同问