在预训练生成特定格式的文件(tfrecords) 时内存不足问题

brightmart / albert_zh

A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS, 海量中文预训练ALBERT模型

https://arxiv.org/pdf/1909.11942.pdf

3.93k stars 753 forks source link

在预训练生成特定格式的文件(tfrecords) 时内存不足问题 #173

Open TITONIChen opened 1 year ago

TITONIChen commented 1 year ago

大佬们在预训练生成特定格式的文件时，如果输入文件很大时（如news_zh_1.txt，我自己是600M左右），运行create_pretrain_data.sh需要跑很久（>4小时）并且96G内存使用率达100%后killed掉，各位大佬们是怎么处理这种情况的呀？只能拆分文件分步无监督学习么

zhuchenxi commented 1 year ago

同问