关于数据集的延迟加载功能

fastnlp / fastNLP

fastNLP: A Modularized and Extensible NLP Framework. Currently still in incubation.

Apache License 2.0

3.05k stars 451 forks source link

Is your feature request related to a problem? Please describe. 问题是什么一些大数据集全部加载到内存中可能占用大量内存。例如4G左右的jsonl文件，经load转为大对象以后，内存占用高达约20G（不含交换区）。尤其是分布式框架下，数据集每个进程加载一份，内存占用疯涨，影响整体性能，对机器要求较高。

Describe the solution you'd like 解决方案是什么可以增加对数据文件的自动切分，构建多个大小适中的缓存文件，每次只读取部分数据，让内存中只保留最近可能用到的部分数据；增加预取功能等等

Additional context 备注可能fastNLP有类似的参数配置，但我目前没有注意到，如果有，请提醒一下，谢谢。

fastnlp / fastNLP

关于数据集的延迟加载功能 #383