Lyken17 / Efficient-PyTorch

My best practice of training large dataset using PyTorch.
1.08k stars 139 forks source link

关于LMDB的运行与效率 #5

Closed MoonBunnyZZZ closed 5 years ago

MoonBunnyZZZ commented 5 years ago

你好! 使用lmdb生成数据集遇到两个问题: 1.在生成mdb文件的过程中,txn.put数据的效率会剧烈下降,甚至程序卡死 2.你是否知道pytorch的Dataloader在GPU运算是,是否会同时准备下一个batch的数据,因为我的数据预处理方法不是调用torchvision中的方法 如果我有描述不清的地方,请告知,谢谢。 @Lyken17

Lyken17 commented 5 years ago
  1. 请给出更详细的描述,仅从这一句来看,我无法推测是什么问题。
  2. 会, DataLoader 的 workers 参数控制了 prefetech 的大小。
MoonBunnyZZZ commented 5 years ago

image

@Lyken17 运行如上方法,出现下图结果。数据集为123287张图片,大小20.1G,代码单次循环时间逐渐变长,最终卡斯,被系统kill。

image

Lyken17 commented 5 years ago

没有正确缩进的 python 代码爱莫能助

MoonBunnyZZZ commented 5 years ago

没有正确缩进的 python 代码爱莫能助

插入代码时格式有误,已经改成截图 @Lyken17

Lyken17 commented 5 years ago

感觉这应该是内存泄漏导致的,是 lmdb 那边的问题,不属于这个 repo 的范畴。 https://github.com/dw/py-lmdb