TurboWay / spiderman

基于 scrapy-redis 的通用分布式爬虫框架
MIT License
591 stars 128 forks source link

考虑过HDF5格式存储吗 #4

Closed 1MLightyears closed 3 years ago

1MLightyears commented 3 years ago

可以比csv格式保存更多的信息,存取的速度也比csv快

TurboWay commented 3 years ago

可以比csv格式保存更多的信息,存取的速度也比csv快

hdf5 多用于机器学习,更适合存一些经过预处理后的纯数字的数据集,不太适合爬虫。