BlankerL / DXY-COVID-19-Data

2019新型冠状病毒疫情时间序列数据仓库 | COVID-19/2019-nCoV Infection Time Series Data Warehouse
https://lab.isaaclin.cn/nCoV/
MIT License
2.16k stars 707 forks source link

可以考虑在发布数据前先压缩一下 #113

Closed zzt741 closed 2 years ago

zzt741 commented 2 years ago

由于数据中包含大量的重复数据,所以压缩可以显著减少文件大小,如DXYOverall.csv压缩成7z后可以从93.6MB变为680KB,DXYArea.csv压缩成7z可以由91MB变为4.58MB。

BlankerL commented 2 years ago

感谢,但是考虑到有的代码会直接载入GitHub Release里面的原始文件,比如:

import pandas
data = pandas.read_csv('https://github.com/BlankerL/DXY-COVID-19-Data/releases/download/2022.04.25/DXYArea.csv')

压缩之后在代码中不方便直接载入数据,因此没有压缩文件。

GitHub暂时对单个release file的数据大小限制为2GB,所以暂时还能够使用。