Closed zzt741 closed 2 years ago
由于数据中包含大量的重复数据,所以压缩可以显著减少文件大小,如DXYOverall.csv压缩成7z后可以从93.6MB变为680KB,DXYArea.csv压缩成7z可以由91MB变为4.58MB。
感谢,但是考虑到有的代码会直接载入GitHub Release里面的原始文件,比如:
import pandas data = pandas.read_csv('https://github.com/BlankerL/DXY-COVID-19-Data/releases/download/2022.04.25/DXYArea.csv')
压缩之后在代码中不方便直接载入数据,因此没有压缩文件。
GitHub暂时对单个release file的数据大小限制为2GB,所以暂时还能够使用。
由于数据中包含大量的重复数据,所以压缩可以显著减少文件大小,如DXYOverall.csv压缩成7z后可以从93.6MB变为680KB,DXYArea.csv压缩成7z可以由91MB变为4.58MB。