丁香园网页上还有全世界的数据，能不能也抓下来变成 csv 文件？

BlankerL / DXY-COVID-19-Data

2019新型冠状病毒疫情时间序列数据仓库 | COVID-19/2019-nCoV Infection Time Series Data Warehouse

https://lab.isaaclin.cn/nCoV/

MIT License

2.16k stars 709 forks source link

丁香园网页上还有全世界的数据，能不能也抓下来变成 csv 文件？ #9

Closed jianxu305 closed 4 years ago

jianxu305 commented 4 years ago

谢谢

Dobby233Liu commented 4 years ago

README.md说：

其中：地区数据DXYArea.csv仅包括丁香园中国地区精确至地级市的数据，港澳台/西藏的数据精确度仅到省级，不包含在此文件中。如有需要可以修改脚本内Listen类的dumper函数，来自定义数据提取的存储方式。

jianxu305 commented 4 years ago

可是我运行不了 script.py , 好像是你自己本地有个 URI (现在是 "confidential") 没有放在 gitHub repo 里面？这样的话大家怎么自己改呢？

$ python script.py

File "C:\Users\Jian\Anaconda3\envs\research\lib\site-packages\pymongo\topology.py", line 209, in _select_servers_loop self._error_message(selector)) pymongo.errors.ServerSelectionTimeoutError: confidential:27017: [Errno 11001] getaddrinfo failed

Dobby233Liu commented 4 years ago

BlankerL说：

The script is just showing how the data are processed and saved into csv files. The database itself is not public to everyone because my MongoDB cannot maintain more than 100 connections at the same time. Furthermore, with the crawler project, you will be able to easily build your own database and use your own MONGO_URI. （机翻：）该脚本仅显示如何处理数据并将其保存到csv文件中。数据库本身并非对所有人公开，因为我的MongoDB无法同时维护100个以上的连接。此外，通过爬虫项目，您将能够轻松构建自己的数据库并使用自己的MONGO_URI。

BlankerL commented 4 years ago

你好，如果需要更详细的数据，可以直接考虑使用DXY-2019-nCoV-Crawler中提供的API或者部署爬虫项目来获取数据。

这个项目中提供的数据比较基础，因为许多人与我联系，希望能够获取数据进行分析，但是编程能力有限，所以我才提供的这一份csv文件。csv文件和原始数据的数据结构差异较大，无法很好地满足所有人的要求。如果你有其他额外的需求，建议直接调用API获取数据。

MongoDB数据库的并发能力实在有限，无法维持超过100个连接，所以暂时没有开放。