rbind / xiangyun

:pen: Xiangyun's personal website
https://xiangyun.rbind.io
GNU Affero General Public License v3.0
10 stars 10 forks source link

2022/06/choropleth-map-gossip/ #27

Closed utterances-bot closed 1 year ago

utterances-bot commented 2 years ago

《地区分布图及其应用》番外篇 - Xiangyun Huang

https://xiangyun.rbind.io/2022/06/choropleth-map-gossip/

hongtaoh commented 2 years ago

很好的帖子!我处理过 GB 级别的数据,当时直接用的 Pandas,感觉也还可以。主要是我不会用 SQL。

XiangyunHuang commented 2 years ago

谢谢!Pandas 也很好呀,主要是我不太会 Python,data.table 应该能处理 10 G 左右的数据,data.table 官网提供了一个各个工具包的性能测试, 表明dplyr 在数据操作方面弱爆了! 我觉得 dplyr 的真正优势在于后面连接数据库,它那些操作可以翻译成 SQL 喂给数据库去执行,所以并不是 dplyr 能处理 GB 级的数据,而是数据库的能力。

hongtaoh commented 2 years ago

@XiangyunHuang 嗯,其实不管是 R,还是 Python、SQL,只要用熟了,大部分的工作都能完成。我一般是用到统计的时候用 R,其他的工作大部分用 Python。其实两个我用的都不熟练。

XiangyunHuang commented 2 years ago

其他的工作大部分用 Python。

@hongtaoh 其它大部分工作是涉及什么方面的?

hongtaoh commented 2 years ago

@XiangyunHuang 感谢询问!像数据操控 (data wrangling)、爬虫、作图比较多。

XiangyunHuang commented 2 years ago

@XiangyunHuang 感谢询问!像数据操控 (data wrangling)、爬虫、作图比较多。

谢谢释惑 🙏,Python 里的统计工具包也挺多的,感觉可以整个工作流都在 Python 里呀?用到的统计是指哪方面的?

hongtaoh commented 2 years ago

@XiangyunHuang 就是简单的统计,比如 t 检验、卡方、线性回归。我用 python 做统计还是不熟,R 做统计更顺手,也更简单。确实如果都在一个流程里,会简单很多。我现在还要先用 python 把数据处理好,然后再用 R。

XiangyunHuang commented 2 years ago

@hongtaoh 谢谢,明白了!

XiangyunHuang commented 2 years ago

偶然间翻到一个帖子使用数值方法求解单电子 Schrodinger (薛定谔)方程,虽然两篇文章的内容没有丝毫的可比性,但是整个项目做下来,大家在做的过程中遇到的问题和最后的收获有惊人的相似,比如各种尝试、各种问人、各种搜罗材料、动不动一头扎进一个新的东西里,时间就这样快速地消耗了。

hongtaoh commented 2 years ago

我觉得这个摸索的过程对人的帮助时非常大的。很多问题,如果一开始就知道答案,整个过程就非常没意思了,而且就算按照别人的方法做出来,很快就忘了。

XiangyunHuang commented 2 years ago

非常同意楼上。写这个《番外篇》本来是想自己总结总结,看了上面薛定谔那个帖子后,给我触动很大,这个总结兴许对别人也有启发和帮助。只要目标是合理而且对的,可以暂时不管 deadline,凭着执行力一竿子插到底,逾期只是因为自己之前没有经验而已,多搞几次,自己就能熟练起来,对项目管理和时间分配做到心中有数。

XiangyunHuang commented 2 years ago

我之前花了大把的时间在绘图的细节上,虽然原文《地区分布图及其应用》提及了各个方法的绘图步骤,但是没有仔细考虑时间花费问题。刚看到一篇博客How long do maps on ggplot facets take?,如果在现有的地区分布图上加上时间因素,也就是时空地区分布图,绘图的时间花费就是一笔很大的账,需要仔细算算,直接用 ggplot2 包绘图也许就不合适了。

XiangyunHuang commented 2 years ago

R语言是 S 语言的方言,而 tidyverse 可以看作 R语言的方言。

XiangyunHuang commented 2 years ago

10 亿级纽约出行数据可视化方案 How to visualise a billion rows of data in R with Apache Arrow 将空间离散,聚合数据,使用 image() 可视化。