cosname / cosx.org

统计之都主站
https://cosx.org
MIT License
265 stars 239 forks source link

统计月读(2020 年 3 月) #886

Closed yufree closed 4 years ago

yufree commented 4 years ago

请回复 issue 进行文章推荐与招聘投稿,内容须与统计/数据科学相关,是否采纳取决于编辑部意见。

文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。

招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。

文章推荐格式如下:

推荐语:(几句话就可以,可长可短,有态度不严肃)

推荐人:(建议用真名)

链接:(论文建议给doi,其余给链接)

招聘信息格式如下:

岗位介绍:(例如博士生、博后、xx公司软件工程师等)

工作地点:(具体到城市)

联系方式:(网站链接或邮箱)

songxxiao commented 4 years ago

推荐语:机器学习算法常常带有“黑箱”的特性,因此一些学者开始致力于可解释性机器学习的研究。Christoph Molnar 的新书 Interpretable Machine Learning 对此领域有较为全面的介绍。目前全书已在网络上开源。

推荐人:宋骁

链接:https://christophm.github.io/interpretable-ml-book/

yufree commented 4 years ago

推荐语:这篇文章介绍了基于贝叶斯框架机器学习的一些重要概念,这个博客也值得关注。

推荐人:于淼

链接:https://towardsdatascience.com/bayesian-inference-algorithms-mcmc-and-vi-a8dad51ad5f5

yufree commented 4 years ago

推荐语:公司新闻往往会影响股价,这篇文章利用 OpenBlender 的 API 收集两家报纸关于苹果公司的新闻,然后与苹果当日股价构建机器学习模型预测趋势,得到了不错的预测表现,全文有R代码,也有python版的。

推荐人:于淼

链接:https://medium.com/swlh/outstanding-results-predicting-apple-stock-with-news-using-r-33be5300999f

yufree commented 4 years ago

推荐语:作为行政单位的国家数据可能不如人口聚集单位的社群数据更有经济学意义,这篇文章利用人口密度加权做了 k-means 聚类,展示了全世界195个主要人口聚集社区的边界。

推荐人:于淼

链接:https://towardsdatascience.com/weighted-k-means-clustering-example-artificial-countries-f91c541827fe

yufree commented 4 years ago

推荐语:这次大流行让仪表盘这种数据展示方式被更多人接受,然而,只要开始使用就会发现你想问的问题即使是交互式仪表盘也很难满足,例如我想知道社区中位数收入与发病率的关系,但仪表盘通常不预设其他数据接口而无从得知,甚至连数据过滤都不支持。这篇文章作者则打出了《仪表盘已死》的题目指出,数据的展示方式应该从仪表盘向交互性更强的笔记本过渡,用户不仅可以看到数据,还应该有渠道参与数据分析来拿到自己问题的答案。

推荐人:于淼

链接:https://towardsdatascience.com/dashboards-are-dead-b9f12eeb2ad2

yufree commented 4 years ago

推荐语:约翰霍普金斯大学提供的基于此次疫情的流行病学免费公开课,结合时事普及了一些流行病学术语。

推荐人:于淼

链接:https://www.coursera.org/learn/covid19-epidemiology

yufree commented 4 years ago

推荐语:Gelman的《Bayesian Data Analysis》官方对非商业用途使用者免费了。

推荐人:于淼

链接:http://www.stat.columbia.edu/~gelman/book/

yufree commented 4 years ago

推荐语:在这篇《泛化危机》中,作者认为当前研究中包括可重复性危机在内的很多问题本质在于统计视角下无法避免对结论的过度泛化,Gelman 也其博客上也对此做了正面评述

推荐人:于淼

链接:https://psyarxiv.com/jqw35

yufree commented 4 years ago

推荐语:不成比例分类数据的可视化我们通常使用对数转化来进行对比,这篇论文提出了 Du Bois Wrapped Bar Chart 作为这类场景的可视化手段,通过峰值转弯来直观显示不成比例的分类数据,中文可译为“贪吃蛇图”。

推荐人:于淼

链接:https://arxiv.org/abs/2001.03271

yihui commented 4 years ago

推荐语:R 有两套作图系统,一是基础作图系统(基于 graphics 包),一是网格作图系统(基于 grid 包),但估计前者在网格作图系统的杰出代表 ggplot2 的笼罩下已经没多少人知道了。基础作图系统的采用的是纸笔画图模型(典型的程序员思维),比起 ggplot2 的数据模型可能更难上手,但一旦你掌握如何画出一幅图的任意组成部分(标题、坐标轴、点、线、形状、颜色等),它其实还是很强大的,只是代码读起来可能没那么雅致而已。这篇博客给了不少基于基础作图系统的优雅的图形例子,读者不妨了解一下它的风格。

推荐人:谢益辉

链接:http://karolis.koncevicius.lt/posts/r_base_plotting_without_wrappers/

yixuan commented 4 years ago

@yihui 这个厉害啊,图形美观性和代码简洁性都是上乘。

yihui commented 4 years ago

@yixuan 在 R 4.0.0 中,基础作图系统将迎来一个“人脑一小步、电脑一大步”的修改,就是默认的调色板终于不再把人丑哭了:https://developer.r-project.org/Blog/public/2019/11/21/a-new-palette-for-r/ 这个修改好是好,就是晚了那么十几年,否则基础作图系统还能多苟延残喘几年。一个好看的调色板对图形来说实在太重要了。上面那篇博客中的图形好看的一个重要原因也是因为它用了匀称的颜色。

yufree commented 4 years ago

推荐语:上条是基础作图的,而 ggplot2 体系虽然网上教材很多,但系统学习的资料很多更新并不及时,Thomas Lin Pedersen 在今年哥本哈根的 celebRation2020 开了一个题为《Drawing Anything with ggplot2》研讨班,系统讲了 ggplot2 体系的原理与发展状况,很多用户痛点例如拼图、文字重叠、图片标注、动画演示、网络绘制其实都已经有了成熟解决方案,这是幻灯片仓库,里面有视频地址。

推荐人:于淼

链接:https://github.com/thomasp85/ggplot2_workshop

yufree commented 4 years ago

推荐语:科研工作者在写脚本时,经常是探索目的为主,在找到理想结果后进行代码整理时,会因为变量命名混乱而头疼,存在变量名重复使用带来的错误,例如 df、temp、x 等中间变量。这个 rclean 包的主要任务就是自动化代码整理,构建变量关系图与提取特定变量的相关代码,方便脚本的整理。

推荐人:于淼

链接:https://ropensci.org/blog/2020/04/21/rclean/