ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
110 stars 30 forks source link

R语言学习:ggplot2包画图 #2103

Closed ixxmu closed 2 years ago

ixxmu commented 2 years ago

https://mp.weixin.qq.com/s/UlLLlh6Cz2nxVGAhZ5j9yQ

github-actions[bot] commented 2 years ago

R语言学习:ggplot2包画图 by R语言

2022年第11周,12周,13周,14周。

R语言学习,这些周记录如下。


我做医学科研,用ggplot2包画图;我做风控工作,也用ggplot2包画图。



01 

ggplot2概述


ggplot2是R语言最流行的画图包,基于图层化语法的思想设计和创建美观优雅的图形。


ggplot2绘图流程,如图1所示:


图1 ggplot2绘图流程


ggplot2绘图流程,具体步骤如下。

第一步:获取要绘图的整洁数据(涉及到数据整洁和操作的知识)

第二步:整洁数据做映射操作,确定x,y,color,size,shape,alpha等

第三步:选择合适的几何对象(根据画图的目的、变量的类型和个数)

第四步:坐标系和刻度配置

第五步:标签信息和图例信息

第六步:选择合适的主题


ggplot2的语法包括10个部件。

  1. 数据(data)

  2. 映射(mapping)

  3. 几何对象(geom)

  4. 标度(scale)

  5. 统计变换(stats)

  6. 坐标系(coord)

  7. 位置调整(Position adjustments)

  8. 分面(facet)

  9. 主题(theme)

  10. 输出(output)


前3个是必须的,其它部件ggplot2会自动配置,也可以手动配置。


ggplot2基本绘图模板:


注意:

1)添加图层的加号(+)只能放在行末尾

2)红色方框里面mapping是全局域,绿色方框里面mapping是局部域,执行先后顺序,先局部域,后全局域



02 

ggplot2画图必要部件-数据,映射和几何对象


2.1 数据

数据(Data)用于画图的整洁数据。

何为整洁数据?如图2所示。

图2 整洁数据

library(tidyverse)mpg


ggplot()先只提供数据,创建一个空图形。

# ggplot()先提供整洁数据,生成一个空图形ggplot(data = mpg)


2.2 映射

映射,把数据变量集与图形属性库建立关联

最常用的映射有:

x:x轴

y:y轴

color:颜色

size:大小

shape:形状

fill:填充

alpha:透明度


以mpg数据集为例,把变量displ和hwy分别映射到x和y,变量drv映射到color,此时图形就有了坐标轴和网格线,color需要在有了几何对象后才能体现出来。

# 映射操作ggplot(data = mpg, mapping = aes(x = displ,                                  y = hwy,                                 color = drv))



2.3 几何对象


几何对象是表达数据的视觉对象

不同类型的几何对象是从不同的角度表达数据。


ggplot2提供了50多种“几何对象”,均以geom_xxxx()的方式命名,常用的有:



画几何对象很简单,只需要添加图层即可。

例如,以mpg数据集为例,画散点图。

ggplot(data = mpg, mapping = aes(x = displ,                                  y = hwy,                                 color = drv)) +  geom_point()

图层依次叠加,在上图的基础上,再添加一个几何对象:光滑曲线。

# 继续增加一个几何对象:光滑曲线# 写法1ggplot(data = mpg, mapping = aes(x = displ,                                  y = hwy,                                 color = drv)) +  geom_point() +  geom_smooth(se=FALSE)

# 写法2ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +  geom_point(aes(color = drv)) +  geom_smooth(se=FALSE)

思考题:

1)写法1和写法2的差异?(全局域和局部域的使用差异)

2)写法2若是要实现写法1的功能,怎么编写代码?


03 

标度


ggplot2会自动根据输入变量选择最优的坐标刻度方法,若要手动设置或调整,就需要使用标度函数。

标度函数用来控制几何对象中的标度映射(x轴,y轴或者由color,fill,shape,size产生的图例)。

ggplot2提供丰富的标度函数,常用的有:


拓展功能:scales包提供很多设置刻度标签风格的函数,比如百分数、科学计数法法、美元格式等。


3.1 修改坐标轴刻度及标签

连续变量使用scale_*_continuous()函数,参数breaks设置各个刻度的位置,参数labels设置各个刻度对应的标签。

离散变量使用scale_*_discrete()函数,修改离散变量坐标轴的标签。

时间变量使用scale_x_date()函数设置日期刻度,参数date_breaks设置刻度间隔,date_labels设置标签的日期格式



以mpg数据集为例,修改连续变量坐标轴刻度及标签。

# scale_y_continuous函数# 对比分析和观察# 图1ggplot(mpg, aes(displ, hwy)) +  geom_point()# 图2ggplot(mpg, aes(displ, hwy)) +  geom_point() +  scale_y_continuous(breaks = seq(15, 40, by = 10))# 图3ggplot(mpg, aes(displ, hwy)) +  geom_point() +  scale_y_continuous(breaks = seq(15, 40, by = 10),                     labels = c(" 一五 "," 二五 "," 三五 "))



以mpg数据集为例,修改离散变量的标签

# scale_x_discrete函数# 对比分析和观察# 图1ggplot(mpg, aes(x = drv)) +  geom_bar()# 图2ggplot(mpg, aes(x = drv)) +  geom_bar() +  scale_x_discrete(labels = c("4" = " 四驱 ", "f" = " 前驱 ",                              "r" = " 后驱 "))

以ggplot2自带的economics数据集为例,修改日期变量。

# scale_x_date函数# 以ggplot2自带的economics为例economics %>% glimpse()# 图1 ggplot(tail(economics, 45), aes(date, uempmed / 100)) +  geom_line() # 图2ggplot(tail(economics, 45), aes(date, uempmed / 100)) +  geom_line() +  scale_x_date(date_breaks = "6 months", date_labels = "%Y-%b") +  scale_y_continuous(labels = scales::percent)



3.2 修改坐标轴标签、图例名及图例位置

用labs()函数参数x,y或者xlab(),ylab(),设置x轴,y轴标签。

若用参数color生成了图例,可以在labs()函数用参数color修改图例名。

用theme图层的参数legend.position设置图例的位置。


以mpg数据为例。

# 修改坐标轴标签,图例名和图例位置mpg# 图1ggplot(mpg, aes(displ, hwy)) +  geom_point(aes(color = drv)) +  labs(x = " 引擎大小 (L)", y = " 高速燃油率 (mpg)",       color = " 驱动类型 ") +  theme(legend.position = "top")
# 图2ggplot(mpg, aes(displ, hwy)) + geom_point(aes(color = drv)) + xlab(" 引擎大小 (L)") + ylab(" 高速燃油率 (mpg)") + labs(color = " 驱动类型 ") + theme(legend.position = "top")# 图3 不需要图例ggplot(mpg, aes(displ, hwy)) + geom_point(aes(color = drv)) + xlab(" 引擎大小 (L)") + ylab(" 高速燃油率 (mpg)") + theme(legend.position = "none")

3.3 设置坐标轴的范围

用coord_cartesian()函数参数xlim和ylim,或者用xlim(),ylim()设置x轴和y轴的范围。


以mpg数据集为例。

# 修改坐标轴的范围# 图1 coord_cartesian()的参数xlim和ylimggplot(mpg, aes(displ, hwy)) +  geom_point(aes(color = drv)) +  coord_cartesian(xlim = c(5, 7), ylim = c(10, 30))# 图2 xlim()和ylim()函数ggplot(mpg, aes(displ, hwy)) +  geom_point(aes(color = drv)) +  xlim(5, 7) +  ylim(10, 30)



3.4 变换坐标轴

用scale_x_log10()函数变换坐标系,可以保持原始数据的坐标刻度。


# 变换坐标系load("data/gapminder.rda")# 图1p <-  ggplot(gapminder, aes(gdpPercap, lifeExp)) +  geom_point() +  geom_smooth()p + scale_x_continuous(labels = scales::dollar)# 图2p + scale_x_log10(labels = scales::dollar)# 图3ggplot(gapminder, aes(log10(gdpPercap), lifeExp)) +  geom_point() +  geom_smooth()


3.5 设置图形标题

用labs()函数设置图形标题。

  • 参数title 设置正标题

  • 参数subtitle 设置副标题

  • 参数caption 设置脚注标题(默认右下角)

# 设置标题# mpg数据集为例p <-  ggplot(mpg, aes(displ, hwy)) +  geom_point(aes(color = drv)) +  geom_smooth(se = FALSE) +  labs(title = " 燃油效率与引擎大小的关系图 ",       subtitle = " 两座车 ( 跑车 ) 因重量小而符合预期 ",       caption = " 数据来自 fueleconomy.gov")p

标题若要居中,采用theme图层设置。

p + theme(plot.title = element_text(hjust = 0.5),           plot.subtitle = element_text(hjust = 0.5))

3.6 设置color、fill颜色

数据的某个维度信息可以通过颜色来表示。

可以直接使用颜色值,建议使用RColorBrewer(调色板)或者colorspace包。

1)连续变量

- 用scale_color_gradient()设置二色渐变色。

# 连续变量# 图1 scale_color_gradient()函数ggplot(mpg, aes(displ, hwy, color = hwy)) +  geom_point() +  scale_color_gradient(low = "green", high = "red")

- 用scale_color_distiller()设置调色板中的颜色

# 图2 scale_color_distiller()函数ggplot(mpg, aes(displ, hwy, color = hwy)) +  geom_point() +  scale_color_distiller(palette = "Set1")


2)离散变量

- 用scale_color_manual()手动设置颜色,还可以修改图例及其标签信息

# 离散变量# 图1 scale_color_manual()函数ggplot(mpg, aes(displ, hwy, color = drv)) +  geom_point() +  scale_color_manual(" 驱动方式 ",                      values = c("red", "blue", "green"),                     breaks = c("4", "f", "r"))ggplot(mpg, aes(displ, hwy, color = drv)) +  geom_point() +  scale_color_manual(" 驱动方式 ",                      values = c("red", "blue", "green"),                     labels = c(" 四驱 ", " 前驱 ", " 后驱 "))

- 用scale_fill_brewer()调用调色板中的颜色

# 图2 scale_fill_brewer()函数ggplot(mpg, aes(x = class, fill = class)) +  geom_bar() +  scale_fill_brewer(palette = "Dark2")


3.7 添加文字标注

ggrepel包提供了geom_label_repel()函数或者geom_text_repel()函数,为图形添加文字标注。


操作步骤:

第一步:先准备好标记点的数据

第二步:增加文字标注图层,包括标记点的数据和标注的文字给label参数


# 设置文字标注信息library(ggrepel)# 选取每种车型 hwy 值最大的样本best_in_class <-  mpg %>%   group_by(class) %>%  slice_max(hwy, n = 1)best_in_class %>% select(class, model, hwy)ggplot(mpg, aes(displ, hwy)) +  geom_point(aes(color = class)) +  geom_label_repel(data = best_in_class,                   aes(label = model))



04 

统计变换、坐标系和位置调整


4.1 统计变换

统计变换是构建新的统计量而画图。

例如,条形图或直方图,是对数据分组的频数做画图;平滑曲线是对数据拟合模型的预测值画图。


ggplot2可以把统计变换直接融入画图中,不必先在对数据做统计变换后再画图。


ggplot2提供30多种统计,均以stats_xxx()的方式命名。

1)可在几何对象中直接使用的统计变换,直接使用几何对象就可以了。

2)不能在几何对象创建的,而需要单独使用。


以mpg数据集为例。

stat_summary()做统计绘图并汇总。

# 图1 stat_summary()做统计绘图并汇总p <- ggplot(mpg, aes(x = class, y = hwy)) +  geom_violin(trim = FALSE, alpha = 0.5, color = "green") pp + stat_summary(fun = mean,               fun.min = function (x) {mean(x) - sd(x)},               fun.max = function (x) {mean(x) + sd(x)},               geom = "pointrange",                color = "red")

stat_smooth()添加光滑曲线,与geom_smooth()相同。

参数method设置平滑曲线的拟合方法,如lm线性回归、glm广义线性回归、loess多项式回归、gam广义加法模型(mgcv包)、rlm稳健回归(MASS包)等。

参数formula指定平滑曲线方程,如y ~ x, y ~ poly(x, 2), y ~ log(x)等。

参数se设置是否绘制置信区间。


# 图2 stat_smooth()添加平滑曲线ggplot(mpg, aes(displ, hwy)) +  geom_point() +  stat_smooth(method = "lm",              formula = y ~ splines::bs(x, 3),              se = FALSE)ggplot(mpg, aes(displ, hwy)) +  geom_point() +  geom_smooth(method = "lm",              formula = y ~ splines::bs(x, 3),              se = FALSE)


4.2 坐标系

ggplot2默认是直角坐标系。

- coord_cartesian()

常用的其它坐标系:


以mpg数据集为例,坐标轴翻转。

# 图1 坐标轴翻转coord_flip()p <- ggplot(mpg, aes(class, hwy)) +  geom_boxplot()pp + coord_flip()

直角坐标下条形图转换为极坐标下玫瑰图。

# 图2 直角坐标条形图-->极坐标玫瑰图p <- ggplot(mpg, aes(class, fill = drv)) +  geom_bar() pp + coord_polar()


4.3 位置调整


条形图的位置调整


# 图1:条形图条形位置调整ggplot(mpg, aes(class, fill = drv)) +  geom_bar()
ggplot(mpg, aes(class, fill = drv)) + geom_bar(position = "dodge")
ggplot(mpg, aes(class, fill = drv)) + geom_bar(position = position_dodge(preserve = "single"))


散点图的散点位置调整


# 图1:散点图的散点位置调整ggplot(mpg, aes(displ, hwy)) +  geom_point()ggplot(mpg, aes(displ, hwy)) +  geom_point(position = "jitter")


用patchwork包排布多个图形

library(patchwork)p1 <-  ggplot(mpg, aes(displ, hwy)) +  geom_point()p2 <-  ggplot(mpg, aes(drv, displ)) +  geom_boxplot()p3 <-  ggplot(mpg, aes(drv)) +  geom_bar()p1 | (p2 / p3)p1 | p2 | p3p1 / p2 / p3p1 / (p2 | p3)

05 

分面


利用分类变量把图形分成若干“子图”(面),实际上就是对数据分组后再画图,属于数据分析里面细分和下钻的思想


5.1 用facet_wrap()函数

封装分面,先生成一维的面板系列,再封装到二维中。

语法形式:~ 分类变量 或者 ~ 分类变量1 + 分类变量2

参数scales设置是否共用坐标刻度,fixed 默认 共用, free 不共用,还可以额通过free_x,free_y单独设置。

# 5.1 封装封面# 图1ggplot(mpg, aes(displ, hwy)) +  geom_point() +  facet_wrap(~ drv)
# 图2ggplot(mpg, aes(displ, hwy)) + geom_point() + facet_wrap(~ drv, scales = "free")
# 图3ggplot(mpg, aes(displ, hwy)) + geom_point() + facet_wrap(~ drv + cyl)


5.2 用facet_grid()函数

网格分面,生成二维的面板网格,面板的行和列通过分面变量定义。

语法形式:行分类变量~列分类变量

# 5.2 网格分面# 图1ggplot(mpg, aes(displ, hwy)) +  geom_point() +  facet_grid(drv ~ cyl)# 图2ggplot(mpg, aes(displ, hwy)) +  geom_point() +  facet_grid(drv ~ .)# 图3ggplot(mpg, aes(displ, hwy)) +  geom_point() +  facet_grid(. ~ cyl)

06

主题


主题用于配置图形的风格。

ggplot2提供了8套可选主题。


可以使用theme()函数定制自己的主题,或者使用ggthemes,ggpubr包提供的主题。


使用主题,只需要添加主题层。


p <- ggplot(mpg, aes(displ, hwy, color = drv)) +  geom_point()p
p + theme_classic()
p + ggthemes::theme_economist()p + ggthemes::theme_economist_white()p + ggthemes::theme_fivethirtyeight()p + ggthemes::theme_stata()






07

输出

ggsave()函数,把当前图形或者图形对象保存为想要格式图形文件,如png,pdf,svg等。

# 用ggsave()函数保存所需格式图形文件p <- ggplot(mpg, aes(displ, hwy, color = drv)) +  geom_point() +  ggthemes::theme_stata()ggsave('my_plot.pdf', plot = p, width = 8, height = 6, dpi = 300)


注意:参数 width 和 height 通常只设置其中一个,另一个自动,以保持原

图形宽高比。


问题:中文文字导出PDF乱码的问题。

因为R 环境只载入了 ”sans (Arial)“,”serif (Times New

Roman)“,”mono (Courier New)“ 三种英文字体,没有中文字体可用。

解决方案:

使用showtext 包从系统字体中载入中文字体。

载入字体后,再执行一下 showtext_auto(),就可以使用该字体了。

ggpplot2 中各种设置主题、文本相关的函数 *_text(), annotate()

等,都提供了 family 参数。

设定为 font_add() 中一致的 family 名字即可。

# 输出PDF包含中文解决方案library(showtext)font_add("heiti", "simhei.ttf")font_add("kaiti", "simkai.ttf")showtext_auto()ggplot(mpg, aes(displ, hwy, color = drv)) +  geom_point() +  theme(axis.title = element_text(family = "heiti"),        plot.title = element_text(family = "kaiti")) +  xlab(" 发动机排量 (L)") +  ylab(" 高速里程数 (mpg)") +  ggtitle(" 汽车发动机排量与高速里程数 ") ggsave("font_example.pdf", width = 7, height = 4)


08

拓展


使用ggplot画图,画出高质量的图。

了解和使用这些R包,可以当做画图的准备工作吧。


  • {ggplot2}, part of the {tidyverse} package collection

  • {tidyverse} package collection, namely

    • {dplyr} for data wrangling

    • {tibble} for modern data frames

    • {tidyr} for data cleaning

    • {forcats} for handling factors

  • {colorspace} for manipulating colors

  • {corrr} for calculating correlation matrices

  • {cowplot} for composing ggplots

  • {ggdark} for themes and inverting colors

  • {ggforce} for sina plots and other cool stuff

  • {ggrepel} for nice text labeling

  • {ggridges} for ridge plots

  • {ggsci} for nice color palettes

  • {ggtext} for advanced text rendering

  • {ggthemes} for additional themes

  • {grid} for creating graphical objects

  • {gridExtra} for additional functions for “grid” graphics

  • {patchwork} for multi-panel plots

  • {rcartocolor} for great color palettes

  • {scico} for perceptional uniform palettes

  • {showtext} for custom fonts

  • {shiny} for interactive apps

  • a number of packages for interactive visualizations

    • {charter}

    • {echarts4r}

    • {ggiraph}

    • {highcharter}

    • {plotly}


上述R包的安装。

# install CRAN packagesinstall.packages(c("tidyverse", "colorspace", "corrr",  "cowplot",                   "ggdark", "ggforce", "ggrepel", "ggridges", "ggsci",                   "ggtext", "ggthemes", "grid", "gridExtra", "patchwork",                   "rcartocolor", "scico", "showtext", "shiny",                   "plotly", "highcharter", "echarts4r"))
# install from GitHub since not on CRANinstall.packages(devtools)devtools::install_github("JohnCoene/charter")


学习素材:

1张敬信 (2022). R 语言编程:基于 tidyverse. 人民邮电出版社 , 北京 

2https://cfss.uchicago.edu/notes/tidy-data/

3https://www.cedricscherer.com/2019/08/05/a-ggplot2-tutorial-for-beautiful-plotting-in-r/


好了,我写完了。

我提供付费咨询和服务。

你我连接,相互交流,创造更多价值。


—END—


  你或许还想看


R语言学习:R语言做数据科学工作流程

R语言学习:2022年值得学习的R包


喜欢本文点个在看

或关注下方公众号


你将感受到一个R语言学习人的灵魂




公众号:R语言

作者:王路情



R语言学习者。

R语言深度使用者。

我用R语言做数据科学和医学科研。

只做付费咨询和服务。

就当你打赏我了。但价值远不止这几两碎银。


合作请加微信:luqin360

ixxmu commented 2 years ago

20220421_072207