云雨图(Raincloud)_高考分数段举例
connygpt 2024-10-16 08:45 8 浏览
云雨图(Raincloud Plot),是一种很美观的数据可视化技术,用于展示数据的分布情况,特别是用于统计分析中的单变量分布展示。这种图表结合了箱形图(box plot)、散点图(scatter plot)和直方图(histogram)的特点,能够提供比传统图表更丰富的信息。
正好这两天高考分数出来了,并且公布了每个分数的人数,正好通过这个图绘制出来看一下效果。使用的是四川23年和24年文理科的数据,不仅可以对比两年分数分布的变化,也可以看一下文理科的分布差异,具体图形如下↓
【云雨图的主要组成部分】
直方图部分:云雨图的底部是一个半边的直方图,它展示了数据的分布密度。直方图的条形通常从图的中心向外延伸,显示数据点的频率。
密度曲线:在直方图的上方,通常会叠加一条平滑的密度曲线,这条曲线是对数据分布的连续估计,帮助观察者更直观地理解数据的分布形态。
箱形图:在直方图和密度曲线的旁边,云雨图包含了一个箱形图,它展示了数据的中位数、四分位数以及可能的异常值。箱形图的“箱子”部分显示了数据的上四分位数(Q3)和下四分位数(Q1),而中间的线则代表中位数。
散点图:在箱形图的上下两端,云雨图还会用散点图的形式展示数据点。这些散点代表了数据集中的单个观测值,增加了图表的细节和真实感。
【云雨图的优势】
信息丰富:云雨图同时展示了数据的分布、集中趋势和离散程度,使得观察者能够快速把握数据的整体特征。
美观直观:与传统的箱形图或直方图相比,云雨图在视觉上更加吸引人,同时也更易于理解。
灵活性:云雨图可以根据需要调整显示的细节,比如可以隐藏散点图部分,或者调整直方图的宽度等。
【图片生成演示】
先使用模拟的数据,简单举一个例子,看一下数据结构如何↓
library(ggplot2)
library(dplyr)
library(ggdist)
library(showtext)
showtext_auto()
# 生成示例数据
data <- data.frame(
group = rep(c("A", "B"), each = 100),
value = c(rnorm(100, mean = 5, sd = 1), rnorm(100, mean = 7, sd = 1.5))
)
数据结构很简单,就两列,第一列是分类变量,第二列是具体的数值,接下来绘制一个最简单的云雨图,其实就是在ggplot里面,增加了ggdist、geom_boxplot和geom_jitter三个对象的组合,代码和结果如下↓
ggplot(data, aes(x = group, y = value, fill = group)) +
ggdist::stat_halfeye(
adjust = .5,
width = .6,
.width = 0,
justification = -.3,
point_colour = NA
) +
geom_boxplot(
width = .25,
outlier.shape = NA
) +
geom_jitter(
width = .1,
alpha = .3
) +
theme_minimal() +
labs(title = "云雨图Raincloud Plot", x = "分组", y = "数值") +
theme(legend.position = "none")
可以看到,基本已经成型了,但是我们还想再图上展示出中位数和上下四分位数,便于我们判断数据的分布大概范围,首先计算几个数值↓
summary_stats <- data %>%
group_by(group) %>%
summarise(
median = median(value),
q1 = quantile(value, 0.25),
q3 = quantile(value, 0.75)
)
然后就可以通过geom_text把这几个关键值放入图表中了↓
ggplot(data, aes(x = group, y = value, fill = group)) +
ggdist::stat_halfeye(
adjust = .5,
width = .6,
.width = 0,
justification = -.3,
point_colour = NA
) +
geom_boxplot(
width = .25,
outlier.shape = NA
) +
geom_jitter(
width = .1,
alpha = .3
) +
geom_text(data = summary_stats, aes(x = group, y = median, label = round(median, 2)),
color = "black", size = 5, vjust = 0) +
geom_text(data = summary_stats, aes(x = group, y = q1, label = round(q1, 2)),
color = "black", size = 5, vjust = 1.1) +
geom_text(data = summary_stats, aes(x = group, y = q3, label = round(q3, 2)),
color = "black", size = 5, vjust = -0.2) +
theme_minimal() +
labs(title = "云雨图Raincloud Plot", x = "分组", y = "数值") +
theme(legend.position = "none")
如果我们对默认的图形颜色不满意,还可以自定义颜色↓
custom_colors <- c("A" = "blue", "B" = "green")
# 绘制云雨图
ggplot(data, aes(x = group, y = value, fill = group)) +
ggdist::stat_halfeye(
adjust = .5,
width = .6,
.width = 0,
justification = -.3,
point_colour = NA
) +
geom_boxplot(
width = .25,
outlier.shape = NA
) +
geom_jitter(
width = .1,
alpha = .3
) +
geom_text(data = summary_stats, aes(x = group, y = median, label = round(median, 2)),
color = "red", size = 5, vjust = -1.5) +
geom_text(data = summary_stats, aes(x = group, y = q1, label = round(q1, 2)),
color = "red", size = 5, vjust = 1.5) +
geom_text(data = summary_stats, aes(x = group, y = q3, label = round(q3, 2)),
color = "red", size = 5, vjust = 1.5) +
scale_fill_manual(values = custom_colors) +
theme_minimal() +
labs(title = "Raincloud Plot", x = "Group", y = "Value") +
theme(
legend.position = "none",
axis.title = element_text(size = 18), # 设置轴标签字体大小
plot.title = element_text(size = 20) # 设置标题字体大小
)
【实际高考数据演示】
数据是四川2023和2024年分文理科的四张表格,格式如下↓
我们先读入2024年理科的成绩,然后还需要进行数据处理,因为这里每个分数是合计的人数,我们需要处理成一个分数一行的格式↓
df_gaokao_l <- read.delim("clipboard")
expanded_df_l <- df_gaokao_l[rep(row.names(df_gaokao_l), df_gaokao_l$人数), ]
expanded_df_l$kemu <- "24理科"
已经是我们想要的格式了,接下来分别把其他三张表读进来,然后按照同样的方式进行处理,最后把四张表进行合并↓
df_gaokao_w <- read.delim("clipboard")
expanded_df_w <- df_gaokao_w[rep(row.names(df_gaokao_w), df_gaokao_w$人数), ]
expanded_df_w$kemu <- "24文科"
df_gaokao_l <- read.delim("clipboard")
expanded_df_l23 <- df_gaokao_l[rep(row.names(df_gaokao_l), df_gaokao_l$人数), ]
expanded_df_l23$kemu <- "23理科"
df_gaokao_w <- read.delim("clipboard")
expanded_df_w23 <- df_gaokao_w[rep(row.names(df_gaokao_w), df_gaokao_w$人数), ]
expanded_df_w23$kemu <- "23文科"
expanded_df <- rbind(expanded_df_w,expanded_df_l,expanded_df_w23,expanded_df_l23)
最后我们得到了一个101万行的数据表格,每一行就是一个同学的分数,下面进行可视化↓
custom_colors <- c("24理科" = "#4280fc", "24文科" = "#de6021",
"23理科" = "#5e99ad", "23文科" = "#cf997e")
summary_stats <- expanded_df %>%
group_by(kemu) %>%
summarise(
median = median(分数),
q1 = quantile(分数, 0.25),
q3 = quantile(分数, 0.75)
)
ggplot(expanded_df, aes(x = kemu, y = 分数, fill = kemu)) +
ggdist::stat_halfeye(
adjust = .5,
width = .6,
.width = 0,
justification = -.3,
point_colour = NA
) +
geom_boxplot(
width = .25,
outlier.shape = NA
) +
geom_jitter(
width = .1,
alpha = 0.005
) +
geom_text(data = summary_stats, aes(x = kemu, y = median, label = round(median, 2)),
color = "black", size = 10, vjust = 0) +
geom_text(data = summary_stats, aes(x = kemu, y = q1, label = round(q1, 2)),
color = "black", size = 10, vjust = 1.1) +
geom_text(data = summary_stats, aes(x = kemu, y = q3, label = round(q3, 2)),
color = "black", size = 10, vjust = -0.2) +
scale_fill_manual(values = custom_colors) +
theme_minimal() +
labs(title = "2023-2024四川高考文理科分数分布", x = "分组", y = "高考分数") +
theme(
legend.position = "top",
axis.title = element_text(size = 18), # 设置轴标签字体大小
axis.text.x = element_text(size = 20), # 设置X轴标签字体大小
axis.text.y = element_text(size = 20), # 设置X轴标签字体大小
plot.title = element_text(size = 20) # 设置标题字体大小
)
可以看到,理科整体分布比较正态,24年整体分数比23年高20分左右;而文科整体分数比理科低,23年和24年差别不大,但是呈现双峰的分布形态。
我们还可以通过设置coord_flip(),把图形从垂直显示改成水平显示↓
ggplot(expanded_df, aes(x = kemu, y = 分数, fill = kemu)) +
ggdist::stat_halfeye(
adjust = .5,
width = .6,
.width = 0,
justification = -.3,
point_colour = NA
) +
geom_boxplot(
width = .25,
outlier.shape = NA
) +
geom_jitter(
width = .1,
alpha = 0.005
) +
geom_text(data = summary_stats, aes(x = kemu, y = median, label = round(median, 2)),
color = "black", size = 10, vjust = 0) +
geom_text(data = summary_stats, aes(x = kemu, y = q1, label = round(q1, 2)),
color = "black", size = 10, vjust = 0) +
geom_text(data = summary_stats, aes(x = kemu, y = q3, label = round(q3, 2)),
color = "black", size = 10, vjust = 0) +
scale_fill_manual(values = custom_colors) +
coord_flip() + # 将图表改为水平显示
theme_minimal() +
labs(title = "2023-2024四川高考文理科分数分布", x = "分组", y = "高考分数") +
theme(
legend.position = "top",
axis.title = element_text(size = 18), # 设置轴标签字体大小
axis.text.x = element_text(size = 20), # 设置X轴标签字体大小
axis.text.y = element_text(size = 20), # 设置X轴标签字体大小
plot.title = element_text(size = 20) # 设置标题字体大小
)
数据链接如下,可下载使用↓
https://linss.oss-cn-beijing.aliyuncs.com/Excel/2024gaokao.xlsx
链接是我使用PowerBI整合的历史文章,按类型分类,可以根据需求查询:Microsoft Power BI↓
https://app.powerbi.com/view?r=eyJrIjoiNjI2NWQ3NjktYjU0ZC00ZWZhLTgzMDgtMGI4ZTk1ZDlkODM3IiwidCI6IjI3NDQ3MWQ0LTM4ZDQtNDVlZS1hMmJkLWU1NTVhOTBkYzM4NiJ9End
相关推荐
- 自学Python,写一个挨打的游戏代码来初识While循环
-
自学Python的第11天。旋转~跳跃~,我~闭着眼!学完循环,沐浴着while的光芒,闲来无事和同事一起扯皮,我说:“编程语言好神奇,一个小小的循环,竟然在生活中也可以找到原理和例子”,同事也...
- 常用的 Python 工具与资源,你知道几个?
-
最近几年你会发现,越来越多的人开始学习Python,工欲善其事必先利其器,今天纬软小编就跟大家分享一些常用的Python工具与资源,记得收藏哦!不然下次就找不到我了。1、PycharmPychar...
- 一张思维导图概括Python的基本语法, 一周的学习成果都在里面了
-
一周总结不知不觉已经自学Python一周的时间了,这一周,从认识Python到安装Python,再到基本语法和基本数据类型,对于小白的我来说无比艰辛的,充满坎坷。最主要的是每天学习时间有限。只...
- 三日速成python?打工人,小心钱包,别当韭菜
-
随着人工智能的热度越来越高,许多非计算机专业的同学们也都纷纷投入到学习编程的道路上来。而Python,作为一种相对比较容易上手的语言,也越来越受欢迎。网络上各类网课层出不穷,各式广告令人眼花缭乱。某些...
- Python自动化软件测试怎么学?路线和方法都在这里了
-
Python自动化测试是指使用Python编程语言和相关工具,对软件系统进行自动化测试的过程。学习Python自动化测试需要掌握以下技术:Python编程语言:学习Python自动化测试需要先掌握Py...
- Python从放弃到入门:公众号历史文章爬取为例谈快速学习技能
-
这篇文章不谈江流所专研的营销与运营,而聊一聊技能学习之路,聊一聊Python这门最简单的编程语言该如何学习,我完成的第一个Python项目,将任意公众号的所有历史文章导出成PDF电子书。或许我这个Py...
- 【黑客必会】python学习计划
-
阅读Python文档从Python官方网站上下载并阅读Python最新版本的文档(中文版),这是学习Python的最好方式。对于每个新概念和想法,请尝试运行一些代码片段,并检查生成的输出。这将帮助您更...
- 公布了!2025CDA考试安排
-
CDA数据分析师报考流程数据分析师是指在不同行业中专门从事行业数据搜集、整理、分析依据数据作出行业研究评估的专业人员CDA证书分为1-3级,中英文双证就业面广,含金量高!!?报考条件:满18...
- 一文搞懂全排列、组合、子集问题(经典回溯递归)
-
原创公众号:【bigsai】头条号:程序员bigsai前言Hello,大家好,我是bigsai,longtimenosee!在刷题和面试过程中,我们经常遇到一些排列组合类的问题,而全排列、组合...
- 「西法带你学算法」一次搞定前缀和
-
我花了几天时间,从力扣中精选了五道相同思想的题目,来帮助大家解套,如果觉得文章对你有用,记得点赞分享,让我看到你的认可,有动力继续做下去。467.环绕字符串中唯一的子字符串[1](中等)795.区...
- 平均数的5种方法,你用过几种方法?
-
平均数,看似很简单的东西,其实里面包含着很多学问。今天,分享5种经常会用到的平均数方法。1.算术平均法用到最多的莫过于算术平均法,考试平均分、平均工资等等,都是用到这个。=AVERAGE(B2:B11...
- 【干货收藏】如何最简单、通俗地理解决策树分类算法?
-
决策树(Decisiontree)是基于已知各种情况(特征取值)的基础上,通过构建树型决策结构来进行分析的一种方式,是常用的有监督的分类算法。决策树算法是机器学习中的一种经典算法,它通过一系列的规则...
- 面试必备:回溯算法详解
-
我们刷leetcode的时候,经常会遇到回溯算法类型题目。回溯算法是五大基本算法之一,一般大厂也喜欢问。今天跟大家一起来学习回溯算法的套路,文章如果有不正确的地方,欢迎大家指出哈,感谢感谢~什么是回溯...
- 「机器学习」决策树——ID3、C4.5、CART(非常详细)
-
决策树是一个非常常见并且优秀的机器学习算法,它易于理解、可解释性强,其可作为分类算法,也可用于回归模型。本文将分三篇介绍决策树,第一篇介绍基本树(包括ID3、C4.5、CART),第二篇介绍Ran...
- 大话AI算法: 决策树
-
所谓的决策树算法,通俗的说就是建立一个树形的结构,通过这个结构去一层一层的筛选判断问题是否好坏的算法。比如判断一个西瓜是否好瓜,有20条西瓜的样本提供给你,让你根据这20条(通过机器学习)建立起...
- 一周热门
- 最近发表
- 标签列表
-
- kubectlsetimage (56)
- mysqlinsertoverwrite (53)
- addcolumn (54)
- helmpackage (54)
- varchar最长多少 (61)
- 类型断言 (53)
- protoc安装 (56)
- jdk20安装教程 (60)
- rpm2cpio (52)
- 控制台打印 (63)
- 401unauthorized (51)
- vuexstore (68)
- druiddatasource (60)
- 企业微信开发文档 (51)
- rendertexture (51)
- speedphp (52)
- gitcommit-am (68)
- bashecho (64)
- str_to_date函数 (58)
- yum下载包及依赖到本地 (72)
- jstree中文api文档 (59)
- mvnw文件 (58)
- rancher安装 (63)
- nginx开机自启 (53)
- .netcore教程 (53)