Page 216 - 统计创新与高质量发展
P. 216
Statistical Innovation and High Quality Development
统计创新与高质量发展
> 90) 函数用于从 students 数据框中筛选出 score 列大于 90 的行。
tidyr 包主要用于数据的整理和重塑,使数据的结构更符合分析的需求。例如,
将长格式的数据转换为宽格式,或者进行数据的透视操作等。在处理复杂的统计
分析任务时,stats 包是 R 语言内置的核心统计包,提供了丰富的统计函数。例如,
进行线性回归分析的示例如下:
# 假设我们有自变量 x 和因变量 y
x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 6, 8, 10)
model <- lm(y ~ x)
summary(model)
这里先定义了自变量 x 和因变量 y,然后使用 lm() 函数进行线性回归建模,
公式 y ~ x 表示以 y 为因变量,x 为自变量进行回归。最后使用 summary(model)
查看回归模型的详细摘要信息,包括模型的拟合优度、系数估计值、显著性检验
结果等。
3. 数据可视化包的学习
ggplot2 是 R 中最受欢迎的数据可视化包,它基于一种独特的图层语法,能
够创建出极具美感且复杂精致的图表。绘制学生成绩的散点图,并添加拟合线的
示例如下:
library(ggplot2)
students <- data.frame(
name = c(“Alice”, “Bob”, “Charlie”),
score = c(85, 90, 88)
)
ggplot(students, aes(x = name, y = score)) +
geom_point() +
geom_smooth(method = “lm”)
在这个示例中,首先加载 ggplot2 包,然后创建了包含学生姓名和成绩的数
据框 students。ggplot() 函数用于初始化一个绘图对象,aes() 函数用于指定数据
的映射关系,这里将 name 映射到横坐标,score 映射到纵坐标。geom_point() 函
数用于添加散点图层,绘制数据点。geom_smooth(method = "lm") 函数用于添加
208

