Page 213 - 统计创新与高质量发展
P. 213
第八章 统计教育与培训:构建专业能力
import pandas as pd
data = pd.read_csv(‘students_scores.csv’)
# 查看数据基本信息
data.info()
# 计算各科目平均成绩
average_scores = data.mean()
print(average_scores)
这里先导入 pandas 库并简写成 pd,然后使用 pd.read_csv() 函数读取 CSV 文
件的数据到一个 DataFrame 对象中。data.info() 用于查看数据的基本信息,包括
列名、数据类型、非空值数量等。最后通过 data.mean() 计算 DataFrame 中每列
数据(即各科目成绩)的平均值。
3. 数据可视化库的学习
Matplotlib 和 Seaborn 是 Python 中常用的数据可视化库。Matplotlib 库功能
全面且强大,能够创建各种类型的图表,如折线图、柱状图、散点图、饼图等,
为数据的直观展示提供了丰富的选择。例如,使用 Matplotlib 绘制学生成绩的柱
状图:
import matplotlib.pyplot as plt
subjects = [‘Math’, ‘English’, ‘Science’]
scores = [85, 90, 88]
plt.bar(subjects, scores)
plt.show()
在这个示例中,首先导入 matplotlib.pyplot 库并简写成 plt,接着定义了科目
名称列表 subjects 和对应的成绩列表 scores。通过 plt.bar() 函数创建柱状图,其
中 subjects 作为横坐标,scores 作为纵坐标。最后使用 plt.show() 显示图表。
Seaborn 库则是基于 Matplotlib 进行了更高级的封装,它提供了更加美观、
简洁的绘图风格以及一些高级的统计图表类型,使得数据可视化更加专业和吸引
人。用 Seaborn 绘制学生成绩的分布直方图:
import seaborn as sns
import matplotlib.pyplot as plt
scores = [85, 90, 78, 92, 88]
205

