Page 213 - 统计创新与高质量发展
P. 213

第八章  统计教育与培训:构建专业能力


                   import pandas as pd
                   data = pd.read_csv(‘students_scores.csv’)
                   # 查看数据基本信息

                   data.info()
                   # 计算各科目平均成绩
                   average_scores = data.mean()
                   print(average_scores)

                   这里先导入 pandas 库并简写成 pd,然后使用 pd.read_csv() 函数读取 CSV 文
               件的数据到一个 DataFrame 对象中。data.info() 用于查看数据的基本信息,包括
               列名、数据类型、非空值数量等。最后通过 data.mean() 计算 DataFrame 中每列
               数据(即各科目成绩)的平均值。

                   3. 数据可视化库的学习
                   Matplotlib 和 Seaborn 是 Python 中常用的数据可视化库。Matplotlib 库功能
               全面且强大,能够创建各种类型的图表,如折线图、柱状图、散点图、饼图等,
               为数据的直观展示提供了丰富的选择。例如,使用 Matplotlib 绘制学生成绩的柱

               状图:
                   import matplotlib.pyplot as plt
                   subjects = [‘Math’, ‘English’, ‘Science’]
                   scores = [85, 90, 88]

                   plt.bar(subjects, scores)
                   plt.show()
                   在这个示例中,首先导入 matplotlib.pyplot 库并简写成 plt,接着定义了科目
               名称列表 subjects 和对应的成绩列表 scores。通过 plt.bar() 函数创建柱状图,其

               中 subjects 作为横坐标,scores 作为纵坐标。最后使用 plt.show() 显示图表。
                   Seaborn 库则是基于 Matplotlib 进行了更高级的封装,它提供了更加美观、
               简洁的绘图风格以及一些高级的统计图表类型,使得数据可视化更加专业和吸引
               人。用 Seaborn 绘制学生成绩的分布直方图:

                   import seaborn as sns
                   import matplotlib.pyplot as plt
                   scores = [85, 90, 78, 92, 88]



                                                                                      205
   208   209   210   211   212   213   214   215   216   217   218