Page 208 - 统计创新与高质量发展
P. 208

Statistical Innovation and High Quality Development
                     统计创新与高质量发展


             转换。例如,以下数据步代码用于从一个 CSV 文件中读取数据,并创建一个新
             的数据集,同时对数据进行简单的清洗和转换:
                  data new_data;

                      infile ‘data.csv’ delimiter=’,’ firstobs=2;
                      input id age gender $ income;
                      if age > 0 and age < 120; /* 过滤不合理的年龄数据 */
                      income = income * 1.1; /* 对收入数据进行调整 */
                  run;

                  在上述代码中,infile 语句指定了数据文件的路径和分隔符,input 语句定义
             了数据的读取格式,if 语句用于过滤不合理的年龄数据,最后对收入数据进行了
             调整。完成数据处理后,可使用过程步(PROC step)调用各种统计分析过程。例如,

             以下代码用于计算新数据集中变量的均值和标准差:
                  proc means data=new_data mean std;
                      var age income;
                  run;

                  在这段代码中,proc means 表示调用均值和标准差计算过程,data 指定了要
             分析的数据集,var 指定了需要计算统计量的变量。
                  3. 学习曲线
                  由于 SAS 功能强大且语法较为复杂,对于初学者来说,学习曲线相对较陡。

             它涉及到许多专业的统计术语和编程概念,需要花费一定的时间和精力去学习和
             掌握。然而,一旦掌握了 SAS 的编程技巧和统计分析方法,用户便可以根据自
             己的需求灵活定制数据分析流程,实现复杂的数据分析任务。同时,SAS 提供了
             丰富的学习资源,包括官方文档、培训课程、在线论坛等,用户可以通过这些资

             源不断提升自己的 SAS 技能水平。
                 (三)R
                  R 是一种免费、开源的编程语言和软件环境,在数据科学、学术研究、机器
             学习等领域深受专业人士的喜爱,其拥有丰富的扩展包和活跃的社区支持,为用

             户提供了广阔的数据分析和挖掘空间。
                  1. 功能特点
                  丰富的扩展包资源:CRAN(Comprehensive R Archive Network)上拥有数



             200
   203   204   205   206   207   208   209   210   211   212   213