Page 208 - 统计创新与高质量发展
P. 208
Statistical Innovation and High Quality Development
统计创新与高质量发展
转换。例如,以下数据步代码用于从一个 CSV 文件中读取数据,并创建一个新
的数据集,同时对数据进行简单的清洗和转换:
data new_data;
infile ‘data.csv’ delimiter=’,’ firstobs=2;
input id age gender $ income;
if age > 0 and age < 120; /* 过滤不合理的年龄数据 */
income = income * 1.1; /* 对收入数据进行调整 */
run;
在上述代码中,infile 语句指定了数据文件的路径和分隔符,input 语句定义
了数据的读取格式,if 语句用于过滤不合理的年龄数据,最后对收入数据进行了
调整。完成数据处理后,可使用过程步(PROC step)调用各种统计分析过程。例如,
以下代码用于计算新数据集中变量的均值和标准差:
proc means data=new_data mean std;
var age income;
run;
在这段代码中,proc means 表示调用均值和标准差计算过程,data 指定了要
分析的数据集,var 指定了需要计算统计量的变量。
3. 学习曲线
由于 SAS 功能强大且语法较为复杂,对于初学者来说,学习曲线相对较陡。
它涉及到许多专业的统计术语和编程概念,需要花费一定的时间和精力去学习和
掌握。然而,一旦掌握了 SAS 的编程技巧和统计分析方法,用户便可以根据自
己的需求灵活定制数据分析流程,实现复杂的数据分析任务。同时,SAS 提供了
丰富的学习资源,包括官方文档、培训课程、在线论坛等,用户可以通过这些资
源不断提升自己的 SAS 技能水平。
(三)R
R 是一种免费、开源的编程语言和软件环境,在数据科学、学术研究、机器
学习等领域深受专业人士的喜爱,其拥有丰富的扩展包和活跃的社区支持,为用
户提供了广阔的数据分析和挖掘空间。
1. 功能特点
丰富的扩展包资源:CRAN(Comprehensive R Archive Network)上拥有数
200

