Page 82 - 统计创新与高质量发展
P. 82

Statistical Innovation and High Quality Development
                     统计创新与高质量发展


             90)] 语句,可筛选出年龄超出合理范围的记录。对于产品价格,根据市场行
             情和产品特性设定价格区间,如某类产品价格通常在 10 - 1000 元之间,通过
             df[(df['product_price'] < 10) | (df['product_price'] > 1000)] 语句,可找出价格异常

             的记录。
                  (2)修正错误值
                  对于能够明确判断的错误值,可直接进行修改。例如,若发现年龄 “250”
             明显是录入错误,根据实际情况或与受访者核实后,将其修正为正确的年龄值。

             在 Excel 中,直接在单元格中进行修改即可;在 Python 中,使用 loc 或 iloc 函数
             定位到错误值所在位置,进行赋值修改,如 df.loc[df['age'] == 250, 'age'] = 25。
                  对于一些无法确定准确值的错误数据,可采用数据插值或平滑方法进行近似
             修正。以时间序列数据为例,若某一时刻的销售额数据出现错误,可采用线性插

             值法,根据前后时刻的销售额数据,按照时间顺序进行线性推算,得到近似的正
             确值。在 Python 中,使用 interpolate() 函数可实现线性插值。对于噪声较多的数据,
             可采用移动平均法等平滑技术,去除异常波动,使数据更符合整体趋势。
                  4. 噪声数据处理

                  (1)识别噪声数据
                  绘制数据分布图表是识别噪声数据的直观方法。箱线图能够清晰展示数
             据的分布范围、中位数、四分位数等信息,通过观察箱线图中的异常点(位于
             whisker 之外的数据点),可识别出可能的噪声数据。例如,在分析消费者购买

             产品的金额分布时,绘制箱线图后发现部分数据点远远高于其他数据,这些点可
             能就是噪声数据。直方图通过展示数据的频率分布,也能帮助发现数据中的异常
             波动。如在绘制消费者年龄的直方图时,若发现某个年龄段出现异常高或低的频
             率,可能存在噪声数据。

                  (2)处理噪声数据
                  移动平均法是常用的噪声数据处理方法之一。对于时间序列数据,如某产品
             每月的销售数据,通过计算一定时间窗口内的平均值,用该平均值替代窗口内的
             每个数据点,从而平滑数据。在 Python 中,使用 rolling() 函数结合 mean() 函数

             可实现移动平均。例如,df['sales_smoothed'] = df['sales'].rolling(window = 3).mean()
             表示计算过去 3  个月销售数据的移动平均值,并将结果存储在新的列 sales_
             smoothed 中。指数平滑法对近期数据赋予更高权重,更能反映数据的最新趋势,



             74
   77   78   79   80   81   82   83   84   85   86   87