Page 80 - 统计创新与高质量发展
P. 80

Statistical Innovation and High Quality Development
                     统计创新与高质量发展


             关于洗发水的想法或建议吗?” 以收集更多有价值的信息。同时,提供调研人
             员的联系方式,方便受访者在有疑问时进行咨询。


                 二、数据清洗与验证

                 (一)数据清理流程
                  1. 缺失值处理
                  (1)识别缺失值

                  在当今数据量庞大的市场调研中,精准识别缺失值是首要任务。借助专业
             的数据分析软件,如 Python 的 pandas 库,其强大的函数功能能够快速定位数
             据集中的缺失值。以一份包含消费者信息的市场调研数据为例,通过 pandas 的
             isnull() 函数,可生成一个与原始数据集结构相同的布尔值数据集,其中缺失值对

             应的位置为 True,非缺失值位置为 False。这样,能直观地看到哪些变量存在缺
             失值,以及每条记录的缺失情况。例如,在 “消费者年龄” 这一变量列中,可
             能会发现部分单元格被标记为缺失值,这表明这些受访者未提供年龄信息。
                  (2)处理方法

                  删除法:当缺失值在数据集中所占比例极小,且对整体分析影响较小时,直
             接删除包含缺失值的记录是一种简单有效的方法。比如在一个包含 1000 条消费
             者购买行为记录的数据集中,若仅有 5 条记录存在年龄缺失值,删除这 5 条记录
             对整体数据的代表性影响不大。在 Python 中,使用 pandas 库的 dropna() 函数,

             通过设置 axis = 0(表示按行删除),即可轻松删除这些包含缺失值的行。
                  均值 / 中位数 / 众数填充法:对于数值型变量,如消费者的收入,若存在
             较多缺失值,可采用均值或中位数填充。若数据近似服从正态分布,均值能较
             好地反映数据的集中趋势,使用 mean() 函数计算出所有非缺失收入值的均值,

             再用该均值填充缺失值。若数据存在偏态分布,中位数可能更具代表性,通过
             median() 函数计算中位数进行填充。对于分类变量,如消费者的职业,可采用众
             数填充,即使用 mode() 函数找出出现频率最高的职业类别,填充到缺失值位置。
                  预测填充法:利用机器学习算法进行缺失值预测是一种更为智能的方法。以

             K 近邻算法为例,它基于数据的相似性原理,通过寻找与缺失值记录在其他特征
             上最为相似的若干条记录,根据这些相似记录的已知值来预测缺失值。在 Python
             中,可使用 scikit - learn 库实现 K 近邻算法对缺失值的预测填充。首先,将数据



             72
   75   76   77   78   79   80   81   82   83   84   85