Page 80 - 统计创新与高质量发展

P. 80

Statistical Innovation and High Quality Development
统计创新与高质量发展

关于洗发水的想法或建议吗？” 以收集更多有价值的信息。同时，提供调研人
员的联系方式，方便受访者在有疑问时进行咨询。

二、数据清洗与验证

（一）数据清理流程
1. 缺失值处理
（1）识别缺失值

在当今数据量庞大的市场调研中，精准识别缺失值是首要任务。借助专业
的数据分析软件，如 Python 的 pandas 库，其强大的函数功能能够快速定位数
据集中的缺失值。以一份包含消费者信息的市场调研数据为例，通过 pandas 的
isnull() 函数，可生成一个与原始数据集结构相同的布尔值数据集，其中缺失值对

应的位置为 True，非缺失值位置为 False。这样，能直观地看到哪些变量存在缺
失值，以及每条记录的缺失情况。例如，在 “消费者年龄” 这一变量列中，可
能会发现部分单元格被标记为缺失值，这表明这些受访者未提供年龄信息。
（2）处理方法

删除法：当缺失值在数据集中所占比例极小，且对整体分析影响较小时，直
接删除包含缺失值的记录是一种简单有效的方法。比如在一个包含 1000 条消费
者购买行为记录的数据集中，若仅有 5 条记录存在年龄缺失值，删除这 5 条记录
对整体数据的代表性影响不大。在 Python 中，使用 pandas 库的 dropna() 函数，

通过设置 axis = 0（表示按行删除），即可轻松删除这些包含缺失值的行。
均值 / 中位数 / 众数填充法：对于数值型变量，如消费者的收入，若存在
较多缺失值，可采用均值或中位数填充。若数据近似服从正态分布，均值能较
好地反映数据的集中趋势，使用 mean() 函数计算出所有非缺失收入值的均值，

再用该均值填充缺失值。若数据存在偏态分布，中位数可能更具代表性，通过
median() 函数计算中位数进行填充。对于分类变量，如消费者的职业，可采用众
数填充，即使用 mode() 函数找出出现频率最高的职业类别，填充到缺失值位置。
预测填充法：利用机器学习算法进行缺失值预测是一种更为智能的方法。以

K 近邻算法为例，它基于数据的相似性原理，通过寻找与缺失值记录在其他特征
上最为相似的若干条记录，根据这些相似记录的已知值来预测缺失值。在 Python
中，可使用 scikit - learn 库实现 K 近邻算法对缺失值的预测填充。首先，将数据

75 76 77 78 79 80 81 82 83 84 85