Page 81 - 统计创新与高质量发展

P. 81

第四章统计学在市场调研与商业分析中的关键应用

集划分为特征矩阵和目标变量，对于存在缺失值的目标变量列，将已知值部分作
为训练数据，缺失值部分作为测试数据。然后，通过 K 近邻模型进行训练和预测，
将预测结果填充到缺失值位置。

2. 重复值处理
（1）检测重复值
数据处理软件在检测重复值方面发挥着关键作用。以 Excel 为例，使用 “数
据” 选项卡中的 “删除重复项” 功能，可轻松识别重复记录。对于包含多个字

段的市场调研数据，如消费者的姓名、年龄、购买产品等信息，可选择以多个字
段的组合作为判断重复的依据。在 SQL 数据库中，使用 SELECT DISTINCT 语
句，结合需要判断的字段，可筛选出唯一的记录，从而找出重复值。例如，执行
SELECT DISTINCT name, age, product_purchased FROM consumer_data 语句，可

得到去除重复记录后的结果集，通过对比原始数据集与去重后的结果集，即可确
定重复记录。
（2）删除重复值：
确定重复记录后，保留其中一条完整且具有代表性的记录至关重要。在

Python 的 pandas 库中，使用 drop_duplicates() 函数，可根据指定的字段或所有
字段删除重复记录。例如，df = df.drop_duplicates(subset=['name', 'age', 'product_
purchased'], keep='first') 语句表示按 name、age 和 product_purchased 字段组合判
断重复值，并保留第一次出现的记录，删除其余重复记录。这样，确保了数据的

唯一性，避免重复数据对后续分析，如统计消费者购买频率、计算产品平均购买
量等产生偏差。
3. 错误值处理
（1）识别错误值

通过设定合理的逻辑规则，可有效识别数据中的错误值。在市场调研数据
中，若受访者的年龄为负数，这显然不符合现实逻辑，可通过编写条件语句，如
在 Python 中使用 df[df['age'] < 0]，筛选出年龄为负数的错误记录。再如，若消费
者表示购买产品的数量为负数，这也是不合理的，可通过类似的逻辑判断筛选出

此类错误数据。
为每个变量设定合理的取值范围是发现错误值的重要手段。以消费者的年
龄为例，通常合理范围在 18 - 90 岁之间，使用 df[(df['age'] < 18) | (df['age'] ＞

76 77 78 79 80 81 82 83 84 85 86