Page 81 - 统计创新与高质量发展
P. 81
第四章 统计学在市场调研与商业分析中的关键应用
集划分为特征矩阵和目标变量,对于存在缺失值的目标变量列,将已知值部分作
为训练数据,缺失值部分作为测试数据。然后,通过 K 近邻模型进行训练和预测,
将预测结果填充到缺失值位置。
2. 重复值处理
(1)检测重复值
数据处理软件在检测重复值方面发挥着关键作用。以 Excel 为例,使用 “数
据” 选项卡中的 “删除重复项” 功能,可轻松识别重复记录。对于包含多个字
段的市场调研数据,如消费者的姓名、年龄、购买产品等信息,可选择以多个字
段的组合作为判断重复的依据。在 SQL 数据库中,使用 SELECT DISTINCT 语
句,结合需要判断的字段,可筛选出唯一的记录,从而找出重复值。例如,执行
SELECT DISTINCT name, age, product_purchased FROM consumer_data 语句,可
得到去除重复记录后的结果集,通过对比原始数据集与去重后的结果集,即可确
定重复记录。
(2)删除重复值:
确定重复记录后,保留其中一条完整且具有代表性的记录至关重要。在
Python 的 pandas 库中,使用 drop_duplicates() 函数,可根据指定的字段或所有
字段删除重复记录。例如,df = df.drop_duplicates(subset=['name', 'age', 'product_
purchased'], keep='first') 语句表示按 name、age 和 product_purchased 字段组合判
断重复值,并保留第一次出现的记录,删除其余重复记录。这样,确保了数据的
唯一性,避免重复数据对后续分析,如统计消费者购买频率、计算产品平均购买
量等产生偏差。
3. 错误值处理
(1)识别错误值
通过设定合理的逻辑规则,可有效识别数据中的错误值。在市场调研数据
中,若受访者的年龄为负数,这显然不符合现实逻辑,可通过编写条件语句,如
在 Python 中使用 df[df['age'] < 0],筛选出年龄为负数的错误记录。再如,若消费
者表示购买产品的数量为负数,这也是不合理的,可通过类似的逻辑判断筛选出
此类错误数据。
为每个变量设定合理的取值范围是发现错误值的重要手段。以消费者的年
龄为例,通常合理范围在 18 - 90 岁之间,使用 df[(df['age'] < 18) | (df['age'] >
73

