Page 83 - 统计创新与高质量发展
P. 83
第四章 统计学在市场调研与商业分析中的关键应用
在 Python 中可使用 statsmodels 库中的 SimpleExpSmoothing 函数实现。
根据数据的上下限范围,将超出范围的异常值进行截断或调整。例如,若某
产品的正常销售价格在 10 - 100 元之间,对于价格为 500 元的异常值,可将其截
断为 100 元,使其符合数据的整体特征。在 Python 中,通过条件判断和赋值语
句实现,如 df.loc[df['product_price'] > 100, 'product_price'] = 100。
(二)数据验证
1. 逻辑一致性验证
(1)检查数据逻辑关系
在市场调研数据中,数据之间的逻辑关系至关重要。例如,在一份关于消
费者购买和使用产品的调研中,若受访者表示购买了某产品,但后续又回答从
未使用过该产品,这就存在逻辑矛盾。通过编写条件语句,在 Python 中使用
df[(df['product_purchased'] == 'Yes') & (df['product_used'] == 'No')],可筛选出存在
此类逻辑不一致的记录。对于复杂的逻辑关系,可通过编写自定义函数进行判断。
如在一个涉及消费者购买频率和购买数量的调研中,定义一个函数判断购买频率
与购买数量是否匹配,若购买频率为 “每周一次”,而购买数量为 “0”,则不
符合逻辑。
(2)交叉验证
利用不同变量之间的相互关系进行交叉验证是确保数据准确性的有效手段。
以消费者购买产品的金额、数量和单价为例,购买金额应等于购买数量乘以单价。
在 Python 中,使用 df['calculated_amount'] = df['product_quantity'] * df['product_
price'] 计算出理论上的购买金额,再通过 df[df['purchase_amount']!= df['calculated_
amount']] 筛选出实际购买金额与计算金额不一致的记录,进一步核实数据是否存
在问题。对于涉及多个变量的复杂交叉验证,可通过构建数据模型进行验证,如
线性回归模型,验证变量之间的线性关系是否符合预期。
2. 数据范围验证
(1)设定合理范围
根据实际情况和业务知识,为每个变量设定合理的数据范围是数据验证的
基础。对于消费者的年龄,考虑到市场调研的对象通常为成年人,设定合理范
围在 18 - 90 岁之间。对于产品价格,参考市场同类产品的价格区间、产品成本
以及品牌定位等因素,设定合理价格范围。例如,某品牌中低端化妆品的价格
75

