Page 81 - 统计创新与高质量发展
P. 81

第四章  统计学在市场调研与商业分析中的关键应用


               集划分为特征矩阵和目标变量,对于存在缺失值的目标变量列,将已知值部分作
               为训练数据,缺失值部分作为测试数据。然后,通过 K 近邻模型进行训练和预测,
               将预测结果填充到缺失值位置。

                   2. 重复值处理
                   (1)检测重复值
                   数据处理软件在检测重复值方面发挥着关键作用。以 Excel 为例,使用 “数
               据” 选项卡中的 “删除重复项” 功能,可轻松识别重复记录。对于包含多个字

               段的市场调研数据,如消费者的姓名、年龄、购买产品等信息,可选择以多个字
               段的组合作为判断重复的依据。在 SQL 数据库中,使用 SELECT DISTINCT 语
               句,结合需要判断的字段,可筛选出唯一的记录,从而找出重复值。例如,执行
               SELECT DISTINCT name, age, product_purchased FROM consumer_data 语句,可

               得到去除重复记录后的结果集,通过对比原始数据集与去重后的结果集,即可确
               定重复记录。
                   (2)删除重复值:
                   确定重复记录后,保留其中一条完整且具有代表性的记录至关重要。在

               Python 的 pandas 库中,使用 drop_duplicates() 函数,可根据指定的字段或所有
               字段删除重复记录。例如,df = df.drop_duplicates(subset=['name', 'age', 'product_
               purchased'], keep='first') 语句表示按 name、age 和 product_purchased 字段组合判
               断重复值,并保留第一次出现的记录,删除其余重复记录。这样,确保了数据的

               唯一性,避免重复数据对后续分析,如统计消费者购买频率、计算产品平均购买
               量等产生偏差。
                   3. 错误值处理
                   (1)识别错误值

                   通过设定合理的逻辑规则,可有效识别数据中的错误值。在市场调研数据
               中,若受访者的年龄为负数,这显然不符合现实逻辑,可通过编写条件语句,如
               在 Python 中使用 df[df['age'] < 0],筛选出年龄为负数的错误记录。再如,若消费
               者表示购买产品的数量为负数,这也是不合理的,可通过类似的逻辑判断筛选出

               此类错误数据。
                   为每个变量设定合理的取值范围是发现错误值的重要手段。以消费者的年
               龄为例,通常合理范围在 18 - 90  岁之间,使用 df[(df['age'] < 18) | (df['age']  >



                                                                                       73
   76   77   78   79   80   81   82   83   84   85   86