Page 372 - 大数据背景下网络安全问题研究
P. 372

大数据背景下网络安全问题研究
                    Research on Network Security Issues under the Background of Big Data


             行量化分析。这些文本、图片的处理如果全部通过系统存入数据库,然后通过SQL数
             据访问后进行分词、特征获取,则将占用大量输入输出资源。通过分析可利用终端的
             局部计算能力,提高舆情特征数据预处理的能力,同时利用敏感词分析过滤促进特定
             高敏感信息尽早发现和处理。提高网络社团前端局部计算智能,可对舆情信息按特征

             进行逐层抽取分析,对低价值舆情信息进行过滤,提高信息价值特性分析。







































                                  图 12-1  舆情大数据采集与基本特征挖掘


                  在网络舆情大数据采集处理中,首先对舆情信息利用Hadoop等技术进行分布式采
             集,因为网络舆情本身就分散在网络世界的各个不同的区域,利用分布式采集技术可
             以提高采集效率。同时,因为采集的舆情信息往往存在格式不同、语言结构不同、标
             识量不同等因素,需要对舆情信息进行预处理,将相关数据进行格式转换,对恶意欺

             诈信息进行预标识,对垃圾信息进行清洗过滤。建立Map-Reduce机制,将各层网民
             相关信息处理进行分解映射和规约,解决舆情大数据采集的基本效率问题。将有效的
             舆情数据按其标识值进行分类存放,存入网络社区舆情数据中心。这样,一方面可以

             利用局部的舆情数据中心将规模化的舆情数据有效管理起来,体现分而治之的思想,
             提高舆情数据特征采集效率。另一方面,网络舆情本身具有特定的社区特性,很多舆


             • 360 •
   367   368   369   370   371   372   373   374   375   376   377