Page 251 - 大数据云计算技术与通信安全研究
P. 251
第九章 大数据与水利水电工程信息化
一是涉水舆情采集。网络舆情主要通过微信、新闻、论坛 /BBS、微博、博客、
即时通信软件等渠道形成和传播,这些通道的承载体主要为动态网页,它们承载
着松散的结构化信息,这使得舆情信息的有效抽取有一定难度。通过设立河湖长
制、水环境、水资源、水利工程、水库等关键词,水利舆情采集与服务平台须实
现动态网页数据的抽取与集成,且要达到较高的处理准确率及抽取效率。
二是涉水舆情数据处理。采集的各种结构化和非结构化数据要先进行数学处
理,如数据去重、标准化等。还需要对涉水的舆情信息进行主题分类,像:可以
按照水土保持、农村水利、饮用水安全、地下水、地表水等内容分类,也可以按
照四川、湖南、江西等省份,或者长江、黄河等流域分类。数据处理的主要目的
是构建舆情数据仓库,为进一步的智能分析和挖掘提供便利。
(三)舆情智能分析
水利舆情的智能分析是水利舆情大数据应用的核心内容,主要包括以下内容:
一是网络舆情发现与追踪。网民讨论的话题繁多,涵盖社会方方面面,水利
舆情大数据平台需从海量信息中,按照舆情的内容找到和水利有关的热点问题、
敏感话题,并对其趋势变化进行追踪,如该内容是否引起足够多的网民关注,转
发率和跟帖量是多少,等等。
二是网络舆情情感分析。通过情感分析可以明确网络传播者所蕴涵的感情、
态度、观点、立场、意图等主观反映。对舆情文本进行情感分析,实际上就是试
图利用计算机技术根据文本的内容提炼出文本作者的情感方向。水利舆情大数据
应用需通过判断网络环境下情感特征词的特点和类型,进行语气判别和标注,从
而构建一个面向互联网的倾向性语气词典,建设一定规模的标准数据集,为情感
分析的深入研究提供支持。
三是舆情监测预警。网络舆情的分析预警是一个融汇复杂网络动力学、人工
智能、数据挖掘、计算机网络、数据库技术、自然语言处理等多学科知识的前沿
领域,涉及网络舆情信息采集、分析、处理、分类、监测和预警的全过程。例如,
通过设置河长关注的舆情监测主题和关键词“黑臭水体”“水污染”“蓝藻”等
词汇,可定时采集门户网站、新闻网站、时事论坛、博客和微博等发布的信息,
通过文本挖掘、关联分析、情感分析、趋势分析等技术生成舆情分析报告,依据
分析结果进行舆情预警,并通过建设大数据网络舆情模型,研究和预测网络舆情
的演化趋势和扩散特征。
237

