Page 251 - 大数据云计算技术与通信安全研究
P. 251

第九章  大数据与水利水电工程信息化



                  一是涉水舆情采集。网络舆情主要通过微信、新闻、论坛 /BBS、微博、博客、
              即时通信软件等渠道形成和传播,这些通道的承载体主要为动态网页,它们承载
              着松散的结构化信息,这使得舆情信息的有效抽取有一定难度。通过设立河湖长
              制、水环境、水资源、水利工程、水库等关键词,水利舆情采集与服务平台须实

              现动态网页数据的抽取与集成,且要达到较高的处理准确率及抽取效率。
                  二是涉水舆情数据处理。采集的各种结构化和非结构化数据要先进行数学处
              理,如数据去重、标准化等。还需要对涉水的舆情信息进行主题分类,像:可以
              按照水土保持、农村水利、饮用水安全、地下水、地表水等内容分类,也可以按

              照四川、湖南、江西等省份,或者长江、黄河等流域分类。数据处理的主要目的
              是构建舆情数据仓库,为进一步的智能分析和挖掘提供便利。
                  (三)舆情智能分析
                  水利舆情的智能分析是水利舆情大数据应用的核心内容,主要包括以下内容:

                  一是网络舆情发现与追踪。网民讨论的话题繁多,涵盖社会方方面面,水利
              舆情大数据平台需从海量信息中,按照舆情的内容找到和水利有关的热点问题、
              敏感话题,并对其趋势变化进行追踪,如该内容是否引起足够多的网民关注,转
              发率和跟帖量是多少,等等。

                  二是网络舆情情感分析。通过情感分析可以明确网络传播者所蕴涵的感情、
              态度、观点、立场、意图等主观反映。对舆情文本进行情感分析,实际上就是试
              图利用计算机技术根据文本的内容提炼出文本作者的情感方向。水利舆情大数据
              应用需通过判断网络环境下情感特征词的特点和类型,进行语气判别和标注,从

              而构建一个面向互联网的倾向性语气词典,建设一定规模的标准数据集,为情感
              分析的深入研究提供支持。
                  三是舆情监测预警。网络舆情的分析预警是一个融汇复杂网络动力学、人工
              智能、数据挖掘、计算机网络、数据库技术、自然语言处理等多学科知识的前沿

              领域,涉及网络舆情信息采集、分析、处理、分类、监测和预警的全过程。例如,
              通过设置河长关注的舆情监测主题和关键词“黑臭水体”“水污染”“蓝藻”等
              词汇,可定时采集门户网站、新闻网站、时事论坛、博客和微博等发布的信息,
              通过文本挖掘、关联分析、情感分析、趋势分析等技术生成舆情分析报告,依据

              分析结果进行舆情预警,并通过建设大数据网络舆情模型,研究和预测网络舆情
              的演化趋势和扩散特征。


                                                                                     237
   246   247   248   249   250   251   252   253   254   255   256