Page 287 - 测绘新技术的理论与实践研究
P. 287
第八章 互联网背景下测绘智能化关键技术研究
与宿主特征,设计基于语义的信息遍历模型和内容匹配模型,实现对国内外地理
信息网站的自动、持续和精确收录:面向矢量、影像、地名、地址、位置信息、
地理标注、地理数据服务等多模式互联网地理信息,开展地理信息类型自动判别、
共性特征高效提取、多态属性深度解析与噪声信息过滤等模型与方法研究,实现
跨网站、跨语言、跨类型地理信息的动态解析与深度萃取,采用可动态扩展的元
搜索引擎技术,整合谷歌、必应、百度、有道等多个主流搜索引擎,有效解决单
一搜索引擎覆盖范围不全的问题。
(一)构建全球动态地理对象库和地图网站搜索特征词库
在对全球各国行政地区进行分层动态管理的基础上,建立起层次化、不限级
数、支持多语言的地理对象管理模型,实现对自然地理对象(主要水系、道路、
山脉、山峰等)、人文地理对象(城市、居民地、景点、市政设施等)等多个地
理对象的一体化管理;同时,建立包含“地图”“地名”“地址”等词汇的搜索
特征词库,将这两个基础资源库作为对全球地理信息网站进行深度遍历搜索的基
础参照。
(二)多代理支持下的搜索指令分发与结果合并技术
采用多代理机制,构建支持多节点协同工作的元搜索指令动态构建、动态编
组与多节点分发机制,实现面向互联网的元搜索指令快速分发与搜索结果快速合
并机制,以大幅提高对指定地区地图网站的搜索速度。
(三)基于特征模板的页面内容分析与噪声自动过滤
根据元搜索引擎返回 URL 对应的网页信息的特征,提取出“非地图 / 地理
信息网站”URL(即噪声 URL)的 URL 特征和 HTML 内容特征,为每类网站构
建基于关键词的“特征词库”;在此基础上,采用关键词词频统计技术和 URL
分析技术,对网站进行噪声类别归档与自动过滤数据,大幅提高地图网站的识别
正确率和识别效率。
二、元搜索引擎框架设计
采用可动态扩展的元搜索引擎技术,整合谷歌、必应、百度、有道等多个主
流搜索引擎,有效解决单一搜索引擎覆盖范围不全的问题,并以此为基础构建互
联网泛在地理信息拟人式主题网络爬虫实现针对性地理信息网络服务器信息跟踪
与持续变化更新,如对 GE、Open Street Map 等重点网站能够监控和获取其所有
全球用户的上传标注信息。上述设计思路在可实施性角度来讲不仅提高了搜索效
275

