2. 信息工程大学地理空间信息学院, 郑州 450001
2. Institute of Surveying and Mapping, Information Engineering University, Zhengzhou 450001
随着我国环境问题的日益严峻,国家为此投入了大量的人力、物力和财力,各方面的工作均取得了长足进步,特别是环境大数据工程的提出,各种类型的 环境数据及相关数据大量产生,数据量正在呈几何阶数增长,日益成为环境保护工程的一项重要的战略性资源。随着环保应用的逐步开展,环境数据在实际应用中的管理要求也不断提高,如何有效组织这些爆炸式增长的大数据,确保用户需要时能快速从“环境大数据全集”中获取有价值的信息,已成为环境大数据应用领域亟待解决的问题。
1 建立我国环境大数据网格组织标准的必要性环保应用是一种典型的多行业、多类型的大数据综合业务应用。当前,仅我国环保应用的空间数据类型就高达几十种,来源于不同的数据生产部门,其组织管理的方式、标准、参考体系也各不相同,给环境大数据的快速形成与综合应用提出了挑战。在环境大数据的形成过程中,首先需要明确一个重要概念:数据多不是大数据,数据集中在一起不是大数据。大数据的核心是指需要时能快速地从“全的数据”中获取有用的信息,这种数据集称为大数据。例如,某部门7个专题数据库,都汇集到了数据中心,但仍然难以快速查询出某一区域所有“全”的数据,更难以综合应用,原因之一是欲整合的这些数据库来自不同部门,它们大多采用不同的数据组织标准,其中网格组织标准的不同是主要制约瓶颈。这些各异的网格标准包括智慧城市的城市网格、遥感网格(景、瓦片等)、地理网格、测绘网格(图幅网格等)、气象网格、水文网格等,这些网格在各自行业内部的空间数据组织管理上发挥了积极作用,但由于它们划分方式不同,数据间尺度不统一,位置不统一,编码不统一,给环境大数据的跨部门检索、整合与共享带来了困难,对建立统一的环境大数据网格组织标准提出了迫切需求。
另外,由于所有的信息都可以关联到某一具体的地域,且地域存在多种形态和尺度,使用现有的基于经纬度位置码的点、线、面组织方法也存在标识不统一及检索复杂等问题,而利用全球剖分网格的全球唯一性、多尺度性和规则性来对大数据进行组织也将是一种技术发展的必然。因此,深入研究更为有效的多源异构环境大数据的一体化组织方法,特别是发展高效的环境大数据组织网格标准,是环境大数据组织亟待解决的瓶颈问题之一。
2 国内外研究现状合理的数据组织管理模式与方法是数据高效应用的基础。国内外许多研究部门与行业都已采用网格方式进行空间大数据的统一组织、管理与应用服务。其中,比较有代表性的就有 NASAEOSDIS的影像大数据网格组织技术、 Google的全球海量空间大数据网格组织技术和 ArcSDE的空间数据网格索引技术等。
2.1 NASA EOSDIS的影像大数据网格组织技术美国航空航天局( NASA)启动的对地观测系统(earth observing system,EOS)是目前民间最大的对地观测系统工程,也是全球数据量最大的民间科学数据库系统,是值得借鉴的现实参考系统之一。其中,EOSDIS是 NASA提供的存取访问全部 EOS数据的解决方案。在数据范围上,EOS数据涵盖了大气、土地利用、植被覆盖、雪冰、海洋等多个地学领域的不同分辨率、不同时间周期的卫星影像数据和野外观测数据,具有全球性、多源性、多尺度性。在数据规模上,EOSDIS目前管理着 24种 EOS仪器测量数据,超过 2000个数据集,总数据量达上千 TB,而且数据量每天都在大幅增长。在空间大数据组织与管理的方法上,EOSDIS采用统一的数据存储组织格式与交换标准:为了有效地管理地理定位数据,并为各种类型的 EOS数据产品在 EOSDIS分布式系统环境中提供一个统一的访问接口,以便用于整体搜索服务、互操作与共享,EOSDIS采用一种扩展的网格数据格式,作为 NASA存储和发布 EOS数据产品的标准格式(图1)[1, 2]。
关于建立我国环境大数据网格组织标准的若干思路丨程承旗,童晓冲,陈波 EOSDIS为海量对地观测信息的分布式网格化组织管理与一体化共享提供了可借鉴的解决方案,其涉及的需求与任务目标与环境大数据中影像数据组织也非常相近,值得借鉴。
2.2 Google的全球海量空间大数据网格组织技术Google采用网格瓦片数据层叠加技术(tile overlays)来组织空间数据,最底层( level 0)采用一个瓦片来表达整个球面,其中心位于经度 0°与纬度 0°,然后每个瓦片按因子 4依次等级细分地球表面。每个瓦片的坐标由所在放大层级下的行列号来确定,列的顺序从左到右,行的顺序从上到下;每个瓦片文件采用列序来命名。在数据组织时,系统采用墨卡托投影 (Spherical Web Mercator projection),每个瓦片按照固 定大小对应一个固定的全球网格,按照“瓦片集名称 \ 放大层级 \行序 \列序”方式组织(图2)[3]。
在数据索引方面,Google 集群利用分布式服务器集群形成虚拟索引数据库,即索引大表 BigTable,实现了 PB级数据索引 [4]。BigTable是一种稀疏的、分布式的、稳定的多维排序表,提供半结构化数据的分布存储与访问接口,其数据模型由行、列族和时间戳构成(图3)。在对空间大数据存储管理时,BigTable中的每一行对应一个地理区域,并将在地理位置上邻接的区域存储为相邻的行,行关键字表示连续的地块;每一行包含多个列族,列族记录每个区域的空间数据源,列族中的每一列对应一幅空间数据;时间戳用来标识不同时期的数据版本(时间戳的类型为 64位整型),例如,在数据查找和维护时,可以通过时间戳检索“最新的 K个数据”或“在某个时间段内的所有数据”,“保留最新的 K个数据”或“将一个数据保留若干时间”。
Google将不同分辨率、多源空间数据在“纵向”上组织在不同的层级,但在“横向”上没有考虑同一层级中多源空间数据的组织问题。因此,空间数据的组织管理需要根据空间数据的空间特性建立相应的数据组织管理模型。
2.3 ArcSDE的空间数据网格索引技术ArcSDE(SDE即 Spatial Database Engine,空间数据库引擎)是 ArcGIS与关系数据库之间的 GIS通道。它允许用户在多种数据管理系统中管理地理信息,并使所有的 ArcGIS应用程序都能够使用这些数据。ArcSDE采用多层次网格对多源数据建立局部网格索引,可以较方便地存储、索引和访问 DBMS中的矢量、栅格、元数据及其他空间数据;同时能保证所有的 GIS功能可用,而无须考虑底层的 DBMS[5]。
Google、NASA EOSDIS等采用网格体系组织全球海量空间数据,取得了非常好的应用效果,但其网格与我国现有的空间数据组织框架的继承与衔接不太方便。ArcSDE采用多层次局部网格索引(图4),具有较好的数据检索性能,但其网格体系为局部网格,不具备全球性,导致数据入库或更新每次都需重建索引。
网格理论方面,武汉大学的李德仁院士提出了 “空间信息多级格网”(spatial information multi-grid,SIMG)的概念 [6, 7]。中国科学院地理所的周成虎研究员从地图设计的角度,提出了地理网格数据模型的研究思路 [8]。中国矿业大学(北京)赵学胜教授研究了全球空间网格 QTM的层次索引机制和层次拓扑推理等问题 [9, 10]。解放军信息工程大学的张永生教授等人研究了全球六边形离散网格系统的单元编码与索引、空间数据整合、三维可视化等问题 [11, 12]。在国家 973计划的支持下,北京大学程承旗教授等提出了 2n一维整型数组经纬度全球剖分网格( Geographical coordinate grid Subdivision by One dimension integer and Two to nth power,GeoSOT),通过三次地球扩展,实现整度、整分的四叉树剖分,形成一个上至地球( 0级)、下至厘米级面元( 32级)的多尺度四叉树剖分网格,并以 GeoSOT网格为基础,开发了由预处理系统、数据库系统、查询系统、表达系统与分发系统等组成的技术原型系统,为海量多源异构高分大数据统一组织提供新的理论方法和技术手段 [13, 14, 15, 16]。
3 标准框架本文设计的环境大数据组织网格是基于 GeoSOT地球剖分网格进行的,主要原因在于与国际上同类地球空间剖分网格方法相比,GeoSOT剖分网格具有下面几个主要优点:
(1)GeoSOT网格符合我国 CGCS2000大地坐标基准。
(2)GeoSOT网格全球覆盖、无缝无叠、尺度完整,与国内外测绘、气象、海洋、国家地理网格等现有网格是继承与扩展关系;网格编码将度、分、秒及秒以下网格进行分段编码,使得整度、整分、整秒的规格数据在区位标识过程中,不存在舍入误差,数据可以精确表示。
(3)GeoSOT网格较好地解决了两极地区的网格剖分问题,两极划分近似均匀。
(4)GeoSOT网格实现了地球空间二维、三维的一体化,形成了立体空间的真三维剖分框架,对环境大数据弥漫整个地球空间的情况非常适合。
(5)GeoSOT网格发展了一套基于二进制位运算机制的编码代数计算方法,实现了空间信息组织、存储、传输、分发、服务等应用的高效“编码化操作”。
(6)基于 GeoSOT网格形成的空间搜索引擎技术,充分利用了整型编码的特性,结合列数据库的特点,可以高效提供空间搜索服务,国产数据库系统通过实验,较现有各类方法可以提高 2~ 3倍。
基于 GeoSOT网格形成的环境大数据组织网格 GeoSOT-EP(environmental protection)利用GeoSOT32 级中的某些特定层级,经过一次 6°×4°划分,一次 16′划分,一次十六分及 4次八分后,得到上至全球,下至 1/16″的八级网格,其中除了第一层是 1:100万 地形图分幅划分,其余皆是 GeoSOT网格,下面是具 体的方案:
第一步划分:如图5所示,按照 1:100万图幅划分,经度方向用 1~ 60编码,纬度方向分南北半球(N,S),按照 A~ V编码,大小为 6°×4°。
第二步划分:如图6所示将 1:100万 6°×4°网格,从左下角划分(东北半球)分成 16×24个网格,两个方向分别用 A~ P、A~ X表示,相当于 GeoSOT第 12层 16′×16′、12′×16′、16′×12′、12′×12′网格,相当于约 32km×32km网格。
第三步划分:如图7所示,将 GeoSOT 16′×16′、 12′×16′、16′×12′、12′×12′网格,分成 4×4个网格,一个方向分别用 A~ P表示,相当于 GeoSOT第 14层 4′×4′网格,相当于约 8km×8km网格。
第四步划分:如图8所示,将 GeoSOT 4′×4′网格,分成 8×8个网格,两个方向分别用 0~ 7表示,相当于 GeoSOT第 16层 32″×32″、32″×28″、 28″×32″、28″×28″网格,相当于约 1024m×1024m网格。
第五步划分:如图9所示,将 GeoSOT 32″×32″、 32″×28″、28″×32″、28″×28″网格,分成 8×8个网格,两个方向分别用 0~ 7表示,相当于 GeoSOT第 19层 4″×4″网格,相当于约 128m×128m网格。
第六步划分:如图10所示,将 4″×4″网格,分成 8×8个网格,两个方向分别用 0~ 7表示,相当于 GeoSOT第 22层 1/2 ″×1/2 ″网格,相当于约 16m×16m网格。
第七步划分:如图11所示,将 1/2″×1/2″网格,分成 8×8个网格,两个方向分别用 0~ 7表示,相当于 GeoSOT第 25层 1/16″×1/16″网格,相当于约 2m×2m网格。
通过以上七步划分与编码,可得 15位 GeoSOT-EP位置编码,最高编码精度 1/16″×1/16″。前七位分别代表半球标识及第一级、第二级、第三级网格编码,后八位先记录第四级至第七级的经向编码,再记录第四级至第七级的纬向编码。
考虑到环境数据是弥漫整个地球空间的情况,GeoSOT-EP需要考虑真三维的环境,GeoSOT-EP真三维网格是在 GeoSOT-3D网格基础上进行设计的。 GeoSOT-3D是在二维平面剖分框架 GeoSOT的基础上扩展高度维编码而形成的立体剖分网格,即将高度维剖分无缝嵌入二维平面剖分,共同组成 GeoSOT-3D立体剖分网格模型。在空间高度上,设定高度单位是度、分、秒。根据与参考椭球参数,可以将空间高度单位转换为千米、米。空间高度以参考椭球中心为 0,最大为 512°,对应高度为 [0km,56 931 km]。在该高度空间中,地球表面在高度为 180°/π附近,最大高度离地面为 50 560公里。
GeoSOT-3D剖分 0级网格定义为:在基于经纬度坐标的地球立体空间中,与其原点重合的 512°方格,0级网格对应信息体区域位置是整个地球立体空间,如图12所示。 GeoSOT-3D剖分 1级网格定义为:在 0级网格基础上平均分为 8份,每个 1级网格大小: 256.;1级网格编码: Gd,其中 d为 0、1、2、3、4、 5、6或 7。例如,G0对应信息体区域位置 :东北半球、高程大于 0.、小于 256.的地球空间; G4对应信息体区域位置 :东北半球、高程大于 256.、小于 512.的地球空间。依此类推,可依次定义 2级、3级直至 32级网格 [17]。GeoSOT-3D不同层级立体部分网格示意图如图13所示。
地球上所有数据均可剖分(逻辑剖分),均可以赋予一个适宜的剖分网格编码,由此形成了空间大数据的剖分组织体系,应用时只需点击某一网格,通过搜索,就可以获得该网格上的所有标识有网格码的数据,从而较容易获得某一网格中的“全数据”。它的好处在于在开展环境大数据资源整合时,对现有系统不必推倒重来,实现方便,低成本,效率高。例如,上面提到的某部门七大数据库,在不推倒重来的基础上,只在每个数据库增加一个编码字段,通过编码自动生成工具,一周时间,就可完成包括遥感数据在内的相关数据库的整合,形成统计意义上的空间大数据。
4.2 应用思路针对环境大数据高效组织与应用的业务需求,将网格技术贯穿于从数据预处理到查询检索、共享与交换、分发、整合等一系列环境大数据组织与应用业务流程。总体研究思路是:依托全球剖分网格及其编码体系,建立统一的环境大数据空间网格编码模型,对环境大数据进行剖分预处理,使得每一个环境大数据都具备全球统一的空间网格编码;将每个环境大数据的空间网格编码都纳入剖分索引大表中,建立起环境大数据与剖分网格的空间索引结构,使得环境大数据都与网格形成强关联关系,由此形成统一的共享交换基础,并在此基础上实现环境大数据的快速查询检索、共享交换及整合;用户的位置亦可转换为导航定位网格编码,并与网格进行对应,利用剖分网格的多尺度特性,可针对用户实际需求,分发用户关心区域网格的数据,实现环境大数据的多尺度分发。最终实现环境大数据“打上编码、按编码查询、按编码交换、按编码分发、按编码整合、按编码计算”,以统一的网格编码贯穿环境大数据应用全过程。
4.3 关键技术本项研究涉及的关键技术主要包括以下几方面:
(1)环境大数据全球网格码编码实现模型及编码计算技术;
(2)环境大数据全球网格码自动生成技术;
(3)环境大数据全球网格码地理信息平台中间件技术;
(4)环境大数据全球网格码数据库索引大表中间件技术;
(5)环境大数据全球网格码空天地立体数据球技术。
4.4 实现方法(1)前端:将环境大数据网格码作为终端环境数据采集的直接位置代码。
(2)后端:在后台环境大数据的数据库中增加一个编码字段,每个数据均赋予剖分网格码,包括所有新生成的数据自动赋予位置码,完成环境大数据组织预处理流程。
(2)在现有环保信息平台上增加一个剖分网格码相关的网格管理中间件,实现基于全球剖分网格码的环境大数据统一网格化查询与汇集。
(3)建立一系列基于剖分网格码的环境大数据时空计算或信息挖掘算法(时间、空间与事件)。
(4)建立面向服务业务或公众的环境大数据剖分网格码服务体系(特别有利于建立众筹的环境大数据汇集机制)。
4.5 应用基础目前,基于地球剖分网格编码的大数据组织方法及其衍生技术正在国家“北斗”二代导航专项、高分专项、地名地址、减灾系统、互联网位置寻址,停车牌、户籍门牌等系统的大数据建设中发挥积极作用。大数据建设涉及领域多、部门多、来源多、数据格式多、数据量大、信息稀疏分散、模型复杂、分析要求高,全球剖分网格码形成的大数据组织技术,已初步显示出应用前景,可为国家环境大数据组织标准建设提供一定的技术借鉴。
5 发展建议(1)政府主导,环保部门在考察成熟技术及成功应用实践的基础上,开展环境大数据网格码组织技术局部应用试验。
(2)在局部应用试验基础上,提前开展相关标准研究,涉及环境大数据相关的云平台操作系统、网络协议、数据库、 GIS平台、移动终端改进标准,也涉及各种业务模型及大数据分析算法改进标准。
(3)开展基于全球网格标准的典型环境大数据服务试点,为进一步推广奠定基础。
[1] | Esfandiari M, Ramapriyan H, Behnke J, et al. Evolving a ten year old data system[C]//Proceedings of 2nd IEEE International Conference on Space Mission Challenges for Information Technology (SMC- IT'06). Pasadena, California: IEEE, 2006:243-250. |
[2] | Lü X F, Cheng C Q, Gong J Y, et al. Review of data storage and management technologies for massive remote sensing data[J]. Science China Technological Sciences, 2011, 54(12): 3220-3232. |
[3] | Sample J T, Loup E. Tile-Base Geospatial Information System: Principle and Practices[M]. New York: Springer, 2010:23-200. |
[4] | Chang F, Dean J, Ghemawat S, et al. Bigtable: a distributed storage system for structured data[J]. ACM Transactions on Computer Systems, 2008, 26(2): 1-14. |
[5] | 崔铁军. 地理空间数据库原理[M]. 北京: 科学出版社, 2007. |
[6] | 李德仁, 朱欣焰, 龚健雅. 从数字地图到空间信息网 格——空间信息多级网格理论思考[J]. 武汉大学学报: 信 息科学版, 2003, 28(6): 642-650. |
[7] | 李德仁, 邵振峰. 空间信息多级网格及其功能[J]. 地理空 间信息, 2005, 3(4): 1-3, 3-5. |
[8] | 周成虎, 欧阳, 马廷. 地理格网模型研究进展[J]. 地理科 学进展, 2009, 28(5): 657-662. |
[9] | 赵学胜. 基于QTM 的球面Voronoi 数据模型[M]. 北京: 测 绘出版社, 2004. |
[10] | 赵学胜, 侯妙乐, 白建军. 全球离散格网的空间数字建 模[M]. 北京: 测绘出版社, 2007. |
[11] | 张永生, 贲进, 童晓冲. 地球空间信息球面离散网格— 理论、算法及应用[M]. 北京: 科学出版社, 2007. |
[12] | Tong X C, Ben J, Wang Y, et al. Efficient encoding and spatial operation scheme for aperture 4 hexagonal discrete global grid system[J]. International Journal of Geographical Information Science, 2013, 27(5): 898-921. |
[13] | 程承旗, 关丽. 基于地图分幅拓展的全球剖分模型及其 地址编码研究[J]. 测绘学报, 2010, 39(3): 295-302. |
[14] | 程承旗, 任伏虎, 濮国梁, 等. 空间信息剖分组织导论[M]. 北京: 科学出版社, 2012. |
[15] | 宋树华, 程承旗, 濮国梁, 等. 全球遥感数据剖分组织的 GeoSOT 网格应用[J]. 测绘学报, 2014, 43(8): 869-876. |
[16] | 程承旗, 郭辉. 基于剖分数据模型的影像信息表达研究[J]. 测绘通报, 2009, (10): 12-14, 17-17. |
[17] | 程承旗, 童晓冲, 翟卫欣. 一种基于地球空间立体剖 分的空间目标索引方法: 中国, CN201410374109.1[P]. 2014-11-26. |