2. 中国社科院数量经济与技术经济研究所, 北京 100732
2. Insititute of Quantitative & Technical Economics, Chinese Academy of Social Sciences, Beijing 100732
当前,大数据不仅在信息技术、电子商务行业备受瞩目,更成为科研变革、商业革新、政府运作乃至人类思维方式转变的一个热点 [1]。2012年 3月,美国总统奥巴马于白宫正式宣布启动“大数据研究与发展计划”,提出利用大数据技术在科学发现、环境保护等领域大力开展研究,将大数据研究作为国家战略提出。随后,我国也出台了《十二五国家政务信息化建设工程规划》(2012年 5月)、《促进大数据发展行动纲要》( 2015年 7月)等战略性文件,推动大数据在我国各个领域的发展和运用。 2015年 8月,国务院办公厅印发的《生态环境监测网络建设方案》明确指出利用大数据实现生态环境监测与监管有效联动,从政策层面对大数据应用于环境管理领域提出要求。
与此同时,我国环境管理战略逐渐由污染减排总量控制为主向环境质量改善为目标导向转变。环境质量改善的目标导向要求提升环境管理的精细化水平,实现分地区、分类别的差异化管理并实施精准治理。传统的以经验性的预测、决策为主导的粗放式管理思维很难满足新的考核要求。大数据作为新的技术手段和思维方式,打破了传统收集、整合、存储、处理、分析和可视化数据信息的方式,管理的定量化水平和决策的科学性提高,为环境管理逐渐向网络化和智能化转变带来新的机遇。
1 大数据概述人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据( Big Data)时代 [2]。互联网在线用户、各种类型的传感器等,每时每刻都在产生巨量不同类型的数据。根据国际市场研究机构 IDC的统计,2011年全球的数据量为 1.8ZB,并预测到 2020年全球的数据总量将达到 40ZB,届时人均将产生 5.2TB的数据。另外,目前采集到的数据只有少量的结构化数据,85%以上为非结构化和半结构化数据 [2]。
1.1 大数据的概念与基本特征对于如何界定大数据,相关研究者看法不一。麦肯锡、 IDC、维基百科等的定义主要突出其“大”,如麦肯锡认为大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集 [3]。涂子沛则认为作为一种新的价值观和方法论,大数据的本质并不限于数据的规模大,而在于用崭新的思维和技术对海量数据进行整合分析,从中发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展” [4]。赵国栋等也强调数据的功用价值,认为大数据是在多样的或者大量数据中,迅速获取信息的能力 [5]。但得到普遍认可的是大数据具有以下 4“V”特征:数据规模大( Volume)、种类多( Variety)、速度快(Velocity)和价值密度低、应用价值高( Value)。近期颁布的《促进大数据发展行动纲要》也是基于上述四个特征来定义大数据的。
1.2 大数据处理流程及相关技术在各个领域,数据量都逐渐由稀缺走向极大丰富,但这些数据信息本身并不能产生价值,只有对其进行专业化的分析处理,发现数据内在的规律性特点和数据之间的关系 [6],才能够真正产生价值。然而大数据本身海量多源异构等特征决定了其处理过程复杂。传统的数据分析工具,无法在合理时间内收集、管理、处理原始数据,并整理成为帮助企业经营或主管部门决策提供支持的数据 [7],大数据技术的开发与应用势在必行。
大数据的处理流程可划分为数据采集与预处理、数据存储、数据分析以及数据可视化。由此可将大数据技术划分为大数据的采集与预处理技术、存储技术、分析技术、可视化技术等。
大数据的数据来源广泛,其采集主要有四种来源:管理信息系统、 Web 信息系统、物理信息系统、科学实验系统 [8]。获取这些数据通常依靠传感器技术、Web2.0技术、条形码技术、 RFID技术、移动终端技术等 [9]。而从不同来源获取的数据可能结构和类型复杂,会给之后的分析带来困难,需要将其转换为单一的或者便于处理的结构。同时,多源异构的特性导致数据质量存在差异,需要对这些数据进行清洗,如采用聚类或者关联规则分析的方法将冗余及错误数据过滤。当前已有的数据清洗工具有 Data Flux、Data Stage、Informatica Power Center等。
大数据规模大、类型复杂、处理速度快等给存储系统带来挑战,目前可适用大数据环境的技术包括是分布式文件系统、分布式数据库以及访问接口和查询语言等 [8]。最著名的是 Apache Hadoop系列开源平台,包括 Hadoop Common,HDFS,MapReduce,Zookeeper,Avro,Chukwa,HBase等子项目 [10]。
预处理及存储得到的数据是数据分析的原始数据,即需要对这些数据进行深入的处理与分析,这是整个处理流程中最核心的部分。人工智能技术领域的很多技术方法,包括统计分析(如 A/B测试)、数据挖掘(如聚类分析)、机器学习、自然语言处理、神经网络等,都可用于大数据分析。新的技术方法使我们能够对实时数据进行深入分析,对数据变化趋势的分析更可靠。
数据处理流程的最后一步是将分析结果展现给最终用户,巨量数据的分析结果的复杂性使其很难用传统的数据显示方式展示,可视化成为大数据技术重要的研究方向。常见的可视化技术有基于集合 /图标 /图像的技术、面向像素的技术和分布式技术等 [11]。当前成功的应用案例、典型的可视化技术主要包括互联网宇宙、标签云和历史流图等 [12]。
2 环境大数据的界定与特征从 20世纪80年代以来,环境信息技术得到了飞速发展,环保部门开展了多种环境质量监测工作、生态环境调查工作及污染源管理工作,积累了大量数据,包括污染源数据和环境质量数据。近十年来,一些新的环境管理工作,如污染物减排“三大体系”建设、应急管理、辐射管理职能的全面调整、环境诉讼和公众监督的发展、清洁生产和循环经济的兴起、污染源调查工作的筹备等,又都带来了大量新的环境信息。据统计,2015年我国对 367个城市的空气质量进行了在线监控,设置了 145个重点断面水质自动监测站,对 14920家重点污染企业实行在线监控,实时环境数据不断增加并逐步实现了信息的联网发布,环境大数据时代到来。
2.1 环境大数据的界定通过声学传感器、生物传感器、化学传感器、 RFID技术、卫星遥感、视频感知、光学传感器、人工监察等可感知和采集海量环境数据,为大数据应用于环保提供了基础,而大数据技术又为解决当前复杂的环境问题带来了新的机遇。环境大数据即把大数据的核心理念和关键技术应用到环境领域,对海量环境数据进行采集、整合、存储、分析与应用等。
2.2 环境大数据的基本特征环境大数据同样具有大数据的 4“V”特征。
从数据规模来看,据不完全统计,目前各类环保 数据达几十亿条,且将呈爆发式增长,若考虑实际环 境管理中与环保间接相关的经济、社会等数据(如环 保投入金额、居民健康状况),数据的规模将更大。
从数据种类来看,环境大数据涉及部门政务信息、环境质量数据(大气、水、土壤、辐射、声、气象等)、污染排放数据(污染源基本信息、污染源监测、总量控制等各项环境监管信息)、个人活动信息(个人用水量、用电量、废弃物产生量等)等。各级政府部门、社会公众、媒体、环保 NGO等都是可能 的披露主体。它不仅包括关于事物物理、化学、生物等性质和状态的基本测量值,即可用二维表结构进行逻辑表示的结构数据,也包括了随着互联网、移动互联网与传感器飞速发展涌现的各种文档、图片、音频、视频、地理位置信息等半结构化和非结构化数据。
从数据处理速度来看,数据量的快速增长要求对环境数据进行实时的分析并及时作出决策,否则处理的结果就是过时和无价值的,有时延迟的信息甚至会误导用户,比如空气质量的预警预报。
从数据价值来看,无疑环境大数据具有巨大的应用价值,为精细化、定量化管理和科学决策提供了新思路。但同时海量数据特别是其中快速增长的非结构化数据,在保留数据原貌和呈现全部细节以供提取有效信息的同时,也带来了大量没有价值甚至是错误的信息,使其在特定应用中呈现出较低的价值密度。比如各类环境传感器、视频等智能设备可以对特定环境进行 360天×24小时的连续监控,但可能有用的监控信息仅有一两秒。如何利用大数据技术快速地完成环境数据价值的“提纯”是大数据背景下环境管理亟待解决的问题。
另外,IBM的报告提到了数据真实性(Veracity)。环境大数据也存在数据精确性即数据反映客观事实程度的问题。我国现行公开的污染排放数据的真实性及有效性一直备受质疑,扩展数据来源从而实现数据间的校验成为可能的解决途径。
2.3 环境大数据的作用在环境领域,可利用物联网技术将感知到的环境监测、环境管理数据通过处理和集成,再运用合适的数据分析方法进行分析整理后,将分析结果展现给环境用户,指导治理方案的制定,并根据监测到的治理效果动态更新方案。环境大数据的应用,对于政府、企业和公众都有重要意义。
具体来说,对政府而言,大数据可帮助其掌握全面的数据信息,为各项环境政策的制定提供更为科学、更为坚实的数据和技术支撑;实时的监控和分析可以提升环境监管、预警和应急能力;数据量的剧增及互联共享可以加强部门间协作性,提升管理效率等。对企业来说,大数据可实时提供生产各环节能耗和污染排放情况、生产设施和环境设施运行情况等,帮助其降低生产和污染治理成本,也体现企业社会责任。另外,大数据也可以帮助公众准确了解身边的环境状况,并及时获得生活中的注意事项。以下将对环 境大数据在政府环境管理中可能的应用场景进行说明。
3 环境大数据在环境管理中的应用场景“十三五”开始,我国的环境管理战略将逐渐转变为以质量改善为导向。在以质量改善为主的考核标准,迫切要求管理方式从经验型粗放管理向科学、精细化管理转变。而环境系统的分布性、复杂性和动态性使得过去的管理很难达到量化决策、动态调整等要求。环境大数据作为新的技术手段和思维方式,可将海量、互相关联的环境信息进行有效链接,做到数据驱动环境管理与决策,使得环境管理逐渐向数字化、网络化和精细化转变。以下是可能的应用场景。
3.1 在环境规划编制中的应用过去利用环境数据进行规划分析,只能简单的回答“环境发生了什么事情”,并且由于涉及要素有限且以历史的统计数据为主,得到的结论很难精准的反映客观情况。利用大数据系统可以带来研究技术方法的变革,其处理迅速、实时展示、多因素分析、智能决策等作用可促进规划编制的变革。
纳入考虑的环境统计数据实时性更强,另外大量相互关联的自然、经济、社会等数据也纳入分析,得到结论更快、更精准有效。并且,对于“为什么环境会发生这种事情”,大数据系统也进行了回答。若进一步进行数据挖掘与数据分析,将环境数据与污染扩散模型、预测模型等结合,模拟复杂的环境过程,预测环境系统演变的发展方向,还可预言“将来环境发生什么事情”。比如通过仿真模拟新建项目会对环境产生怎样的影响来调整新建项目的数量、规模、选址、环保要求等。最终环境大数据可成为活跃的数据仓库,用来进行“环境想要什么事情发生”。按照这样的思路利用大数据,可以给环境规划提供科学可量化的决策支持,环境质量目标的实现路径清晰可见 [13]。
3.2 在环境质量管理中的应用一方面可应用于环境质量信息的发布。当前城市空气质量信息已基本实现了实时发布,并运用地图进行直观展示,但仍存在监测点布置的科学性不足,密度低等问题。而借助微小传感器以及大数据算法等方式,可得到各细分区域更精确的大气质量状况。微软提出的基于大数据的城市空气质量细粒度计算和预测模型 Urban Air是这一方面的成功案例。 Urban Air模型利用监测站提供的有限的空气质量数据,结合交通流、道路结构、兴趣点分布、气象条件和人们流动规律等大数据,基于机器学习算法建立数据和空气质量的映射关系,从而推断出整个城市细粒度的空气质量。利用少量的环境数据,再结合其他看似与环境数据并不直接相关的异构数据源,就可以建立一个区域的数据分布及空气质量观测值的网络模型,最后得到 1km×1km范围的细粒度 [14]。基于这样的细分区域的高准确度的数据,可为环境管理者在决策中提供科学依据。水、声、固废、辐射等环境质量信息的发布也可借鉴空气质量管理经验,提升环境管理的精细化水平。
另一方面可用于环境质量的预警预报。预测性分析是大数据分析很重要的应用领域,环境预测性分析常用于空气及水环境质量预测。以空气质量预报预警为例,过去主要依靠对历史气象、空气质量监测数据进行统计分析处理,预报的精度及对污染防治的决策支持作用有限。当前,数值预报结合区域地形地貌特征、气象观测数据、空气质量监测数据、污染源数据等,基于大气动力学理论建立大气扩散模型,可预报大气污染物浓度在空气中的动态分布情况,为区域大气污染联防联控等提供更科学的决策支持。
3.3 在污染源生命周期管理中的应用可实现污染源的全生命周期管理,切实提高管理效率。利用物联网等新技术,将污染源在线监测系统、视频监控系统、动态管控系统、工况在线监测系统、刷卡排污总量控制系统等进行整合,形成全方位的智能监测网络,实时收集污染源生命周期的全部数据。然后基于每个节点每时的各类数据,利用大数据分析技术,进行“点对点”的数据化、图像化展示。这有利于快速识别排放异常或超标数据,并分析其产生原因,以帮助环境管理者动态管理污染源企业,有针对性的提出对策。
3.4 在环境应急管理中的应用环境应急包括日常管理、事中应急和事后评估三个阶段。在日常管理中,主要是环境应急人才建设、大数据感知设备的安装以及相关大数据处理技术的应用能力建设,以建立海量信息的实时收集、高效计算、迅速传递、结果可视化和机器预判的能力。实时监测和机器决策有利于及时发现风险隐患,降低突发污染事件产生机率。环境事件发生后,大数据管理系统可快速反应,实现各部门信息的融合分析和实时报告,全面感知应急事故的变化过程,并快速集合多项关键指标信息以辅助决策。在事后评估中,运用大数据可有效判定应急处置工作的状态与实际效果。总之,大数据的应用可提高环境应急的管理效率和智能化水平,从而节省成本和减少不必要的损失。
3.5 在环保公众参与中的应用随着互联网和 GPS设备的普及,NGO或者民众可以发布各类自发式地理信息,比如通过环保随手拍上传的图片等信息。将这些碎片化的异构数据进行整合处理,可验证官方公开数据的质量,或者对已有信息进行详细补充。另外,利用社交媒体上公开的海量数据,也可帮助环保部门了解公众需求,进而提供差异化和精细化的公共服务,改善公众的环保感受。
4 问题与建议将大数据的技术手段和思维方式引入环境管理,为环境管理者、研究人员等提供了认识问题和解决问 题的新思路。但在实际的研究和应用中,还有一些问 题亟待解决。
从数据处理来说,现有的环境数据来源多样、类 型混杂,数字、视频、文本等大量异构数据的共存加 大了处理和利用的难度。这要求研究者结合环境数据 的特性和现有的大数据整合技术,提高快速整合各种 复杂环境信息的能力,为进一步挖掘环境数据价值提 供基础。
从环境数据管理来说,第一,环境数据的质量长期被公众质疑,即使是官方平台公布的数据,篡改、造假等现象也大量存在;第二,政府和企业直接公开的环境数据有限且与公众需求不对称,如污染源排放量的数据,部分省市既不直接公布也很难间接估算;第三,部门之间数据封锁,“信息孤岛”问题普遍存在。这使得环境数据的利用效率降低,也导致分析结果失真的可能性加大。要完善环境大数据管理,一方面需要政府提高自身环境信息的公开程度,激励企业公开环境信息,并建立机制确保公开信息的质量;另一方面,也需要建立利益协调机制,加强部门间合作,推动统一环境信息管理平台的建设。
从大数据的应用现状来说,当前大数据在我国尚处于起步阶段,它在环境管理领域应用的成熟案例较少。存在的主要问题是环境大数据应用方法不清晰,应用工具缺乏,难以清晰反映环境问题并进行深入分析。这需要信息技术和环境学科进一步融合,培养出大数据和环境管理兼通的复合型人才,为大数据在环境管理的深入应用提供智力支持。另外,部分管理者的决策思维仍未转变,已开发的环境大数据工具在驱动科学决策上作用有限。环境管理战略转型以环境质量考核为目标导向,这将迫使环境管理者重视大数据的应用,以实现定量决策和精细管理。
大数据作为环境管理与规划、科研以及支撑环境管理决策的新手段会越来越受到关注,科学有效的应用场景亟待探索开发,在信息公开程度加大、质量不断提升与改进的情况下,大数据在环境管理中的应用将对我国环境管理水平的跨越式发展发挥重要作用。
[1] | 徐继华, 冯启娜, 陈贞汝. 智慧政府: 大数据治国时代的 来临[M]. 北京: 中信出版社, 2014. |
[2] | 李国杰, 程学旗. 大数据研究: 未来科技及经济社会 发展 的重大战略领域——大数据的研究现状与科学思考[J]. 中国科学院院刊, 2012, 27(6): 647-657. |
[3] | Manyika J,Chui M,Brown B, et al.Big data: the next frontier for innovation, c ompetition, and productivity[R]. McKinsey Global Institute, 2011. |
[4] | 涂子沛. 大数据[M]. 桂林: 广西师范大学出版社, 2012. |
[5] | 赵国栋, 易欢欢, 糜万军, 等. 大数据时代的历史机遇[M] . 北京: 清华大学出版社, 2013. |
[6] | 苗国厚, 谢霄男. 大数据技术: 提高互联网治理主动性的 利器[J]. 新闻界, 2014, (23): 37-41. |
[7] | 方巍, 郑玉, 徐江. 大数据: 概念、技术及应用研究综 述[J]. 南京信息工程大学学报( 自然科学版), 2014 , 6(5): 405-419. |
[8] | 中国计算机学会大数据专家委员会. 中国大数据技术与 产业发展白皮书[M]. 2013. |
[9] | 窦万春, 江澄. 大数据 应用的技术体系及潜在问题[J]. 中 兴通讯技术, 2013, 19(4): 8-16. |
[10] | 刘军. Hadoop 大数据处理[M]. 北京: 人民邮电出版社, 2013. |
[11] | 刘勘, 周晓峥, 周洞汝. 数据可视化的研究与发展[J]. 计 算机工程, 2002, 28(8): 1-2, 63-63. |
[12] | 刘智慧, 张泉灵. 大数据技术研究综述[J]. 浙江大学学 报( 工学版), 2014, 48(6): 957-972. |
[13] | 薛云志, 孟令中. 大数据技术在环境规划中的应用与展 望[C] // 全国环境规划院( 所) 长联席会暨中国环境科学 学会环境规划专业委员会 2013 年学术年会论文集. 太 原, 2013: 239-242. |
[14] | 郑宇. 城市计算与大数据[J]. 中国计算机学会通讯, 2013, 9(8): 8-18. |