2. IBM中国研究院, 北京 100193
2. IBM Research-China, Beijing 100193
近年来,随着大气污染问题的日益严峻,各种污染物的相互耦合叠加,大气污染现象出现了压缩性、区域性和复合型,为应对当前大气污染形势,国家陆续出台了一系列的政策法规。2013年9月,国务院发布《大气污染防治行动计划》,明确了空气质量评价主要污染物的短期改善目标。2015年8月,中华人民共和国第十二届全国人民代表大会修订通过了《中华人民共和国大气污染防治法》,该法自2016年1月1日起施行。显然,大气污染防治已经成为国家发展战略中的一个重大课题。
在国务院部署的大气污染防治十条措施a中,除从根源上减少大气污染物的排放等措施,政府也强调对重污染天气的应急处理。根据《国务院关于印发大气污染防治行动计划的通知》(国发〔2013〕37号)要求,京津冀、长三角、珠三角区域于2014年年底前完成区域、省、市级重污染天气监测预警系统建设,其他省(区、市)、副省级市、省会城市于2015年年底完成。
近年来,环境空气预报预警系统发挥了重要作用,通过预测空气污染的发生和变化趋势,使政府部门及时启动大气污染应急减排措施,以最低经济成本实现最大的社会效益。在北京、上海、广州等城市实现了环境空气质量预报预警的业务化运行,为北京奥运会、上海世博会、广州亚运会等重大活动提供了有力保障[1]。尽管环境空气预报预警系统取得了较大的进步,但仍存在不足。环境空气质量预报预警是一项复杂的系统工程,复合型大气污染成因来源复杂,影响因素众多,涉及的数据种类繁多,如何深入分析污染规律、总结污染成因和污染来源、如何提高预报准确性、如何对重污染天更好地提供应急决策是当今大气污染防治领域研究的热点与难题。
基于大数据认知技术的大气环境业务应用系统体系能较好地克服已有预报预警系统的不足,原因如下:① 近年来,随着国家对环境监测的重视和投入的增大,长期积累了大量空气污染物实时监测数据,包括空气质量数据、污染源数据、污染物化学组分数据、气象数据以及各种非常规仪器观测数据,且各自均具有复杂的体系,汇总而成海量的大气环境信息,利用大数据分析技术对这些第一手数据资料的快速处理,深入挖掘,充分分析利用,是认识北京及区域大气污染现象和规律最基础,也是最重要的手段。② 认知技术能深度挖掘影响污染物浓度的各因子之间内在的数据关系,建立起较为准确的空气污染物浓度与影响因子之间复杂机理模型的代理模型。深度挖掘提取高级的、语义的空气质量变化的模式和规律,有机融合多种模型及专家知识,实现有效的空气质量分析。③ 信息化技术是复杂信息和业务组织最有效的手段,对于减少繁琐的数据整理环节,丰富数据分析手段,实现数据的生动直观展示,优化业务体系及流程,提高工作效率,均具有不可替代的作用。同时,大气环境科学作为多学科交叉的特点,造成多个专业领域知识系统、标准规范、技术方法、模拟模型的复杂融合,更需要充分利用数据仓库、地理信息、数据挖掘、移动应用等信息化技术,建立系统、完善、有机的空气质量预报预警业务及其他相关的业务应用系统体系,作为各项业务高效、有序开展的工作平台。④ PM2.5是目前以及未来中长期我国面临的最突出、最急迫的大气污染问题,但同时也是新生事物,环保部于2012年3月2日颁布新的《环境空气质量标准(GB 3095-2012)》(简称AQI标准),将开展PM2.5、O3等污染物纳入评价标准,按照新标准,2012年重点城市及京津冀等重点区域于2012年下半年开始了大规模的空气质量监测网络的建设。总体而言,PM2.5的业务监测网络数据积累、预报预警业务,以及城市及区域大气污染状况严重,重污染日发生频率高,是目前大气污染中突出的问题。基于多维认知技术针对一次次典型污染案例,进行多尺度历史污染过程和天气形势全自动化认知分析,为重污染形势研判和应对提供信息服务和技术支撑。⑤ 国内空气质量模型起步较晚,对模型的适用环境把握还不是很准确,多模式预报结合专家经验调整,可以不断完善并提高空气质量的预报预警技术及业务体系,提升科学预霾防霾水平,支撑空气重污染应急工作开展,支持完成重大活动空气质量保障任务,提高大气污染治理决策支持能力。
基于上述原因,本研究基于环境大数据提出一种基于大数据分析与认知技术的大气环境业务应用系统体系。
1 研究进展环境空气质量数值预报预警系统是基于数值预报模式开发的,用于评估和预测局地与区域环境空气质量状况、污染影响空间范围,对潜在的重污染事件进行预警,为管理部门及时采取科学防范控制措施、减少空气污染对人体健康和人们生产生活的影响提供科学与技术支持的平台系统[1]。
目前,现代化的城市空气质量预报预警系统,多基于各类污染预报方法和技术,如潜势预报、数值预报和统计预报[2]等,根据过去空气污染物排放情况以及次日的气象条件、大气扩散状况、地理地貌等因素,来预测次日或未来几日该地区的空气污染程度,发布预报预警产品。
数值预报是一种以空气动力学理论为基础,基于物理化学过程的确定性预报方法,利用数学方法建立大气污染浓度在空气中的稀释扩散的数值模型,通过计算机高速计算来预报大气污染物浓度在空气中的动态变化[2]。国外空气污染预报工作起步较早,目前国内外已经开发出多种数值预报的空气质量模型,如美国环保署(EPA)的CMAQ模式[3, 4]、美国Environ公司的CAMx模式[5]、城市大气质量模型(urban airshed model, UAM) [6]、中国科学院大气物理所自主开发的NAQPMS模式[7]等。世界各地研究机构也逐步开展了多模式集成系统方面的研究,如法国大气环境教育和研究中心开发Polyphemus模式系统,侧重于模式内不同模块、物理化学参数选取的集合集成[8]。当前环境空气质量预报预警系统大多通过采集气象数据、实时污染观测、污染源清单、卫星遥感等数据资料,基于单模式数值预报模型或者集成多模式数值预报模型对未来污染情况进行数值预报,并根据业务需求将预报结果加工制作成预报产品,通过网络平台对外发布[1, 9, 10]。
但是,以上预报预警系统不论分析手段还是所面向的业务应用都比较单一,只考虑污染预报预警技术必须的数据来源采集、处理和最终的预报产品发布,不足以全面剖析污染成因、挖掘污染规律,进一步提升污染预报准确性和为重污染天提供有效应急决策支持。一方面没有综合考虑专家经验的会商结果,也没有集成基于GIS的区域污染监控信息以及天气形势图的参考,同时忽略了对污染基本规律的分析手段,没有将历史的重污染或者典型污染过程的分析过程完整保留下来,进行深度比照;另一方面,从业务应用上,没有对污染成因、污染来源和污染规律进行深度分析与总结,没有挖掘历史规律,提取行业知识。
在这方面,IBM公司提出的认知计算是值得借鉴的一条思路。IBM公司针对空气污染防治提出了“绿色地平线”计划,在该计划中,系统通过认知计算整合优化各类物理、化学、气象、交通、社交等模型,再通过海量数据进行交叉印证,使模型、数据和专家经验以自动训练、自我学习的方式不断积累,从而实现精准的预报预警、溯源减排等业务的决策支持功能[11, 12]。
2 基于大数据认知技术的空气质量预报预警平台方案 2.1 系统架构基于大数据认知技术的空气质量预报预警平台是一种专业先进的大气环境业务应用系统体系,其系统架构分为展示层、系统业务层,支撑层、数据层和设备接口层,如图 1所示。各层模块的信息存在联系,但彼此之间功能独立。
① 设备接口层是支撑所有数据以及应用的硬件平台。通过数据接口,与其他系统的原始数据源灵活对接,将设备数据汇入数据层。
② 数据层即空气质量信息资源中心,完成对北京空气质量资源信息的管理、存储,形成可用的信息资源库,通过提供各类信息服务,实现信息资源的开发利用,达到规范信息表示、实现信息共享、改进工作模式、降低业务成本和提高工作效率的目的。
③ 支撑层为上层应用提供大数据分析和认知技术支撑,包括空气质量大数据分析平台和模型库管理。空气质量大数据分析平台包括空气质量指标体系、大数据分析算法、可视化展示等,通过数据逻辑关系模型,实现多维数据的提取、存储和管理,支持数据可视化和数据统计分析。模型库管理包括对统计模型库、数值模型库、专家知识库等模型库的管理。
④ 系统业务层包括基于大气环境综合分析及应用系统、空气质量预报预警业务应用系统、案例分析系统、空气重污染应急决策支持系统四大应用系统。
⑤ 展示层为环保领域分析预报专家、管理人员、社会公众通过业务系统、对外门户网站、手机应用等不同渠道提供全面的空气质量信息发布与展示。
2.2 应用架构基于大数据认知技术的空气质量预报预警平台是基于数据资源中心提供统一的大数据共享平台,支撑基于大数据融合的综合分析系统、多模型融合空气质量预报预警系统、基于多维认知技术的案例分析系统、区域应急决策支持系统等四大应用。
2.2.1 数据资源中心大气环境分析业务数据和信息分散在不同部门,为改变传统的根据系统进行条块分割造成的对数据利用的限制,建立数据资源中心这样一个大数据共享平台,并建立数据汇交、共享、质控管理机制,提供数据维护管理、数据服务、数据共享功能,从而提升环境信息数据的整合和综合利用能力,为决策者提供360度视图。数据资源中心包括统一的信息资源库和规范的数据运维机制。
(1)统一的信息资源库
空气重污染预报预警平台的数据主要来源于相关部门的各类不同类型的空气质量监测、不同预报系统的产品数据以及基础辅助数据,包括常规空气质量自动监测网络的监测数据、手工采样以及通过研究性监测仪器获得的污染物监测数据、各预报方法的输入与输出数据、污染源排放数据以及基础的地理信息数据等数据。空气质量数据资源库包含观测数据(包括大气环境自动监测数据库、综合观测数据库)、业务产品数据(包括空气质量业务数据、预报业务产品数据)、辅助数据(包括基础地理数据库、环境背景数据库、社会经济统计数据库)、目录和元数据(包括元数据库、目录数据库)、运行支撑管理数据(包括用户信息数据库、权限数据库、系统日志数据库)。
通过统一的信息资源库实现数据维护、数据服务和数据存储管理功能,定义明确的数据管理、数据服务接口。当业务的发展需要建设新的应用系统时,可以充分享用已有的数据资源,最大程度地满足数据共享的需求和数据模型的可扩展性;基于多设备的“存储池”管理方式,规避不同硬件架构带来的异构性,实现自动化分级存储管理。
(2)规范的数据运维机制
规范的数据运维机制包括严格数据的质量审核、原数据的留存、数据归档回调等,支持数据的灵活扩展,以及数据生命周期管理,对数据进行全方位的保护,实现分布式备份和灾难恢复。
2.2.2 多模型融合预报预警子系统本系统是四大业务应用系统之一,基于数据资源中心提供的数据共享服务,融合各类数据,在GIS平台实现多类气象、空气质量数据单独、联合分析,多模式多批次数值预报结果与统计预报结果的发布和评估,以及根据专家意见基于所选模型的预报结果的调优功能,支持高质高效的环境空气质量预报预警会商业务的开展和应用,使分析预报人员可便捷、迅速地获取各类环境信息及专业模型结果,并集中精力展开对数据信息的全面、综合深入的分析。
本系统GIS平台展示融合全国近1500个站点的实时污染监测数据与气象数据,提供以直观、动态的形式实时显示包括观测的各种污染物栅格、地面等温/湿/压线、风速风向、空气质量站点/气象站点值单独或联合展示,为分析预报员提供区域性空气质量监测时空分析。
多模型融合预报预警环境空气质量预报预警系统融合统计预报与数值预报。统计预报模式主要依赖于对历史环境空气质量、气象数据的统计分析处理,从而外推得到对未来空气质量的预报结果。多模式数值分析预报是以大气动力学理论为基础,基于对大气物理和化学过程的理解,建立大气污染物在空气中的输送扩散模型,预报大气污染物浓度在空气中的动态分布和变化趋势。本系统针对中国的NAQPMS、美国的Model-3/CMAQ、CAMx和WRF-Chem四个空气质量模式,采用统一的模式区域设置,模式区域设定为三重嵌套网格,外层网格为内层网格提供边界条件,并由中尺度气象模式WRF为各空气质量模型提供相同的气象背景场,提供多模式集合预报结果。专家调优方法根据专家意见基于所选模型的预报结果进行调整优化。全面支撑高性能多模型融合预报预警会商业务。
2.2.3 基于大数据融合的综合分析子系统本系统也是四大业务应用系统之一,是一个融合各类观测数据进行统一联合分析的大平台。本系统的主要特点是涉及的数据种类多、格式多样且可能会动态变化、数据量大,是一个典型的大数据管理和分析的问题。
本系统包括综合展示、通用分析、专题分析、专家知识库等核心应用模块。支持常规污染物与气象、综合观测仪器等数据的大数据融合分析,可以灵活地实现对多站点、多监测项实现时空联合统计分析、专家知识挖掘等,辅助业务人员的日常工作,发掘数据价值,充分分析污染水平和趋势,了解污染物变化规律,对各类大气环境信息进行综合深入的分析,对于空气质量的影响因素、变化特征有深刻理解。对特定业务问题,支持空气质量专题分析,深度分析污染特征和污染成因。
空气质量监测、污染源监测、综合观测、数据分析与评价等不同的业务组成完整的体系,不同的业务既具有平行关系,也具有互相支撑的关系,通过综合分析及应用系统的建设,实现了监测网络质保质控、环境空气质量评价业务、污染源管理及应用等基础业务的支撑,以及各类大气环境信息的综合分析。
2.2.4 基于多维认知技术的案例分析子系统本系统从多个尺度挖掘了大气复合污染成因及传输规律,可以实现多维度历史污染过程和天气形势全自动化认知分析,助力专业决策。
通过同化融合海量历史数据(如空气质量、气象、遥感监测等),从污染传输、气象条件、遥感反演等多个维度实现对PM2.5、臭氧等多种污染物的历史同期污染过程深度对照,同时对重点城市和区域的污染发生频率、污染水平与特征、发生气象条件、污染类型进行系统性诊断,以及对未来过程与历史污染过程进行全方位自适应匹配,为全国空气质量保障和专家决策提供专业洞察和科学支持。可以迅速为未来15天匹配到历史上最相似的天气及其污染变化趋势,利用国际气候数据分析的沉淀,最终形成空气预警和污染防治的决策建议,助力区域性联防联控的有效开展。
2.2.5 应急决策支持子系统本系统针对不同的污染控制情景,建立情景方案清单,向空气质量数值模拟系统每天业务化提交区域基于应急预案的网格化源清单,并接收和处理模式运行结果,总结评估控制措施达到的效果。
系统通过精准预报了解未来3天的污染严重程度,从可靠溯源了解未来重污染各区域、各行业的贡献率,支持在GIS上展示目标城市污染来源的时空分布、传输路径、时间变化及各区域各行业的贡献率。同时,支持统计分析大区域范围内两两城市之间污染相互贡献及贡献率,充分分析污染来源本地排放与传输占比,助力溯源减排等应急决策业务。
2.3 体系架构为保证系统的先进性,通过对各种主流的体系结构进行分析和对比,系统最终采用浏览器/服务器(B/S)的应用模式和全面的JAVA解决方案。这种体系拥有平台无关性、运算速度快、可升级性好、强大生命力等许多优点。
全面应用JAVA技术,不仅可以使系统具有很好的可移植性、可升级性等特点,同时避免了使用一些可能会降低系统性能或系统安全的其他技术,如ActiveX插件等。这样就可以防止技术环境变得过于复杂,保证了系统的易维护性。
3 系统实现随着大气污染问题成为全社会关注的焦点,作为首都,北京大气环境尤其受到国内国际的高度关注,做好空气质量的预报预警、空气重污染应急、污染控制方案的制定及效果评估等工作,需要开展一系列的科学研究及能力建设项目,为北京及区域的大气污染治理提供科学有效的决策依据,更快地促进北京及周边地区大气环境的改善。
目前,由北京市环境保护监测中心和IBM研究院共同研发的系统平台已部署在北京市环境保护监测中心(如图 2所示为平台界面图)。平台运行的结果表明,北京市空气质量预报预警及决策支持平台达到了研发的预期目标。该平台的技术特点与优势如下:
① 有机融合空气质量监测数据、综合观测数据、污染源数据等各类环境信息,快速汇总成海量的第一手大气环境的数据资料,整合统一的大气环境数据库,建立统一的数据连接和共享规范,构架大气环境大数据共享平台,提高数据利用水平,提升业务效率,有效支持科研。
② 结合高性能计算、认知计算等先进技术,基于多模型组合空气质量数值预报,辅助人工会商,构建高精度空气质量预报预警业务应用体系及重污染应急方案决策支持能力,提高重污染日预报的准确性和可靠性,完善并提高北京市空气质量预报预警能力,为重污染应急的实施提供技术保障。
③ 基于GIS平台开展大气环境观测信息与预测信息的空间分析,支持气象、空气质量数据的灵活联合展示,提升对实时污染的监控能力,并生动、直观地展示区域污染与气象关联的时空演变。
④ 基于大数据深度学习技术,融合多种来源数据,包括空气质量数据、污染源数据、污染物化学组分数据、气象数据、以及各种非常规仪器观测数据,综合分析、深度挖掘北京及区域大气污染现象规律,支持环境数据知识库自动挖掘、与专家知识集成、不断丰富,为北京及区域的大气污染治理提供科学有效的决策依据。
⑤ 基于认知技术,实现多维度历史污染过程和天气形势全自动化认知分析。自动识别空气质量重污染和重大事件案例及其关键特性,在重污染过去之后,能够对重污染过程自动进行传输路径、污染成因、气象条件等多维度系统归纳,并对未来过程与历史污染过程进行全方位自适应匹配,助力区域性联防联控的有效开展。
⑥ 基于云服务模式,多渠道发布空气质量及预报预警信息,提高环境信息服务能力及公众环保参与意识。
4 结论本文针对环境大数据,探讨了大数据认知技术在环保领域的应用,提出了一种基于大数据分析与认知技术的空气质量预报预警平台。底层的数据资源中心融合源于相关部门的各类不同类型的空气质量监测、不同预报系统的产品数据以及基础辅助数据,建立数据汇交、共享、质控管理机制,统一平台数据管理与上层应用的数据共享。
系统实现表明,基于大数据认知技术的空气质量预报预警平台,可以高质高效开展污染预测预警大数据分析与应用,支撑污染成因分析、雾霾提前发布、应急预案制定,为污染形势研判和应对提供信息服务和技术支撑,提升科学预霾防霾水平。
[1] | 解淑艳, 刘冰, 李健军. 全国环境空气质量数值预报预警系统建立探析[J]. 环境监控与预警, 2013, 5(4): 1–3. |
[2] | 任万辉, 苏枞枞, 赵宏德. 城市环境空气污染预报研究进展[J]. 环境保护科学, 2010, 36(3): 9–11. |
[3] | BYUN D W, CHING J K S. Science algorithms of the EPA models-3 community multi-scale air quality (CMAQ) modeling system[R]. EPA/600/R-99/030. Research Triangle Park, NC: Office of Research and Development, US Environmental Protection Agency, 1999. |
[4] | DENNIS R L, BYUN D W, NOVAK J H, et al. The next generation of integrated air quality modeling: EPA's Models-3[J]. Atmospheric environment, 1996, 30(12): 1925–1938. DOI:10.1016/1352-2310(95)00174-3 |
[5] | ENVIRON International Corporation. User's guide comprehensive air quality model with extensions (CAMx), Version 3.00[R]. Novate, California: ENVIRON International Corporation, 2000. |
[6] | SCHEFFE R D, MORRIS R E. A review of the development and application of the urban airshed model[J]. Atmospheric environment, 1993, 27(1): 23–39. |
[7] | 王自发, 谢付莹, 王喜全, 等. 嵌套网格空气质量预报模式系统的发展与应用[J]. 大气科学, 2006, 30(5): 778–790. |
[8] | MALLET V, QUÉLO D, SPORTISSE B, et al. Technical note: the air quality modeling system polyphemus[J]. Atmospheric chemistry and physics, 2007, 7(20): 5479–5487. DOI:10.5194/acp-7-5479-2007 |
[9] | 雷孝恩, 韩志伟, 张美根, 等. 城市空气污染数值预报模式系统[M]. 北京: 气象出版社, 1998: 1-15. |
[10] | 刘娟. 长三角区域环境空气质量预测预警体系建设的思考[J]. 中国环境监测, 2012, 28(4): 135–140. |
[11] | 詹志明, 尹文君. 环保大数据及其在环境污染防治管理创新中的应用[J]. 环境保护, 2016, 44(6): 44–48. |
[12] | IBM绿色地平线主页[EB/OL]. http://www.research.ibm.com/labs/china/greenhorizon.html. |