INNOVATION CENTER FOR TECHNOLOGY
作者 │ 史未名
2020年11月,在清华同衡第八届学术周“空间规划管理的前沿实践”专场上,技术创新中心大客户经理史未名作了题为《基于业务与需求,实践自然资源数据治理现代化》的主题演讲,提出数据治理是实现治理现代化和规划智慧化的基础,通过分析目前自然资源领域数据治理面临着既有信息化系统繁杂、数据基础薄弱、数据潜力难以挖掘等多重困局,从纵向的汇交和汇聚、横向的联动和共享方面梳理业务需求,提出数据治理的工作流程与方法。本文根据演讲实录整理,已经本人审阅。
各位专家、同仁上午好,很高兴在这里做数据治理话题的分享。我也是同衡的老员工,见证了同衡10年和20年的院庆,希望以后能有机会和在座的各位一起见证30年、40年、50年的院庆。
刚才各位嘉宾讲到了很多关于规划实践的技术前沿,实际上所有的规划前沿实践都涉及到一个非常关键的问题,就是数据基础。目前我们的政府部门、自然资源领域有非常多的数据积累,但是在规划实践过程中数据到底如何使用?如何能够更好地挖掘数据价值、实现科学治理?这就是我们在前沿实践中面临的一个很重要的问题。今天在这里我想探讨一下基于业务与需求的角度,我们如何实践自然资源数据治理的现代化。
数据治理不算是一个非常新的概念,尤其是对于很多的互联网企业,关于数据治理已经有一套成熟的逻辑和做法。总的来讲,要整合政府部门或者企业内的数据,构建一套数据管理的体系。这里包括了数据的规则,包括了相应的数据管理制度和管理工具。从我们的角度来讲,希望能够实现城市治理的现代化和数据治理的科学化。对于数据治理业内很多企业都做了相关工作,他们主要做的是什么?其实,目前我们看到实践比较多的还是社会上的企业,尤其是互联网类企业,他们的确有一套相对来说比较完整的流程,有相应的数据中台、相应的数据标准。但是他们针对的更多是互联网的大数据,还有企业内部的业务数据。同时他们的数据通常都是属性数据而不是空间数据,这点和我们自然资源领域有比较大的差别。
从目前的情况来看,政府部门很少进行专业的数据治理实践,有的话也是刚刚开始尝试。企业已经做了这么多尝试,有非常多的通用工具情况下,为什么政府还在刚刚起步阶段?这并不是说政府在科学治理方面反应的速度比社会上的企业慢很多,而是说政府有政府的困局。首先,政府部门既有的信息化系统非常繁杂,以我们现在做的一个区级自然资源局的数据治理项目为例,一个区级的自然资源局有86套信息化平台,既有自资部统建的系统,也有市里统建的,还有区级政府、区自然资源局自建的系统。各种系统使用频率不同,面向业务不同,数据更新频率也不同,数据的标准规格全都不同。在这种情况下,我们可以想像数据治理的难度。第二,目前政府的业务数据基础是难以支撑业务需求的。对于政府部门来讲业务需求有几块,一个是纵向的贯通,包括上级数据的汇交以及下级的汇聚,还有就是横向联动,也就是和同级委办局之间数据的调用和支撑服务,以及本部门业务数据自主掌控、及时入库和深度挖掘。目前各地政府面临同样的现状,一是底数不清;二是不断产生的业务数据如何存放、如何管理?数据价值如何发挥?三是标准不统一,从数据格式、存放位置到坐标系再到精度其实都不统一;四是缺乏统一的管理,很多的数据存在一数多源的问题。刚才我们说一个地方自资局有86套系统,很多数据重复存放,以哪个为准?还有就是数据汇聚没有规则,也没有规范,这样一个数据现状其实是无法支撑政府业务需求的。
再往下一步就是数据挖掘了,实际上各地政府有很多数据具有很大的挖掘潜力。政府的数据大量是以表单台帐的方式存放的,但实际上这些数据背后有很多空间信息,完全可以进行空间化。对于自然资源领域而言,数据空间化之后才有更大的数据密度和价值。所以说如何积累数据并从中挖掘数据的价值和城市的运行规律,提高我们城市治理水平,也是我们面临的一个问题。
前面说的都是数据治理的困局,下面我们说一下如何来破局。首先,自然资源领域数据治理的建设目标是为业务的开展提供基础性的支撑数据,奠定为智慧城市、数字政府以及决策辅助提供数据的基础。第一要把数据“汇起来”,把不同的数据进行梳理和汇聚,统一出处来源和标准;第二是“管起来”,不同的板块之间的数据进行联动,消除信息烟囱的现象;第三是“用起来”,也就是升维赋能,在数据统一了底版、统一标准以后能够顺畅入库,之后就开始数据挖掘了。
总的来讲,首先第一步我们要做数据资源目录和标准的构建,来实现全流程的闭环管理,然后就是数据治理过程中相应的模型构建,包括数据质量的评价、跟踪的评价以及数据共享的问题。总体思路就是基于业务场景和实际的业务需求来实现治理能力的现代化。
首先我们说业务需求的深入梳理,这点也是我们区别于一般信息化公司来做数据治理的特色。清华同衡深耕自然资源领域20多年,规划管理相关的业务,所以我们对于相关业务是非常了解的。以这个区自资局的项目为例,我们当时在数据治理过程中用了三个月,对28个科室进行调研,访谈了221人次,梳理相应的需求,包括所有系统的信息、系统数据的情况、管理的类型等等,还有内部的构架我们都进行了详细梳理。为什么要梳理业务流程?因为我们要了解每一个业务环节的过程中数据如何产生、如何存放,现在有哪些问题,不同的数据以什么样的格式进行存放?我们必须要把这些事情梳理清楚,然后我们才能够提出后面相应的构建规则。
然后到了数据管理规则的构建了,这里我们要梳理多流数据,然后分析层级结构和数据分类,如果熟悉信息化的同志会比较清晰,这里包括数据资源目录的建立、自检、入库规则,以及我们要做一个数据同一性的认定。
这是我们给一个地方的自然资源局做的数据清单,在摸清了他们的数据家底后,构建了一个数据清单,实际上这个清单非常长,这里就不给大家做一一展示了,这些都要基于业务场景来做相应的工作。数据资源目录构建完成后,数据入库的质量如何评估和判断?这是非常重要的,什么样的数据能够入库?什么样的数据质量是合格的?如果不合格我们怎么样监督反馈?这里首先有一个数据参考体系,我们用非常标准的、权威发布的数据源来进行评估,还有就是规则构建,包括指标的维度和模型的维度,以及最后我们要做一些相关的数据处理。实际上我们在做数据质量校验的时候背后也有全方位的算法库来支撑数据质量的评估。大家如果有兴趣都可以了解,我们同衡的核心算法还是非常强的。
我们在做数据质量评估的时候,不止是做一个单指标、单维度的统计分析,实际上我们会对一个指标进行时空特征的交叉验证。比如说要验证重庆某一个水库的降水量,一方面我们可以和历史上每年的数据进行对比,比如说今年的降水量值高出了往年的50%,可能就是一个异常数据。另一方面,我们会在同一年和空间数据相关联,比如说将它周围100公里范围内其他水库的降水量数据进行横向对比,我们会给出一个数据质量的评估打分,它的质量是高还是低?如果对于部级系统而言实际上是可以反馈到每一个地方的数据。如果说是对一个区,或者是对一个市来讲,可以对于下级的上报数据有一个管控和评估,哪个地方数据的质量相对来说如果是不合格的,我们可以给出相应的验证和反馈,这样对于数据管理来讲也是比较有力的帮助。包括异常数据会报错,或者说异常数据有一个人工校验,形成一个完整的闭环。
数据统一入库之后我们可以做一些深度空间的挖掘,在这之后我们才做到数据管理平台,我们会根据地方进行业务定制。这里给大家看一个简单的定制的数据中台情况,这里包括了数据资源目录灵活扩展的维护,还有数据资源的结构也是可以进行编辑和调整的,包括数据的汇聚有五种方式,相对来说比较便捷。
后面我们说一下展望。为什么要做数据治理的工作?为什么要统一数据底版?实际上不是为了简单的做一个数据汇聚或者统一,是为了基于统一数据底板生长出更多的应用,能够面向更多的业务场景,能够使得我们真正实现治理能力的现代化。比如说总规数据库,总规的数据库在最新的《市级国土空间总体规划编制指南(试行)》已经提出:“根据国土空间规划‘一张图’建设的要求,形成市级总规数据库,作为市级总规的成果组成部分同步上报。”也就是说我们的规划成果之一就是总规数据库。但总规数据库不应该是简单的静态数据集,而是应该能够实现与实际业务联动、动态更新,来满足规划编制和业务调整需求的治理现代化的工具。所以在我们实现了数据治理统一底版,并且有一个灵活可拓展的数据管理中台的基础上,在做总规数据库的时候完全可以做成一个动态的、可更新的,和我们整个的数据体系能够统一对接的系统。这样我们的总规数据库会成为未来规划建设管理中非常有力的动态工具,而不是一个静态的成果展示。
另外就是我们实现数据治理之后,有大量的数据能够做深度挖掘,比如说不动产数据以及其他各种办证的数据,实际上可以作为我们城市更新以及城市社区治理等等的趋势研判工具,然后作为一个依据看成是如何更新,形象如何提升等等,这些方面都会有非常多的拓展应用。这个就是我们做数据治理这件事情真正价值。
我就介绍这些,谢谢大家!
地址:北京市海淀区清河中街清河嘉园东区甲1号楼16-25层 邮编:100085 电话:010-82819000 备案序号:京ICP备 05030709号-1