数据质量监管技术护航智慧校园建设
来源:周口师范学院网络管理中心 作者:刘伟 发表于:2015.09.03 1831浏览
一、引言
智慧校园是以物联网为基础的智慧化的校园工作、学习和生活一体化环境,这个一体化环境以各种应用服务系统为载体,将教学、科研、管理和校园生活进行充分融合。智慧校园是数字校园发展到一定阶段的表现,从“感知”获取“数据”,利用“数据”提供“服务”是智慧校园的重要特征。正如我们感觉身体发热、发冷时,需要通过体温计测量身体的温度来判断我们是否生病一样,当大数据时代到来,我们感觉到数据可能在某些方面会存在问题时,面对海量数据,如何设计一个“数据体温计”,如何消除我们的担忧,这是值得讨论的问题。
数据质量监管技术DQST(DATA QUALITY SUPERVISE TECHNOLOGY)作为用于提升智慧校园数据质量的一种技术,如同智能体温计一般将传感器触角延伸到各种数据平台中,快速直接测量出数据的质量等级,为用户进行数据决策、数据治理提供最准确、最科学、最权威的数据依据,为智慧校园建设保驾护航。
二、DQST应用意义
在智慧校园建设过程中,首先要实现数据集成和应用集成,要消除信息孤岛,会出现大量的数据集成化应用。在数据到信息、信息到知识的转化过程中,集成的益处得到了充分发挥,提高了管理质量和管理效率,从而反过来对智慧校园的规划和建设起到了促进和助推作用。随着数据的不断积累和沉淀,由于集成平台自身BUG、各子系统BUG、操作系统BUG、数据库BUG、开发工具兼容性、用户数据质量等大量不可避免的问题的存在,造成部分系统无法与数据平台对接、已对接系统存在主要业务数据缺失、数据清洗和数据质量监管功能缺失等问题。随着时间的推移,数据质量会持续下降,差之毫厘、谬以千里,直至造成无法挽回的数据灾难。
在部分集成平台中可能有一些简单的数据质量监管功能,但无法对整个数据链进行统一监管。即便个别集成平台集成了数据质量控制措施,但由于需求的不断变更造成数据质量控制无法及时跟进,并且始终摆脱不了既当运动员又当裁判员的尴尬局面。这就迫切需要一个专业的、通用的第三方数据质量监管技术对集成平台的数据,进行全方位的数据质量监管。
高校信息化建设的核心元素是数据,所有硬件、软件、流程、算法等都是为数据服务的。在系统设计和应用过程中,数据是评判信息系统整体好坏的重要指标。决策来源于数据,没有正确的高质量的数据,就没有正确的决策。国外流传着一句谚语:Garbage in,garbage out(进去的是垃圾,出来的还是垃圾)。如果我们决策时用的是垃圾,怎能期待好的决策呢?为了监管并发现集成平台存在的各类垃圾数据、错误数据,保证数据的真实、完备,防止数据源缺失,保证数据链的连续,监管数据传输质量及数据一致性,加强重视数据质量问题,利用DQST构建有效的数据质量监管平台是保障智慧校园建设成果的重要举措。
三、DQST定义及工作方式
DQST结合各行业成功的数据质量解决方案,以可定义的、大量的数据监管规则为核心,采用简便且灵活多样的检测方式,为智慧校园下各种平台模式(如:C/S,B/S,多级分布式应用,多级复合架构应用)下的数据平台,特别是跨平台、跨区域的云计算下的大数据平台,进行快捷、自动、安全、全方位的数据质量检测。通过数据质量检测报告的形式展现数据质量的全貌,从而实现智慧校园数据质量监管服务。
DQST通过数据节点的配置将传感器的触角伸向各数据平台,根据各数据平台的数据特点,配置适合的数据质量监管规则包,让DQST自动将各数据平台的数据质量情况定期记录在DQST中,形成相应报表。这样用户就可以通过DQST快速、准确的了解各数据平台的数据质量情况,并可以通过DQST的质量分析功能对各部门、各厂商、各子系统、各区域、各数据中心、各服务器、各数据节点、各错误类型、各检测项分类等的数据质量情况进行相应的业务决策和数据治理。
有了各部门的数据质量情况,我们就能督促相关部门提高自己部门的数据质量;有了各厂商的数据质量情况,我们就可以要求相关厂商完善自己的产品,也有了衡量厂商产品质量的科学依据;有了数据中心、服务器、数据节点的数据质量情况,我们就可以直观、详细的了解到数据质量网络分布情况;有了不同错误类型的数据质量情况,我们就可以详细的了解到数据质量的错误分类情况;尤其是各检测项分类的自定义分类技术,细化多级数据集分类管理,保证客户可以根据自己的管理习惯对纳入数据质量监管的平台数据进行科学化管理。
四、DQST应用核心框架设计
由于集成平台框架的复杂性,DQST应该针对数据集成平台的多种系统框架(BS架构、CS架构、多层架构等)、多种数据库类型(oracle、sqlserver、mysql等),通过数据质量监管规则包、数据质量监管执行包的模式将触角伸向数据集成平台,通过执行引擎、分析引擎、消息引擎完成数据质量的全方位监管,详见图1。
图1 数据质量监管平台框架图
五、DQST核心执行引擎设计
为了保证DQST的执行效率,DQST应该具有一个支持多任务调度的核心执行引擎。DQST应该在接到一个执行任务后,启动执行调度线程,对执行任务进行分解,形成预处理检测单元;数据预处理线程组对预处理检测单元进行数据处理后形成可执行检测单元,再通过执行线程组执行后形成各种的数据质量检测报告,详见图2。
图2 数据质量监管平台执行引擎图
六、DQST规则包设计
规则包作为DQST最核心的内容,是数据监管质量最直接的体现。制定格式统一、内容丰富的规则包,对实现监管数据类型的任意装卸及所有集成数据全方位监管具有非常重大的意义。在实际应用中,根据规则的复杂程度可将规则包分为三类进行定义:通用型、专用型、交叉型。
通用型监管规则主要指监管规则可以通过通用的监测模型对数据质量进行定义,规则模型一旦建立,所有符合此数据规则的数据都可通过该模型进行规则包解析。常见的通用型监管规则有通用数据总量、数据增量、垃圾数据、数据元为空、数据元逻辑错误、范围越界错误、数据一致性错误等。
专用型监管规则主要指监管规则模型不具有通用性,但这项规则对数据质量监管比较重要,需要通过在平台系统中进行复杂的定制才能完成监管的规则包,如重复的科研申报监管规则,就需要根据科研信息的特点,经过设计好的用于重复判断的专用规则包对科研数据进行数据质量监管。
交叉型监管规则主要指针对大数据平台、云端数据平台进行数据质量监管时,需要结合多个数据平台的数据才能制定的复杂监管规则,如异常一卡通卡监管规则,就需要在一卡通系统、学工系统、人事系统、研究生系统等数据子系统中提取信息,根据特定的规则对异常一卡通卡进行数据质量监管。
七、应用
2014年,我校利用DQST搭建了数据质量监管平台,已初步对智慧校园中心数据库进行了监管,保证了各业务系统上传至中心库的数据正确性和完整性,同时也确保从中心库流向其他业务系统的标准数据的准确性和一致性。该平台目前已经监管到学生工作、教学活动、科研活动、人事基本信息、资产信息、一卡通等24类数据集,280张数据表,21655881条记录,主要监管SQL数据错误、数据元错误、数据增量错误、数据总量错误等错误类型。
从监管情况来看,该平台能够及时发现数据所存在的质量问题,以最初的一次检测结果为例:中心库数据错误率为1.37%,在这些错误数据中,“数据为空”占比为55.3%,“SQL数据错误”占比为44%,其余为其他错误。检测报告将每一个错误产生的错误类型、表名都详细列出,可随时查阅用于更正。下一步,我们将逐步扩大数据质量监管平台监管范围到各个业务系统,将检测报告按业务系统进行分类,及时反馈到各业务系统维护部门,及时更正、完善其数据以保证数据质量。
八、结论
通过对DQST的研究并将DQST应用在智慧校园集成平台建设过程中,将数据质量监管的理念渗透到平台的每一个子系统、每一个数据元,以科学的管理手段自动识别系统存在的各种错误数据,为平台的数据治理提供依据。越来越多的迹象表明,智慧校园的一个重要特征是大数据应用,我们只有通过DQST保证原始数据的数据质量,才能在大数据应用中站稳脚跟。DQST是大数据的智能体温计,是智慧校园的护卫舰。