通往智慧校园的数据之路
来源:精华科技公司 作者:郭磊 发表于:2015.09.03 1695浏览
一、前言
近几年,在各高校数字校园逐步得到普及的情况下,智慧校园经历了概念的提出、研究和发展阶段,目前智慧校园建设已经成为业界共识。
智慧校园虽然从概念和目标上趋于清晰,但是尚未形成像数字校园一样的标准框架体系。构成智慧校园的基础要素有很多,其中数据基础可以说是构建智慧校园最核心的要素之一。本文希望从数据的角度,对智慧校园的建设与发展,提出一个框架模型,以此阐述数据在智慧校园发展过程中的作用和途径。
二、数据总体框架模型
随着高校信息化建设的深入发展,尤其是数字校园三大平台(统一数据、统一门户和统一认证)的建设,数据方面的建设和管理越来越得到关注和重视,同时在这一过程中也产生了诸多的问题和困扰,比如如何对数据资产进行有效的管理,数据未来的建设方向和路径是什么?这些问题都亟需对数据的建设和发展进行一次梳理和探讨,并提出一个具有现实意义的框架模型。
图1总体框架模型
整个框架模型的结构(见图1)共分为五层,分别是低阶应用系统层、数据集成层、数据治理层、数据挖掘层和高阶应用系统层。从数据的角度,分别对应着学校信息化建设的五个阶段。这五层之间是一个递进的关系,下层为上层存在的基础。首先,低阶应用系统层通过数据集成产生了一个低价值、低质量的基础数据层;再通过数据治理产生了一个低价值、高质量的有效数据层;基于有效数据层,通过数据挖掘(广义)产生了一个全新的高价值、高质量数据层——高值数据层;基于高值数据层,衍生出大量的高价值应用系统,组成一个高阶应用层,最终踏入智慧校园和大数据应用的层面。这里面的高价值和低价值、高阶和低阶的概念均为相对而言,并不是否定和贬低处于下层系统的作用和价值,相反越处于下层,其基础作用反而越重要,是构建整个体系框架的基石。
下面对各层的定义、所存在的问题、产生的原因,及其相互作用进行逐一的阐述。
1、低阶应用系统层
首先,最底层的是低阶应用系统层,它包含了一系列的业务应用子系统,如学工、教务、人事、科研、一卡通等等,这些子系统构成了学校最基础的底层数据来源。但是由于数据分散在各个子系统中,带来了一系列的问题,譬如信息孤岛问题、数据标准和主数据不一致等问题,导致数据无法有效沉淀为有价值的数据资产,阻碍了进一步的建设和发展,由此产生了第二个层次结构——数据集成层。
2、数据集成层
数据集成层主要由数据集成与交换(统一数据平台)、单点登陆集成(统一认证平台)和统一的数据标准所构成,目的是将各个子系统中的数据进行贯通,并以统一的标准数据集的形式,沉淀在统一的中心数据库中,形成一个基础数据层。这个基础数据层最大化的形态就是全业务数据库(或称全量数据库)。第二层解决了第一层所面临的数据孤岛、数据标准和主数据不一致等问题,数据能够以标准的形式沉淀为有效的数据资产。经由数据集成后产生的基础数据层,催生了一系列基于此的衍生系统,如统一门户平台、基本校情分析和掌上校园系统等。这些系统目前大多数处于第一代或一代半的阶段,主要原因是直到近几年数据集成层的建设才逐步得以普及,这些基于数据的衍生系统发展时间还较短;此外高级形态的数据衍生类系统,需要更高阶段的整体发展作为支撑,如高价值高质量的数据层、服务集成、应用系统的碎片化等,这里不再一一阐述。
但是,数据集成过程中,也产生了一系列的现实问题:一是数据集成度普遍不高,有些数据源仅集成了其中少部分数据,甚至有些数据源未被集成;二是数据标准不够健全,导致已集成到数据平台上的数据,标准不一致、标准引用错误的情况频发;三是数据质量整体而言较低,空数据、脏数据、数据不完整、数据间不一致和数据时间上不连续等一系列问题大量出现。这些问题导致可以利用的数据种类和数量有限,难以形成深层次利用(如:大数据应用)的广泛基础。导致这些问题的原因,固然有学校对数据集成的经验不足,对其复杂性、长期性和关键要素的认识不够充分,但是更根本的问题还是缺乏解决这些问题的有效方式和手段。这就引发了第三个层次结构——数据治理层。
3、数据治理层
首先,数据治理是一个体系和过程,是一个全局性的组织行为;其次,其行为是对数据的来源、处理和使用进行集中和规范的管理;最后,其目标是形成可重复利用的高质量的有效数据。数据治理层是最容易被忽略的一层,现实中大多数学校的信息化建设往往是以应用结果为导向,这种做法虽然在方法论上很合理,但也导致需要长期建设的基础性工作往往缺失或投入不足。随着学校信息化建设进入新的阶段,学校应设立像网络管理员一样的数据管理员岗位,把数据的管理和治理行为体系化、专业化和常态化,以适应整个社会由网络时代向数据时代转变的大趋势。在这一过程中,需要专门的系统和工具辅助数据管理员进行数据治理,否则单纯依靠人力,根本无法应对庞杂的海量数据。当前这类工具主要包括以下五种:一是用于对数据集成和交换过程进行日常管理的数据集成管理平台;二是用于对数据和数据标准的定义、来源、中转路径、血缘和数据地图等一系列关键要素,进行管理的元数据管理系统;三是用于对核心基础数据(如学生基本信息、教师基本信息等)进行高规范性管理的主数据管理系统;四是用于对数据进行全面质量分析和监控的数据质量监管平台;五是用于数据日常治理行为管理的数据治理管理平台。
通过对数据集成后产生的基础数据层进行一系列有效的数据治理,将产生一个低价值、高质量的有效数据层。但是这个有效数据层与基础数据层相比,并不会产生任何新的有价值的数据,仅相当于一个高质量的基础数据层,这并不足以把整个的信息应用推进到一个更高的层面,因此需要一个对这些数据进行深层次加工和利用的机制,所以就产生了下一个层次结构——数据挖掘层。
4、数据挖掘层
数据挖掘层是整个框架模型中至关重要的一层,是从数据演变为大数据的关键一环。需要特别说明的是,框架模型中的数据挖掘层与传统的数据挖掘系统有两个重要的区别。首先,这里所说的数据挖掘是指广义概念上的数据挖掘,即凡是能从已有数据出发,推导产生出新的有价值信息的过程,均属于广义数据挖掘的范畴。所有简单而基础的统计和分析模型也包含在该数据挖掘层之中,而传统的数据挖掘(狭义)严格上并不包括这些模型。之所以如此,是因为框架模型中的数据挖掘层并非仅为了根据某个特定的问题而推导出一个结论,更重要的目的是为高阶的应用提供一个完整的、高价值的数据层,这也就意味着不能针对某个具体的问题而预设目的和用途。高值数据层所蕴含的信息越丰富,对高阶应用的催化作用就越强,所有的信息在各个应用间是交叉复用的。其次,因为需要产生一个全新的数据层(高价值),所以该数据挖掘层是一个不间断、实时运转的计算平台,所产生的结果数据均实时的存储在一个特定的数据层中。而传统的数据挖掘系统(特别是各类BI工具)大多仅仅是完成分析模型的搭建,在用户执行计算时,给用户呈现出一个计算结果。它既不能做到不间断和实时计算,也不能将计算结果以标准化的形式进行存储,无法进一步利用。而且由于只是为了呈现一个结果,其对计算时间的敏感性不高,通常侧重于模型和算法;对计算的速度虽然也有较高的要求,但往往达不到实时的程度。
图2 数据挖掘层的架构图
数据挖掘层的整个架构(见图2)分为五层。最下层是基础数据层,对应整个数据框架结构中的有效数据层,支持结构化、半结构化和非结构化三种不同形式的数据。通过对这些数据进行抽取和预处理,将这些数据依据数据量和所涉及分析模型的不同,分别抽取到数据层中不同的数据存储结构中。这些数据存储结构一共有四种:
第一种是普通的关系型数据库。用这种方式存储的好处是,构建和维护成本均大大低于其它几种结构,缺点是无法应对大数据量和复杂模型带来的高计算量,所以常用于存储涉及的数据量和计算量均较小的基础分析模型所需要的数据。
第二种是超级数据立方体(cube),也叫多维数据立方体,是数据仓库的一种。这种存储结构相对于普通数据库而言,其应对海量数据和复杂模型的分析效率大幅提升,在特定情况下其效率能获得几百、上千倍的提升。但其缺点也很明显:一是数据存储量随维度的数量呈指数级膨胀;二是每个数据立方体实用维数有限,通常在15维以下(理论上可达255维),否则实际效率会急剧下降,因此可以处理的数据规模和分析模型的复杂度都是有实际限制的。
第三种是图数据库。之所以要引入这种存储结构,是因为现实中大量存在需要表达相互间复杂关联关系的数据,这类数据非常适合用图的结构和算法进行存储和计算,其计算效率是其它数据结构所不能比拟的。
第四种是最关键的一种存储结构——Hadoop + MapReduce(离线)+ Spark(在线)构成的分布式数据系统。这种结构可以应对超大规模的数据量和超高的计算量,理论上可以无限扩展和延伸。当其它结构均面临失效的情况下,这种结构就可以发挥出作用。特别是在智慧校园的背景下,感知类和行为类数据的大量涌现,将会产生许多超大规模的数据源,用常规的存储和计算结构,已经不可能进行支撑。
在数据层之上是挖掘层,由分布式挖掘引擎、挖掘模型和挖掘算法所组成。在这一层也有一个与数据层类似的存储结构即数据高速缓存,在对所有计算模型进行缓存的同时,还支持一种叫做内存模式的计算方式,即支持把分析模型需要的数据集全部提取到内存中进行计算的方式,这也是一种流行的加速数据挖掘计算的结构。与数据层的4种结构一起,组成了整个体系中数据存储和计算的完整结构。
挖掘层之上是知识层,对应的就是整个数据框架结构中的高值数据层。计算产生的新的有价值的结果数据以标准化的结构和形式存储在这一层。再往上分别是展现层和数据服务接口层,分别用于分析结果的直接呈现和第三方高阶应用系统对高值数据层的访问。
5、高阶应用系统层
整个系统框架模型的最上层就是:高阶应用系统层。这一层目前由于学校普遍缺乏基础,还没有明确的成熟系统产生,但可以肯定的是只有大量高阶应用系统的出现,才意味着真正踏入了智慧校园的时代。这一层具备几个基本的特征,分别是服务化、智能化、移动化、泛在化和融合化,这也是与低阶应用系统层的主要区别。这一层蕴含着大量创新的机遇,也是未来信息化的高级形态,其作用本质上带来了社会效率的又一次巨大提升。
三、结束语
通往智慧校园之路,涉及诸多的要素和基础,其中数据之路是一条必由之路。没有数据的支撑和发展,智慧校园就是无源之水。在整个社会向数据时代变革的大背景下,关注和重视数据的建设,必须要上升到战略的高度,进行周密细致和长远的规划,才能在新一轮的浪潮中立于时代的前列。