首页 >教育信息化 >本期目录>正文

大数据时代高校数据治理与数据价值发现

来源:北京建筑大学 作者:魏楚元 发表于:2016.12.29  631浏览

一、对大数据与大数据时代的认识

我们处在一个大数据的时代,拥有大数据是这个时代的特征,解读大数据是这个时代的任务,应用大数据是这个时代的机遇和使命。而我们对大数据的认识还需要进一步加深。

大数据是需要新的处理思维和技术的信息资产。大数据的“大”不是简单指数据量很大。反映真实世界的数据(碎片),其量已达到可以从一定程度上反映其真实面貌的程度,这是一个从量变到质变的过程。这些数据不是我们简简单单就能看得见,而且一下子就能发现其价值的,数据的真实面貌及其价值一定是在碎片化的数据中通过机器学习、人工智能抽取出来的。大学的数据亦是如此。

大数据是指利用常见软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。规模性(Volume)、多样性(Variety)和高速性(Velocity)是鉴定大数据的3V特点。其中,规模性表现为:非结构化数据的超大规模和增长,占总数据量的80-90%,主要是面向互联网的数据源;多样性表现为:大数据的多元异构和多样性,很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显;高速性表现为:实时分析而非批量式分析,数据输入、处理与丢弃立竿见影而非事后见效。价值性(Value)也被认为是鉴定大数据的一大特点,与上文的3V特点共同构成鉴定大数据的4V特点,只是目前尚有一些争议。

高校的数据管理工作一直以来都是在做关系型数据库。大数据的出现将颠覆传统的数据管理方式,在数据来源、数据处理方式和数据思维等方面带来革命性的变化——数据规模从MB到GB、TB、PB,数据类型包含了结构化、半结构化以及非结构化数据,数据量增长与模式处于不断演变的过程中。一个简单的类比,在池塘捕鱼和在大海捕鱼是完全不一样的。数据库是先把数据的模型设计好,再装数据。而大数据一定是先有数据,再去找模型。

大数据中有25%是结构化的数据,75%是非结构化的数据。业界提的大数据主要是指面向互联网的海量文本数据,其根本科学问题是人工智能和机器学习的问题,包括自然语言处理的难题。

从数据获取与数据管理,到数据存储与处理,到数据分析与理解,再到结合领域的大数据应用,最后实现大数据的价值:这是大数据分析的基本过程。数据是基础,平台是支撑,分析是核心,价值是根本。

综上所述,我认为:

1、大量数据不等于大数据。鉴定大数据要对照3V甚至4V特点。

2、大数据不等于大价值。真正实现从大数据中自动挖掘出有价值的信息,取决于人工智能、机器学习能力的长足发展,需要时间和技术的进步来慢慢填补。大数据还没有真正转化为大认识、大洞见和大智慧。而大数据的价值具有稀疏性特点,不是稠密的。现实中,我们仍然需要数据专家来指导处理复杂数据分析,识别数据价值。

3、结构化业务数据的治理仍然是高校多年来的重点、难点和顽疾。与业界相反,结构化数据是高校最有数据价值的数据;非结构化数据则是新的趋势和热点,需要一个深入挖掘价值的过程。

4、大数据的火热并不意味着对于大数据的了解深入,不可过度炒作。这其中一个非常好的现象是:大数据帮助我们丰富了师生对数据的重视,唤醒了大家的数据意识。在高校数据治理方面,建议高校可借鉴采用多源异构复杂大数据数据处理的方法,挖掘高校非结构化数据源并发现数据价值。

二、高校数据治理的问题和对策

1、痛点:高校数据治理面临的严峻问题

(1)业务系统过于分散

如职能部处、教辅部门、学院(部)各自购买或建设业务系统,孤立的业务系统数据标准不一致、代码标准不一致:这些客观上造成了数据孤岛,加大了数据清洗、整合的难度。

(2)“两张皮”现象依然存在

“两张皮”现象造成了数据质量低下,这是所有学校面临的问题。如业务系统使用与Excel管理并举,更多管理人员习惯于Excel管理,相应的数据并没有归仓,还在管理人员的个人电脑里,只是在需要的时候再导出来,这种管理模式还在;业务系统中的数据不准确、更新不及时,多科室多人头管理,岗位变动频繁,数据管理混乱。

(3)数据质量问题严重

质量参差不齐:数据源头上的数据质量水平参差不齐,数据质量不高是普遍事实。

数据不完整:学校人、财、物缺乏统一信息编码规则;代码没有基于国家标准,自建代码又不完整;历史数据保存期限不一致。

数据不一致:关联系统数据不同步,更新不及时;不同系统描述同一业务的数据代码存在差异;多业务部门分管,问题难以协商。

数据不相关:同一业务数据,多处重复录入,数据冗余;多个系统纪录相同数据,违反“一数一源”原则。

数据不及时:系统功能分割,数据不能及时同步;各个部门数据不能协同,不能进行准确分析决策。

以上是我们面临的客观存在的问题,所以我们要启动数据治理工作。

2、大学数据治理

大学数据治理,是由学校信息化领导小组下的数据共享专业小组发起并推行的,是关于如何进行整个学校内部数据的决策应用和技术管理的一系列政策和程序。数据治理一定是将数据作为学校资产而展开的一系列的具体化工作,是对数据的全生命周期管理,是一套持续改善管理机制,通常包括了组织架构、政策制度、监督及考核、数据标准、技术平台与工具、流程等方方面面。

数据治理的目标就是为了提升数据质量,真正挖掘数据价值。没有数据治理的过程,数据不准确,就谈不上数据平台、挖掘数据价值,其后续的所有工作都是没有意义的。

组织架构、业务流程、技术平台与工具、制度与标准规范是数据治理的几个关键因素。以下跟大家分享北京建筑大学的一些做法。

(1)组织架构方面

北京建筑大学组织架构中强调IT治理,将其作为推进学校信息化的重要手段。具体来讲,学校网络安全与信息化工作领导小组下专设了信息化建设协同工作组,将信息化工作上升到了学校层面,同时下设几个小组,其中非常重要的就是数据共享专业小组。数据共享专业小组不是由学校信息中心牵头,而是由学校人事部、党政办牵头。

数据共享专业小组负责制定学校的整体数据架构。从管理和技术两个层面对学校数据资源进行定义,制定全校数据的标准、运维机制、分布策略和共享方法。该小组由党政办公室、组织部、研究生院、学生工作部(处)、教务处、招生就业处、科技处、人事处、财务处、资产与后勤管理处和网络信息中心等单位组成,围绕学校各业务系统的数据建设、质量分析、运维管理、交换共享、决策分析和数据验收等开展工作。信息中心在其中是个配角。

以往学校人事处聘期考核,都是由各院系、职能部门老师填写表格。填表意味着数据都是老师自己写,填完了也就结束了,老师根本没有把科研成果录入到科研系统里面,而在学院要管理科研数据的时候,这些数据就根本就不在系统里。今年学校提前三个月发通知,人事处以聘期网上考核和职称评审牵头,促使教务处和科技处对数据质量把关,促使老师重视个人数据填报。

最初遇到了阻力,有老师反对,提出延长网上填报时间,被人事处管理人员拒绝。最终的结果是所有的老师都按时完成了网上填报。从这件事情中我们看到了:数据追踪的倒逼机制,迫使数据质量有人重视,有部门负责。

当然,在这次数据治理的过程中,我们也发现了数据治理的“真空地带”,也就是老师有很多成果要填,但无处可填。如学校存在教学研究类项目、课程建设类项目、教材开发类项目、人才强教项目、思政类项目、党建类项目、指导学生获奖类项目等多种类型的项目,每类项目申报和评审及后续管理由各自分管部门分头管理。这些项目不属于科研项目,在人事处有纪录,但是老师录入到科技处负责的科研管理信息系统中,科技处不予审核。于是信息中心牵头,建立了全校综合项目信息管理平台。

(2)业务流程方面

所有的数据都不是孤立的,从数据生产到数据归仓,数据的流向一定是业务流程的输入或输出。2015年6月,我们围绕教职工、本科生、研究生做了全生命周期数据梳理。针对所有业务处室逐一梳理业务板块及数据板块,整理出《北京建筑大学业务管理数据分析报告》,建立数据资产台帐,对数据资产心中有数。这些工作信息中心一定要与业务部门共同进行,信息中心人员要成为既懂数据又懂业务的专家,能够站在业务部门的角度理解业务。

(3)技术平台与工具

我认为有两条路线,如下图所示。

用主数据管理平台做结构化数据,用大数据分析平台做非结构化数据,这两条路线一定是最后走向交叉融合。

我们已经购买了业务数据分析平台,其核心是元数据和主数据的管理。经过前期的数据治理,财务处、教务处、科技处和研究生院已经把所有的数据交给我们,全权交给我们信息中心做数据处理。接下来就看我们能炒出怎样的菜。

所以,技术平台与工具方面不只是为了购买一个技术平台,我们前期对于数据的理解、治理,一定是很重要的铺垫性工作。

(4)制度与标准规范

我们制订了《北京建筑大学信息标准》,理清了所有的代码和编码规则规范、元数据定义规范、业务数据集的规范,下大力气理解、梳理、整合,从异化到统一。新业务系统上线对接必过关口。数据标准(信息标准)是数据治理的技术规范,发布了就要发挥作用,不能成为搁在书架上睡觉的书。

数据质量意识与数据质量是数据治理的生命线。质量意识是一所大学从领导决策层到每一个员工对质量和质量工作的认识和理解的程度,这对质量行为起着极其重要的影响和制约作用。2015年我们信息中心做了业务流程与再造工程,在学校做了22场培训,把学校所有机关人员都邀请过来参加培训,让大家感受到了信息化的重要性,实践证明这项工作对于推动学校信息化工作起到了重要的作用。

三、高校数据价值发现

如何从大数据中挖掘其中的黄金,支撑学校办学与决策?

数据价值的业务分析能力紧密融合技术平台、组织、管理、流程和教职工、学生。业务分析能力与数据的发现能力决定了数据价值的创造能力。我们要思考如下问题:核心科室业务科长及员工是否具备一流的业务分析能力与数据发现能力?他们是否具备了数据的简单分析和处理能力?是否所有的业务数据能统一存放并且容易的集成?学校是否具备一流趁手的数据技术平台与工具?

发现高校数据价值,我们要挖掘两大数据源:结构化数据(业务数据)和非结构化数据(大数据)。下面举例说明数据价值模型构建及价值分析。

1、结构化数据价值模型构建

例1:人事场景

通过教师个人数据中心,学校可实现教职工的聘任/考核/出岗等级等预警分析。目前我们已经和友商合作做了三四百个模型,会陆续推出来。

例2:财务资产场景

财务资产数据将成为财务、资产管理的驾驶舱。

2、非结构化大数据价值分析

高校的大数据在哪里?

(1)舆情分析:学生微博、微信热点分析;互联网舆情关注,热词关注。

(2)一卡通消费分析:学生一卡通消费行为分析;贫困生消费情况分析及认定;一卡通消费数据判定学生在校情况?

(3)师生图书资源检索行为:访问人数;检索人数;数据库偏好。

(4)用户网络日常日志挖掘分析:学生上网行为及上网偏好;学习成绩与上网时间、上网流量等分析。

(5)师生健康大数据分析:教师健康监测数据或体检数据分析;学生体质监测、锻炼时间及疾病情况分析。

(6)招生咨询:有哪些考生通过招生办网站查看信息,犹豫报考行为的分析。

(7)能源监测数据:基于物联网采集的能源数据分析;电控数据;节能数据。

(8)文本类教育大数据分析:大学英语写作英文文本分析,对学生写作能力分析;毕业论文文本分析。

(9)校园问答系统:基于知识库的师生问答系统;学生情感分析;学生意见挖掘。

(10)学生职业规划与专业兴趣点分析:大学生专业兴趣度测试数据分析;职业生涯选择数据分析。

有了大数据平台,不等于有了大数据价值。高校大数据分析面临着三个关键挑战:(1)大数据源的深入挖掘;(2)数据源的可用性分析;(3)数据源之上核心数据价值的发现。

(本文根据北京建筑大学网络信息管理服务中心魏楚元在“中国高等教育学会教育信息化分会第十三次学术年会”上的演讲内容整理而成。)

相关阅读