首页 >教育信息化 >本期目录>正文

教育大数据的来源与采集技术

来源:江苏师范大学 作者:邢蓓蓓 杨现民 李勤生 发表于:2016.12.29  732浏览

2015年是中国的教育大数据元年,政府、企业、学校、研究者、管理者、教师、社会公众等都开始关注教育大数据,相关政策文件、研究机构、学术活动、市场产品等开始纷纷出现。

然而,我国的教育大数据研究与实践领域整体还处于起步探索阶段,是在“摸着石头过河”,涉及一系列关键问题亟待解决(如教育数据的自然采集、教育数据的安全管理与隐私保护、教育数据的无缝流转与开放共享、教育数据的深度挖掘以及学习分析等)。

其中,教育数据的全面、自然、动态、持续采集是构建教育大数据的基础性和先导性工作,这就需要厘清一些基本问题:教育数据的产生源头在哪里?哪些数据需要采集?有哪些常用的数据采集技术?采集时需要注意什么?本文尝试回答上述问题。

一、教育大数据的来源

教育是一个超复杂的系统,涉及教学、管理、教研、服务等诸多业务。与金融系统具有清晰、规范、一致化的业务流程所不同的是,不同地区、不同学校的教育业务虽然具有一定的共性,但差异性也很突出,而业务的差异性直接导致教育数据来源更加多元、数据采集更加复杂。

如图1,教育大数据产生于各种教育实践活动,既包括校园环境下的教学活动、管理活动、科研活动以及校园生活,也包括家庭、社区、博物馆、图书馆等非正式环境下的学习活动;既包括线上的教育教学活动,也包括线下的教育教学活动。教育大数据的核心数据源头是“人”和“物”——“人”包括学生、教师、管理者和家长,“物”包括信息系统校园网站、服务器、多媒体设备等各种教育装备。教育是一个超复杂的系统,涉及教学、管理、教研、服务等诸多业务。与金融系统具有清晰、规范、一致化的业务流程所不同的是,不同地区、不同学校的教育业务虽然具有一定的共性,但差异性也很突出,而业务的差异性直接导致教育数据来源更加多元、数据采集更加复杂。

依据来源和范围的不同,可以将教育大数据分为个体教育大数据、课程教育大数据、班级教育大数据、学校教育大数据、区域教育大数据、国家教育大数据等六种,它们从下向上、从小到大逐级汇聚:

1、个体教育大数据包括教育部2012年正式发布的《教育管理信息化系列行业标准(教技[2012]3号)》中规定采集的教职工与学生的基础信息、用户各种行为数据(如学生随时随地的学习行为记录、管理人员的各种操作行为记录、教师的教学行为记录等)以及用户状态描述数据(如学习兴趣、动机、健康状况等);

2、课程教育大数据是指围绕课程教学而产生的相关教育数据,包括课程基本信息、课程成员、课程资源、课程作业、师生交互行为、课程考核等数据,其中课程成员数据来自个体层,用于描述与学生课程学习相关的个人信息;

3、班级教育大数据是指以班级为单位采集的各种教育数据,包括班级每位学生的作业数据、考试数据、各门课程学习数据、课堂实录数据、班级管理数据等;

4、学校教育大数据主要包括标准规定的各种学校管理数据(如概况、学生管理、办公管理、科研管理、财务管理等)、课堂教学数据、教务数据、校园安全数据、设备使用与维护数据、教室实验室等使用数据、学校能耗数据以及校园生活数据;

5、区域教育大数据主要来自各学校以及社会培训与在线教育机构,包括国家标准规定的教育行政管理数据、区域教育云平台产生的各种行为与结果数据、区域教研等所需的各种教育资源、各种区域层面开展的教学教研与学生竞赛活动数据以及各种社会培训与在线教育活动数据;

6、国家教育大数据主要汇聚了来自各区域产生的各种教育数据,侧重教育管理类数据的采集。

二、教育数据采集技术

教育数据的采集需要综合应用多种技术,每种技术采集的数据范围和重点都有所不同。图2展示了教育数据采集的技术体系,共包括4大类、13种常见数据采集技术。

1、物联感知类技术

该类技术主要包括物联网感知技术、可穿戴设备技术和校园一卡通技术。其中,物联网感知技术主要用于采集设备状态数据,可穿戴设备技术主要用于采集个体生理数据与学习行为数据,校园一卡通技术则主要用于采集各种校园生活数据。

物联网感知技术是实现万物相连的前提,是采集物理世界信息的重要渠道。目前在教育领域利用物联网感知技术采集基础信息,主要通过传感器和电子标签等方式进行——通常情况下,传感器用来感知采集点的环境参数,电子标签用于对采集点的信息进行标识。而对于采集后的信息数据,需经过无线网络上传至网络信息中心进行存储,并利用各种智能技术对感知数据进行分析处理以实现智能控制。学校的教室设备、会议设备、实验器材等分布离散、信息透明度小、管理难度大,通过给这些物理教学设备粘贴RFID标签或传感器,分配专人管理,可以实现统一管理和调度,有效检测设备的工作状态。

可穿戴设备技术可以把多媒体、传感器和无线通信等技术嵌入人们的衣着中,支持手势和眼动操作等多种交互方式。近年来,智能眼镜、智能手表、智能手环等新产品的不断出现,形态各异的可穿戴设备正在逐步融入人们的日常生活与工作中。可穿戴设备技术为自然采集学习者的学习、生活和身体数据提供了可能。通过佩戴相关设备可以实时记录学习者的运动状态、呼吸量、血压、运动量、睡眠质量等生理状态数据,以及学习者学习的时间、内容、地点、使用的设备等学习信息。除此之外,可穿戴设备技术还可以与虚拟仿真、增强现实技术相结合,优化内容呈现方式、丰富学习环境,对学习者的所见、所闻、所感进行全息记录。

校园一卡通技术是以校园网为载体,以电子和信息技术为辅助手段,集身份识别、校务管理以及各项校园服务等应用项目为一体的完整系统,可以采集的数据范围包括:餐饮消费、洗浴收费、超市购物、运动健身、课堂考勤、图书借阅、银行转账、上机收费、学生选课、学生补助、就医买药等,几乎涵盖了校园生活的方方面面。部分地区的校园一卡通系统还与城市交通、医疗等系统关联,学生可以方便地使用一卡通坐公交、地铁,购买药物等。这些数据的采集不仅对于教育管理有价值,对于整个城市的管理与规划也有重要意义。

2、视频录制类技术

该类技术主要包括视频监控技术、智能录播技术与情感识别技术。其中,视频监控技术主要用于采集校园安全数据,智能录播技术主要用于采集课堂教学数据,情感识别技术主要用于采集学生学习过程中的情感数据。

校园安全监控系统是一套旨在用于全面、实时监控校园运行情况,跟踪学生出入学校情况,从而准确监控和预测校园中可能发生的危机地点,实现校园防火防盗和综合安全管理工作的系统。校园安全监控系统的核心技术是视频监控,主要借助不同监控点的摄像机采集整个校园数据,以服务于学校管理中心、市教育局监控中心等不同监控单位来实时诊断校园安全。视频监控系统能够实现对学生教师以及校外人员出入校园情况的监控,实现对校园异常情况如对突发性奔跑、人员密集等进行预警,实现对校园设备的全面监控与管理,实现对各班级情况的有效监控。

智能录播系统通过先进的流媒体及智能化全自动控制技术,可以实时、自动地采集课堂教学数据,并同步实现在校园网或Internet上的视频直播以及远程互动教学功能,成为网上可实时直播、点播的学习资源,全真再现课堂教学的全过程。智能录播系统主要通过教室内3台可跟踪定位的摄像机,来实时采集教学过程中的视频与音频信息。此外,智能录播系统还通过对电子白板的录屏采集教学课件,最终形成3份不同角度的课堂实录视频、教学课件录像以及定制的合成视频。通过在教室中安装智能录播系统来实时采集课堂中教师的提问、引导、评价等教学行为,可以完整采录教师在教学中使用课件的内容、使用的时间以及使用的方法,还可以采集到学生课堂上的回答内容、记录、倾听以及走神等行为。

情感识别技术通过观察人的表情、行为和情感产生的前提环境来推断情感状态,其基本目的在于赋予计算机像人一样观察、理解和生成各种情感特征的能力。目前,情感识别技术主要通过面部表情和语音特征来提取情感信息。情感是影响线上线下学习效果的重要变量,学习过程中的情感数据采集至关重要。通过情感识别技术可以即时判断学生的情绪状态,进而提供针对性的支持服务。

以在线学习为例,当学生在学习过程中出现烦躁情绪时,通过情感识别技术,系统可以给予学生适当的鼓励或者减慢学习进度;当学生感到枯燥乏味、情绪低落时,系统可以适当降低内容难度并给出调动学生积极性的鼓励话语;当学生感到充满自信时,系统可以根据学生的水平提供更具挑战性的学习内容与材料。

当前,主流的情感识别技术是基于面部表情特征的情感计算,该技术通过摄像头实时采集学习者的脸部五官位置、肌肉运动等表情特征值来进行情绪识别。除此之外,还可以实时采集学习者的语音、文本、绘图等输入信息,对其中蕴含的情绪信息进行内容挖掘和智能分析识别。

近年来,随着人类对人脑结构认识的不断深入,未来基于脑电波的情感识别采集技术将成为情感数据采集和情感识别的重要渠道。

3、图像识别类技术

图像识别类技术是人工智能的一个重要领域,是指利用计算机对图像进行匹配、处理、分析,以识别各种不同模式的目标和对象的技术,主要包括网评网阅技术、点阵数码笔技术与拍照搜题技术。其中,网评网阅技术主要用于采集学生考试成绩数据,点阵数码笔技术主要用于采集各种作业、练习、考试数据,拍照搜题技术主要用于采集学生作业练习数据。

互联网阅卷系统是目前中考、高考、英语四级或六级考试等大型考试活动惯用的阅卷技术,是学生考试成绩数据的重要采集技术。阅卷系统以计算机网络技术和图像处理技术为依托,采用专业扫描阅读设备,对各类考试答卷和文档进行扫描和处理,实现客观题机器自动评卷以及主观题教师网络高效评卷。随着试题库系统以及人工智能技术的不断发展,一些产品已实现对部分主观题的自动评阅。

点阵数码笔是一种新型高科技纸面书写工具。通过在普通纸张上印刷一层不可见的点阵图案,点阵数码笔前端的高速摄像头能随时捕捉笔尖的运动轨迹,同时将数据传回数据处理器,最终将信息经由蓝牙或者USB 线向外传输。点阵数码笔既可以保存学习者的最终书写结果,又可以记录学习者的书写过程信息,如书写方式、书写顺序、书写时间等,还可以结合书写或者绘画过程同步录入声音,采集书写时的情景信息。点阵数码笔是一种非常自然的书写数据采集工具,十分贴近用户的日常书写习惯,因此有望成为作业、练习数据的主导采集工具。

拍照搜题技术是图像识别技术在教育领域的应用形式之一,主要通过终端设备(如智能手机、平板等)来获取相关题目的照片,继而由系统根据已有的题库进行自动匹配、处理与分析,最终筛选出与图片最为相似的题目、答案及其解答思路。市场上越来越多的作业题库产品开始提供拍照搜题功能,为学生日常作业练习数据的采集提供了很好的渠道。拍照搜题技术除了可以实现题目答案的检索,还可以通过拍照上传的方式存储学生的作业练习结果以及过程数据。

这些数据通过软件平台的处理分析,可以有效服务于教师的教学决策和学生的自我诊断。

4、平台采集类技术

该类技术主要包括在线学习与管理平台技术、日志搜索分析技术、移动APP 技术与网络爬虫采集技术。其中,在线学习与管理平台技术主要用于采集各种在线学习与管理数据,日志搜索分析技术主要用于采集运维日志与用户日志数据,移动 APP 技术主要用于采集各种移动学习过程数据,网络爬虫采集技术主要用于采集教育舆情数据。

在线学习与管理平台是当前教育数据采集的重要载体,可以采集大多数网上学习、教研与管理活动数据。各种在线学习类平台与管理类平台,因定位和功能的不同,其支持采集的教育数据范围和类型也有所不同——通常情况下,在线学习类平台主要负责采集课程学习数据,如课程基本信息、课程资源、课程作业、师生交互信息、课程考核结果等;管理类平台(如资产管理系统、人事管理系统等)主要负责学籍、设备资产、科研、财务、人事等信息的采集与管理。

除了使用专门的在线学习与管理平台采集数据外,还可以通过第三方的插件来采集数据,如基于火狐浏览器的油猴脚本可以自动采集BlackBoard 平台中的交互数据,包括学生信息交互频次、交互内容以及交互的方向等。

日志文件中存储了大量的用户以及系统的操作信息,通过日志搜索分析技术可以有效筛选出有用的信息。日志搜索分析技术是指通过日志管理工具,对日志进行集中采集和实时索引,提供搜索、分析、可视化和监控等,最终实现对线上业务的实时监控、业务异常原因定位、业务日志数据统计分析以及安全与合规审计。

日志搜索分析技术一方面可以实时监控教育设备及资产的运行状况,如设备耗电量、故障信息、安全威胁等,为智能运维提供数据支撑;另一方面可以详细记录用户的操作行为,如系统登录次数、登录时间、增删查改等基本信息,用于教师、学生以及管理者的行为模式诊断。

近年来,随着移动终端和通讯技术的发展,移动APP技术逐渐成为移动学习过程数据采集的主导技术。从本质上来看,移动APP技术与在线学习与管理平台技术类似,只是采集渠道来自于移动终端,采集方式更加灵活、多样。学生可以通过无线网络,使用移动终端(如智能手机、平板、PDA等)与云端学习平台进行互动。通过结合移动终端的定位技术,系统将实时采集学习者的学习地点、学习时间、学习内容以及学习状态等信息,以服务于教师对学生学习情况的实时监测,进而实现个性化智能辅导。

网络爬虫是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。网络爬虫类产品如八爪鱼采集器、网页抓取软件等,在数据采集领域有着广泛的应用,可以定期实时采集各大门户网站数据、监控各大社交网站、博客,自动抓取企业产品的相关评论。随着互联网新媒体(如门户网站、微博、微信)的兴起,教育领域的信息传播呈现出传播速度快、波及范围广和内容多样化的特点。网络爬虫采集技术可以实时监控、采集教育领域网络舆情数据,从而为有效处理各种突发事件提供可能。

三、教育数据采集的注意事项

数据采集是建设教育大数据的基础性、先导性工作。随着很多新型技术(如眼动追踪技术、语音交互技术、体感技术等)的逐步成熟,将有越来越多的数据采集技术应用到教育领域,推动教育大数据更加实时、连续、便捷的采集。为了保证高质量教育数据的可持续性采集,教育数据采集在实践过程中需要注意如下事项:

1、要提前规划设计

教育大数据的建设与应用是一项系统工程,需要进行顶层设计,以便有目的、有序的采集高质量教育数据。规划设计的内容包括:数据采集的范围、使用的数据采集技术、数据采集环境的部署、数据采集质量的保障措施、采集数据的应用目的和场景、数据的存储方案、数据的更新机制、数据的交换标准等。

不同层级的教育数据采集应当有不同的侧重点——国家教育大数据和区域教育大数据应以管理类数据采集为主,同时注重与人口、社会、医疗、交通等领域大数据的关联交叉分析与挖掘,重点服务教育政策的制定以及区域教育的均衡发展;学校、班级、课程大数据应以教与学活动数据采集为主,重点服务教学质量的提升;个体大数据应以学习者个体的行为数据、状态数据、情境数据等采集为主,重点服务学习者的个性化学习诊断和个性化发展。

2、要有清晰的边界

大数据虽然具有混杂性、来源多样性等特征,数据的存储成本也越来越低,但并非要囊括一切数据,没有价值的数据是不值得收集和分析的。教育大数据同样如此,其采集应当有清晰的边界,而非盲目采集任何教育活动数据。究竟要采集哪些数据,取决于数据的应用目的。

举个例子,为了检测评估学生的学习进展,就需要对课程浏览、作业练习、交流互动、提问答疑等数据进行实时采集和分析,而不必采集学生的饮食、运动等数据。当然,我们并不否认饮食、运动等数据在诊断学生体质状况方面的价值。

这里所提的“数据边界”是相对于具体的应用目的而言的,任何数据分析模型的构建都需要依赖特定的数据集合,唯有如此才能保证分析模型的有效性和分析结果的应用价值。

3、要保持连续性和规范性

很多时候,仅凭某个学生的一次作业成绩并不能说明什么问题,但如果将一个班级每位学生历次的作业成绩数据甚至包括作业的过程数据都全部采集到,便可以客观评估学生的整体学习效果、发现学习盲点、诊断教学难点,开展针对性教学和个别化辅导,这时的作业数据便具有了“大”价值。

教育大数据的采集应秉持“持续创造价值,规范提升价值”的理念。教育数据的采集一方面应当保持连续性,即根据前期规划设计,定期、连续、有规律地采集各种教育数据,通过长时间累计从小数据生成大数据;另一方面,为了保证后期数据的融通互换和一致化处理,教育数据的采集应遵循特定的技术标准和规范。

目前,全国信息技术标准化技术委员会教育技术分技术委员会已在教育信息化标准研制方面做了大量的工作,有些技术标准已经成为国标,各应用系统的研发应当遵循教育管理信息化标准、教育资源建设标准等。此外,国际上一些通用标准也值得借鉴,如IMS-QTI(问题与测试交互)标准、xAPI(学习体验记录)规范等。

4、采集粒度要尽可能小

数据粒度是指数据的细化和综合程度。一般来说,细化程度越高,粒度越小;细化程度越低,粒度越大。吕海燕等认为,数据采集应处于一个合适的粒度级别,粒度的级别既不能太高也不能太低。这是因为,低的粒度级别能提供详尽的数据,但要占用较多的存储空间、需要较长的查询时间;高的粒度级别能快速方便地进行查询,但不能提供过细的数据。

就教育大数据采集而言,在保证数据有效性的基础上,数据粒度应尽可能细,以便从中挖掘更多的潜在价值。传统的教育数据以分数为核心,一份作业、一张试卷最后采集到的仅仅是一个表征成绩的数字符号,即采集的数据粒度比较大。如果基于在线学习平台或点阵数码笔技术能够采集到每个学生的答题过程,如做题的顺序、每道题的停留时间、答案修改次数等更细化的过程记录数据,便能更加精准地判断学生在哪些知识点存有疑惑和答错的具体原因(马虎大意还是未掌握知识)。因此,可以说“小颗粒汇聚大数据,大数据蕴藏大价值”。

5、采集过程要符合伦理道德

数据隐私与安全一直是大数据发展的障碍之一。教育数据的采集源头来自广大学生、教师、家长以及学校,数据繁杂多样,其中成绩、排名、家庭背景等诸多信息涉及个人隐私。目前,国内在教育数据隐私保护方面的法律法规还不健全,学校、教育机构等学生数据的保护意识亟待加强。由于监管不到位,教育行业中不乏一些为了商业利益而私售师生以及家长信息的不良企业。

不管出于研究、管理还是商业目的,任何教育数据在采集之前,都应当遵循教育数据采集伦理道德规范(建议相关部门尽快编制),数据产生主体也应当享有一定的知情权和选择权。数据采集的初衷和最终目的应该本着“服务教育发展、服务师生成长”的理念,而非盲目采集或基于利益驱动去采集数据。(《现代教育技术》)

相关阅读