电子期刊

AI赋能计算机视觉实现课堂多模态行为分析提升督导效能

来源:本站
作者:李蒙
时间:2025.06.30
7浏览

/李蒙 洛阳理工学院 电子信息学院教授

摘要:本项目聚焦高校教学督导的痛点(如效率低、主观性强、反馈滞后、督多导少等),结合人工智能技术(计算机视觉、自然语言处理、大数据分析),构建“人机协同”的智能化教学督导模式。通过多模态数据采集、动态教学画像生成、分学科评价模板设计,实现督导流程的自动化、精准化监督与个性化指导。应用人工智能技术设计智能督导系统原型,建立覆盖“教学设计—课堂实施—学习效果”的全流程评价体系,并形成可推广的实践案例与操作指南,应用前沿信息技术助力教育治理现代化。

关键词:机器视觉;多模态;人工智能;教学督导

 

一、引言

根据最新的中国人口结构分析,国内高等教育人口在2032年左右达峰,这也就意味高等教育规模还将持续扩大,高校教学质量势必面对“师生比”高企的挑战。因此各高校都在加强校内教学质量保障体系建设,其中,校级教学督导作为校内教学质量评价第三方,协助学校从规范教学管理、改进教学运行、提升教学质量多个维度开展了有建设性的工作。

然而随着高等教育规模扩大的趋势与教育数字化转型、人工智能的高速迭代发展,传统教学督导模式面临诸多挑战。一是效率低下:依赖人工听课、评课,数据采集碎片化,难以覆盖大规模课堂;二是主观性强:评价标准模糊,依赖督导人员经验,缺乏客观量化指标;三是反馈滞后:结果反馈周期长,难以及时指导教师改进教学;四是监督多指导少:校内督导团形式化落实规定多,人性化服务少,没有从根本上助力教师成长与教学质量提升。上述问题不仅影响了学生的学习质量提升,也阻碍了教师的教育教学能力的提升。因此,基于人工智能技术,特别是计算机视觉技术,实现课堂教学多模态行为分析,构建智能化教学督导模式,成为解决这些痛点的关键。

二、AI提供解决方案

目前国内应用AI技术探索提升课堂教学的研究如火如荼。浙江大学正在研发的多模态大模型不仅能够识别师生的显性行为,还能通过微表情分析捕捉其瞬间的情绪变化;北京师范大学团队则尝试将脑电数据与课堂观察融合,构建神经教育学的数据接口;特别是在跨模态对齐的研究中,微软亚洲研究院提出的教学情境感知网络(TSAN),成功实现了语音语调与肢体语言的情绪一致性验证。然而这些研究成果的应用大多需要对教室本身进行硬件升级,或需接入特定的传感采集装置。

目前,高校中除了智慧教室在改造时接入视频采集系统,绝大多数普通教室也因建设标准化考场有独立视频采集系统,因此可通过视频图像分析学生状态获取学情。目前洛阳理工学院的视频采集平台提供三个机位,可采集学生、课件屏幕、师生全景的视频。无需对教室硬件进行升级,即可开展课堂多模态行为分析。

具体采用什么算法,是否可以问问AI呢?为了保护学生的隐私,通过百度找一学生图片,请Qwen3根据图片进行课堂考勤统计与学情分析,与Qwen3的交互方式如图1所示。

1 对话Qwen3进行图片视觉处理

2为Qwen3给出的目标检测技术推荐:YOLO或Faster R-CNN。YOLO(You Only Look Once)算法正如其名,是一种革命性的单阶段(One-Stage)目标检测算法,其核心思想在于将目标检测任务重构为一个单一的回归问题,直接在图像上预测边界框(Bounding Box)和类别概率,其实时性远远优于Faster R-CNN,因此确定以YOLO算法完成视频中目标识别。

2 Qwen3给出目标识别模型与表情统计算法

再上传一张人数确定的大图,让AI用YOLO进行人数统计,用Deepface进行学情分析。Deepface分析结果如图3所示,人数统计的准确率达到100%,学情分析也很客观。

3 验证目标识别模型与表情统计算法可靠性

上传本校教室录像截屏,请AI统计学生人数,并分析学情。生成人数统计报告如图4所示,人数准确率达到90%以上。

4 用校本图片验证目标识别模型可靠性

5是采用Deepface分析上传图片的学生学习状态与课堂参与情况的数据统计,与专家目视图片所得结论基本一致。

5 用校本图片验证表情统计算法的可靠性

根据与AI对话,确定基于计算机视方式进行课堂多模态分析模型与算法,目标识别采用YOLOv8模型[1],面部表情识别采用Deepface算法[2]

三、AI赋能教学督导系统设计

YOLOv8模型与Deepface算法都有现成的Python库,因此选Python为系统开发设计语言。研究的具体步骤包括:(1)数据采集与预处理,利用智慧教室系统获取课堂视频、语音和学生互动数据,并进行数据清洗和标注;(2)YOLO模型训练与优化,基于TensorFlow深度学习框架训练计算机视觉和自然语言处理模型,并通过交叉验证优化模型性能;(3)智能分析与反馈生成,利用训练好的模型对教学数据进行分析,生成课堂数据统计报告,并结合专家反馈进行调整;(4)系统开发与测试,构建智能督导系统原型,并在高校实际教学环境中进行测试,以验证系统的可行性和有效性。AI教学督导系统程序流程图如下所示。

6 AI教学督导系统程序流程图

系统开发测试中,采用有监督训练,生成一个透明度可以调节的窗口,将窗口放在教室实时视频之上,在用户的监督下进行人数统计与学情分析。由于每个教室摄像头角度存在差异,因此允许用户手动调节置信度与IOU交并比,Intersection over Union,预测物体边界框与人工标注边界框之间的重叠比例),并支持采样分析时间间隔设置,提供导出统计数据功能,便于用户后期进行数据分析[3]。程序运行界面如图7所示。

7 AI教学督导系统运行界面

基于YOLO+Deepface智能督导系统,开展了多机位视频+文本的模态分析。研究数据表明,该系统在课堂行为识别方面具有较高的准确率,教师授课行为的识别准确率达到84%,而学生学情统计准确率为88%。这表明,基于计算机视觉的多模态课堂视频分析技术,能够有效识别教师的授课细节,如手势、走动、面部表情和互动行为,同时评估学生的课堂参与度和专注状态。与传统CV模型、Faster R-CNN模型性能对比如下表所示。

1 不同模型识别准确率对比

四、系统对教学督导工作的具体贡献

平台上线实施后,不仅为教育督导提供了数据支持,也为教师的专业发展提供了可靠的反馈机制。通过动态生成教师教学画像,研究团队成功跟踪了教师在不同学期的教学表现变化,发现教学风格的调整与学生反馈之间存在显著关联。例如,采用案例教学法的教师在学生满意度调查中评分普遍高于采用传统讲授法的教师,前者在学生满意度调查中平均得分为4.5分(满分5分),而后者平均得分为3.8分。

此外,基于AI的教学督导平台提升了督导反馈的及时性。传统的督导反馈周期通常为2周,而新系统的引入将反馈时间缩短至2天。通过对系统生成的督导报告进行分析,教师能够在短时间内获得针对性的改进建议,从而及时调整教学策略,提升了教学效率。这种变化不仅提高了教师的工作满意度,也增强了教师对教学督导的参与感和认同感。

基于视觉的课堂多模态行为分析不仅是对传统教学督导模式的革新,更是对教育治理现代化的积极探索。人工智能技术的应用,特别是计算机视觉技术的成功案例,为高校教学质量的提升和教师专业发展的实现提供了新的思路和方法。这一研究具有重要的学术价值和广泛的实践意义,将为未来教育改革提供新的动力和方向。

五、结语

基于AI的课堂行为分析研究方向可从多个层面进行扩展。首先,为提升对师生隐私的保护力度,下一步采取直接对课堂视频文件后台分析策略。其次,探索课程分学科评价模板的设计,通过结合不同学科的教学特点,研究设计能反映学科特色的评价标准。最后,进一步优化现有的人工智能模型,提高其在复杂教学环境中的适应能力,尤其是在非结构化数据的分析上,例如课堂讨论和学生互动等。此外,可以深入探索多模态数据(视频、声音、课件)的深度融合方法,提升教学行为分析的精准度,改进课堂教学质量。

附:AI赋能教学督导平台源代码:https://github.com/raymondlit/EV_classroom.git

(基金项目:2024年度河南省高等教育教学改革研究与实践项目(2024SJGLX0919):大思政格局下的“一卡一扫一墙”数字赋能人才培养模式应用研究;河南省本科高校智慧教学专项研究项目:智慧教室环境下基于OBE理念《信息技术基础》教学创新研究与实践(一般项目)洛阳科技职业学院教学改革与实践项目(2023XJJGLX007):大思政格局下的“一卡一扫一墙”数字赋能人才培养模式应用研究洛阳科技职业学院教学改革与实践项目(2023XJJGLX014):职业院校教师数字素养提升策略及培训体系建构研究洛阳理工学院智慧教学改革研究项目(2025ZHJG-06):基于人工智能的教学督导模式创新研究洛阳理工学院“十五五”发展规划前期重大研究课题:面向行业需求与区域经济发展的人工智能学院专业结构优化研究(No.FZGH-10)。)

参考文献:

[1]Vaswani A,Shazeer N,Parmar N,et al..(2017).Attention is all you need[J].Advances in neural information processing systems,2017,30:5998-6008.

[2]Devlin J,Chang M W,Lee K. BERT: Pre-training of deep bidirectional transformers for language understanding[C].NAACL-HLT,2019:417-427.

[3]Zhang,Y.,Tian,Y.,Kong,Y.,Zhong,Y.,& Fu,Y. Dynamic scene understanding with spatio-temporal graph convolutional networks[J].Pattern Recognition,2021,113:807-834.