您好, 访客   登录/注册

媒体认知实验教学改革研究与探索

来源:用户上传      作者:

  摘要:媒体认知实验课程是清华大学电子信息学科在课程体系改革过程中提出的一门创新性前沿必修课程。文章阐述全面覆盖人机感知交互、媒体信息处理、虚拟现实及信号处理领域的一套基于英特尔RealSense设备的探索前沿型实验教学课程内容及平台特点,分别介绍三维手势识别实验项目和三维虚拟交互行为分析实验项目,旨在培养学生的智能感知技术开发能力,掌握成为感知技术前沿领域高层次专业人才必需的各项基本技能和专业知识,采用集体创新培养和个人研究探索相结合,最终达到理工与人文、技术与艺术、感知与思考的高度融合。
  关键词:ReaISense;媒体认知;智能感知;机器学习;人机交互
  1 媒体与认知实验课程建设概况
  电子信息科学与技术是以物理和数学为基础,研究通过电学形式表达和操控信息的基本规律以及运用这些基本规律实现各种电子系统的方法。在进入电子时代和信息社会的今天,电子信息科学技术已渗透到各个领域。随着电子信息技术日新月异,电子信息教学领域也面临着全新的挑战,需要培养具有全方位视野和超强能力的新一代工程师及领导者。本着这一目标,清华大学电子系自2008年开始着手进行课程改革,通过改革课程体系将原有课程重新整合,从学科范式的角度整理出电子工程本科教育的知识体系结构,从而梳理出新的本科课程体系,形成了电子信息领域学科地图。
  媒体与认知是电子系在课程改革中提出的一门全新的核心必修课程,位于电子信息领域学科地图的最上层,通过对媒体信息、认知科学及信号处理领域开展具体、深入的研究及实践,在学乍充分了解领域知识的前提下,用文、理、工相融合的眼光看待该学科发展历史、研究现状、最新研究进展以及未来课题,为今后开展高水平、创新性的研究铺平道路。该课程结合清华大学电子系已经落实的本科教学改革以及在教学、科研、学科建设等方面的实践成果,通过培养学生的创新性思维推动工程学和管理学、社会科学和人文科学的结合,培养素质全面的人才。
  媒体与认知实验课程借鉴国际顶尖高校及清华大学电子工程系的前沿科研项目内容,实现智能感知和机器学习领域的科研成果向实验技术和实验教学转化。该实验课程基于电子系梳理出新的本科课程体系,通过设计开发一套完整的以实时智能感知技术为基础的前沿探索型实验教学课程内容及平台,涵盖三维人机感知交互、媒体信息处理、虚拟现实等领域;建立具有未来探索性的智能感知技术实验教学方法,实施跨学科、多层面、综合性的学习与实践,在课程量不变的同时提高教学效果和拓宽知识层面;突破传统验证性实验课程及平台因采取基于目标或任务导向而导致高素质人才培养与国际化培养方式存在较大差异的瓶颈,解决了知识量膨胀和学时有限之间的矛盾,实现了培养智能感知领域未来领军人才的目标,充分体现了实验教学科研工作在学校人才培养方面的重要意义。
  2 媒体与认知实验课程特点
  媒体与认知实验构建了一套以实时智能感知技术为基础的探索前沿型实验教学课程及平台,在设备和设计内容方面均与国际水平接轨,具有如下特点。
  1)教学互促。
  该课程采用教学互促的设计模式,通过设计实现一整套进阶互动的实验教学方法和步骤,将教学互动的理念贯穿于全部课程设计、平台实施、项目更新等阶段,充分实现教学互动的作用。
  2)知识延伸。
  该课程设计上着重强调通识教育和学科交叉,提高学生的综合素质和适应能力。通识教育有利于培养知识面宽的复合型人才,确保学生全面发展,提高学生的综合素质;文、理、工知识交叉渗透使学生可以从多角度和多学科运用知识处理实际问题。
  3)技能拓展。
  在对该平台进行学习和研发的过程中,学生的理论课程知识不断巩固加深,同时学生需要自主提出多个学科和研究方向上的全局及局部解决方案,拓展包括项目规划、知识交叉、三维感知设计、跨平台编程等多方面技能。
  4)设备复用。
  利用全新的英特尔三维智能感知设备ReaISense可以实现手势识别、人脸识别、语音识别、场景识别等智能感知功能。英特尔的ReaISense设备是一种能通过采集视觉、深度、音频等多种媒体信息获得手势、语音等表征意图的智能感知设备,可以广泛应用于自然互动、沉浸式协作与创作等创新应用,能够帮助开发人员在游戏、娱乐和内容创建交互方面实现新的突破。
  3 三维手势识别实验项目
  肢体语言是人类传递信息的一种重要方法,利用人体的姿态实现自然、高效的人机交互已经成为热门的研究方向。在以人为中心的环境中如何对人以及人的意图进行正确认知,是提高人机交互水平的关键因素,而基于手势识别的人机接口能够保证人机交互更加自然和有效。手势功能主要分为图l中的几种。
  近年来,基于机器视觉的手势识别技术正逐步成为人机交互研究的热点。美国Stanford大学提出一种基于Kinect的手势识别方法,通过Kinect获取RGB图像信息和深度数据,采用SURF变换算法实现高准确度的手势识别。瑞士苏黎世联邦理工大学计算机视觉实验室提出一种基于Haarlet的手势识别系统,根据微软Kinect设备获取深度信息,检测手势的三维指向,将手势转换为交互命令,提高人与机器人交互的自然性。
  该实验项目首先通过ReaISense的3D摄像头捕捉多个手关节的运动图像,从图像中提取多个手关节的特征和位置,通过基于多个手关节的目标检测跟踪算法对多个手关节目标进行检测和跟踪,最后根据多个手关节的运动轨迹进行手势识别。手势分割阶段需要将手势从复杂的环境背景中分离出来,同时由于不同手势之间会有一定的相似性,导致系统将非手势空间误识为手势空间或者将手势空间误识为非手势空间,因此降低环境噪声是正确分割的前提。在特征提取与选择方面,我们需要选择具有一定代表性的、具有很强区分度的三维手势特征向量,同时要求计算量较低,提高识别的鲁棒性。最后,在三维手势识别算法方面要提高算法的执行效率,提高系统的实时处理能力。   4 三维虚拟交互行为分析实验项目
  虚拟交互现实技术包括利用人类的感官功能如声音、触觉等实现虚拟世界和真实世界交互。虚拟现实技术将实现“虚物实化”和“实物虚化”,洲涂物理对象和抽象对象、输入装置和输出装置在交互窄问中的差别,为人提供多感觉通道的自然临境体验。目前,大多数虚拟现实技术只是最为初级的虚拟体验,通过简单的屏幕显示或者立体显示完成。
  美国UC Berkeley大学通讯实验室与美国Johns Hopkins大学图像科学中心共同开发了一套名为Berkeley MHAD的三维可理解多模式人类行为数据库,利用多基线双声道摄像机从多个视角进行录制,利用景深传感器、加速计和多个麦克风进行信号采集,利用光学动作捕捉系统获得时间司步且空间几何校准的数据,该三维虚拟交互行为数据集为研究人员提供了一个包容性的测试平台进行技术开发和标准制订。瑞士联邦技术研究所信号处理实验室P.Besson提出的基于多模式说话人探测的信息理论框架利用视频信息提取优化后的语音特征,利用语音和视频特征之问的互信息目标函数(mutual informationobj ective function)对多个候选目标说话人进行识别,一般场景下的识别正确率在85%左右。
  该实验项目结合ReaISense的语音识别模块,通过定义统一的算法融合语义框架和语法规则,将来自语音和其他不同模式的语义进行融合,最终通过多模式语法进行打分得到最佳候选结果由于虚拟交互行为通常以语音为首选,冈此将其他人机对话方式与语音交互方式的关系定义为互补关系和独立关系。互补关系中的语音内容必须和其他人机对话方式一起存在,才能构成完整的语义,如当用户说“请告诉我那个设备的川途”时,需要用户同时提供该设备的具体位置或其他补充信息,才能做出下一步的反应。在独立关系下,其他人机对话方式与语音交互方式彼此独立,它们之间没有很强的约束关系,但有时可以提高彼此的表达效果,如当人说话时一手势可以起到增强情感表达的作用,但语音通道仍起主要作用,通过这种不同层次上的分别处理能有效提高人机虚拟交互行为的自然度。
  5 结语
  媒体与认知实验课程的建直使得学生能够了解国际科学界及工业界最前沿的媒体认知及智能感知技术热点和难点问题,利用平台的基础设施和设备构建并实施多种解决方案。媒体认知及智能感知类前沿综合实验课程作为在清华大学首度实现的跨行业、跨领域、跨学科课程,通过借助智能感知及人机交互知识作为工具和手段解决媒体信息处理、虚拟现实及人机交互的问题,可以充分挖掘和激发理工科学生在交叉学科和前沿技术方面的实力和潜力。
转载注明来源:https://www.xzbu.com/8/view-11900827.htm