您好, 访客   登录/注册

基于人工智能的手语翻译系统实现

来源:用户上传      作者:刘继兴 周昕 张帅峰 曾令辉 段珍灵 沈顺权

  摘 要:听力障碍者通过手语与人进行交流,但手语并不被大众所掌握,为此提出一种手语翻译系统为听障人士和非听障人士的沟通提供便利。该手语翻译系统是一个基于人体姿态研究与手部识别的图像识别系统。基于帧间差分算法在连续手语视频帧中提取出关键帧,将帧数据上传到云端,然后在云端使用YOLOv5和OpenPose人体姿态识别开源库提取手语图像坐标信息,将坐标信息作为手语识别算法输入,得到预测结果,并以文本形式表现出来。
  关键词:手语翻译;人工智能;图像识别;云端服务;系统
  中图分类号:TP18 文献标志码:A 文章编号:2095-2945(2022)23-0041-04
  Abstract: People with hearing impairment communicate with able-bodied people through sign language, but sign language is not mastered by the public. For this reason, a sign language translation system is proposed to facilitate the communication between the hearing impaired and the non-hearing impaired. This sign language translation system is an image recognition system based on human posture research and hand recognition, key frames are extracted from continuous sign language video frames based on inter-frame difference algorithm, upload the frame data to the cloud, and then use YOLOv5 and OpenPose human posture recognition open source database to extract sign language image coordinate information, The coordinate information is used as the input of the sign language recognition algorithm, and the prediction results are obtained and expressed in the form of text.
  Keywords: sign language translation; artificial intelligence; image recognition; cloud service; system
  S着社会的发展,人们的交际需求日益提高。健康人可以使用口语进行交流,而听障人士(失聪)则需要通过手语交流。由于大部分普通人日常生活中并没有学习过或接触过手语,在人与人之间的联系愈发密切的当代社会,听障人士与非听障人士的沟通需求愈发迫切。使用人工智能进行手语翻译可以为听障人士和非听障人士的沟通提供一定的便利。因此,人工智能手语翻译有着重要的理论价值、应用价值及社会意义。本手语翻译系统能够识别《国家通用手语常用词表》中单独手势以及特定情况下连续的手语视频,并将之翻译成较为符合语境且具有可读性的汉语,减轻听障人士与非听障人士沟通障碍。
  1 系统功能描述
  系统能够实现相对简单且连续的手语图像和视频的采集与翻译。当听障人士在摄像头可识别的范围内用手语与他人进行沟通,客户机会通过摄像头采集手语视频,将数据上传到云服务器。服务器会对数据流进行预处理、提取关键帧等处理并生成相应文字,然后将生成的文本发送给客户机。客户机接收到文字信息,显示文字并通过语音模块进行播放。
  2 整体设计
  整个系统可以分为客户机和云服务器,如图1所示。主控板收集摄像头采集到的手语视频,基于帧间差分算法在连续手语视频帧中提取出关键帧。使用Tcp socket方式将关键帧数据发送给云服务器。云服务器得到帧数据后,对数据流进行解析,使用YOLOv5自训练手部模型和OpenPose开源库对图像进行识别,生成相应的孤立的文字结果,然后采用隐马尔可夫模型对离散的识别结果进行处理,将最终的文本结果发送给客户机。客户机接收到信息,将文字显示到显示屏并通过语音播放模块播放语音。
  3 预处理及关键帧提取
  采集到的原始图像中存在大量噪声,因此需对图像进行预处理以减少噪声干扰,使其突出肢体运动区域信息。预选出2种方法。第一种是将输入图像阈值化为二值图像,然后采用高斯滤波对图像中的每一个像素点进行卷积计算,并加入到原始图像中进行噪声点覆盖;第二种是采用索贝尔算子进行边缘计算,对肢体部分进行边缘锐化,增强图像关键信息。但由于第一种方法会造成图像中的像素点与周围像素点相似,降低图像清晰度。所以综合考虑使用索贝尔算子增强关键信息,以减少原始图像中噪声的干扰。
  利用Opencv库可以从手语视频中提取出每一帧图像,但如果对全视频的帧进行处理会非常耗时,所以采取提取有效关键帧的做法降低处理帧数。关键帧的提取是基于帧间差分算法。帧间差分算法的原理是将两帧图像进行差分,得到图像的平均像素强度来衡量两帧图像的变化大小。基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,便认为它是关键帧,并将其提取出来。

nlc202209061642



转载注明来源:https://www.xzbu.com/1/view-15439203.htm

相关文章