基于多模态深度融合网络可穿戴式导盲设备
来源:用户上传
作者:
摘 要:本文提出一种基于多模态深度融合网络的可穿戴式导盲眼镜设备的设计方案。本方案配备双目采集、红外测距、图像处理、图像识别、语音播报五大核心功能模块,搭建智能导盲眼镜系统的硬件平台,使用RealSence摄像头对场景进行采集,结合深度学习的算法在远程云服务器上完成了对目标场景的灰度处理,投射呈像,最后以处理过的景象对视障人士的行动作出实时的引导,从而有效帮助视力障碍人士更好地识别场景以及对物体进行分类。同时该设备还配有语音播报和测距等其他功能。
关键词:导盲设备 双目采集 图像处理 深度融合 信息转换 语音播报
中图分类号:TP391 文献标识码:A 文章编号:1674-098X(2019)11(c)-0098-05
近年来随着我国老龄化人口的持续增多,视力障碍者数量在急剧上升,许多视力障碍人士仍有光感,但其感光能力低于常人,无法分清远近景,导致完全无法分辨场景中的事物。目前为解决视障人士与盲人的日常生活、出行等问题,市面上也已经涌现出大量的导盲工具。但大多导盲工具都存在一定的缺陷,如导盲犬训练时长过长,品种稀有,价格昂贵,且使用场景严重受限。而市场上提出的智能导盲设备也多以超声波导盲仪、伴随式导盲机器人为主。超声波导盲仪功能单一,在使用时需要反复探测,且受环境影响大;而导盲机器人在功能上更完善,但存在无法与用户的视野、行动范围一致等问题,使用效果不佳,且体积庞大,硬件开发成本高。以上设备都没有有效帮助非全盲的视障人士,忽略了视障人士存在光感的特点,其功能较为单一。
本文为此设计了一种基于多模态深度融合网络的可穿戴式导盲设备,其配备双目采集、红外测距、图像处理、图像识别、语音播报五大核心功能模块,功能较为齐全,使视障使用者可以视听结合,通过已处理的图像和人机交互认知周围环境,充分利用了视障人士的感光特点,改变图像的灰度,将其做边缘锐化等处理,使“盲人”实现视物。本设备受众人群广,且与视障人士视野高度一致,可穿戴设计携带方便;并为全盲患者提供测距、识别、语音播报等辅助功能。相对市场中已有的各种导盲工具造价低廉,使用方便,弥补了市场上的空缺,具有十分重要的社会意义和广阔的市场前景。
1 智能导盲眼镜控制系统总体设计
本文的控制系统配备双目采集、红外测距、图像处理、图像识别、语音播报等核心功能模块搭建智能导盲眼镜系统的硬件平台,主要完成信息采集传输和智能指令导盲功能。远程服务器作为系统的信息处理中心,结合深度学习算法,实现对周围目标的图像识别和距离检测。
2 智能导盲眼镜控制系统硬件设计
2.1 双目采集模块设计
在本导盲设备中,我们选用因特尔公司生产的realsense深度高清摄像头,realsense的功能十分强大,我们可以通过程序控制实时将双目摄像头拍摄的图像转换为深度图像,并进行智能导盲眼镜前方场景信息的采集,帮助盲人确定前方目标和相应的场景信息。摄像头采集的深度图像由普通的RGB三通道彩色图像和深度图两部分组成。其中深度图与传感器与目标物体之间的距离有关,每个像素上的深度值与传感器距离物体的实际距离呈映射关系,因此视力障碍者可以清楚地分辨出前方的物体信息和距离信息。
2.2 无线通信传输模块设计
本装置采用与单片机最小系统连接的Wi-Fi模块进行导盲眼镜与远程云平台服务器之间的双向通信。在导盲眼镜中插入Wi-Fi模块,单片机中的串行通讯口与双目采集模块、红外测距模块连接,单片机中USB接口连接Wi-Fi模块、数据接口。
2.3 语音播报模块设计
该模块采用SYN6288语音芯片。SYN6288芯片通过异步串口(UART)通讯方式与控制器连接,控制器接收远程云平台服务器传输来的识别配对结果的文字信息,发送给SYN6288芯片,并且发出合成文本的指令后,芯片开始工作,将控制器送入的文字信息转换成语音信息输出。
3 智能導盲眼镜控制系统的软件设计
3.1 导盲眼镜前端软件设计
3.1.1 图像分析
由我们采集到的深度图像可以看出,采集到的深度图像是一种类热成像图的形式,但是人热成像图是以物体的温度进行区别颜色,而深度图是以物体的距离远近区别颜色。由此,我们便考虑是否能够建立深度图像的RGB通道的值随距离的变化规律,而从提供一种新的分析思路。
3.1.2 分析过程
基于上述的思路,现在需要解决的问题就是建立获得的深度图像的RGB通道的像素值与其距离远近的关系。我们考虑在采集深度图像的时候,将物体的变化尽可能的平滑,这样可以使得图像的像素值连续变化,而不会出现大的跳变现象。从而更好地进行分析。
我们利用VS2015自带的Image Watch附件进行像素值的读取,通过OpenCV读入图像,设置断点,然后读取图像每一点的像素值,来判断其变化过程。
通过Image Watch工具的帮助,我们可以看到在采集到的深度图像中其像素值随着物体深度的不同而发生变化,可以看出这应当是按照某种规律而产生的变化,只是我们目前并没有很好地掌握这种规律。
但是,我们可以很明显的看到,对于这张深度图像而言,距离我们近(深度值小)的物体,会更偏向于蓝色,而离我们远的物体会更偏向于红色,最甚者会变为黑色。(同时,在物体的周围边缘也存在有黑色区域,这一区域的产生并不是由于深度值的不同而产生的,而是因为RealSense D435自带的深度图像采集的模式而产生的,由于红外摄像头与RGB摄像头的位置存在偏差,从而在物体边缘处,产生了深度值缺失的点,这与我们要讨论的并不是一个问题;另外,当距离过近时,同样会产生黑色的深度值缺失部分。)我们尝试由像素点的变化找到RGB各个通道的对应点像素值与物体深度值的对于关系。 3.1.3 实验结论
我们取出几个特殊区域的像素值变化。第一部分是绿色和蓝色的过渡区域。
在蓝色与绿色过渡带中,我们可以看到,以BGR的排列顺序进行分析(RGB图像的存储格式的通道顺序为BGR),在这一区域中,绿色(G)通道的值在255附近(最大为255),同时蓝色(B)和红色(R)通道的值的和为255左右。
然后是绿色和红色的过渡带。
可以发现,这一部分,蓝色(B)通道的值始终为0,红色通道的值在255附近(最大為255),随着红色的逐渐增大,绿色(G)通道的值逐渐减小。
有了过渡带的规律之后,我们需要对纯色带进行研究分析。
首先是蓝色区域,该区域的深度图像应当是深度值最小的,也即是离我们最近的。
可以看到的是,对于这一部分,红色(R)通道的值始终为0,蓝色通道的值在255附近,随着距离的增加,绿色通道的值逐渐增加。
然后是绿色部分,这一部分的距离位于红色部分与蓝色部分中间。
可以看出,这一部分的值的和蓝绿过渡区的值的变化规律相同,所以可以归纳一种相同的情况。
最后是红色区域,红色区域位于距离的较远部分,我们还是选取红色部分的深度值来进行分析。
可以看到的是,对于红色区域而言,它的蓝色(B)通道和绿色(G)通道的值都为0,红色通道的值随着距离的加深逐渐减小,直至为0即为黑色。
基于上述分析,我们可以将整个RGB各个通道像素值的变化分为4个部分,做成如表1所示。
灰度图像为单通道图像,取值范围为0~255。我们的目的是希望通过灰度图像的灰度值反应处深度图像所要表达的物体的距离信息。按照前面的分析思路,我们已经将深度摄像头所采集到的距离信息分为了四类,在要求不是很苛刻的情况下,我们可以选择等分这四部分,也就是说将0~255之间的所有数值等分为四组,即为0~63,64~127,128~191,192~255这四个像素值区间。同时按照变化规律进行条件的设定,对于每一个像素区间内像素值的变化,则可以由对应于深度图的变化部分的RGB通道像素值的变化而决定。如表2所示。
这部分的思路是通过区间内部的像素值变化来确定这部分的灰度值变化。
对于0~63的部分,我们可以将该部分的灰度值取值表示为0+G/4,其中G为其绿色通道的变化值,而乘上1/4是因为整个0~255区间被等分为4部分,此外还可以防止像素值的溢出。
对于64~127的部分,我们可以将该部分的取值表示为63+R/4,其中R为红色通道的取值。
对于128~191的部分,我们可以将该部分的取值表示为127+(255-G)/4,其中G为其绿色通道的变化值,因为255-G表示这部分通道内像素值的变化。
对于192~255的部分,我们可以将该部分的取值表示为191+(255-R)/4,其中R为其红色通道的变化值,思路与前一部分相同。
我们利用OpenCV库来完成上述思路的实现。
3.2 远程云平台服务器上的软件设计
图像识别部分设计为基于goolenet模型的物体识别分类。搭载于vs2017+opencv3.4环境下,搭载好环境后在程序中引用三个重要文件:
GoogLenet采用Inception结构,为一个22层的深度网络,不仅进一步提升了预测分类的准确率,而且极大地减少了参数量,将此模型运用到我们的云台上,配合程序开关,即可实现识别物体。
在利用卷积神经网络——Inception-ResNet-v2网络模型对目标物体进行识别后,即可将识别结果生成文本;读取文本,通过软件算法使每间隔1/8k秒输出一字节数据,每输出8位数据通过DAC0800数模转换,转换成相应的电流信号,再通过运放LM358转换成电压信号驱动扬声器发声,即实现语音播报。
经测试本装置基于goolenet模型可实现将物体识别播报错误率降低到7.56%左右。
4 系统测试结果与分析
通过系统测试,该智能导盲眼镜不仅能对视障人士的独立出行进行避障提示,而且能使视障人士增强视觉体验,识别物体轮廓(呈现图像如图8所示);另外该导盲眼镜还具有图像识别能力,能帮助视障人士进行简易的物品识别(图9分别为截取图片和识别后带标注图片)。
通过使用本装置,视障人士确实可以规避障碍,部分有光感的视障人士可以实现视物,并且可以通过本装置物体识别后的语音提示完成物品摆盘,归类放置等测试,体现了装置的实用价值。
5 问题及解决方法
本文所述的产品也存在着一些问题,我们将继续研究,致力于改善产品性能,提升其实用性。
考虑到视障人士并不能很便捷地找到可穿戴设备并顺利穿戴使用,我们拟在云端服务器再搭建人机交互部分,识别用户语音,并利用语音播报做出回应。
另外,也可以增加手势识别部分,通过红外感应,当遮挡光源,唤醒系统,系统检测到模块后进行模块识别。拟用类似于HLX6612手势感应传感模块的原理,采用光学反射感应原理,内置软件算法,支持在距离传感器检测窗口 5-25CM 范围内识别设定的特定手势,做出例如截取场景、拍照识别等动作。
通过以上说明,使用户更加便捷地使用本产品。
6 结语
随着各种形式的导盲设备被广泛应用,用户需要更加便携舒适的体验。本系统不仅能对视障人士的独立出行进行避障提示,而且能使视障人士简单视物,辨别物体框架,从而提高视觉障碍人士的生活体验。此导盲眼镜相较于导盲犬花销较低,应用场所也更为广泛;相较于GPS导盲定位仪获取信息更加完善,更为精准。同时用户的佩戴体验度更高,更有利于智能导盲可穿戴设备的推广和发展,具有深远的社会意义和广阔的发展前景。
参考文献
[1] 何腾鹏,张荣芬.基于机器视觉的智能导盲眼镜设计[J].嵌入式技术,2017(4):58-61.
[2] 朱爱斌,何大勇.基于双目视觉方法的可穿戴式导盲机器人研究[J].机械设计与研究,2016(5):31-35.
[3] 王力程,陈锐,韩旭,等.基于超声波测距原理的电子导盲车设计[J].电子技术与软件工程,2018(18):98-99.
[4] 杨永福,周嘉晖.智能导盲穿戴设备的现状分析及设计定位[J].中国设备工程,2017(5):147-149.
[5] 许保彬.基于AT89C52单片机的红外发射与接收系统的研究[J].通信技术,2008(9):120-130.
转载注明来源:https://www.xzbu.com/1/view-15148214.htm