大数据下的“多语种唇语识别系统”构建

> 中国论文网 >
历史论文 >
大数据下的“多语种唇语识别系统”构建

大数据下的“多语种唇语识别系统”构建

来源:用户上传作者:

　　摘要：社会上有这样一个特殊的群体，有人称之为“聋哑部落”，这就意味着他们完全被孤立在健全人控制的社会以外，他们的手语很少有人懂，他们的心理与健全人心理相比存在差异。本项目为特殊学校的聋哑人群提供专门的唇语产品，掌握唇语使用技能，以便他们和正常人一样进行交流。本项目还提供即时文字输出系统、多语种系统等高端消费，为“耳障”人员提供帮助。项目在技术上具有前瞻性、可行性，从经济上，由于国家对特殊教育持积极的鼓励政策，获得政府多方面的支持，可操作性强。
　　关键词：大数据唇语识别耳障
　　中图分类号：TP301 文献标识码：A 文章编号：1003-9082（2019）08-0-01
　　一、引言及背景
　　第四届世界互联网大会让人工智能再一次掀起了新的浪潮。近来人工智能的发展，从一开始的使用键盘码字，到后来的智能触摸屏的发明、再到语音输入等人机交互的发展，这些发展促使人机交互的模式向更加多元化的方向更新。如今，出现了一种新兴的人机交互技术——唇语识别。唇语识别是指通过观察口形变化，识别和部分识别出说话者内容，达到理解说话者的意图。
　　近几十年来，计算机技术得到飞速发展，但是人机交换界面依然很老套，人们仍然要在键盘上敲敲打打，依赖鼠标的帮助，通过最普通的界面进行计算机操作。这种连续敲打键盘不仅容易造成手腕肌腱损伤，还把使用者一直束缚在键盘上。或许自动语音识别系统能让我们稍稍感到轻松一些——这种系统在办公室内的多媒体系统，从而实现无声通话。
　　该技术还可以被广泛应用于语音识别、身份识别、人机智能接口，以此来实现无声对话、特殊教育教学、老年人、残障人辅助以及其它场合的应用，例如公安、刑侦辅助侦破等等。通过唇语识别，可以让无法开口说话的残障人士自由表达、让听力障碍者和不少老年人更清晰地听懂他人;通过口型支付密码，可以进行移动支付;而在军事情报领域，唇语识别则让远距离获取情报成为可能。
　　二、特征提取与模式的概化引用
　　可视语音信息的特征提取方法可分为两大类：基于像素的方法和基于模型的方法.。
　　所谓基于像素的方法，就是直接利用包含嘴的灰度级图像或直接利用经过若干预处理后得到的特征向量（feature vector）的一类方法.这类方法的优点是所有的数据都起作用;其缺点是分类器的学习过程中对一般的二维或三维的平移、旋转、放缩，或光照变化或说话人的变化都很敏感;另一个缺点是，其特征向量是高维度的和高冗余度的。
　　所谓基于模型的方法，就是对可见的发音部位——主要是唇的轮廓建立一个模型，而外形的描述用一个小的参数集合。这类方法的优点是重要特征被表示成低维量且通常不因平移、旋转、放缩或光照而改变.缺点是独特的模型有可能没能包括所有相关的语音信息。
　　三、多语种管理系统
　　如今的唇语识别系统还不完善，比如研究领域仅仅局限于母语以及最普遍的英文。但是，对于那些擅长说方言的人而言，仅仅这两种语言是无法满足其需要的。所以，可以创建一套完整的“多语言管理系统”。
　　（1）语种设定及查询功能是基于不知道对方使用何种语言或管理系统没有该种语言的情况下，计算机根据前期对话，自动搜寻，寻找最接近系统的对话模式（子系统），从而在该子系统下实现对接。
　　（2）语种预设功能，是熟知对方使用何种语言，进行提前预设的管理系统。省去前期搜寻过程，使对话直接切入正题，实现实时转换，省时，得到完整的对话
　　（3）图像集管理系统与文字关联系统
　　图像、语音、文字管理系统分若干个子系统，每个子系统对应一地的方言，唇形图像与方言语音、文字建立输入相应关系。根据交流对象选取管理子系统，比如上海话子系统：口形输入系统—口形查找、比对—文字输出。
　　（4）唇形图像存储系统，一组词汇对应的多个口形取参数的平均值，并设定上下阈值。每个子系统有添加图像、模拟、记忆和修复功能。
　　添加图像功能是增加新的图像/唇形、语音。
　　模拟功能是对不准确的输出，进行多次模拟，直至输出正确为止。各自地方语种构成汉字图形/语音系统，比如普通话，上海话、北京话、重庆话等。
　　记忆功能是对修改和添加的图像或语音进行记忆。
　　修复功能是对原有的图像/唇形进行修复，纠正不正确或不准确的图形和语音。
　　（5）英语作为外语语种而单独存在另一个语种中。
　　（6）借助其它语音软件文字进行校正。
　　四、文字输出系统及应用
　　选择基于图形管理系统下的子系统、输出、应用。比如对方是普通话，那么管理系统既是普通话子系统，对应的唇语就是普通话子系统。
　　五、结论
　　唇读研究的困难在于口型和语音是一个一对多的对应关系，单从口型来映射语音是不确定的.如果没有其它相关知识，要识别绝对是不可能的.而这些相关知识，需要很多.比如，特定语言学、音韵学的规律，相关领域的专业知识背景，这些知识库的建立和支持并不是一件容易的事.另一方面，唇读研究不可回避的计算机视觉问题，如光照变化、深度信息的缺乏，给唇的描述和识别带来巨大的障碍.随着计算机视觉、知识表达、知识推理技术的不断发展，我们有理由相信：视觉语言一定会被人们完全掌握和运用。
　　参考文献
　　[1]王渊，岳振军，贾永兴.唇语识别中的话题相关语言模型研究.解放軍理工大学.
　　[2]褚道立，唇语判读.《南外学报》，1985年第2期.
　　[3]余健仪，基于唇动特征的唇语识别技术.广东工业大学.
　　[4]王晓钟，潘保昌，郑胜林.基于内唇特征提取的唇语识别.广东工业大学.
转载注明来源:https://www.xzbu.com/4/view-14988893.htm

查看更多→

大数据下的“多语种唇语识别系统”构建

相关文章