语料库和面向统计学的自然语言处理技术分析
来源:用户上传
作者:
摘 要:本文主要以语料库和面向统计学的自然语言处理技术分析为重点进行阐述,结合当下自然语言处理技术的发展趋势为依据,首先分析自然语言处理技术概述,其次从几个方面深入说明并探讨语料库和面向统计学的自然语言处理技术的有效应用,最后阐述语料库和面向统计学的自然语言处理技术的发展展望,进一步推动社会的前进与发展,旨意在为相关研究提供参考资料。
关键词:语料库 统计学 自然语言处理技术 发展前景
中图分类号:TP391 文献标识码:A 文章编号:1674-098X(2019)12(a)-0253-02
最近几年,计算机先进技术得到迅速发展,机器的存储量逐步增加,运算速度逐步加快,而价格呈现下降的趋势,促使大容量的机器可读语料库的建设发展为可能。现在诸多地区出现多达几亿词汇的文本样例,部分新颖的,更好的统计语言模型随之产生。要想充分发挥自然语言处理技术的存在價值,需要站在语料库特征以及统计学的视角上进行思考,以下为笔者给出的相关分析与建议。
1 自然语言处理技术概述
所谓的自然语言,便是日常生活中使用的语言类型,包括汉语、日语和英语等,然而自然语言也就是通过计算机技术给予自然语言加以处理和运用,归属于人工智能和语言领域的分支学科。充当语料库与统计学研究领域的主要方向,自然语言处理技术在于完成人类和计算机之间的交互[1]。并且语言成为社会上人类独特的互动与表述思维的媒介,所以以掌握计算机自然语言能力为前提,才可以进一步掌握自然语言处理技术的内涵,包括认知、理解以及生成的部分,认知与理解是将计算机输入的语言转换为有意义的符号,之后结合目的加以处理,后者的生成主要是把计算机中信息转成自然语言,由此计算机用户不需要花费过多的时间学习抽象性的计算机语言,而是在自然语言处理技术的基础上完成计算机系统的交互,这也是自然语言处理技术的本质原因与目标。
2 语料库和面向统计学的自然语言处理技术的有效应用
2.1 个性化智能推荐
以自然语言文本为前提的个性化职能推荐为一种过滤系统,可以结合用户的档案信息以及历史记录,分析用户自身的兴趣,猜测用户针对已知物品的评分与偏好。尤其是电子商务,信息过载发展为人们加工信息的挑战[2]。站在用户的视角上,怎样通过指数增长的方式迅速的定位自身需求的内容比较困难。站在商家的视角上,怎样把合适的物品展现在用户面前,加快交易活动的进行,存在一定难度。
面向语料库与统计学的自然语言处理技术中的推荐系统便可以处理这些问题。跟踪用户的选购与下单信息,给予用户提供针对性的商品推荐,加强商品曝光率和用户决策的效率。针对离不开社交平台与生活服务的网络用户,个性化推荐十分普遍,一方面完善商家以及用户之间的互动,另一方面强化商家与用户的沟通。此外,对于新闻服务的层面,通过细分化为主的信息研究模式下的个性化新闻信息推送逐步发展为客户端的集中模式,以了解用户自身的阅读内容与评论和社交网络终端设备机型,综合研究用户注重的信息源以及信息核心词汇,开展专业的分析活动,进一步完成新闻整理和推送,本质上达到新闻个体定制服务的目标,逐步提高用户的体验感受。
需要注意的是,对于语料库的收集,可以对“原料”进行加工,或者替换另外类型的词汇,也可以检索举例的内容,之后保存在语料库体系中。对于内容的加工,需要保证语料库内容的实用性,体现新颖性;针对形式层面,可以把语法和词汇级别进行匹配,替换原有的超纲词汇,改变语法实际结构适应人们的需求,补充一些信息数据,发挥语料库的实际价值。
2.2 语音识别
语料库和面向统计学的自然语言处理技术中包括语音识别的项目,此项目可以促使机器在识别与理解的过程中转变语言信号,生成对应的文本以及命令,换言之确保机器可以了解人类的语音,目的是把人类语音中涉及的词汇内容转变为计算机分析的信息。首先把话语进行分解,包括词汇与音素等,还要创设理解语义的相关规则,识别技术项目包括前端降噪、语音分帧、特征获取与状态配置等内容,框架包括声学模型、语言模型以及解码模型。
针对智能化的家居层面,一般家庭会拥有红外遥控器相关的家电,因为红外线的传输会受到空间的影响,一个红外线可以把多个遥控设备进行结合,同时以声音控制为主形成集成设备,可以自动化的切断电源与更换频道。若没有空闲时间,可以在语音的模式下完成人类和职能音箱之间的交互,完成遥控、点歌与网购等活动。比如淋浴期间,借助语音的模式控制好水温,或者调节室外空调的实际温度;在开车期间以智能音箱取得电话联系,确保手机维持在地图显示的状态中,不需要切换干扰其他人员。
2.3 机器翻译
机器翻译技术也是自然语言处理技术的一个分支,在语料库与统计学的视角上取得一定进展。所谓的机器翻译,也是自动翻译,主要是在计算机的基础上把一种形式的自然语言转变为另外形式的自然语言,将此过程视作机器翻译的工作状态。
对于电子商务来讲,在跨境电子商务的迅速发展背景下,诸多和不同语言相连的问题相继产生,跨境电商网络的有效运作,需要网络和APP多语言化的强大支撑,用户希望使用语言完成搜索,然而跨境电商网站自身来讲,不会花费高成本给予国家的用户创设搜索引擎,并且用户在网站的作用下寻找自身想要的项目,找到自己需求的商品,在用户了解标题之后,总会分析以下商品的详情,或者部分用户会关注商品的评价。若在语言因素的影响下,用户没有找到自己需求的信息,便会关掉页面,由此出现用户数量的流失,影响交易成效。
3 语料库和面向统计学的自然语言处理技术发展展望
对于语料库的语言学习,以统计学为基础的自然语言处理技术便是在语料库中得到多种知识的重点方式,其围绕的主题包括:语料库视作唯一信息数据的来源,一切的知识都在语料库中获取;借助统计方式获得知识,站在统计学的意义上解释知识等。
针对自然语言处理技术,机器翻译技术的前进一方面给人们的工作带来便利,另一方面由于运行成本低的优势,给此项技术的产业化发展带来诸多商机。比如把一篇文章输入在翻译软件中,可以即时获取免费的译文,针对要求不高的网页来讲,在网路中可以找到源文件,由此机器翻译针对人工翻译而言,优势十分凸显。其针对大多数的公司商业信函角度的翻译业务具备较强吸引力。然而依旧缺少人类语气和语调以及肢体语言的利用元素,就像是在文学中,作者通过写作技巧增添作品的色彩,若使用机器翻译,便不会较好的模仿翻译人员,因此在自然语言处理处理的发展展望中,可以朝向真实化的人类行为活动方面转变。
4 结语
综上所述,语料库和面向统计学的自然语言处理技术研究课题的开展具有十分重要的意义和价值,自然语言处理技术的存在为语言的翻译与使用提供便利条件,在很大程度上提升人们的生活中质量,需要引起社会人士的广泛关注。
参考文献
[1] 王月丽.兼容与冲突:系统功能语言学与语料库语言学的互鉴互补[J].成都理工大学学报:社会科学版,2018, 26(3):101-106.
[2] 伊尔夏提·吐尔贡, 吾守尔·斯拉木,热西旦木·吐尔洪太,等.维吾尔文情感语料库的构建与分析[J].计算机与现代化,2017(4):67-72.
转载注明来源:https://www.xzbu.com/1/view-15155297.htm