自然语言处理技术发展与未来
来源:用户上传
作者:
摘 要 自然语言处理技术是人工智能领域重要的研究方向之一。随着技术的不断进步,计算机已经能够在一定程度上理解人类的语言表达,并完成相应的工作。目前,自然语言处理技术已经在信息检索、机器翻译、智能问答等领域有着广泛的应用,显著降低了人机交互的难度。文章对自然语言处理技术的发展和未来进行了简要介绍。
关键词 自然语言处理;机器翻译;语义消歧
中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2019)231-0143-02
随着科技的发展,人们对计算机的研究越来越深刻,生活中计算机的使用也越来越普及。进入信息时代后,互联网中有着海量的信息,而这些信息很多都是用自然语言表示的。同时,搜索引擎是人们获取信息的主要来源,各大搜索引擎开始应用自然语言处理来实现机器翻译;而带有智能语音助手的手机也都占据了市场的主流,这些语音助手能方便我们的生活、学习和工作。文章对自然语言处理的概述、自然语言处理的发展历史、自然语言处理的难点及自然语言处理的发展趋势进行综述。
1 自然语言处理技术简述
自然语言指的是日常使用的语言,如汉语、英语和日语等。而自然语言处理(Natural?Language? Processing,?NLP)則是指运用计算机技术对自然语言进行处理、理解并运用,它是人工智能和语言学的分支学科。作为人工智能领域研究的重要方向之一,自然语言处理的主要目的是通过自然语言的形式实现人和计算机之间的交互。
语言是人类所特有的交流及表述思维的工具,因此,只有在计算机真正能掌握处理自然语言的能力时,才具有真正的智能。自然语言处理包括多个方面,大体上有认知、理解和生成3个部分。认知和理解就是让计算机把输入的语言变成有意义的符号和联系,然后再根据目的进行处理,生成则是指将计算机中的数据信息转化为自然语言。如此一来,计算机用户不必投入巨大的精力去学习生涩难懂的计算机语言,通过自然语言便能轻松和计算机系统进行交互,这也是研究自然语言处理技术的重要原因和目的。
如今,自然语言处理技术研究的主要内容有语义分析、语法分析及篇章理解等。从具体应用的角度来说,目前自然语言处理技术主要运用于机器翻译、信息搜索及筛选与过滤、字符识别和语音识别、观点分析、多语种数据库等,具有广泛的研究和应用前景[1]。
2 自然语言处理的发展历史
早在20世纪50年代,自然语言处理的概念就已经被提出。1950年,艾伦·图灵发表论文《计算机器与智慧》,文中提出了著名的“图灵测试”——一种用来检验计算机是否具有人类智能的测试。值得一提的是,在人工智能这一研究课题被提出来时,人们就把国际象棋和机器翻译看作体现计算机智能的两大任务。而1997年,IBM公司发明的深蓝超级计算机已经打败了国际象棋界的世界冠军卡斯帕罗夫,而机器翻译的水平到现在都无法与人工翻译相媲美,可见自然语言处理是一项非常困难的任务。
1954年,美国乔治城大学与IBM公司合作,成功将60句俄语全部自动翻译成英语。虽然当时机器翻译的系统比较简单,但是研究人员还是十分激动,并且声称能在三到五年内解决机器翻译的全部问题。不过实际上进展却远低于预期,1966年的ALPAC报告显示,他们的研究在10年内没有取得预计成果,导致机器翻译的研究经费被大幅削减。一直到20世纪80年代末期,统计机器翻译的发展,才使得机器翻译的研究更上一层楼。
20世纪60年代出现一些较为成功的NLP系统,其中包括SHRDLU。该系统能够对用户的命令进行分析,辨别积木的形状并完成移动工作。1964至1966年,约瑟夫·维森鲍姆模拟“个人治疗中心”设计了ELIZA——几乎未运用人类的思想感情的信息,却能实现类似人与人之间的交互方式。但是当使用者提问的内容超过ELIZA极小的知识范围时,会得到一些很空泛的回答。例如:当提问“我的头很痛”时,得到回答“为什么说你的头痛”[2]。
在20世纪80年代前,大部分自然语言处理系统都基于人工制定的复杂规则,自然语言处理技术的发展也一度陷入停滞。80年代末期,自然语言处理引入了机器学习算法,使得自然语言处理技术得到了进一步的发展和进步。随着计算机制造成本的下降和计算机运算能力的提升,研究者逐渐将机器学习算法作为自然语言处理技术研究的重点,研究者开始倾向于建立自然语言处理的语料库,这是机器学习处理自然语言方法的基础。同时,研究者意识到:机器翻译必须保证译文和原文在语义上表述准确无误,因此,语义分析逐渐成为了自然语言处理的核心研究问题。研究表明,通过对大量的语言文本数据进行学习和统计,可以更好地解决计算机处理语言的问题,这一方法被称为统计学习模型。至此,自然语言处理又重新进入飞速发展的阶段。
3 自然语言处理的难点
自然语言处理的困难有很多,但造成困难的根本原因无外乎是自然语言的文本和对话中广泛存在的各种歧义性或多义性。歧义性指在语义分析等处理语言过程中存在的歧义问题,而消除歧义则需要大量知识。例如:当进行人工语言翻译时,翻译者需要具有一定的语言学知识和背景知识。例如在英语中,“Would?you?like?some?water?”的回答“Oh? thanks”实际意为拒绝,对机器来说也是一样,翻译时计算机必须拥有一定的背景知识库。
自然语言中充满了大量的歧义,人类的活动和表达十分复杂,而语言中的词汇和语法规则又是有限的,这就导致了同一种语言形式可能表达了多种不同含义。以汉语为例,汉语一般由字组成词,由词组成句,由句子组成段落,其中含有多层意思的转换。同样形式的语句在不同的语境中可能含有不同的意义,反过来,同样的意思也可以用不同形式的语句表示,这正是语言的魅力所在,却也给自然语言处理带来了困难。
在汉语中,分词问题便属于消歧任务之一。单词是承载语义最小的单元,因此自然语言处理中分词问题是急需解决的。在口语表述中,词和词之间是连贯的,在书写中也是如此。由于汉语不像英语等语言具有天然分词,中文的处理就多了一层障碍。在分词过程中,计算机会在每个单词后面加入分隔符,而有些时候语义有歧义,分隔符的插入就变得困难。如“南京市长江大桥”一词,既可以理解为位于南京的跨长江大桥,也可以理解为一名叫江大桥的南京市长。要想实现正确分词,就需要结合语境,对文本语义充分理解,这显然对计算机来说是个挑战。在短语层面上的语言问题也依旧存在,例如“控制电脑”,既可以理解为动宾关系:我控制了这台电脑,也可以理解成偏正关系:具有控制功能的电脑。可见,如果不能正确处理各级语言单位的歧义问题,计算机就不能准确理解自然语言表达的含义[3]。 其次,上下文内容的获取问题对机器翻译来说也是一种挑战。在理解一句话的时候,通常会根据句子所处语境的前后关系来推理其准确含义。以代词为例,要理解代词指代的是什么,就要靠前一句说了什么来推断,如“我从小亮手里拿走一块糖果给小明,他可高兴了。”这后一句话中,要想知道“他”指代的是小亮还是小明,就要理解前一句话,小明得到糖果而小亮失去了糖果,高兴的应为小明,所以“他”指代了小明。
4 自然语言处理的发展趋势
近年来,随着技术的发展,人们意识到传统的基于句法-语义规则的理性主义方法太过复杂,基于统计的经验主义也只能有限地获取数据。而随着语料库的建设,大规模的语言数据处理成为了自然语言处理的主要发展趋势。与此同时,统计数学方法而越来越受到重视,自然语言处理中机器自动学习来获取语言知识的方法也越来越广泛。另外,自然语言处理也越来越重视词汇的作用,并出现了“词汇主义”,词汇知识库的建立已经成为自然语言处理发展中的热点问题[4]。目前,自然语言处理的研究领域已经从文字拓展到语音识别、句法分析、机器翻译、机器学习和信息检索等多个方面,在自然语言处理在不断被应用的同时,它也在促进其他新兴学科如生物信息学等的发展。提升计算机处理语言的能力,已经成为了未来人们研究的焦点。
5 结论
自然语言处理是一门新兴学科,同时也是一个发展迅速的学科。自然语言处理技术的发展充满了机遇与挑战、困难与挫折,各种模型的建立和各种方法的提出,为自然语言处理带来了活力;虽然目前的机器翻译、语音识别等系统尚处在不成熟的阶段,但是自然语言处理越来越广泛的应用,证明了其在计算机领域乃至整个科技领域的重要地位[5]。相信在不久的将来,自然语言处理会有着更加光明的未来。
参考文献
[1]妮鲁帕尔·艾山江.自然语言处理技术综述[J].商情,2013(39):326.
[2]闫伟玲.自然语言处理在信息检索中的应用综述[J].商品与质量,2015.
[3]姜倩盼.自然语言处理的挑战與未来[J].信息与电脑(理论版),2013(7):219-221.
[4]王挺,麦范金,刘忠.自然语言处理及其应用前景的研究[J].桂林航天工业学院学报, 2006,11(4):19-21.
[5]林奕欧,雷航,李晓瑜,等.自然语言处理中的深度学习:方法及应用[J].电子科技大学学报,2017(6):115-121.
转载注明来源:https://www.xzbu.com/8/view-14739437.htm