基于自然语言处理和机器学习的文本分类及其运用
来源:用户上传
作者:
【摘 要】文本分类工作是计算机应用过程当中常见的一种工作形式,在日常工作过程中,如何对不同类别的文本进行准确高效的分类工作是相关工作人员目前正在研究的主要工作问题。基于信息技术的发展进步,新时期,自然语言处理技术及机器学习技术等人工智能领域范畴的技术操作方式都在文本分类工作当中发挥了极为重要的作用,引起了人们的广泛关注。但是,具体的操作过程对员工的工作能力要求比较高,而且相应的影响因素也比较多。基于此,为了保证文本分类工作的有序开展,本文主要对这两项技术操作方法的具体运用方法及相关注意事项进行详细的讨论和研究。
【关键词】自然语言处理;机器学习;文本分类;运用方法
中图分类号: TP391.1 文献标识码: A 文章编号: 2095-2457(2019)27-0088-002
DOI:10.19694/j.cnki.issn2095-2457.2019.27.037
自然语言处理与机器学习都是计算机技术发展背景下诞生的一种技术操作方法,是人工智能技术种类中的一种形式。其核心是通过编程设计让系统模仿人的智能去自动处理各项工作,这是使得新时期的文本分类工作开始朝着自动化、智能化方向稳步发展的关键所在,需要相关工作人员引起重视并积极研究有效的技术运用方法。
1 文本分类的基本工作内容
要想在文本分类工作当中应用自然语言处理和机器学习这两项智能技术,达到提高工作效率的目的。首先就需要保证工作人员能够明确意识到文本分类工作的重要性,明确分类工作的目标、常见的文本类型及具体的分类方法。
1.1 工作的目标
文本分类是一个复杂的集合,因为在这里可以包括对多个相关领域的研究工作。不同的工作领域在进行文本分类工作时的目标不同,相应的分类方法就有一定的差异。而从各个行业领域的工作共性特点来看,文本分类的目的就是为了能够存储相应的文本信息,保证数据信息的安全性。并在实际需要使用的时候能够保证工作人员可以便捷的查找到相关数据信息,通过使用这些数据信息来完成具体的工作内容,有效提高工作效率,促进各个企业的发展进步。从数学的角度来看,文本分类工作其实只不过是一个映射的过程。可以一对一的映射,把一些被表明类别的文本信息映射到现有的种类当中,完成分类工作。也可以一对多的映射,比如,有些文本当中既有这种类别的特征,也含有其他类别的分类特征,因此需要将同一个文本分别存放在不同的类别中。所以在文本分类中,可以看作是一个集合的值映射到一个矩阵上。将相同类别的文本划入同一个矩阵当中,就完成了基础的文本分类工作。
1.2 常见的文本类型
目前,文本分类工作的基本类型主要有以下几种:第一种是类标记文本,有单标记和多标记的区分。例如,常见的一对一的文本就是单标记文本,一对多的文本就是多标记文本。第二种就是根据文件的存储格式进行分类,比如,把文件后缀为TXT格式的分为一类,把后缀为DOC格式的分为一类。第三种就是将文件按照内容种类的不同进行分类,这种方法相对比较细致,通常适用于企业管理或者图书馆书籍整理分类的工作。
1.3 传统文本分类方法
传统的文本分类方式大多都是由人工操作计算机设备来进行的,相应的工作任务量巨大,而且容易由于人为操作马虎的情况导致分类工作出现失误,这将会给后续的资源使用操作带来安全隐患。基于此,相关工作人员正在积极研究应用人工智能技术优化文本分类工作内容及形式的可行方法,以此来推动文本分类工作的有序运行。
2 自然语言处理的文本分类工作流程
工作人员在使用自然语言处理工作进行文本分类时,应当明确该项技术的基本操作原理,明确技术的优化方向,并建立相应的系统结构体系。
2.1 基本操作原理
自然语言就是人们日常相互沟通的语言,如汉语、日语、英语等等,它们就是人们学习和沟通的工具。而自然语言处理是一门融语言学、计算机科学、数学于一体的科学。利用自然语言进行文本分类,是将文本的内容和文本的存储方式都以人们所熟悉的语言习惯进行处理,而不需要人们去理解计算机编程所使用的语言方程等等,这就使得各个工作岗位都可以操作计算机设备完成文本的存储和查询的工作。在具体的操作过程中,还涉及到对数据信息的文字转化技术,通过这种方式可以为人们日后使用文本信息提供便利。
2.2 语音系统的设置
自然语言处理在文本分类工作当中可以设置语音接收和识别的系统,在新时期的信息技术发展背景下,工作人员不仅可以手动保存文本,还可以通过与计算机系统对话的方式完成存储和分类工作。这在自然语言的理解过程中,实质上就是一种映射,一种语言的表达方式转换成为另一种语言的表达方式。目前,许多智能家居都安装了这项语音系统功能,应用效果良好。在这个环节当中需要关注的主要问题就是计算机是否能够理解人们输入的指令,并进行正确的操作。同时,现阶段,工作人员也在使用这种语音系统进行文字的输入,用来制作文本的内容,这是自然语言處理的关键技术手段,有效提高了各行各业文本分类工作的效率和质量。
2.3 结构体系的建立
在实际应用自然语言处理文本分类工作时,工作人员还需要建立健全的结构体系,将文本内容存储在相应的系统结构当中,方便进行集中管理。由于我国已经进入大数据时代,相应的文本数据信息十分庞大。在具体进行自然语言处理工作时,可以建立树形结构图,明确分布出文本信息的衍生资源,分清各类资源之间的关系。而具体的树形结构还需要依靠于自然语言处理技术完成自动分类和整理,工作人员可以设置相应的计算机运行程序。通过运用一系列的查询问答来进行判断及分类的工作,前一问题的回答直接关系到后续问题的提法。采用这种方法直到所有文本资源全部分类完成,这种基于人工智能技术下的自然语言处理工作,虽然能够有效降低员工的工作压力,但是在实际操作过程中却容易由于计算机识别能力方面的问题而影响工作的效率。这就表示相应的计算机技术还有待进一步优化研究,而现阶段的优化重点就在于计算机设备对人类智能的学习方面。 3 机器学习的文本分类工作流程
机器学习已经成为了文本分类工作智能化的重要技术手段之一,相关研究工作的重点主要是对计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能等方面的研究工作。在这个问题上,如何帮助计算机熟悉人们的语言及操作习惯是这项技术的关键点。
3.1 明确机器需要具备的功能种类
在世界范围内,我国的计算机智能化研究工作相对起步比较晚,相应的技术操作能力还在进一步的优化研究工作当中。从文本分类的角度来看,相关工作人员在研究机器学习的人工智能技术时,应当明确机器自身需要具备的基础功能有哪些。这就涉及到了图灵测试的研究工作,这项实验研究是最早的机器学习人类语言习惯及操作习惯的测试。具体的测试內容为:如果计算机能够回答出人类提出的测试问题,并且,不论答对与否都无法让人分辨出该答案是人类给出的还是计算机给出的,这样就算完成了机器学习。从这个测试方面工作人员可以看出,机器学习主要学习的是如何模拟人的智能去回答问题。这就需要其具备对问题的识别功能,包括对实际物体的扫描功能以及语音系统的设置问题等等。通过这种方式让机器有“眼睛”、“耳朵”和“嘴巴”,从而让机器可以与工作人员进行智能对话。
3.2 数据的收集和分析
机器学习技术最先需要研究的就是人的思维习惯,而这就涉及到对数据的分析工作。工作人员可以设置一些调查问卷,比如,心理测试。然后应用信息技术统计相应的结果,通过人工智能技术来分析人们的共性思维和个性思维模式。并建立数据库将这些数据收集起来,这么做的目的是由于计算机需要不断在数据收集过程中学习,在这个过程中不断模拟人类的思维模式,真正达到智能处理文本分类工作的目的。此外,数据收集工作还需要筛选出一些无用的数据信息,保证数据的真实性,这是机器学习技术优化研究工作的重点内容。
3.3 结合具体工作内容来设置
工作人员要想将机器学习应用于文本分类工作当中,就需要结合文本分类的具体工作内容进行灵活的设置。比如,从文本的内容来看,涉及到对标点符号、表情符号的使用情况。当工作人员在进行语音输入时,机器应当具备自动输出正确标点的能力。同时,文本分类工作需要统计相同类型的文本,并区分不同类型的文本。机器学习的运用过程中,其需要具备智能化、自动化分辨文本格式及内容的能力。针对这个问题,必须考虑学习算法泛化能力,保证测试数据集的错误率要足够低。泛化能力的研究主要有:以样本个数趋近无穷大来描述模型的泛化能力;从“有限样本”建立模型,以估计其对世界为真的程度的能力。
3.4 相关注意事项
自然语言处理与机器学习有很多共通的地方,因此工作人员在进行人工智能的研究工作时,通常都会将这两项技术问题融合起来。由于这两项技术的优化流程都相对较为复杂,必须要保证工作人员具备专业的的计算机操作知识,能够了解人工智能的含义及新时期信息技术的发展方向。这就需要对工作人员进行专业知识技能的培训工作,并应当结合文本分类工作的基本要求规范员工的工作行为。这里还涉及到对文本数据信息安全性的监管工作,这是保障文本分类工作稳步运行的基础。
4 结论
在文本分类工作当中,基于传统分类方法较为费时费力,而且容易出现操作错误而给后续人们使用文本开展各项工作带来不良影响。基于此,人工智能技术的应用优势逐渐受到工作人员的重视。本文当中主要介绍的是人工智能技术中的自然语言处理和机器学习,工作人员需要明确这两项技术的基本操作原理,结合工作的流程制定科学合理的工作方案,建立相应的系统结构体系。不断研究有效优化技术操作方法的可行措施,推动文本智能分类工作的可持续发展进步,显著提高工作效率和质量。
【参考文献】
[1]韦文娟,韩家新,夏海洋.基于Python自然语言处理的文本分类研究[J].福建电脑,2016,32(7):4-5.
[2]关白,才让叁智,才华.自然语言处理在信息检索中的应用研究[J].信息与电脑(理论版),2017(11):35-37.
[3]李承晋,高冲,周文杰.共词分析识别研究热点的内容效度研究:基于自然语言处理[J].图书与情报,2018(1):8-14.
[4]黄勇,罗文辉,张瑞舒.改进朴素贝叶斯算法在文本分类中的应用[J].科技创新与应用,2019,261(05):30-33.
转载注明来源:https://www.xzbu.com/8/view-15031289.htm