基于python的文本挖掘应用
来源:用户上传
作者:
摘 要:随着互联网发展,数据的产生与存储无处不在,基于用户的行为数据分析对商家及消费者都具有重要意義。文章主要通过八爪鱼实现京东商城小米9用户评论的抓取,利用python进行文本数据挖掘及分析。通过导入文本数据建立语料库、并进行中文分词、词频统计、生成词云过程实现小米9用户评价的词频统计分析,得出用户对手机评价的侧重点,为商城用户及商家提供一定的决策建议。
关键词:数据挖掘算法;文本挖掘;词频统计
在大数据时代,在我们的生活当中,可获取的大部分信息是以文本形式存储在文本数据库中的,如web页面、新闻文档、研究论文、电子邮件、数字图书馆和书籍等[4]。由于互联网的迅速发展,现实世界的文本信息更多的呈现为电子化,文本挖掘也成为信息领域的研究热点和学习重点。用计算机实现海量文本的识别和分析成为研究重心,文本挖掘技术也被广泛的应用于许多领域,也突出解决了很多问题。国内很多学者对文本挖掘相关也都提出了各自的见解与不同领域内的应用。罗怡薇,张科伟[1]在其文章基于文本挖掘的网络热点舆情分析中,利用python及数据挖掘算法实现校园霸凌热点问题的词频统计分析,得出大众对于此问题的消极态度。冯丽娜[2]在其文章基于词频统计的孔子与颜之推教育思想比较研究中通过对《颜氏家训》和《论语》的词频统计与对比,揭示了二者在教育思想上的异同点。胡翠婷[3]在其文章基于词频计量统计的林黛玉性格分析中,通过对《红楼梦》和林黛玉诗词的词频统计,得出其对林黛玉性格的分析结果,即多愁善感,自卑敏感的性格特点。
一、文本挖掘概念
文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。其中被普遍接受和认可的文本挖掘定义为:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考[4]。文本挖掘的主要用途是从原本未经处理的文本中提取出未知有用的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科结合的领域,包括了信息技术、数据库技术、文本分析、统计学、数据可视化、模式识别、机器学习、深度学习以及数据挖掘与数据分析等技术[4,5]。文本挖掘是从数据挖掘发展而来的,因此其定义与我们所知的数据挖掘定义相类似。文本挖掘技术不同于数据挖掘技术,一些数据挖掘技术也不能应用到文本挖掘中,即使可用,也需要建立在对文本集的预处理的基础之上。
二、文本挖掘词频统计过程
(一)建立语料库
语料库是我们要分析的所有文档的集合。在日常工作中我们对文章的管理,先是一篇篇的文章不断的积累,我们存了大量的文章之后,会对文章信息进行一些归类的工作,一般体现于建立不同的文件夹来保存不同类别的文章。同样的,我们把我们需要分析的文文章件,读取到内存变量中,然后在内存变量中使用不同的数据结构,对这些文文章件进行存储,以便进行下一步的分析。
(二)中文分词与去除停顿词
将汉字序列分成一个一个的单词,利用jieba数据包进行分词,使用默认的数据库对文字句段进行分词。在分词过程中有些停顿词是无实际意义的,比如的,得,地以及一些助词代词等,需要将其去除以提高词频统计结果的正确性。
(三)词频统计与分析
词频,即词语在文档中出现的次数,通过词语或关键字在文档中出现的次数统计可分析出用户一定的情感倾向。
(四)生成词云
利用wordcloud和matplotlib实现词云的可视化过程。
三、文本挖掘在小米9用户评论中的应用
文章利用八爪鱼抓取了京东商城上小米9二月到四月间的520条商品评论,并利用python进行了数据处理过程。
(一)数据抓取通过八爪鱼抓取商城米9用户评论,保存到本地excel表当中。
(二)数据清理将抓取的数据进行清理,去除掉不用的数据列,填充空缺数据条。
(三)python编写代码实现数据的处理与分析过程,包括读取文本数据,进行结巴分词,词频统计和生成词云的过程。
(四)分析用户对米9的总体评价。由数据分析结果及生成的可视化词云可知,用户的主要情感倾向是小米手机不错,这与小米的一贯品牌形象相符,追求性价比。其中除去手机、小米关键词不错是词频统计中最高的,这是对小米的总体评价。其次就是手感,拍照,和流畅,这是对小米9的具体评价,即小米9的手感不错,拍照也清晰,机身也很流畅。但其中也存在一些频次较低的中性词语,比如电量,解锁等名词性或动词性词汇,无确定其形容词或副词的连接描述,所以不能确定其表达的精确意思。存在的客户抱怨主要是其发货速度和小米的饥饿营销,让用户等待时间较长。
四、结语
通过八爪鱼和python实现计算机对用户评论的文本抓取与分析,并分析出用户的产品偏好及情感评价,对产品的研发有一定的指导意义,对其他用户购买手机具有一定的参考意义。文章的不足之处:采集的样本数据520条,数据量较少,存在一定的结论偏差;词频统计与可视化过程只能大体判断整体用户的情感倾向,而不能具体到每位用户的情感倾向,仍需深入研究。
参考文献
[1] 罗怡薇,张科伟.基于文本挖掘的网络热点舆情分析[J].内蒙古科技与经济,2018(11):18-19.
[2] 冯丽娜.基于词频统计的孔子与颜之推教育思想比较研究[J].图书馆杂志,2018(10):70-78.
[3] 胡翠婷.基于词频计量统计的林黛玉性格分析[J].现代语文,2019(02):86-92.
[4] 徐奇钊.基于文本挖掘的文本情绪分类[D].云南财经大学,2016.
[5] 潘若愚.基于词频统计分析国内外文本挖掘的研究热点[A].第十二届(2017)中国管理学年会[C]2017(10).
作者简介:程慧玲(1997- ),女,汉族,安徽合肥人,就读于安徽理工大学,研究方向:管理科学与工程。
转载注明来源:https://www.xzbu.com/4/view-15000288.htm