您好, 访客   登录/注册

基于词频分析的大学生思想政治动态研究

来源:用户上传      作者:

  摘要:如何实现高校思想政治教育的科学化建设一直是备受学者及教育工作者们关注的问题,大数据时代下数据分析技术的不断发展,为大学生思想动态数据分析提供了新方法,也为高校思想政治教育学科的科学化建设提供了新思路。本文通过运用词频分析法,建立面向大学生思政动态的数据分析模型,旨在为创新大学生思政教育工作模式提供方法支持。
  关键词:数据分析;大学生;思政管理;思想动态
  中图分类号:G41 文献标识码:A
  传统的思政教育模式注重道德教化,以情感人,对学生思想动态的把握局限于常规的抽样调查,这既无法真实反映学生的思想动态,又缺乏科学的数据分析意识,使得高校思想政治教育无法形成系统有效的信息分析与管理体系,也就无法实现对学生思想动态的全面掌握。思想政治教育学科自诞生以来,其科学化建设措施与方法一直是学者们关注的焦点,如何有效挖掘大学生思想数据,掌握大学生真实思想动态,始终是困扰教育工作者的一大难题。胡纵宇,黄丽亚提出,高校思政教育工作者已经意识到大数据给思政教育工作创新带来的机遇,但由于教育工作者对大数据相关技术了解不足,缺乏对定量分析方法的深入研究,导致现有思政教育工作模式表现为对大数据的参与度不够;ViktorMayer-Schonberger认为,大数据颠覆了传统的因果分析思维,可以通过相关关系分析实现科学预测;王莎等认为,“大数据思想政治教育”起源于对大数据的应用,重点在于大数据与思政教育的结合;胡子祥,余姣则提出数据化分析可以将无形的思想高度透明化,使得教育工作者更容易掌握学生的思想特征。
  “互联网+教育”是思想政治教育直面挑战、抓住机会,实现现代化发展的新思路,提高使用新媒体等信息能力成为思想政治教育者保持自身先进性的重要途径。学者们已经意识到将大数据技术与思政教育工作模式创新的重要性及必要性,并提出改进高校思政教育工作的相关建议,但研究多停留在宏观的政策改进方面,对大学生思想动态的数据分析也以结构性数据为主,集中于校园数据的挖掘和汇总。对于言论等非数字化的深层次人文信息的挖掘研究较少,对大学生思想政治动态数据的深入挖掘以及大数据分析方法的拓展应用方面尚有欠缺。
  思想政治教育的科学化建设依托于对学生信息的全面把握,通过抓取学生在校园及社区公众平台上的言论、关注热点等重要信息,量化分析学生的思想动态,挖掘学生个人思想与当前舆情的关联关系,从而及时调整思政教育措施,优化思政教育工作模式。面对海量的信息,教育者围绕思想政治教育热点、难点、焦点问题,发现、搜集、筛选信息,并充分挖掘和利用有价值的信息开展思想政治教育,显得十分重要。因此,本文针对大学生言论数据,运用词频分析法,通过对大学生思想动态数据的挖掘分析,构建思想动态数据分析模型,旨在为高校思政教育工作模式创新提供新思路、新方法,既丰富思想政治教育工作改革创新理论体系,又能够指导高校思政教育改革实践,助推思政教育工作模式不断完善。
  1大学生思想政治动态数据分析模型
  运用大数据技术处理思想政治教育数据,不仅要贴近教育对象,突出针对性,而且要熟悉数据分析技术,把握其规律性。目前学生数据分析问题中存在数据来源零散且关键分析要素缺乏等难点,对学生语言评论等信息的处理难度较大且需要通过阶段性调整。词频分析法是利用能够揭示或表达文字核心内容的关键词或主题词在某一文本数据中出现的频次高低来确定该领域热点内容和发展动向的计量方法,这是目前对于文本数据词频分析引用率最高和认同度最高的方法。
  1.1提取数据初步去噪
  本文研究在某高校APP留言评论系统数据基础上展开,该数据库存在如下问题:数据包含时间、用户等无用信息;数据内容较繁杂、口语化,没有统一的格式;部分数据为空白记录;一些简短的数据无法构成i基本的词,难以达到分词的级别。为了提高分类精度,本文对该语料库进行了降噪处理:删除无用的信息,只对指定内容进行提取;强化用户词典,对部分口语化词语加强识别,同时删除部分可识别无用信息;删除空白记录对文本重新编号。降噪算法如下。
  一是预处理。对语料库中的文本进行分词,去除停用词,计算词语权重;二是特征提取。采用信息增益结合同义词词林中的语义分析方法进行特征词的提取,降低特征向量维数;三是利用知网中的词语语义相似度计算特征词间的相似度,对测试文本中的特征词权重进行处理四是利用分类算法进行文本分类。
  1.2结巴分词
  本文采用“搜索引擎模式”的结巴分词,将句子精确切开,对长词进行二次切分,提高召回率。首先,基于Tile树结构实现高效的词图扫描,生成句子中汉字所有可能成诃情况所构成的有向无环图(DAG);其次,采用动态规划查找最大路径,找出基于词频的最大切分组合;最后,对于未登录词,采用基于汉字成词能力的HMM模型,使用Viterbi算法。
  1.3关键词频率统计
  基于TF-IDF算法的关键词频率统计过程如下。
  1.4结果验证
  算法实现主要依赖于用户词典的支撑,系统使用初期,由于用户词典的单薄,信息的零碎以及“结巴词库”对零散信息的提取存在不足,导致无法对关键词进行精确提炼,这就需要调整用户词典,通过增加有针对性的词条,提高系统分析准确性,逐渐成长为有针对性的软件系统。
  ATLAS.ti是一个强大的工作台,能够对大量文本,图形,音频和视频数据进行深层次定性分析,并支持多种媒体类型,广泛应用于各大主要科研机构。NLPIR大数据搜索与挖掘共享平台提供正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取等功能,可以无缝地融合到客户的各类复杂应用系统之中。本文使用ATLAS.ti和NLPIR分析软件对文本进行再分析,提取关键词用于完善用户词典,对比修改系统分析结果。
  本文通过“互联网+学生管理”手机APP平台,针对学生评论及留言等信息噪点多、信息传达不严谨、关键词不清晰等因素,在对所有数据进行初步去噪后,运用Python结巴分词,提取关键词,分析数据中关键词出现频率,再结合ATLAS.ti、NLPIR软件对分析结果进行验证,不断调整用户词典,调整用户词典中自定义关键词权重,提高分析准确性,深入挖掘大学生思想政治动态,基于词频分析的大学生思政动态数据分析模型,见图1。
  2实例分析
  本文以江苏某高校“互联网+学生管理”手机APP平台为例,针对平台上学生全部评论及留言信息,采用基于词频分子的大学生思政动态数据分析模型,在对所有数据进行初步去噪后,运用Python环境下结巴分词法,提取关键词,分析数据中关键词出现频率,运用ATLAS.ti、NLPIR软件验证分析结果,不断调整用户词典,及用户词典中自定义关键词权重。
  经ATLAS.ti、NLPIR验证,调整用户词典后,对最终的关键词及频率结果分析可知,学生对“教师”“入党”“造船”“考试”等方面的关注度较高,对关系学习考试和入党相关事情评论较多;在更新用户词典后,筛出“习大大”“川普”等热搜字眼,结合“一带一路”“韩国”等高频词汇,可知学生对国内外时政热点较为关注。
  对新时期学生思想政治动态的充分把握,需要思想政治教育者和管理者提升利用信息及信息技术的能力,通过科学化的数据分析,挖掘学生个人思想与当前舆情的关联关系,及时开展针对性的思想政治教育。
  3结论与展望
  本文针对高校思想政治教育的科学化建设,依据云环境下的数据分析技术,结合目前大学生思想政治教育實际,运用词频分析法建立面向大学生思政动态的数据分析模型。模型针对学生评论和留言等较难处理但能够更加真实反映学生思想政治动态的数据,通过系统化的数据分析方法统计学生关注热点,掌握学生思想政治动态,为新时期的大学生思想政治教育提供方法支持。后期将在大学生思想政治动态数据分析模型背景下,开展对思政教育工作模式的研究。
转载注明来源:https://www.xzbu.com/3/view-14871223.htm