基于朴素贝叶斯技术的藏文文本分类
作者 :  李艾林 李照耀

  摘 要:该文基于朴素贝叶斯分类器对藏文文本分类进行了研究。首先,根据藏文特点和藏语语法结构,利用词贡献技术研究其特征选择方法,并使用TF-IDF估算方法计算权重;再次,构造朴素贝叶斯分类器进行文本分类;最后,分析此分类器的查全率、查准率评价函数。
  关键词:文本分类 贝叶斯技术 TF-IDF
  中图分类号:TP391 文献标识码:A 文章编号:1003-9082 (2013) 11-0011-02
  文本分类是信息处理领域中重要的研究方向之一,其属于有指导的机器学习,它广泛应用于信息自动检索、文本过滤和网页层次分类领域
  [1]。目前,数量巨大的训练样本和过高的向量维数是文本分类的两大难点。本文通过分析藏文的特征,根据藏文特点和藏语语法结构,研究藏文文本分类相关技术。
  一、向量空间模型的建立
  1.特征向量
  文本分类之前应将藏文文本转换为易被计算机理解的形式,即分词。再通过特征选择实现降维,特征加权提高分类准确度。
  2.特征选择
  特征选择是从最初的n 个特征中选取t ( t

文秘写作 期刊发表