您好, 访客   登录/注册

基于H-KNN的藏文字符的识别研究

来源:用户上传      作者:吴玉龙?卓嘎?扎西平措?赵智龙?吴绍乾

  摘 要:在OCR技术越来越成熟的今天,中文OCR技术早已发展成熟,但是藏族聚集地的藏族同胞所使用的藏文OCR技术却还未成熟。针对此,文章通过改进KNN算法,增加希尔伯特曲线来改进算法,设计了基于H-KNN的藏文字符识别的算法,利用最近邻算法与希尔伯特曲线相结合的方法来识别藏文数字字符,改进了字符在预处理时的降维方式,提高了KNN算法的识别效果,实验结果证明,相较于传统的KNN算法识别正确率有显著提升。
  关键词:藏文字符识别;最邻近算法;希尔伯特曲线;OCR
  中图分类号:TP391.4 文献标识码:A文章编号:2096-4706(2022)08-0092-03
  Research on the Tibetan Characters Recognition Based on H-KNN
  WU Yulong, ZHUO Ga, ZHAXI Pingcuo, ZHAO Zhilong, WU Shaoqian
  (Tibet University, Lhasa 850000, China)
  Abstract: Today, the OCR technology is becoming more and more mature, and Chinese OCR technology has long been developed and matured, but the Tibetan OCR technology used by Tibetan compatriots from Tibetan gathering areas is not yet mature. Aiming at the situation, this paper designs a Tibetan character recognition algorithm based on H-KNN through improving the KNN algorithm and increasing the Hilbert Curve to improve the algorithm. It uses the method of combining the KNN algorithm with Hilbert Curve to identify Tibetan numeric characters, improves the dimensionality reduction mode of characters in preprocessing, and improves the recognition effect of KNN algorithm. The experimental results prove that there is a significant improvement in the identification accuracy rate compared with the traditional KNN algorithm.
  Keywords: Tibetan character recognition; KNN algorithm; Hilbert Curve; OCR
  0 引 言
  随着全国信息化的发展,OCR技术已经越来越普及,但在我国少数民族地区所使用的语言依然信息化不成熟,而藏文作为藏族人民日常交流的主要语言,藏文OCR技术却依然不成熟,因此,研究藏文字符识别是很有必要的,本文使用希尔伯特曲线与最邻近算法识别藏文数字字符,以求利用更少的资源来实现更高的识别率,为藏文的信息化出一份力。
  1 基本原理
  1.1 希尔伯特曲线
  希尔伯特曲线是一种空间填充曲线,它是由德国数学家David Hilbert(1862―1943)发现,之后的扩展应用有希尔伯特变换和希尔伯特黄变换,希尔伯特变换经常被应用于基础信号的处理上,连续时间信号x的希尔伯特转换(t)输出响应x(t)该信号在通过具有脉冲响应h的线性系统之后的h(t)=1/pi. t
  希尔伯特曲线[1]被构造成当迭代次数为1时,将正方形分成四个相等的小正方形,然后从左下角的小正方形开始,到右下角的小正方形结束,依次将小正方形的中心与线段连接起来。当迭代次数为2时,每一个小平方被分成四个相等的小平方,然后使用上述方法,操作中心被无限连接以填充整个曲线。结果表明,一维形式下的相邻特征点在二维形式下仍处于相邻位置,最大限度地减少了对原有数据结构的破坏。再结合最邻近算法[2]就能实现KNN算法的最好效果,图1是一阶希尔伯特曲线到八阶希尔伯特曲线的展示图。
  1.2 最邻近算法(KNN)[3]
  KNN(K-Nearest Neighbor)是K最近邻居的分类法,它结合K最接近的历史记录来识别新纪录。KNN是一种经典的分类统计方法,在早期的研究策略中被用于文本分类。在本文中,我们提出了一种基于改进的聚类算法的文本分类方法。KNN算法的基本思想是,在添加新数据之后,训练最接近新数据集的K数据根据K种数据所属的类别确定与新添加数据相同的类别。
  该KNN算法的核心思想是,如果特征空间中最邻近的大多数K样本都属于一个类别,则该样本也属于该类别并具有该类别中样本的特征。此方法的分类决策仅基于最近的样本或样本的类别。在一些情况下,如果一个样本在类别决策时的类别与它周围有限的样本中的每一个类的样本的平均值和标准差都可以在决策时直接计算得到。在类别决策时,KNN方法只适用于极少数相邻的样本。因为KNN方法依赖于有限数量的相邻样本而不是判别类域,所以KNN方法比其他方法更适合于类间重叠或更多重叠的待分样本集。该算法的主要缺c之一是,当样本容量不平衡时,例如当一个类有较大的样本容量而其他类有较小的样本容量时,当输入一个新的样本容量时,样本K邻域中的样本容量可能占大多数。这种方法的另一个缺点是计算量大,因为对每一个要待分类的文本来说,计算到所有已知样本的距离是为了得到其最近的近邻K[4]。目前,对KNN算法的改进可分为四类:一类是用距离函数找到更接近实际的距离来代替标准的欧氏距离,如加权欧氏距离。其次,选择比较合理的K值时,通常采用奇数来尝试,一般方法是试错比较,也可采用自适应选择的选择方法;第三,采用更精确的概率估测方法,用多数代替少数的选择机制。本文对现有的一些改进方法进行了总结和分析,并指出了目前研究的热点和难点,提出了未来的研究方向。四是建立一个能提高KNN算法运行效率的有效索引,可以通过KD树等方法进行加速。在对已有的几种典型的基于样本相似度的类别决策方法进行比较和评估方面,已经有很多改进方法被提出来。还有一些改进方法将上述许多方面结合起来[5]。

nlc202208231443



转载注明来源:https://www.xzbu.com/1/view-15438086.htm

相关文章