您好, 访客   登录/注册

基于尺度不变特征的图像分类技术研究

来源:用户上传      作者: 姜祖新 张德贤 张苗 李军军

  摘要:该文提出基于Bag of words模型,提取图像的SIFT特征,然后用K-medoids算法对其进行聚类,生成词典查询所需用的关键字,最后用adaboosting算法构建分类器,实验采用pascal图像库中的数据进行训练和测试,实验证明,该算法具有训练和测试速度快,分类精度高等特点,特征提取速度和分类速度非常快。
  关键词:尺度不变特征;聚类算法;图像分类性能
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)09-2075-02
  Base on Scale Invariant Features Image Classification Technology Research
  JIANG Zu-xin,ZHANG De-xian, ZHANG Miao,LI Jun-jun
  (School of Information Science and Engineering, Henan University of Technology,Zhengzhou 450001,China)
  Abstract: Image classification has a wide application in computer vision and image processing area, and it also has significant value in practical applications. Therefore, this paper proposes a model based on Bag of words to extract the SIFT characteristic of image, and then using K-medoids algorithm to cluster them and generate the Key words dictionary query needs. Finally, it builds the sorter with adaboosting algorithm. The experiment uses the data in pascal image libary to do training and testing, and the result shows that this algorithm has high training and testing speed, high accuracy on classification, ect. Moreover, the feature extraction and classificiton speed is very high.
  Keywords: scale invariant features;clustering algorithm; image classification performance
  随着数字图像处理技术的日益成熟,大容量存储设备价格不断下降和计算机网络,面对如此浩瀚的数字图像资源,人们很容易在互联网杂乱无序的信息海洋中迷失方向,如何管理、存储并迅速、准确地检索到所需图像,从而最有效地利用图像提供给人们的便利,是图像分类领域不得不面对的一个问题。
  该文提出基于尺度不变特征的图像分类技术来提取图像的sift特征,然后用AdaBoosting算法进行图像的自动分类,一方面,很好的抵抗图像缩放和旋转畸变以及噪声的能力而具有同类技术所不具备的优势。另一方面,可以有效的解决各个领域中海量图像的分类管理,并且完善多媒体信息理论的研究和发展。
  1基于尺度不变特征的图像分类技术的提出
  现在商用的图像分类系统还不是真正根据图像所包含的内容来进行分类的,只是依靠图像的纹理特征,几何特征,颜色特征以及数理统计特征等来对图像进行分类,容易受到物体角度,光照强度等可变因素的影响,分类精度有限。而基于SIFT特征的图像分类技术在提取特征点时采用金字塔方法,提取的特征点数稳定且相对较多,同时具有很好的抵抗图像缩放和旋转畸变以及噪声的能力,在基于内容的图像分类领域,优越性非常明显。在国内,基于SIFT特征的应用系统和研究较少,该文旨在通过高性能的图像特征提取算法和机器学习分类算法搭建可扩展的算法,以满足实际生活中对图像识别的巨大需求。
  2基于搭建可扩展算法的评价与研究
  2.1 sift算法描述
  SIFT算法[1]是一种提取局部特征的算法,在尺度空间寻找极值点,提取位置,尺度,旋转不变量。该算法的主要步骤如下:
  1)利用图像金字塔构造多尺度空间
  2)空间极值点检测
  为了寻找尺度空间的极值点,每一个采样点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小。
  3)精确确定极值点位置
  通过拟和三维二次函数以精确确定关键点的位置和尺度,同时去除低对比度的关键点和不稳定的边缘响应点,以增强匹配稳定性、提高抗噪声能力。
  4)关键点方向分配
  利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数,使算子具备旋转不变性。并用直方图统计邻域像素的梯度方向。直方图的峰值则代表了该关键点处邻域梯度的主方向,即作为该关键点的方向。
  5)特征点描述子生成
  以特征点为中心取16*16的邻域作为采样窗口,将采样点与特征点的相对方向通过高斯加权后归入包含8个bin的方向直方图,最后获得4*4*8的128维特征描述子。
  2.2 Bag of Words特征表示
  Bag of Words模型最初被用在文本分类[2]中将文档表示成特征矢量,它的基本思想是完全不考虑文档中单词的位置,将文档当成一个词袋(Bag of Words)。与之类似,我们可以将图像当成一些图像片段(Image Patch)的集合,然后,需要统计每个图像片段(Codebook)出现的频率,然后将它们表示成TFIDF的形式。
  2.3 K-medoids算法的基本思想
  K-MEDODIS算法是数据挖掘技术中基于划分法的一个经典的聚类算法,因其理论可靠、算法简单、收敛速度快而被广泛应用[3]。K-MEDOIDS聚类算法的基本思想是:通过任意为每个聚类找到一个代表对象而首先确定n个数据的K个聚类,按照最小距离原则,其它对象根据与这些聚类代表的距离分别归属到各组相应的聚类中。如果替换一个聚类代表能够改善所获聚类质量的话,那么,可以用一个新对象替换聚类对象。聚类质量是否改善可采用成本函数进行评估,该评估函数如下:21EEE?=-其中,E?代表方差的变化,E2代表替换后所有数据对象与相应聚类中心的均方差之和,E1代表替换前所有数据对象与相应聚类中心的均方差之和。如E?为负数,代表聚类质量得到改善,就替换掉该聚类代表,否则仍用原来的聚类代表。
  2.4 AdaBoost算法
  AdaBoost算法[4]起源机器学习中的PAC模型,它针对不同的训练集训练同一个基本分类器(弱分类器),然后把这些在不同训练集上得到的分类器集合起来,构成一个更强的最终的分类器(强分类器)。理论证明,只要每个弱分类器分类能力比随机猜测要好,当其个数趋向于无穷个数时,强分类器的错误率将趋向于零。
  AdaBoost算法中不同的训练集是通过调整每个样本对应的权重实现的。最开始的时候,每个样本对应的权重是相同的,对于错分的样本,则增加其对应样本的权重;而对于正确分类的样本,则降低其权重。这样可以使得错分的样本突出出来,并得到一个新的样本分布。在新的样本分布下,再次对基本分类器进行训练,得到基本分类器及其权重。依次类推,经过T次这样的循环,就得到了T个基本分类器,以及T个对应的权重。最后把这T个基本分类器按一定权重累加起来,就得到了最终所期望的强分类器。
  3实验
  为了验证分类器的效率和性能,该文的实验基于当前国际公开的Pascal图像数据集来测试分类算法的性能,具有较高的可信度。在C++和opencv的环境下对该文提出的算法进行了多次实验。图像数据主要有6类,每类依据随机种子的选取随机选择40幅作训练,40幅做测试。表1为不同的图像分类器测试的结果以及分类器的性能指标。
  表1不同的图像分类器测试的结果
  
  4结论
  AdaBoosting算法对图像进行分类,该算法具有训练和测试速度快,分类精度高等特点(可以比得上支持向量机)。特征提取速度和分类速度非常快,一副图片的分类的总时间大概为1秒,当前在小数据集上达到的分类精度为75%左右,调整系统的参数和采用更多图像数据,可以进一步改善系统的性能。该文提出的搭建可扩展的算法可以处理Pascal数据集的105类图片的上千文件,得到100多万左右的特征,但是仍然不会出错。
  参考文献:
  [1] Lowe, David G.,“Object recognition from local scaleinvariant features,”International Conference on Computer Vision, Corfu, Greece(September 1999), pp. 1150-1157.
  [2]施培蓓.数据挖掘技术中聚类算法的研究[D].江南大学,2008.
  [3]徐义峰,陈春明,徐云青.一种改进的K-均值聚类算法[J].计算机应用与软件,2008,25(3):275-277.
  [4]Robert E. Schapire and Yoram Singer, Improved Boosting Algorithms Using Confidence-rated Predictions, Machine Learning,37:297-336, 1999.


转载注明来源:https://www.xzbu.com/8/view-2296145.htm