您好, 访客   登录/注册

机器学习的分类、聚类研究

来源:用户上传      作者:

  摘要:大数据时代带来的数据爆炸,是机器学习发展的新机遇。本文将介绍机器学习的学习方式,机器学习的分类、聚类算法的异同和应用,并介绍朴素贝叶斯分类算法和k-means聚类算法两种常用算法。同时思考机器学习为人们生活带来便利的同时所产生的负面影响。
  关键词:机器学习;监督学习;无监督学习;朴素贝叶斯算法;k-means算法
  中图分类号:TP181
  文献标识码:A
  文章编号:1009-3044(2020)04-0161-02
  收稿日期:2019-10-15
  1 概述
  大数据时代的来临使得数据量迅速膨胀,也为机器学习提供了更广阔的舞台。本文将对机器学习中分类和聚类及其常见算法进行论述。相信机器学习未来必将大放异彩。
  2 机器学习
  2.1 机器学习的定义,
  相较于依托专业公式进行纯粹计算,机器学习通过模仿人类学习的过程,使计算机通过算法分析数据、从中学习、生成并優化模型,以此得到识别新数据、预测、自主决策等能力。
  2.2 特征
  特征是一类对象的某种本质特性的抽象表示,通常会使用特征的集合即特征向量来指代对象本身。机器学习中用于训练和测试的数据通常源自各种系统,其格式、质量各不相同。为了方便算法使用这些数据训练模型,需要根据要研究的问题选择特征并将这些数据转为特征向量的集合。因此,原始数据的质量,特征的选择等对生成模型的好坏甚至比算法本身更重要。
  2.3 机器学习的学习方式
  机器学习有多种学习方式,而监督学习和无监督学习是最常见的。监督学习要求每个样本除了特征值外还应包含特殊的标记,其通过特征值预测标记,再对比真实的标记计算误差,根据误差使用递归算法修正模型。监督学习最常见的任务便是分类与回归。无监督学习则不需要标记,其按照特定的指标和方法探索实例之间的相似程度,或是研究特征之间的取值关系等。无监督学习最为重要的研究问题包括聚类、关联分析、降维等。
  其他的学习方式还包括通过在迭代过程中对不同选择进行不同反馈来优化模型得到最优决策的强化学习。混合了监督和无监督学习的半监督学习。把模型作为经验训练的迁移学习等。
  3 机器学习的分类和聚类
  3.1 分类和聚类的异同
  分类算法是根据一些事物的特征,将事物划分至其对应类别。因此分类要满足所有的类别都是已知的前提。分类在机器学习中要使用监督学习,让标记为实例的类别。要评价分类模型的好坏时,可基于预测类别和正确类别进行比较来分析。而聚类算法最重要的是选择合适的度量机制,用以度量任意两个对象的相似程度,亦可以说是他们之间的距离。因为聚类的主旨便是认为事物越是相似,两者越可能是同类。聚类属于无监督学习,而因其不包含标记,类型本身是未知的。所以聚类的结果常会称若干实例聚为一簇,而不是称聚为一类。评价聚.类模型比较复杂,但通常基于如下原则:尽可能让每个簇包含的样本更加相似,同时保证不同簇之间的距离尽可能大。
  3.2 朴素贝叶斯算法
  朴素贝叶斯分类算法源自古典数学,依赖于条件独立假设,其指的便是不同特征的取值相互独立,对应公式为:
  P(X;=x1,X,=x2)=P(X,=x)P(X,=x2)
  另外还依赖于条件概率公式:
  P(X,=x|C =c])= P(X,=x,C =c|)
  P(C1 =c])
  但实际情况中不同特征取值常常相互影响,存在依赖关系。且模型效果极为依赖于数据的好坏,一旦数据存在过大偏差,生成的模型将失去使用价值。因此朴素贝叶斯算法改进常集中于解决特征值之间的依赖关系,使用平滑技术等减少数据对模型的影响。
  3.3 k-means算法
  k-means的核心是为每个簇假定了 簇中心。首先通过随机指定k个簇中心点,计算每个样本点至各中心点的距离,取距离最近的作为其所属簇,以此进行一次聚类。这时可以根据聚类结果重新计算簇中心点,与之前的簇中心点进行比较,将新的中心带入算法继续迭代以之修正模型直到两者误差小于某-常量。初期簇中心点的选取对算法的效果至关重要,它决定了迭代次数和最终聚类效果的好坏。算法的整个过程类似于最优化求解,初期中心点的随机性使得结果常为局部最优解。因此k-means算法的改进通常集中于如何选取初期的簇中心点,使中心点之间距离尽可能远,使中心点分布更加平均,或者使其更接近数据分布的疏密情况,这些措施都可以改进算法的执行速度和最终聚类的效果。
  3.4 应用方向
  分类算法在垃圾邮件识别等相关识别领域多有建树。例如人们在使用银行卡、支付宝消费的同时也产生了大量数据,银行等金融机构可以对用户的操作数据使用分类算法甄别出是否为本人行为,保护账户安全。也可以根据用户的行为数据找出风险用户,减小自身经营风险。同样分类算法也在天气预报产量预测和生产风险评估等领域得到广泛应用。同样在进行用户画像时,聚类算法也必不可少。而基于相似的人可能有相同的爱好,这样推荐算法中协同过滤的核心思想,聚类算法得以在协同过滤中大展拳脚。
  4 总结与反思
  机器学习的前景广阔,分类和聚类等算法各有千秋。分类和聚类结合使用可以互相验证,互相完善,这也是一种半监督学习的思路。同时现阶段最火的基于深度学习、神经网络进行的模式识别,也可归属于监督学习的分类算法。但机器学习为我们的生活带来便利的同时也存在一些负面影响。近期新闻提到,,部分酒店等商业机构利用大数据和机器学习等技术,甄别出对数字不敏感的用户,悄悄提高对其服务的价格牟利。有关部门应加强查处力度,保障用户信息安全,使技术不被滥用。参考文献:
  [1]李清霞,魏文红,蔡昭权.混合用户和项目协同过滤的电子商务个性化推荐算法[J].中山大学学报:自然科学版,2016,55(5):37-42.
  [2]朱军,胡文波.贝叶斯机器学习前沿进展综述[J].计算机研究与发展,2015,52(1):16-26.
  [3]何清,李宁,罗文娟,等.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336.
  [4]陈凯,朱钰.机器学习及其相关算法综述[J].统计与信息论坛,2007,22(5):105-112.
  [通联编辑:唐一东]
转载注明来源:https://www.xzbu.com/8/view-15162623.htm