您好, 访客   登录/注册

机器学习研究思路和途径的探讨

来源:用户上传      作者:

  【摘 要】机器学习是机器人工程领域最活跃,最有潜力的方向之一。本文概述了机器学习当前研究的方向:符号机器学习、集成机器学习、增强机器学习、统计机器学习,梳理了各自的理论基础。在此基础上,以统计机器学习为重点,就其一致性、收敛性、推广性以及构造算法的原则四个核心方面进行了综述,最后提出几点思考和建议。
  【关键词】机器人;机器学习;计算机智能化
  中图分类号: TP181;TP242 文献标识码: A 文章编号: 2095-2457(2019)36-0143-002
  DOI:10.19694/j.cnki.issn2095-2457.2019.36.065
  0 引言
  计算机相比人脑而言在存储、计算方面具有无与伦比的优势,然而,其是否可以具备一定智能,一直以来是科学家们、科幻小说家们致力研究、探索和想象的一片非常广阔的领域。
  计算机智能化的起步阶段包含两方面工作:一方面是将人类已有的知识或经验“教”会计算机,从而使计算机成为某个领域的专家,其焦点在于知识库和推理机两方面,已经有比较成功的案例;另一方面是从大量的数据、现象中,学习产生新的知识或经验,这就是机器学习过程。后者比前者难,前者发展到一定程度会面临同样的问题。目前,机器学习已经成为机器人工程、计算机领域最活跃,最有潜力的研究方向之一,受到了广泛的关注。
  1 机器学习概述
  机器学习有四个关键要素:已知事实、学习方法、新的知识、预判未来。
  机器学习当前研究的方向:符号机器学习、集成机器学习、增强机器学习,统计机器学习。
  1.1 符号机器学习
  最早的符号机器学习是关于文法归纳的研究,给定一组语句实例,求出有关文法。传统意义下,这类机器学习建模方法不建立在统计基础上,不具备泛化能力。1967年,Gold证明了这类学习在理论上存在不可逾越的障碍。
  随着海量信息的出现,人们对简约阅读的需求增长,Samuel将这类机器学习演变为一类基于符号数据集合的约简过程,将其赋予了新的含义。
  两类最重要的符号机器学习算法包括:覆盖算法与分治算法。覆盖算法有20世纪70年代末Michalski提出的AQ11算法;分治算法以Quinlan提出的决策树算法ID3,及其后继C4.5算法为代表,后者在前者的基础上嵌入了统计方法以增强其泛化能力,大多数已开发的决策树学习算法都是这两种核心算法的变体。
  1.2 集成机器学习
  集成机器学习的依据是Hebb提出的神经集合体假设,即集成多个分类器,使不同模型补充一个模型的不足。也就是设计一组分类器,其中每个分类器的设计更为简单,而其组合可以获得与单个分类器相同或者更好的泛化能力;另外,对于大多数情况,样本集合很难满足同分布的一致性条件,可以考虑设计多个分类器作为单个分类器的补充,增加其泛化能力。
  1.3 增强机器学习
  增强机器学习最早的思想体现在1948年Wiener著作的“控制论”中,逐渐发展成一类重要的研究课题——自适应控制。
  将自适应控制的原理应用于机器学习领域,20世纪90年代初,Sutton将这类机器学习建立在Markov过程上,称为增强机器学习方法。
  1.4 统计机器学习
  在输入输出之间的关系上反映问题空间的实际,而不需要对问题世界做物理解释,这是“黑箱”原理。统计学习理论本质上是“黑箱”原理的延續,其中数学方法是研究的焦点。
  传统的统计学要求样本数据数目趋于无穷大,这实际上是一种不可达到的假设,现实世界中,可以获取的样本数目总是有限的。统计学系理论就是研究小样本情况下机器学习规律的理论。机器学习过程,其描述隐含了三个方面的内容:
  1)一致。问题空间W必须和样本空间Q性质相同,才可以根据Q对W进行推测和预判,体现在统计学意义上就是W中的元素满足同分布的一致性条件。
  2)划分。正确预判的前提是正确地划分。
  3)泛化。判断模型M的好坏不仅仅在于对样本空间Q有好的判断效果,更重要的是要对问题空间W有尽量准确的预测效果,即好的推广能力。
  历史上,机器学习基本是在经验范畴内进行研究的,随意性非常大。Internet的普及带来海量数据现象,如何从大量数据中提取有用的信息和知识面临巨大的需求空间,有力地推动了机器学习研究。
  2 几点思考
  2.1 机器学习的前提
  机器学习的根本目的是让机器具备一定的智能,如何理解智能?
  这里,需要区分一下智慧和知识,拥有知识不等于拥有智慧。人类智慧的基础是基于规则的知识,还是基于直接感悟真理的修养?这是几千年来没有答案的一个年轻的哲学问题。目前机器学习研究只能限定在通过明晰推导过程所能获得的知识领域。
  Vapnik提出在有限数量信息的前提下推导知识的基本原则是:解决问题时要设法避免把解决一个更一般的问题作为其中间步骤。这一原则是显然的,但是遵循到什么程度并非易事。统计学理论很大程度上遵循了这一原则,不需要建立物理模型而是直接通过数学模型寻找输入输出之间的“黑箱”关系;不需要先估计密度而是直接寻找待求的函数。那么,如果问题是“根据样本寻找规律”,这一原则得到了很好的执行;如果问题是“根据样本寻找特定点上的取值”,则这一过程实际上还是先转变成了一个更一般的“寻找待求函数”这一中间问题。如果不通过这一中间步骤,意味着通过“直觉”直接推导。然而,在20世纪30年代,K.Popper提出了区分真理论和假理论的准则,一个理论可以被证实的必要条件是它存在被证伪的可能性。而通过感性的直觉方法所得出的理论“应该”是不可证伪的,也就不能称为一种科学理论。   目前的机器学习问题大多转化成寻找待求函数的问题(符号机器学习除外),也就是说将所有问题转化为数学问题进行推导。机器学习研究的是转化成数学问题之后的理论和算法,而第一步的物理世界到数学世界的转化是否严格可信?
  至此,本文梳理了机器学习的几个大前提,质疑这些前提则可能发展出来另一片广阔的研究领域。事实上,统计学习理论就是质疑“样本数目趋于无穷大”这一前提发展起来的。
  1)智能研究考虑的是知识,而非智慧。如果智慧基于感悟,现有的计算机硬件基础和软件结构是否将面临挑战?生物计算机是否将成为下一代智能计算机的主体?
  2)知识依赖于明晰的推导过程,而非感悟。如果通过直觉推导知识,如何避免不可证伪的问题?是否可以发展另一套关于科学或者哲学的理论?
  3)基于数值的机器学习是将物理世界的问题转换成数学问题再进行研究,这个转换过程如何保证不丢失关键信息?是否可以发展一套理论研究转换以及其可信度保证问题?
  4)是否存在并不适合转换成数学问题研究的物理问题?符号机器学习是否有更广阔的发展空间?
  笔者认为挑战以上这些问题可能更适合东方或者中国人的思维方式,而且可以改变在西方阴影下亦步亦趋的现象。
  不得不承认的是,目前各种主客观环境不利于这种挑战。那么,研究人员在当前环境下的努力方向是什么?
  2.2 研究人员的努力方向
  从当前机器学习研究方向来看,主流以数学方法为主。“数学不是万能的,但是没有数学是万万不能的。”在机器学习领域内要有所建树,一定要有深厚的数学功底,不仅仅是学习理解现有的数学知识,更重要的是能灵活运用各种原理和方法证明自己的算法或理论。因此,第一要务是强化数学功底。
  在此基础上,研究人员一定要明确自己的问题和目标是什么。如前所述,問题是“找到规律”还是“得到给定点上的值”,是“基础理论研究”还是“解决具体应用问题”,明确问题将会更好地引导研究思路和途径。值得强调的是,如果是解决具体的应用问题,或许理论难度和创新思想相对而言要求稍低,却更需要极其严谨细致的工作作风。从问题出发,做了什么转化,基于什么假设,采用什么算法,算法的前提是什么,是否符合真正的应用需求,局限性在哪里,最终得出什么结论,每一个步骤都需要有明晰、严谨的科学思路。
  另外,在解决具体问题时,一个非研究性质然而异常重要的方面是:如何用通俗易懂的语言向最终用户描述以上各个方面的内容,从而让用户接受其算法及相应的系统。这一点往往被研究人员所忽视,认为用户们根本“不懂,不识货”,事实上,能用浅显易懂的语言向外行描述清楚其问题及机理体现了更高层次的研究水平,研究人员既要能深入,也要能浅出。况且,也只有深入了,才能正确概要地浅出。
  【参考文献】
  [1]王珏,周志华,周傲英.机器学习及其应用[M].北京:清华大学出版社,2006.
  [2]闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10.
  [3]张润,王永滨.机器学习及其算法和发展研究[J].中国传媒大学学报(自然科学版),2016,23(2).
  [4]朱虎明,李佩焦,李成等.深度神经网络并行化研究综述[J].计算机学报,2018,41(8).
  [5]王锋,王艳娜,梁义涛等.基于KNN算法的小麦隐蔽性虫害分类器设计[J].农机化研究,2014,36(7).
  [6]吕利利,颉耀文,黄晓君等.基于CART决策树分类的沙漠化信息提取方法研究[J].遥感技术与应用,2017,32(3).
  [7]徐曌,张斌.基于约简矩阵和C4.5决策树的故障诊断方法[J].计算机技术与发展,2018(2).
  [8]孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810.
  [9]LECUNY,BENGIOY,HINTONG.Deep learning.[J].Nature,2015,521(7553):436-444.
转载注明来源:https://www.xzbu.com/8/view-15189317.htm