关于人工智能阿法元综述

> 中国论文网 >
经济论文 >
关于人工智能阿法元综述

关于人工智能阿法元综述

来源:用户上传作者:

　　【摘要】2017年10月19日，人工智能阿法元（AlphaGo Zero）第一次为人所知晓。它在围棋学习之路上从零开始，自娱自乐，自己参悟，用极短的时间以100比0的成绩打败了“哥哥”阿法狗（曾战胜围棋世界冠军李世石轰动全世界）。以深度强化学习为核心技术的阿法元，是人工智能领域的最前沿成果，也是发展趋势。合理发展、应用本技术，将对各领域均有极大的推动作用，甚至改变整个工业界的面貌。基于此，其对于公安系统中的信息化侦查领域同样具有跨时代的里程碑意义。
　　【关键词】人工智能阿法元深度强化学习
　　一、阿法元的概念及发展背景
　　（一）概念
　　阿法元（AlphaGo Zero），是谷歌2017年目前为止最新一代的人工智能。这一代算法被项目负责人Deepmind命名为阿法元，“元’，含有起点，创世之意。，意思是从零开始。一方面说，这个算法是不需要人类数据指导，也不需要它哥哥（Alpha60）指导，就自己演化出来。另一方面也可以理解为它可以开启新纪元。
　　阿法元仅拥有4个TPU，大大节省了材料成本，效益却成倍增长。以深度强化学习为核心技术，其发展趋势充满无限可能性。
　　（二）发展背景
　　人工神经网络在上世纪四十年代就出来了，却无法解决“异或问题”，而且训练起来太麻烦。到了上世纪七十年代，神经网络的算法得到更新，提高了效率，用多层神经网络把异或问题解决了，也把神经网络带入一个新纪元。上世纪八九十年代，人工神经网络的研究迎来了一场大火，学术圈发了成千上万篇关于神经网络的论文，从设计到训练到优化再到各行各业的应用。直至2016年3月更新算法的阿法狗战胜了被聂卫平估算为的20段的世界棋手冠军，基于此神经网络的算法优化，谷歌新一代的人工智能阿法元以100比0的勝率又碾压了阿法狗，其只需要在4个TPU上花3天时间，自己左右互搏490万棋局。而它的上一代阿法狗，需要在48个TPU上，花几个月的时间，学习三千万个棋局，才打败人类。阿法狗项目负责人介绍说阿法元远比阿法狗强大，因为它不再被人类认知所局限，而能够发现新知识和新策略。
　　（三）核心技术：强化学习
　　阿法元却能够在不用那3000万数据的时候来个完胜阿法狗。从人工智能的技术角度看，这是强化学习的胜利，在不进行监督学习的情况下，就可以达到一个高于人类的境地。
　　强化学习的先进性需通过与监督学习的基本思想对比中体现出来。监督学习、强化学习和无监督学习是机器学习的三大框架。某一个意义说，监督学习是给定输入和输出，机器来学习输入和输出的关系，一个好的监督学习算法犹如一个预言家，它能够根据自己之前见过的输入输出关系来预测未知的输入。
　　强化学习的三元素是状态，行为和环境奖励。强化学习条件下，学习者每一步看到的是它决策的行为结果，然后导致下一步行动，为了最终游戏的胜利。
　　强化学习强在决策。监督学习是预言家，强化学习是决策家。
　　二、阿法元的特点
　　（一）运行模式的轻捷高效性
　　阿法狗升级至阿法元缩减了44个TPU，仅拥有4个TPU，计算速度也提升了几个月的跨度，这一突破，相当于一个科研团队缩减了44个智商超群的人，但是其工作效率还大大提升了很多。
　　（二）学习手段的自主性
　　阿法元运用强化学习这一核心技术，完全在没有人类帮助、没有任何先验知识的基础上无师自通，自主学习，是人工智能在这一年代最大的突破。
　　（三）学习方法的非人类思维性
　　美国的两位棋手在《Nature》上点评：“阿法元的开局和收官和专业棋手的下法并无区别，人类几千年的智慧结晶，看起来并非全错，但是中盘看起来则非常诡异。”学习人类选手的下法虽然能在训练之初获得较好的棋力，但在训练后期所能达到的棋力却只能与原版的阿法狗相近，而不学习人类下法的阿法元最终却能表现得更好。美国杜克大学人工智能专家陈怡然教授对此的解释是：阿法元降低了训练复杂度，摆脱了对人类标注样本（人类历史棋局）的依赖，让深度学习用于复杂决策更加方便可行。
　　（四）应用领域的广域性
　　只要设计好一个项目的规则，阿法元就能自主进行学习和运作。基于这一核心特点，可以估计当技术完备成熟的时候，各领域都可以很方便得到应用，可以大大节省人力物力财力。
　　三、阿法元在信息化侦查领域的应用
　　阿法元的运作模式，形象的可以比喻为，看了《信息化侦查教程》的第一个字，就能猜出并学会其所有的内容。人工智能领域中，对话、知识、成长这三大能力决定着未来。将阿法元分别运用至这三个方面，在信息化侦查领域可以构想：
　　可以以对话的形式解决人工录入人员、住所、车辆等等繁琐信息所花费人力物力财力的基础消耗，可以大大提升信息化模式的效率。
　　可以智能分析串并案件。传统办案都是以人到案、以案到人，总归需要一个触发条件，在人为意识的认知下，才能主动的去寻找串并案件的联系。使用阿尔法技术的系统，可以实现在无人操作的状态下，自主寻找的关联案件，并根据一定规则实现自主串并案件，可以实现的话则大大加快了办案效率。
　　可以实现智能信息化追踪。信息化侦查涉及的模块有：GPS资源，住宿资源，物流资源，资金资源，监控资源，通信资源，网络资源等，传统信息化侦查方法需人工在各类资源中进行检索，而阿法元可以自行在各个领域提取相关信息，不需人为主观选择某一领域去尝试，提高了容错率，大大缩短人为的分析时间。
转载注明来源:https://www.xzbu.com/2/view-14829796.htm

查看更多→

关于人工智能阿法元综述

相关文章