您好, 访客   登录/注册

关于人工智能阿法元综述

来源:用户上传      作者:

  【摘要】2017年10月19日,人工智能阿法元(AlphaGo Zero)第一次为人所知晓。它在围棋学习之路上从零开始,自娱自乐,自己参悟,用极短的时间以100比0的成绩打败了“哥哥”阿法狗(曾战胜围棋世界冠军李世石轰动全世界)。以深度强化学习为核心技术的阿法元,是人工智能领域的最前沿成果,也是发展趋势。合理发展、应用本技术,将对各领域均有极大的推动作用,甚至改变整个工业界的面貌。基于此,其对于公安系统中的信息化侦查领域同样具有跨时代的里程碑意义。
  【关键词】人工智能 阿法元 深度强化学习
  一、阿法元的概念及发展背景
  (一)概念
  阿法元(AlphaGo Zero),是谷歌2017年目前为止最新一代的人工智能。这一代算法被项目负责人Deepmind命名为阿法元,“元’,含有起点,创世之意。,意思是从零开始。一方面说,这个算法是不需要人类数据指导,也不需要它哥哥(Alpha60)指导,就自己演化出来。另一方面也可以理解为它可以开启新纪元。
  阿法元仅拥有4个TPU,大大节省了材料成本,效益却成倍增长。以深度强化学习为核心技术,其发展趋势充满无限可能性。
  (二)发展背景
  人工神经网络在上世纪四十年代就出来了,却无法解决“异或问题”,而且训练起来太麻烦。到了上世纪七十年代,神经网络的算法得到更新,提高了效率,用多层神经网络把异或问题解决了,也把神经网络带入一个新纪元。上世纪八九十年代,人工神经网络的研究迎来了一场大火,学术圈发了成千上万篇关于神经网络的论文,从设计到训练到优化再到各行各业的应用。直至2016年3月更新算法的阿法狗战胜了被聂卫平估算为的20段的世界棋手冠军,基于此神经网络的算法优化,谷歌新一代的人工智能阿法元以100比0的勝率又碾压了阿法狗,其只需要在4个TPU上花3天时间,自己左右互搏490万棋局。而它的上一代阿法狗,需要在48个TPU上,花几个月的时间,学习三千万个棋局,才打败人类。阿法狗项目负责人介绍说阿法元远比阿法狗强大,因为它不再被人类认知所局限,而能够发现新知识和新策略。
  (三)核心技术:强化学习
  阿法元却能够在不用那3000万数据的时候来个完胜阿法狗。从人工智能的技术角度看,这是强化学习的胜利,在不进行监督学习的情况下,就可以达到一个高于人类的境地。
  强化学习的先进性需通过与监督学习的基本思想对比中体现出来。监督学习、强化学习和无监督学习是机器学习的三大框架。某一个意义说,监督学习是给定输入和输出,机器来学习输入和输出的关系,一个好的监督学习算法犹如一个预言家,它能够根据自己之前见过的输入输出关系来预测未知的输入。
  强化学习的三元素是状态,行为和环境奖励。强化学习条件下,学习者每一步看到的是它决策的行为结果,然后导致下一步行动,为了最终游戏的胜利。
  强化学习强在决策。监督学习是预言家,强化学习是决策家。
  二、阿法元的特点
  (一)运行模式的轻捷高效性
  阿法狗升级至阿法元缩减了44个TPU,仅拥有4个TPU,计算速度也提升了几个月的跨度,这一突破,相当于一个科研团队缩减了44个智商超群的人,但是其工作效率还大大提升了很多。
  (二)学习手段的自主性
  阿法元运用强化学习这一核心技术,完全在没有人类帮助、没有任何先验知识的基础上无师自通,自主学习,是人工智能在这一年代最大的突破。
  (三)学习方法的非人类思维性
  美国的两位棋手在《Nature》上点评:“阿法元的开局和收官和专业棋手的下法并无区别,人类几千年的智慧结晶,看起来并非全错,但是中盘看起来则非常诡异。”学习人类选手的下法虽然能在训练之初获得较好的棋力,但在训练后期所能达到的棋力却只能与原版的阿法狗相近,而不学习人类下法的阿法元最终却能表现得更好。美国杜克大学人工智能专家陈怡然教授对此的解释是:阿法元降低了训练复杂度,摆脱了对人类标注样本(人类历史棋局)的依赖,让深度学习用于复杂决策更加方便可行。
  (四)应用领域的广域性
  只要设计好一个项目的规则,阿法元就能自主进行学习和运作。基于这一核心特点,可以估计当技术完备成熟的时候,各领域都可以很方便得到应用,可以大大节省人力物力财力。
  三、阿法元在信息化侦查领域的应用
  阿法元的运作模式,形象的可以比喻为,看了《信息化侦查教程》的第一个字,就能猜出并学会其所有的内容。人工智能领域中,对话、知识、成长这三大能力决定着未来。将阿法元分别运用至这三个方面,在信息化侦查领域可以构想:
  可以以对话的形式解决人工录入人员、住所、车辆等等繁琐信息所花费人力物力财力的基础消耗,可以大大提升信息化模式的效率。
  可以智能分析串并案件。传统办案都是以人到案、以案到人,总归需要一个触发条件,在人为意识的认知下,才能主动的去寻找串并案件的联系。使用阿尔法技术的系统,可以实现在无人操作的状态下,自主寻找的关联案件,并根据一定规则实现自主串并案件,可以实现的话则大大加快了办案效率。
  可以实现智能信息化追踪。信息化侦查涉及的模块有:GPS资源,住宿资源,物流资源,资金资源,监控资源,通信资源,网络资源等,传统信息化侦查方法需人工在各类资源中进行检索,而阿法元可以自行在各个领域提取相关信息,不需人为主观选择某一领域去尝试,提高了容错率,大大缩短人为的分析时间。
转载注明来源:https://www.xzbu.com/2/view-14829796.htm