AlphaGo Zero采用了人类棋手几千年来都未发明的围棋策略(图片来源:Xavierarnau/Getty)
AlphaGo,一款由谷歌旗下公司DeepMind基于深度学习原理而开发的人工智能程序。之所以声名大噪,是因为它自2016年以来曾先后击败多位世界围棋冠军,包括韩国选手李世石、中国选手柯洁,是第一个击败人类职业围棋选手的人工智能。
现在,DeepMind又推出“超强版”——AlphaGo Zero,基于前所未有的学习模式从零自学成才,不再依赖于人类经验!这一重要成果发表在最新一期《Nature》上,并附有相关评论。
这种不需要人工输入的自我训练能力让我们离一个终极梦想——创造一个能够解决所有任务的人工智能,更进一步!而且,DeepMind首席执行官Demis Hassabis在新闻发布会上表示,从中长远角度出发,这一智能将能够用于包括蛋白质折叠、材料学等多个科研挑战中。
AlphaGo Zero:从零自学成才
DeepMind开发的前几款“围棋程序”,都是在与有专家参与的超10万次围棋对弈中训练而来的,且时间长达数月。现在,这一款最新的AlphaGo Zero则从零开始、自我学习。经过40天训练、3000万次PK(包括自我对弈),AlphaGo Zero可以打败之前的AlphaGo版本。
AlphaGo Zero的原理是“强化学习”(reinforcement learning),能够在更少的训练时间、更强的计算能力下远超“前辈”。DeepMind参与AlphaGo开发的科学家David Silver认为:“对人工智能使用纯强化学习一直很困难。”他认为,该项目是第一个“真正稳定、强大的强化学习版本”。
一个“大脑”:40天远超人类
AlphaGo Zero的前任们使用了两个独立的神经网络“大脑”:一个用来预测可能的最佳落子动作,另一个从中评估最有可能获胜的动作。为了实现后者目标,他们使用“roll outs”策略——进行多个快速、随机的预判,测试可能的结果。
现在,AlphaGo Zero则只拥有一个“大脑”——种由大脑结构激发的深度神经网络,它只学习抽象概念,即仅仅了解游戏规则,通过反复训练来学习,并通过每场对弈后的反馈信息自我改进。
首先,AlphaGo Zero会学习人类选手,以初学者的身份贪婪地捕捉技巧。但是只需3天,它就可以掌握人类选手使用的复杂战术。Hassabis说:“它能够重现人类几千年的知识。”
40天后,AlphaGo Zero的水平远超人类。
应用前景:造福科研
依赖于4个特殊的控制芯片,AlphaGo Zero可以在几天内就完成自我训练。这意味着,算法比任何平台或可用数据更重要。
DeepMind研发团队已经开始尝试将该技术应用于其他领域,例如解析蛋白质折叠的细节,从而为药物研发提供工具。
他们认为,蛋白质折叠并没有什么数据可以参考,且依据氨基酸序列预测结构拥有太多的可能。这在一定程度上类似于围棋,两者都有众所周知的规则,且有一个清晰的目标。从长远来看,这种算法适用于量子化学、材料设计、机器人开发等类似任务中。
参考资料: