Nature：超强版AlphaGo来了！可自学成才，将助力科研

2017-10-23 09:00 · 369370

曾打败多位世界围棋冠军的人工智能AlphaGo，大家肯定不陌生。现在，它的“超强版”——AlphaGo Zero来了！这一款人工智能程序不再依赖于人类经验，可以从零开始自我学习，可以在短短3天内掌握围棋选手的所有战略，并在40天后远超人类水平，以及它的“前辈”。

AlphaGo Zero采用了人类棋手几千年来都未发明的围棋策略（图片来源：Xavierarnau/Getty）

AlphaGo，一款由谷歌旗下公司DeepMind基于深度学习原理而开发的人工智能程序。之所以声名大噪，是因为它自2016年以来曾先后击败多位世界围棋冠军，包括韩国选手李世石、中国选手柯洁，是第一个击败人类职业围棋选手的人工智能。

现在，DeepMind又推出“超强版”——AlphaGo Zero，基于前所未有的学习模式从零自学成才，不再依赖于人类经验！这一重要成果发表在最新一期《Nature》上，并附有相关评论。

这种不需要人工输入的自我训练能力让我们离一个终极梦想——创造一个能够解决所有任务的人工智能，更进一步！而且，DeepMind首席执行官Demis Hassabis在新闻发布会上表示，从中长远角度出发，这一智能将能够用于包括蛋白质折叠、材料学等多个科研挑战中。

AlphaGo Zero：从零自学成才

DeepMind开发的前几款“围棋程序”，都是在与有专家参与的超10万次围棋对弈中训练而来的，且时间长达数月。现在，这一款最新的AlphaGo Zero则从零开始、自我学习。经过40天训练、3000万次PK（包括自我对弈），AlphaGo Zero可以打败之前的AlphaGo版本。

AlphaGo Zero的原理是“强化学习”（reinforcement learning），能够在更少的训练时间、更强的计算能力下远超“前辈”。DeepMind参与AlphaGo开发的科学家David Silver认为：“对人工智能使用纯强化学习一直很困难。”他认为，该项目是第一个“真正稳定、强大的强化学习版本”。

一个“大脑”：40天远超人类

AlphaGo Zero的前任们使用了两个独立的神经网络“大脑”：一个用来预测可能的最佳落子动作，另一个从中评估最有可能获胜的动作。为了实现后者目标，他们使用“roll outs”策略——进行多个快速、随机的预判，测试可能的结果。

现在，AlphaGo Zero则只拥有一个“大脑”——种由大脑结构激发的深度神经网络，它只学习抽象概念，即仅仅了解游戏规则，通过反复训练来学习，并通过每场对弈后的反馈信息自我改进。

首先，AlphaGo Zero会学习人类选手，以初学者的身份贪婪地捕捉技巧。但是只需3天，它就可以掌握人类选手使用的复杂战术。Hassabis说：“它能够重现人类几千年的知识。”

40天后，AlphaGo Zero的水平远超人类。

应用前景：造福科研

依赖于4个特殊的控制芯片，AlphaGo Zero可以在几天内就完成自我训练。这意味着，算法比任何平台或可用数据更重要。

DeepMind研发团队已经开始尝试将该技术应用于其他领域，例如解析蛋白质折叠的细节，从而为药物研发提供工具。

他们认为，蛋白质折叠并没有什么数据可以参考，且依据氨基酸序列预测结构拥有太多的可能。这在一定程度上类似于围棋，两者都有众所周知的规则，且有一个清晰的目标。从长远来看，这种算法适用于量子化学、材料设计、机器人开发等类似任务中。

参考资料：

Self-taught AI is best yet at strategy game Go

关键词： AlphaGo 人工智能