2012 年 7 月,当雷·库兹威尔去见谷歌首席执行官拉里·佩奇的时候,他没想找工作。库兹韦尔是一位机器智能未来主义者,也是该领域受人尊敬的发明家;他本来是想来谈谈自己即将出版的新书《如何创造人脑》的——佩奇曾经读过这本书的草稿。库兹韦尔对佩奇说,他想开个公司来实现他的设想,建造一台真正有智能的计算机:这种计算机能理解语言,并能自行进行推断和作出决策。
显而易见,这种事将需要完全不少于谷歌规模的数据量和计算能力。佩奇告诉库兹威尔:“我可以试着给你一些支持,但对于一家独立的公司来说,做这种事非常困难。”所以,佩奇建议库兹威尔加入谷歌;虽然后者从来都只是在自己的企业里工作。做决定没有花库兹威尔太多的时间:2013 年 1 月,他成了谷歌的工程主管。他说,“这是我专注人工智能领域50年的最终之作。”吸引库兹威尔的不只是谷歌的计算资源,还包括谷歌在“深度学习”上的惊人进步——这是人工智能的一个分支。深度学习软件试图模仿大脑新皮质中的多层神经元活动,大脑80%的思维都由这些皱巴巴的东西产生。毫无疑问,这种软件能学习识别以数字化方式表现的声音、图像和其他数据中的模式。
这种软件能在一个人工“神经网络”中模拟新皮质的大量神经元阵列的基本思路,已经有了数十年的历史,它带来的失望和突破一样多。但是,因为数学方法的改进和计算机的日益强大,计算机科学家们现在可以模拟更多层的虚拟神经元,比以往任何时候都多。
基于这种更深入的能力,人们在语音和图像识别上正在做出显著的进步。2012 年 6 月,人们给谷歌的深度学习系统输入了 1,000 万张来自 YouTube 视频的图片,证明它在识别猫这样的物体上,识别效果比之前的类似系统好了差不多一倍。谷歌也用这种技术来减少语音识别的错误率,这种语音识别用在最新的安卓手机软件上。2012 年 10 月,微软首席研究官里克·拉希德在中国的一次演讲中,以一款语音识别软件震惊了与会者;这种语音识别软件能以仅7%的错误率把他的英文演讲内容转成文本,之后再翻译成中文,并且模拟他自己的声音以普通话读出来。就在同一个月,三个研究生和两位教授组成的团队在默克公司举办的一次竞赛中获胜,竞赛内容是识别出能开发出新药物的分子。这个团队采用深度学习技术,把注意力集中在那些最有可能符合他们目标的分子上。
尤其是谷歌,已经成了吸引深度学习和人工智能人才的磁铁。2013 年 3 月,谷歌收购了一家创业企业,它的创始人是多伦多大学的计算机科学教授杰弗里·辛顿——是赢得默克比赛的团队成员。辛顿会同时兼顾大学和谷歌的工作,他说计划“在这一领域中提出构想,然后把它们用在真正的问题上“,这些问题包括图像识别、搜索,和自然语言理解。
人工智能研究者们往往都抱着谨慎的希望,希望智能机器最终不只是科幻小说里的东西。事实上,机器智能正在开始改变一切,从通信和计算到医药、制造,以及交通运输。在《危险边缘》节目的胜出者IBM“沃森”计算机上,这种可能性更明显。”沃森“使用了一些深度学习技术,目前正在接受训练,来帮助医生做出更好的决策。微软也已经在Windows Phone系统和必应语音搜索中用到了深度学习技术。
要将深度学习扩展到语音和图像识别之外的应用,将需要更多概念和软件上突破——当然更不用提处理能力上的更大进步。可能在很多年内,我们都不会看到公认能自己思考的机器,也许数十年内都看不到——如果不是永远的话。但是现在,美国微软研究院的负责人彼得·李说:“深入学习重燃了人工智能领域中的一些重大挑战。”
建个大脑
已经有了许多其他方法来应对这些挑战。其中之一是给计算机灌输信息和我们这个世界的规则;这需要程序员辛苦写软件,来让计算机熟悉那些属性——比方说一条边或者一段声音。这花了大量的时间,但仍会有系统无法处理的模糊数据。这种方法仅限用于极少的受到严格控制的应用程序,比如那种要求你说出特定的字词来进行查询的手机菜单系统中。
神经网络是在 20 世纪 50 年代人工智能研究的黎明之后不久开发出来的技术,看起来比较有前途,因为它试图模拟大脑的工作方式——虽然是大大简化了的方式。程序映射出一组虚拟神经元,然后给它们之间的连接分配随机的数值即“权重”。这些权重——以 0 和 1 之间的数字来表示——确定了每个模拟神经元对数字化特征的响应;而这些数字化特征包括如图像的边缘或图像中的一个蓝色形状,或者一个音素频率的特定能量水平(音素是语言音节中声音的最小单位)。
程序员会用包含了这些对象的数字化图像、或包含了这些音素的声音波形来对这个网络放电,以此训练神经网络检测对象或音素。如果网络没有准确地识别出特定模式,算法就会调节权重。这种训练的最终目标是,让神经网络能够总能识别出语音或者一组图像中的模式,而这种模式是我们人类熟知的——比方说音素“d”或一只狗的形象。这很像孩子们学会认出一只狗的方式差不多:注意它头部形状的细节、行为,以及知道别人把这种毛茸茸会汪汪叫的动物叫做“狗”。
但是早期的神经网络只能模拟为数不多的神经元,所以它不能识别出太复杂的模式。这种方法在20世纪70年代陷入了沉寂。
在20世纪80年代中期,在辛顿和其他人的帮助下,通过一种叫做“深度”的模型,重新激发了人们神经网络的兴趣。“深度”模型能更好地利用软件的多层神经元,但是该技术仍需要大量的人工参与:程序员在把数据输入进神经网络之前,需要对数据加上标签。而且复杂的语音或图像识别需要更多的计算机能力,这在当时还不具备。
然而,在过去的十年中,辛顿和其他研究人员最终取得了一些基本概念上的突破。2006年,辛顿开发了一种更有效的方式来训练每层神经元。第一层学习初级功能,例如分辨图像边缘或语音中的最小单元。它判断数字化像素或者声音的结合点——在这些地方更有可能找到要找的东西。一旦这一层神经元准确地识别这些特点,数据就会被输送到下一层,在这一层会训练自己识别更复杂的特点,例如语音的组合或者图像的角落。在接下来的层中会重复这种过程,直到系统能够可靠地识别音素或物体为止。
比方说猫。2012年6月,谷歌展示了迄今为止最大的神经网络之一,其中拥有超过10亿个连接。由斯坦福大学计算机科学教授吴恩达和谷歌研究员杰夫·迪安带领的团队,给系统展示了一千万张从YouTubu视频中随机选择的图片。软件模型中的一个模拟神经元专门识别猫的图像,其他专注于人脸、黄色的花朵,以及其他物体。由于深度学习的能力,即使没人曾经定义或标记过,系统也识别了这些独立的对象。
图像识别提升的幅度让一些人工智能专家感到震惊。当时,系统对YouTube图像的物体和主题的分类准确率是16%。这可能听起来没什么大不了,但它比之前的方法要好70%。迪安指出,在这一系统中有22,000个类别可供选择;正确地把物体放到相应的类别中需要所需要的能力,即使对于大多数人来说,往往也是很有挑战性的——例如区别两种相似的鳐鱼。当要求系统把图像分类在1000多个更大的通用类别中时,准确率跃升到超过50%。
大数据
在实验中训练多层虚拟神经元,用到了16,000个计算机处理器——那种Google为了搜索引擎和其他服务而开发的计算基础设施。迪利普·乔治是机器学习创业企业Vicarious的联合创始人,他认为,在人工智能的最新研究进展中,至少有80%可以归因到人们可以使用更多的计算能力。
但是除了谷歌数据中心的规模,还有些其他的东西。深度学习也得益于谷歌在多台机器之间分配计算任务的方法,这使算法可以运行得快得多。迪安在谷歌工作了14年,这是他早期帮助开发的技术。它大大加快了深度学习神经网络的训练速度,使谷歌可以运行大型的神经网络,还可以给它输入多得多的数据。
目前,深度学习已经改善了智能手机上的语音搜索。直到去年,谷歌安卓系统上的软件还会听错许多词,但在去年7月准备发布一个新版本安卓时,在迪安和他的团队的帮助下,一个基于深度学习的系统替换了一部分语音识别功能。多层神经元能够对声音的诸多变化进行更精确的训练,所以该系统可以更可靠地识别声音片段,尤其是在如地铁站台这样嘈杂的环境中。因为它更有可能明白实际上说出的内容,所以返回的结果可能更准确。几乎在一夜之间,错误的数量减少了25%;这个结果如此之好,以至于许多评论家认为安卓的语音搜索功能比苹果Siri语音助手更聪明——虽然Siri更出名一些。
尽管有了这些进步,但并不是每个人都认为深度学习会把人工智能变成某种能与人类智慧相媲美的东西。一些批评者说,深度学习和人工智能往往忽略了大脑的生理基础,替之以太多的蛮力计算。
持这种观点的批评家之一是杰夫·霍金斯,Palm计算公司的创始人。霍金斯最新的企业Numenta正在开发机器学习系统,其灵感来自于生物学,并不使用深度学习。Numenta的系统可以帮助预测能源消耗模式和风车之类机器即将失效的可能性。霍金斯在 2004 年出版了《人工智能的未来》,在书中介绍了大脑是如何工作的,以及这种原理将可能如何指导建造智能机器。他说,深度学习未能考虑时间的概念。他认为,大脑处理感官数据流,人类的学习依赖于我们的按次序回忆模式的能力:当你看到关于小猫正在做些有趣事情的视频时,重要的是动作,而不是一系列静止的图像——就像Google在实验中使用的那样。“谷歌的态度是:大量的数据解决一切。”霍金斯说。
但是,就算数据不解决一切的话,像谷歌之类公司在这些问题上投入的计算资源也不能忽视。深度学习的倡导者认为,计算资源是至关重要的,因为大脑本身仍然比今天的任何神经网络都复杂得多。“根本上说,你需要大量的计算资源来让设想成真。“辛顿说。
展望
虽然谷歌在未来的应用上尚有不足,但是前景依然耐人寻味。比方说,显然更好的图像搜索将对YouTube有利。迪安说,深度学习模型能够使用英语音素数据来更快地训练其他语言的语音。更成熟的图像识别也可能让谷歌的自动驾驶汽车变得更好。再有就是谷歌的基础:搜索和广告。任何能更好更快地——甚至也许在用户自己意识到之前——识别用户真正在找什么的技术,都会给这两者带来更大的改进。
这正是激起库兹威尔兴趣的原因。他已经65岁了,对智能机器有着长期的愿景。在高中时,他写了能使计算机创作各种经典风格原创音乐的软件,并在1965年的电视节目《我有一个秘密》中展示了出来。从那时起,他的发明包括几个第一——印刷品朗读机、能扫描和数字化任何字体打印件的软件,能以管弦乐队的声音重制音乐的合成器,以及一个使用大词汇库的语音识别系统。
今天,他设想了一个“电子朋友”,它能倾听你的电话谈话,阅读你的电子邮件,追踪你的一举一动——当然,如果你允许的话。所以,这个电子朋友甚至可以在你发问之前,就可以告诉你你想知道的事情。这不是他在谷歌工作的短期目标,但它对谷歌联合创始人谢尔盖·布林来说很合适。布林说,在公司的初期,他想建立一台有感知能力的计算机,相当于《2001太空漫游》里的HAL那样; 只除了一点,这部机器不会杀人。
现在,库兹威尔的目标是帮助计算机理解自然语言,甚至用自然语言说话。他说:“我的任务是让电脑对自然语言有足够的理解,来做一些有用的事情——更好的搜索工作,更好地回答问题。”从本质上讲,他希望建立一个IBM沃森的更灵活版本,他钦佩沃森在《危险边缘》节目中表现出的理解能力,它能应对如“一个上面有泡沫的馅饼发表的很长的、无聊的讲话”这样古怪的查询。(沃森的正确答案是:“什么是蛋白酥、夸夸其谈?”)
库兹威尔是不是只专注于深度学习;虽然他说自己的语音识别方法是基于类似的大脑工作理论。他想为词汇、短语和句子的实际意义,包括通常会让计算机犯错误的含糊含义建立模型。“我有一个以图形化的方式来表示语言语义的初步想法。”他说。
相应地,这将需要更全面的方式,来把句子的含义图形化。谷歌已经在机器翻译中使用这种分析方式提升语法准确率。自然语言理解也需要电脑明白那些含义——虽然我们人类认为那些是常识。为了这个,库兹威尔将利用“知识图谱”。知识图谱是谷歌开发的目录,有700万主题、地点、人物以及其他东西,再加上它们之间数以亿计的关系。这一工具是去年发布的,它提供了一种方法,能为搜索者检索其查询的答案而不仅仅是链接。
最后,库兹威尔计划采用深度算法来帮助计算机处理“软边界和语言的模糊性”。这的确听起来有点惊人。“自然语言理解不是会在某个时刻完成的目标,它比搜索更多,”他说。“这不是我认为我能完成的项目。”
虽然库兹威尔的愿景依然会在许多年后才会成真,但是深度学习可能会比较近的将来,对除语音和图像识别之外的应用产生影响,例如在研发新药物方面。在默克竞赛中,辛顿团队出乎意料的胜利,清楚地表明深度学习的效果:它可以在一个经验缺乏的领域里发挥作用。
这还不是全部。微软的彼得·李说,使用深度学习在机器视觉上的早期研究很有前途,将可用于工业检测和机器人引导之类的应用。他还设想了使用深层神经网络的个人传感器,可以用它来预测健康问题;而且,遍布城市的传感器可能给深度学习系统提供信息,这样可以预测像是哪里会发生堵车之类的情况。
不可避免地,在试图模拟如人类大脑般深刻东西的领域中,单单一种技术不会解决所有挑战。但现在,这种技术在人工智能领域中走在前列。迪安说:“深度学习,是了解世界的一种真正强大的隐喻。”