Medium Archive

个人文章存档 · 从 Medium 导出

从“翻译”到“读懂”:谷歌神经机器翻译如何点燃深度学习的“大觉醒”

::: {#115e .section .section .section—body .section—first .section—last} ::: section-divider


:::

::: section-content ::: {.section-inner .sectionLayout—insetColumn}

从”翻译”到”读懂”:谷歌神经机器翻译如何点燃深度学习的”大觉醒” {#dbb1 .graf .graf—h3 .graf—leading .graf—title name=“dbb1”}

谷歌如何利用人工智能改造 Google 翻译 --- --- 这项更受欢迎的服务之一 --- --- 以及机器学习将如何蓄势重塑计算本身。

序言:你就是你读过的东西 {#ea2e .graf .graf—h3 .graf-after—p name=“ea2e”}

11 月初的一个周五深夜,东京大学一位杰出的人机交互教授 Jun Rekimoto 正在网上为一场讲座做准备,这时他开始注意到社交媒体上涌入了一些奇怪的帖子。显然,Google 翻译 --- --- 这家公司的热门机器翻译服务 --- --- 突然之间、几乎难以察觉地变得更好了。Rekimoto 亲自访问了 Translate,并开始用它做实验。他大为震惊。他本该去睡觉了,但 Translate 拒绝让他的想象力放松下来。

Rekimoto 在一篇博客文章里写下了他的初步发现。首先,他把《了不起的盖茨比》的两个已出版译本中的几句话 --- --- 野崎孝 1957 年的译本和村上春树较新的版本 --- --- 与这个新版 Google 翻译能够生成的内容作了比较。Rekimoto 后来通过电子邮件向我解释,村上春树的译本写得”非常精炼的日语”,但行文明显带有”村上式风格”。相比之下,谷歌的译文 --- --- 尽管有一些”细小的不自然之处” --- --- 在他看来读起来”更透明”。

Rekimoto 这篇文章的后半部分则从另一个方向检验该服务:从日语到英语。他匆匆写下自己对海明威《乞力马扎罗的雪》开头部分的一段日语转述,然后把那段文字再通过 Google 反向翻译回英文。他把这个版本与海明威原文并排发表,接着邀请读者猜一猜,哪一个出自机器之手。

即便对一位以英语为母语的人来说,关于那只豹所缺少的冠词也几乎是唯一真正能看出第 2 段出自自动机之手的线索。两者如此接近,令 Rekimoto 惊叹不已;他对旧版服务的能力非常熟悉。就在 24 小时之前,谷歌还会把同一段日文译成如下这样:

乞力马扎罗是 19,710 英尺的、覆盖着积雪的山,而且据说是非洲最高的山。西侧的峰顶,“Ngaje Ngai” 用马赛语来说,一直被称为上帝的家。靠近西侧的峰顶,有一具干燥、冻僵的豹的尸体。关于那只豹在那样的高度有什么需求,没有人解释过是否 --- --- 那里没有那个没有人解释过。

Rekimoto 把这一发现发布给他在 Twitter 上大约十万名关注者,接下来的几个小时里,成千上万的人也分享了他们自己对这项机器翻译服务的实验。有些效果很好,另一些则主要是为了搞笑。东京上空破晓之时,Google Translate 成了日本 Twitter 的第一热搜,略高于某些邪典动画系列以及某个少女偶像超级团体万众期待的新单曲。所有人都在疑惑:Google Translate 怎么会变得如此诡异地”有文采”?

四天后,来自世界各地的两三百名记者、创业者和广告从业者聚集在谷歌位于伦敦的工程办公室,参加一场特别发布。迎接来宾的是印着 Translate 品牌的幸运饼干。饼干里的纸条一面写着外语短语 --- --- 我的那张是挪威语 --- --- 另一面则邀请人们下载 Translate 应用。桌上摆着一盘盘甜甜圈和奶昔,每一份旁边都立着一块小牌子,用德语(zitrone)、葡萄牙语(baunilha)或西班牙语(manzana)标注口味。过了一会儿,大家被引导进入一座装潢考究、灯光昏暗的剧院。

伦敦市长萨迪克·汗起身发表几句开场白。他说,一位朋友最近告诉他,他让人想起谷歌。“为什么,因为我知道所有答案吗?“市长问。“不是,“那位朋友回答,“因为你总是在试着替我把句子说完。“人群礼貌地窃笑。汗最后介绍了谷歌首席执行官桑达尔·皮柴,后者走上舞台。

皮柴来到伦敦,一方面是为了为谷歌在当地的新大楼揭幕 --- --- 那是国王十字正在建设的一个新”知识街区”的基石 --- --- 另一方面则是为了宣布他去年提出的一项公司转型的初始阶段已经完成。皮柴曾在好几个场合表示,未来的谷歌将是”以 A.I. 为先”。这一表述在理论上意味着什么相当复杂,也引发了大量猜测;而在实践中,如果一切顺利,它意味着公司的产品很快将不再严格地体现传统计算机编程的成果,而将体现”机器学习”。

公司内部有一个超然的部门 --- --- Google Brain --- --- 正是基于这一原则在五年前成立的:即人工”神经网络”通过试错来认识世界,就像幼儿那样,继而可能发展出某种类似人类的灵活性。这个观念并不新 --- --- 其某个版本可追溯到现代计算的最早阶段,即 20 世纪 40 年代 --- --- 但在其历史的大部分时间里,多数计算机科学家都认为它有点不体面,甚至带着神秘主义色彩。然而,自 2011 年以来,Google Brain 已经证明,这种人工智能路径能够解决许多让传统方法数十年都束手无策的问题。语音识别在 Brain 着手进行一次改造之前并不好用;应用机器学习之后,它在谷歌移动平台 Android 上的表现几乎与人类转写一样好。图像识别也是如此。不到一年前,Brain 首次着手对一款完整的消费级产品进行彻底翻新,而它意义重大的成果,正是在今晚被庆祝。

Translate 于 2006 年首次推出,此后已成为谷歌最可靠、最受欢迎的资产之一;它为每月超过 5 亿名用户提供服务,这些用户每天需要把 1400 亿个词翻译成另一种语言。它不仅作为一款独立应用存在,也作为 Gmail、Chrome 以及谷歌许多其他产品中的集成功能存在,我们把它当作一种一键即可获得的既定之物 --- --- 一种无摩擦、自然融入我们数字商业的组成部分。皮柴在讲台上解释说,直到难民危机发生,公司才开始认真意识到 Translate 的地缘政治重要性:在他身后的屏幕上出现了一张图表,其陡峭的曲线显示,阿拉伯语与德语之间的翻译量近期增加了五倍。(这也与皮柴个人密切相关。他在印度长大 --- --- 那是一片被数十种语言分割的土地。)团队一直在稳步增加新语言和新功能,但过去四年里质量上的提升已经明显放缓。

直到今天。就在上一个周末开始,Translate 已经在其很大一部分流量上切换为基于 A.I. 的系统,不仅在美国,也在欧洲和亚洲:此次上线覆盖了英语与西班牙语、法语、葡萄牙语、德语、中文、日语、韩语和土耳其语之间的翻译。Translate 其余一百来种语言也将陆续跟进,目标是在明年年底前以每月八种的速度完成。令谷歌自家工程师都感到惊喜的是,这一新版本仅用九个月就完成了。该 A.I. 系统一夜之间所展现的改进幅度,大致相当于旧系统在其整个生命周期里累积的全部提升。

皮柴对那些晦涩的文学典故情有独钟;他在一个月前于加州山景城的办公室里对我说,Translate 的存在在某种程度上是因为并非每个人都能像物理学家罗伯特·奥本海默那样,为了读懂《薄伽梵歌》的原文而去学习梵语。在伦敦,他身后监视器上的幻灯片切换到一段博尔赫斯的引言:“Uno no es lo que es por lo que escribe, sino por lo que ha leído.”

皮柴咧嘴一笑,朗读了旧版 Translate 系统给出的那句尴尬的英文译文:“One is not what is for what he writes, but for what he has read.”

在它右侧,则是一句由新的 A.I. 渲染出来的版本:“You are not what you write, but what you have read.”

这句话恰如其分:新的 Google Translate 运行在第一批机器之上 --- --- 从某种意义上说,这些机器是迄今为止最早学会阅读任何东西的机器。

谷歌决定围绕 A.I. 进行自我重组,是如今已成为全行业机器学习狂热的第一个重大体现。在过去四年里,尤其是六家公司 --- --- 谷歌、Facebook、Apple、Amazon、Microsoft,以及中国公司百度 --- --- 掀起了一场争夺 A.I. 人才的军备竞赛,尤其是在大学里。企业对资源与自由的承诺,使顶尖学术院系的人才被大量抽走。在硅谷,人们早已广泛知晓:Facebook 的首席执行官马克·扎克伯格亲自负责(通过电话和视频聊天的劝诱)向最抢手的研究生抛出橄榄枝。七位数的起薪并不罕见。该领域最重要的学术会议参会人数几乎翻了四倍。利害攸关的不只是又一项零敲碎打的创新,而是对一种很可能代表全新计算平台的东西的控制权:无处不在、环境式的人工智能。

“人工智能”这个词被人们援引时,仿佛其含义不言自明,但它一直是困惑与争议的来源。想象一下,如果你回到 20 世纪 70 年代,在街上拦住一个人,掏出一部智能手机,给她看 Google Maps。等你设法让她相信你并不是某个穿着怪异的巫师,而你从口袋里掏出的也不是什么黑魔法护身符,而只是一台比引导阿波罗任务的计算机还强大得多的小型电脑,那么在她看来,Google Maps 几乎肯定会是”人工智能”的一个有说服力的例子。从非常真实的意义上说,它确实是。它能做任何一个识图的人类都能做到的事,比如把你从酒店带到机场 --- --- 只不过它做得更快、更可靠。它还能做一些人类显然做不到的事:它能评估路况、规划最佳路线,并在你走错出口时重新调整。

然而,如今几乎没有人会把 “A.I.” 这顶桂冠授予 Google Maps;我们对”智能”一词的使用是如此感性而克制。我们认为,人工智能必须是那种能把 HAL 与织布机或独轮手推车之类能做的事区分开的东西。一旦我们能够把某项任务自动化,我们就会把其中所涉及的相关技能降格为纯粹的机械。如今的 Google Maps 在这个词的贬义上看起来很”机器人”:它只是接受一个明确的需求(从一个地方到另一个地方),并尽可能高效地去满足该需求。因此,“人工智能”的门槛总是在不断后移。

当他有机会做出细致区分时,皮柴会把当下的 A.I. 应用与”通用人工智能”(artificial general intelligence)的终极目标区分开来。通用人工智能不会只是尽职尽责地遵循明确指令,而是会展现出处理隐含信息与解释性内容的能力。它将是一种通用工具,在通用语境中为通用目的而设计。皮柴相信,他的公司未来取决于类似这样的东西。想象一下,如果你能对 Google Maps 说:“我想去机场,但路上我得顺便停一下给我侄子买个礼物。“一个更具通用智能的版本 --- --- 一种无处不在的助手,就像斯嘉丽·约翰逊在斯派克·琼斯三年前的电影《她》中那样令人难忘地以无形之声呈现的那种 --- --- 会知道各种各样的事情,比如亲密的朋友或一个认真负责的实习生可能知道的:你侄子的年龄、你通常愿意在儿童礼物上花多少钱、哪里能找到一家还在营业的商店。但一个真正智能的 Maps 还可能知道各种亲密朋友不会知道的事情,比如你侄子学校里学龄前儿童最近流行什么 --- --- 或者更重要的是,它的用户实际上想要什么。如果一台智能机器能够从我们过去做过的事情的数据中辨识出某种复杂、哪怕有些晦暗的规律,它或许就能外推我们的后续欲望,即便我们自己也未必完全了解这些欲望。

新一波由 A.I. 增强的助手 --- --- Apple 的 Siri、Facebook 的 M、Amazon 的 Echo --- --- 全都是机器学习的产物,带着相似的意图被构建出来。然而,企业对机器学习的梦想并不止于”消费级的洞察人心”。三星旗下的一家医学影像子公司今年宣布,其新的超声设备能够检测乳腺癌。管理咨询顾问们争先恐后地为高管做准备,以应对那些能够自我编程的计算机在工业领域日益扩大的应用。DeepMind 是谷歌在 2014 年收购的一家公司,它击败了古老棋类游戏围棋的在位人类世界冠军,尽管此前有人预测,这样的成就还需要再过 10 年才能实现。

在一篇著名的 1950 年论文中,艾伦·图灵提出了检验通用人工智能的一种测试:一台计算机能够在五分钟的文本交流过程中,成功欺骗一位真实的人类对话者。一旦机器能够在两种自然语言之间流利地翻译,就为某种机器奠定了基础 --- --- 它也许有一天能”理解”人类语言到足以进行看似可信对话的程度。Google Brain 的成员推动并帮助监督了 Translate 项目,他们相信,这样的机器正走在成为一种通用的、包罗万象的个人数字助理的路上。

接下来要讲的是这样一个故事:一支由谷歌研究人员与工程师组成的团队 --- --- 起初只有一两个人,后来变成三四个人,最后超过一百人 --- --- 如何在朝那个方向上取得了相当大的进展。这在许多方面都是一个不同寻常的故事,尤其因为它违背了我们早已习惯的许多硅谷刻板印象。它并不描绘那些认为因为车库里某个坐立不安的修补匠,明天或后天一切都会变得面目全非的人。它既不是关于那些相信技术会解决我们所有问题的人,也不是关于那些认为技术无可避免地注定会制造出末日般新问题的人。它也不是关于”颠覆”的故事 --- --- 至少不是那个词通常被使用的那种意义上的”颠覆”。

事实上,这是三条相互重叠的叙事,它们在 Google Translate 成功向 A.I. 蜕变之处汇合 --- --- 一个技术故事、一个制度故事,以及一个关于观念演化的故事。技术故事讲的是某家公司某个产品上的一个团队,以及他们如何在大约只有任何人(包括他们自己)合理预期的四分之一时间里,就打磨、测试并推出了一个老产品的全新版本。制度故事讲的是该公司内部一个规模不大却颇具影响力的人工智能团队的员工,以及他们对一些陈旧、未经证实、且总体上并不讨喜的计算观念所抱持的直觉式信念,如何在一个相当大的范围内颠覆了所有其他公司。观念的故事讲的是那些长期在默默无闻中劳作的认知科学家、心理学家以及离经叛道的工程师,以及他们那些表面上不甚理性的确信,最终如何启发了我们对技术的理解 --- --- 乃至在理论上对意识本身的理解 --- --- 发生范式转移的过程。

第一个故事,也就是 Google Translate 的故事,发生在山景城,历时九个月,讲述了机器翻译的变革。第二个故事,也就是 Google Brain 及其众多竞争者的故事,发生在硅谷,历时五年,讲述了整个社区的变革。第三个故事,也就是深度学习的故事,发生在分布于各地的实验室 --- --- 在苏格兰、瑞士、日本,尤其是在加拿大 --- --- 历时七十年,它很可能会促使我们修订对自身的自我形象:首先且最重要的是,我们是会思考的存在。

这三个故事都关乎人工智能。那段跨越七十年的故事,关乎我们可以想象会从中期待或希望得到什么。那段跨越五年的故事,关乎它在不久的将来可能会做什么。那段跨越九个月的故事,关乎它此时此刻就能做什么。这三条故事本身也只是概念验证。所有这一切都只是开始。

第一部分:学习机器 {#f59e .graf .graf—h3 .graf-after—p name=“f59e”}

1. Brain 的诞生 {#3739 .graf .graf—h3 .graf-after—h3 name=“3739”}

杰夫·迪恩(Jeff Dean)虽然头衔是资深研究员(senior fellow),但事实上是 Google Brain 的负责人。迪恩身形精瘦、精力高效,脸型修长狭窄,眼窝深陷,带着一种真诚的、仿佛在肥皂盒上演讲般的热情。他的父亲是一位医学人类学家,母亲是一位公共卫生流行病学家;迪恩在世界各地长大 --- --- 明尼苏达、夏威夷、波士顿、阿肯色、日内瓦、乌干达、索马里、亚特兰大 --- --- 并且在高中和大学期间,编写过世界卫生组织使用的软件。他自 1999 年起就在谷歌工作,是大约第 25 号员工,自那之后,几乎每一项重要事业背后的核心软件系统,他都参与其中。公司文化里有一件广受喜爱的”文物”,叫作《杰夫·迪恩事实》(Jeff Dean Facts),写法模仿”查克·诺里斯事实”(Chuck Norris Facts)那类网络梗:“杰夫·迪恩的 PIN 是圆周率 π 的后四位数字。""当亚历山大·格拉汉姆·贝尔发明电话时,他看到来自杰夫·迪恩的一个未接来电。""杰夫·迪恩在一个最高等级只有 10 级的系统里,被晋升到了 11 级。“(最后这一条其实是真的。)

2011 年初的一天,迪恩走进谷歌园区的一间”微型厨房”(microkitchen) --- --- 这是谷歌在山景城园区大多数楼层的共享休息空间所用的那种”谷歌味儿”的说法 --- --- 遇到了吴恩达(Andrew Ng),一位年轻的斯坦福计算机科学教授,当时正作为顾问为公司工作。吴恩达告诉他”马文计划”(Project Marvin)的情况,那是一个内部项目(以著名的 A.I. 先驱马文·明斯基 Marvin Minsky 命名),他最近协助建立,用来试验”神经网络” --- --- 一种可塑的数字格架,松散地以大脑结构为蓝本。迪恩本人早在 1990 年还是明尼苏达大学本科生时,就在该方法短暂进入主流可接受范围的某个窗口期里,做过这一技术的一个原始版本。如今,在此前五年里,从事神经网络研究的学者数量又开始增长,从寥寥数人变成了几十人。吴恩达告诉迪恩,由谷歌神秘的 X 实验室出资支持的马文计划已经取得了一些颇有希望的结果。

迪恩对此兴趣浓厚,于是决定把自己的”20%“投入到这个项目中 --- --- 所谓”20%“,指的是谷歌希望每位员工拿出其工作时间的一部分,参与本职工作之外的项目。很快,他就向吴恩达建议把另一位具有神经科学背景的同事格雷格·科拉多(Greg Corrado)也拉进来。(科拉多在读研究生时曾被简略讲到过这项技术,但完全是作为一种历史趣闻。“幸好那天我上课时在认真听讲,“他对我开玩笑说。)到晚春时,他们又把吴恩达最优秀的研究生之一郭乐(Quoc Le)作为项目的第一位实习生招了进来。到那时,不少谷歌工程师已经开始用另一个名字来称呼马文计划:Google Brain。

自从”人工智能”这个术语在 1956 年夏天达特茅斯一次颇似”心智制宪会议”的聚会上首次被创造出来之后,大多数研究者长期以来一直认为,打造 A.I. 的最佳途径,是编写一个非常庞大、包罗万象的程序,把逻辑推理的规则以及对世界的充分知识都清楚地列出来。比如说,如果你想把英文翻译成日文,你就会把所有英语语法规则编进计算机里,然后把《牛津英语词典》里包含的全部释义都编进去,再把所有日语语法规则以及日语词典里的所有词都编进去;只有在完成这一切之后,你才会给它输入一条源语言句子,并要求它计算出目标语言中对应的一条句子。你会给机器一张语言地图 --- --- 用博尔赫斯的话说 --- --- 大到与领土本身同样的尺寸。这种观点通常被称为”符号 A.I.” --- --- 因为它对认知的定义建立在符号逻辑之上 --- --- 或者带着贬义地被称为”老派正统 A.I.”(good old-fashioned A.I.)。

老派方法主要有两个问题。第一个问题是:在人类这一端,它耗时得可怕。第二个问题是:它真正奏效的领域,只限于规则与定义非常清晰的地方 --- --- 比如数学,或者国际象棋。然而,翻译就是一个这种方法会惨败的领域,因为词语无法被简化为词典释义,而且语言往往例外之多几乎不亚于规则之多。很多时候,这样的系统很可能会把 “minister of agriculture” 翻译成 “priest of farming”(“农业牧师”)。尽管如此,在数学和国际象棋上它确实表现得非常好,而符号 A.I. 的拥护者也理所当然地认为,没有什么活动比数学和国际象棋更能表征”通用智能”了。

然而,这种体系能做到的事情终究有限。20 世纪 80 年代,卡内基梅隆的一位机器人研究者指出,让计算机去做成年人能做的事情很容易,但要让它们做一个 1 岁孩子能做的事情却几乎不可能,比如握住一个球,或识别一只猫。到了 20 世纪 90 年代,尽管计算机国际象棋取得了令人震撼的进展,我们距离通用人工智能仍然相去甚远。

一直以来,关于 A.I. 还有另一种设想 --- --- 一种持异议的观点 --- --- 认为计算机应当自下而上(从数据)学习,而不是自上而下(从规则)学习。这个想法可以追溯到 20 世纪 40 年代初,当时研究者想到,最适合用来作为灵活的自动化智能模型的,正是大脑本身。毕竟,大脑不过是一堆被称为神经元的”小器件”,它们要么把电信号传递给相邻的神经元,要么不传递。重要的与其说是单个神经元本身,不如说是它们之间错综复杂的连接。正是这种简洁的结构,使大脑获得了丰富的适应性优势。大脑可以在信息匮乏或缺失的情况下运行;它能承受相当程度的损伤而不至于完全失控;它可以以非常高效的方式存储海量知识;它既能分离出不同的模式,又能保留处理模糊性所必需的那种杂乱。

没有理由不能尝试用电子形式去模仿这种结构,而在 1943 年,人们已经证明,由简单的人工神经元构成的组合可以执行基本的逻辑功能。它们也能够 --- --- 至少在理论上 --- --- 像我们一样学习。随着生活经验的积累,取决于某个人具体的试错经历,一对神经元之间的突触连接会变强或变弱。人工神经网络也可以做类似的事:在引导性的试错基础上,逐步改变人工神经元之间的数值关系。它不需要预先被编程写入固定规则。相反,它会重新连线,使自身反映它所吸收的数据中的模式。

这种对人工智能的态度是进化论式的,而非创世论式的。如果你想要一种灵活的机制,你就希望它能适应其环境。如果你想要某种能够适应的东西,你就不该从灌输国际象棋规则开始。你应该从非常基础的能力开始 --- --- 感知与运动控制 --- --- 希望高级技能能够有机地涌现出来。人类学习理解语言,并不是通过背诵词典和语法书来实现的,那么我们又为什么会指望计算机能这样做呢?

Google Brain 是第一个在商业层面大规模押注这种 A.I. 思路所蕴含可能性的机构。迪恩、科拉多和吴恩达起初的工作只是一次兼职式的协作实验,但他们立刻取得了进展。他们的模型架构灵感来自近期的理论框架 --- --- 以及一些自 20 世纪 80 年代和 90 年代起就被搁置的想法 --- --- 并利用了公司无与伦比的数据储备与庞大的计算基础设施。他们用海量”带标签”的数据来训练这些网络 --- --- 比如带有正确转写文本的语音文件 --- --- 于是计算机不断改进其输出,使之更符合现实。

“动物进化出眼睛的那一段,是个重大的发展,“迪恩有一天对我说,照例语气极为克制。我们像往常一样坐在一间四壁都是白板的会议室里,他在白板上画出了一条密密麻麻、蜿蜒曲折的时间线,呈现 Google Brain 及其与近年神经网络发展关键拐点之间的关系。“现在计算机有了眼睛。我们可以围绕如今已存在的、理解照片的能力来构建它们。机器人将被彻底改变。它们将能够在未知环境中运行,去处理非常不同的问题。“他们正在构建的这些能力也许看起来很原始,但其含义却极为深远。

2. 不太可能的实习生 {#b064 .graf .graf—h3 .graf-after—p name=“b064”}

在 Brain 存在的第一年左右,正如迪恩所说,围绕开发一台具备 1 岁孩子才能的机器所做的实验,取得了极好的成效。他们的语音识别团队把旧系统的一部分替换为神经网络,并且几乎在一举之间,就获得了 20 年来无人见过的最佳质量提升。他们系统的物体识别能力提升了一个数量级。这并不是因为 Brain 的人员在短短一年里就提出了一叠惊世骇俗的新想法,而是因为谷歌终于投入了资源 --- --- 计算资源,以及越来越多的人力 --- --- 去填补那些早已存在很久的框架轮廓。

这些既存却被忽视的观念中,有很大一部分是由一位四处辗转的英国博学家 Geoffrey Hinton 提出或加以完善的。在 Brain 成立的第二年,随着吴恩达离开,Hinton 被招募进入 Brain。(吴恩达如今领导着百度 1300 人规模的 A.I. 团队。)Hinton 只想离开他在多伦多大学的职位三个月,因此出于某些晦涩的合同原因,他不得不以实习生的身份被雇用。在实习生培训时,带领入职的人会说诸如”输入你的 LDAP” --- --- 也就是用户登录名 --- --- 之类的话,而他会示意一名助手来问:“LDAP 是什么?“在场那些聪明的 25 岁年轻人 --- --- 他们只在自己的认知中把深度学习当作人工智能的必要条件(sine qua non) --- --- 窃笑起来:“那个老家伙是谁?他怎么连这个都不懂?”

“午饭时间,“辛顿(Hinton)说,“队伍里有人喊道:‘辛顿教授!我上过您的课!您怎么会在这儿?‘之后,就都没事了。”

几个月后,辛顿和他的两名学生在一项大型图像识别竞赛中展示了真正令人震惊的提升。该竞赛由一个名为 ImageNet 的开源团体运营,要求计算机不仅要能识别出一只猴子,还要能区分蜘蛛猴和吼猴,以及在天知道多少种不同的猫的品种之间做出区分。谷歌很快向辛顿和他的学生们提出了一份邀约。他们接受了。“我原以为他们对我们的知识产权感兴趣,“他说,“结果他们对我们本人感兴趣。”

辛顿出身于那种古老的英国家族,就像达尔文家族那样,以一种古怪的角度镶嵌在知识版图之上:无论一个人名义上的主业是什么,都被期待在天文学或流体力学之类的小问题上顺带做出一些贡献。他的曾曾祖父之一是乔治·布尔(George Boole),其在符号逻辑方面的奠基性工作支撑了计算机;另一位曾曾祖父是一位著名外科医生;他的父亲是一位敢于冒险的昆虫学家;他父亲的表亲是一位洛斯阿拉莫斯研究人员;名单还可以继续列下去。他在剑桥和爱丁堡受训,随后在卡内基梅隆任教,后来去了多伦多,并至今仍有一半时间待在那里。(他的研究长期得到加拿大政府慷慨资助。)我在谷歌那里的办公室里拜访过他。他的头发凌乱,呈发黄的锡灰色,向前梳着,有一种成熟版诺埃尔·加拉格尔(Noel Gallagher)的风格;他穿着一件宽松的条纹衬衫,总是不停地从裤腰里跑出来;还戴着一副椭圆形眼镜,老是滑到一只突出的鼻尖上。他说话机智有力却又略显散漫,时不时会冒出这样的话:“计算机会在美国人之前学会理解讽刺。”

辛顿从 20 世纪 60 年代末在剑桥读本科时起就一直在研究神经网络,被视为当代这一领域的思想长子。在那段时间的大部分时候,每当他谈起机器学习,人们看他的眼神就仿佛他在讲托勒密的天球说,或者用水蛭放血。神经网络被当作一种已被证伪的愚行,主要是因为一个被过度炒作的项目:感知机(Perceptron)。这是一种人工神经网络,由康奈尔大学的心理学家弗兰克·罗森布拉特(Frank Rosenblatt)在 20 世纪 50 年代末开发。《纽约时报》报道称,这台机器的赞助方 --- --- 美国海军 --- --- 期待它将”能够行走、说话、看见、写作、繁殖自身,并意识到自己的存在”。结果它几乎一件也没做到。马文·明斯基(Marvin Minsky)是美国人工智能界的泰斗,他在 1954 年的普林斯顿博士论文中研究过神经网络,但此后他逐渐厌倦了罗森布拉特(两人同为布朗克斯科学高中同辈)为神经网络范式所做的那些夸大其词的宣传。(他也在竞争国防部的经费。)明斯基与一位麻省理工的同事合著出版了一本书,证明感知机永远无法解决一些痛苦地简单的问题。

明斯基对感知机的批评只适用于单”层”的网络,也就是说,在输入给机器的内容与你期望它输出的结果之间,只有一层人工神经元 --- --- 而且在他晚年,他阐述过一些与当代深度学习非常相似的观点。但辛顿当时就已经知道,如果能够使用多层结构,复杂任务是可以完成的。对神经网络最简单的描述是:它是一台机器,凭借在数据中发现模式的能力来进行分类或预测。只有一层时,你只能找到简单的模式;多于一层时,你就可以寻找”模式的模式”。以图像识别为例,它往往依赖一种被称为”卷积神经网络”(convolutional neural net)的装置。(这种网络在一篇奠基性的 1998 年论文中得到了展开,该论文的第一作者是一位名叫杨立昆(Yann LeCun)的法国人;他在辛顿指导下于多伦多完成博士后研究,如今在 Facebook 领导着一项规模庞大的 A.I. 事业。)网络的第一层会学会识别一种最基本的视觉母题 --- --- “边缘”,也就是一个”无”(一个关闭的像素)后面跟着一个”有”(一个开启的像素),或反过来。网络的每一层都会在前一层的基础上寻找更高一级的模式。由边缘构成的模式可能是一个圆形或矩形;由圆形或矩形构成的模式可能是一张脸;以此类推。这或多或少对应了信息在从视网膜上的感光受体向后、向上穿过视觉皮层的过程中,被以越来越抽象的方式组织起来的路径。在每一个概念步骤中,那些与当前并不直接相关的细节都会被丢弃。如果若干条边缘和圆形组合在一起构成了一张脸,你并不在意这张脸具体位于视野的哪里;你只在意它是一张脸。

多层的、“深度”的神经网络所面临的问题在于:试错这一部分会变得异常复杂。单层时很容易。想象你在和一个孩子玩。你对孩子说:“把绿色的球拿起来,放进 A 盒。“孩子拿起一个绿色的球,放进了 B 盒。你说:“再试一次,把绿色的球放进 A 盒。“孩子试了 A 盒。好极了。

现在想象你对孩子说:“拿起一个绿色的球,穿过标着 3 的门,把绿色的球放进 A 盒。“孩子拿了一个红球,穿过标着 2 的门,把红球放进了 B 盒。你要如何开始纠正这个孩子呢?你不能只是重复你最初的指令,因为孩子并不知道自己在哪一步出了错。在现实生活中,你可能会先举起红球和绿球,说:“红球,绿球。“然而,机器学习的整个目的,正是为了避免那种明确的手把手教导。辛顿和少数几个人在 20 世纪 70 年代末到 80 年代间艰难摸索,发明了一种解决这种分层误差问题的办法(或者说,重新发明了一个更早的办法),计算机科学家对神经网络的兴趣也因此短暂复苏。“人们当时非常兴奋,“他说,“但我们把它吹得太过了。“计算机科学家很快又回到原来的看法,认为像辛顿这样的人是怪人和神秘主义者。

不过,这些想法在哲学家和心理学家那里仍然很受欢迎,他们称之为”联结主义”(connectionism)或”并行分布式处理”(parallel distributed processing)。“这种说法,“辛顿对我说,“关于少数几个人一直守着火炬不灭,这是个很美的神话。在人工智能领域,这确实是真的。但在心理学领域,很多人都相信这种方法,只是做不出来。“即便有加拿大政府的慷慨资助,辛顿也做不出来。“根本没有足够的算力,也没有足够的数据。我们这一派的人一直在说,‘是啊,但如果我有一个真的很大的网络,它就能行。‘这并不是一个很有说服力的论证。“

3. 深度学习的深度解释 {#3d04 .graf .graf—h3 .graf-after—p name=“3d04”}

当皮柴说谷歌从此将”以 A.I. 为先”时,他不仅是在陈述公司的商业战略;他是在让公司把命运押在这个长期以来都行不通的想法上。皮柴对资源的投入,确保了像迪恩这样的人能够确保像辛顿这样的人终于拥有足够的计算机和足够的数据,从而提出一个有说服力的论证。一个普通大脑大约有 1000 亿个神经元。每个神经元最多与 1 万个其他神经元相连,这意味着突触数量在 100 万亿到 1000 万亿之间。对于 20 世纪 40 年代提出的那种简单人工神经网络来说,哪怕只是尝试复制这一点都是不可想象的。我们距离构建如此规模的网络仍然很远,但 Google Brain 的投入使得能够创建出与小鼠大脑相当的人工神经网络。

然而,要理解规模为何如此重要,你必须先开始理解:机器智能究竟在用它们所吞噬的数据做些什么更技术性的细节。我们对 A.I. 的许多弥漫式恐惧,建立在这样一种想法之上:它们就像图书馆里一个反社会的神童那样把知识统统吸进去,而一个被构建来制造回形针的人工智能,有一天可能会决定把人类当作蚂蚁或生菜来对待。但它们并不是这样运作的。它们所做的一切,只是把信息来回倒腾,以寻找共通之处 --- --- 起初是基本模式,然后是更复杂的模式 --- --- 而就目前而言,最大的危险至少在于,我们喂给它们的信息本身就带有偏见。

如果这段简短的解释已经足够让人安心,那么被安抚的、非技术背景的读者可以跳到下一节 --- --- 那一节讲的是猫。如果没有,那就继续往下读。(幸运的是,这一节也讲猫。)

想象一下,你想按老派符号 A.I. 的模型来编写一个”识别猫”的程序。你熬夜好几天,预先把关于”猫”的详尽、明确的定义装进机器里。你告诉它,猫有四条腿、尖耳朵、胡须和尾巴,诸如此类。所有这些信息都存放在内存里一个叫作 Cat 的特殊位置。现在你给它看一张图片。首先,机器必须把图像中不同的元素分离出来。然后它必须把这些元素与它记忆中存储的规则相匹配。If(legs=4) and if(ears=pointy) and if(whiskers=yes) and if(tail=yes) and if(expression=supercilious), then(cat=yes)。但如果你给这个”识别猫”的程序看一只苏格兰折耳猫呢?那是一种令人心碎的品种,它因一种备受追捧的遗传缺陷而长出下垂、向内折叠的耳朵。我们的符号 A.I. 走到 (ears=pointy) 这一步,就郑重其事地摇摇头:“不是猫。“它过于字面化,或者说”脆弱”。就连最笨的幼儿,其推断敏锐度也要强得多。

现在想象一下:你不再把一套存放在计算机内存某个位置上的分类规则硬编码进机器里,而是用神经网络来做同样的事情。这里并不存在一个能够存放”猫”之定义的特殊位置。只有一大团相互连接的开关,就像路径上的分叉点。你在这团”团块”的一侧提供输入(图片),在另一侧提供相应的输出(标签)。然后你只是让它自己去推导:通过对所有这些相互连接的开关逐一校准,数据应当沿着怎样的路径流动,才能把输入映射到正确的输出。训练就是这样一个过程:在这团”团块”中挖掘出一系列迷宫般、精巧复杂的通道,这些通道把任意给定的输入与其正确的输出连接起来。你拥有的训练数据越多,能够挖掘出的通道数量就越大、结构就越繁复。一旦训练完成,这团”团块”的中部就拥有足够多的通道,从而能够对它从未见过的数据如何处理作出可靠预测。这被称为”监督学习”。

网络之所以需要如此多的神经元和如此多的数据,是因为它在某种意义上像是一种巨大的机器民主。想象你想训练一台计算机去区分五种不同的东西。你的网络由数以百万计、数以百万计的神经元”选民”组成,每个选民都拿到了五张不同的卡片:一张写着猫,一张写着狗,一张写着蜘蛛猴,一张写着勺子,还有一张写着除颤器。你给你的选民群体看一张照片,然后问:“这是猫、狗、蜘蛛猴、勺子还是除颤器?“所有投票相同的神经元会聚成一群,而网络的监工从上方俯视,识别出多数派的分类:“一只狗?”

你说:“不,大师,是一只猫。再试一次。”

现在,网络监工回过头去识别:哪些选民把票投给了”猫”,哪些没有。那些把”猫”投对了的选民,下次他们的票会被算作双倍 --- --- 至少是在他们投”猫”的时候。他们还得分别证明自己是否也擅长挑出狗和除颤器,但神经网络之所以如此灵活,其中一个原因就在于:每个单元都可以对不同的目标结果作出不同的贡献。重要的并不完全是单个投票本身,而是投票的模式。如果乔、弗兰克和玛丽总是一起投票,那就是一只狗;但如果乔、凯特和杰西卡一起投票,那就是一只猫;而如果凯特、杰西卡和弗兰克一起投票,那就是一台除颤器。神经网络只需要在某处捕捉到足够多、可规律辨识的信号,就可以说:“很可能,这种特定的像素排列代表了某种这些人不断称之为’猫’的东西。“你拥有的”选民”越多,让他们投票的次数越多,网络就越能敏锐地捕捉到哪怕非常微弱的信号。如果你只有乔、弗兰克和玛丽,你也许只能用他们来区分猫、狗和除颤器。如果你有数以百万计的不同选民,能够以数十亿种不同方式结成组合,你就可以以令人难以置信的精细度学习对数据进行分类。你训练好的”选民大会”将能够看着一张没有标签的图片,并或多或少准确地识别出它是什么。

这些想法在计算机科学系遭到如此强烈抵制,部分原因在于:由于输出只是基于”模式的模式”所做出的预测,它不可能完美,而且机器永远无法为你定义”猫”究竟是什么。它只是见到就知道。这种模糊性,恰恰是关键。只要这些神经元”选民”接触过数以百万计、各式各样的猫的场景,它们就能识别一只在阳光下打盹的快乐猫,也能识别一只在凌乱猫砂盆阴影里怒目而视的愤怒猫。你只需要非常非常多的”选民” --- --- 以确保你的网络中总有某一部分能捕捉到哪怕极其微弱的规律,比如耳朵下垂的苏格兰折耳猫 --- --- 以及足够多的带标签数据,以确保你的网络见识到了现象中尽可能广泛的变异。

不过,需要指出的重要一点是:神经网络在本质上是概率性的,这意味着它们并不适用于所有任务。把 1% 的猫误标为狗,或者偶尔把你导向错误的电影,并不是什么大悲剧;但在自动驾驶汽车这类事情上,我们都希望得到更强的保证。这并不是唯一的注意事项。监督学习是一种基于带标签数据的试错过程。机器也许在进行学习,但在输入的最初分类上,仍然存在强烈的人为因素。如果你的数据里有一张穿西装的男人和女人的照片,被某个人标注为”女人和她的老板”,那么这种关系就会被编码进此后所有的模式识别之中。因此,带标签数据会像人类标注者一样容易出错。如果让机器去识别哪些人值得发放贷款,它可能会使用诸如重罪定罪记录之类的数据;但如果重罪定罪记录本身一开始就不公 --- --- 比如它们是基于带有歧视性的毒品法律 --- --- 那么贷款推荐也就必然同样会有缺陷。

像我们的”识别猫”那样的图像识别网络,只是深度学习诸多类型中的一种,但它们被用作教学例子时被引用得尤为频繁,因为它的每一层都在做一些至少对人类来说隐约可辨的事情 --- --- 先挑出边缘,再挑出圆形,再挑出面孔。这意味着存在一种针对错误的保障。比如,Google 的图像识别软件早期有一个怪现象:尽管团队用包含许多健身类别的图像集训练过它,它有时仍无法在孤立情况下识别杠铃。一个可视化工具显示,机器学到的不是”哑铃”的概念,而是”哑铃+手臂”的概念,因为训练集里的所有哑铃都连着手臂。他们在训练样本中加入了一些只有杠铃本体的照片。问题就解决了。并非所有事情都这么容易。

4. 那篇猫论文 {#11c7 .graf .graf—h3 .graf-after—p name=“11c7”}

在最初的一两年里,Brain 培养机器具备 1 岁孩子技能的努力足够吉兆,以至于这个团队从 X 实验室”毕业”,进入了更广泛的研究组织。(Google X 的负责人曾指出,Brain 已经支付了 X 的全部成本。)他们仍然不到 10 个人,对这一切最终会走向何处也只有模糊的感觉。但即便如此,他们已经在思考接下来应该发生什么。人类心智学会识别一个球之后,会在这一成就上安然停留片刻,但迟早会想要开口要那个球。然后,它就会涉入语言。

朝那个方向迈出的第一步,就是那篇让 Brain 声名大噪的猫论文。

那篇猫论文所展示的是:一个拥有超过十亿个”突触”连接的神经网络 --- --- 规模是当时此前任何公开神经网络的一百倍,尽管仍比我们的大脑小很多个数量级 --- --- 能够观察原始、未标注的数据,并自行提炼出一个高阶的人类概念。Brain 的研究人员向这个网络展示了数以百万计的 YouTube 视频静帧,而在纯粹感官洪流的纷繁嘈杂之中,网络分离出了一种稳定模式,任何幼儿或花栗鼠都会毫不犹豫地把它认作一张猫的脸。机器并没有被预先编程灌入”猫”的知识;它直接伸手进入世界,为自己攫取了这个概念。(研究人员是通过某种相当于神经网络版核磁共振的手段发现这一点的:它向他们显示,一张幽灵般的猫脸会让人工神经元以最大的集体热情进行”投票”。)在那之前,大多数机器学习都受限于带标签数据的数量。猫论文表明,机器也可以处理原始的未标注数据,甚至可能处理那些人类并无既定先验知识的数据。这不仅在”识别猫”的研究上看起来是一大进步,也似乎是整体人工智能的一大进展。

猫论文的第一作者是郭乐(Quoc Le)。郭乐身材矮小而修长,话不多,笑起来又快又带几分难以捉摸,脚上穿着锃亮的黑色便士乐福鞋。他在越南顺化(Hue)郊外长大。父母是种稻农,他家里没有电。他的数学才能很早就显露出来,于是被送去一所科学特色的重点中学学习。20 世纪 90 年代末,他还在上学时就试着做一个聊天机器人陪自己说话。他想:这能有多难?

“但实际上,“他用一种轻声的面无表情语气对我说,“非常难。”

他凭奖学金离开稻田,去了澳大利亚堪培拉的一所大学,在那里做计算机视觉之类的 A.I. 任务。当时的主流方法是把诸如”边缘”之类事物的定义喂给机器,这在他看来像是在作弊。那时郭乐并不知道 --- --- 或者只是隐约知道 --- --- 世界上其他地方至少还有几十位计算机科学家,也像他一样忍不住设想:机器能够从零开始学习。2006 年,郭乐在德国中世纪大学城蒂宾根(Tübingen)的马克斯·普朗克生物控制论研究所任职。在那里的一个读书小组里,他读到了杰弗里·辛顿的两篇新论文。那些在这场漫长流散时期进入该学科的人,都有各自的”皈依”故事;郭乐读到那两篇论文时,只觉得眼前豁然开朗。

“当时有一场很大的争论,“他对我说,“非常大的争论。“我们在一间内部的小会议室里,那是一个狭长、挑高的空间,里面只有一张小桌子和两块白板。他看了看身后白板上他画出的那条曲线,又看了回来,然后轻声吐露:“我从没见过这么大的争论。”

他记得自己在读书小组里站起来说:“这就是未来。“他说,那在当时是一个”不得人心的决定”。一位他一直保持密切联系的澳大利亚前导师,怎么也无法理解郭乐的选择。“你为什么要这么做?“那位导师在一封邮件里问他。

“那时候我给不出一个好答案,“郭乐说,“我只是好奇。有一个成功的范式,但说实话,我只是对新的范式感到好奇。2006 年的时候,这方面几乎没有什么动静。“他去斯坦福加入吴恩达,开始追随辛顿的想法。“到 2010 年底,我相当确信会发生点什么。”

不久之后发生的事情是:郭乐作为 Brain 的第一名实习生加入了那里,并继续推进他的论文工作 --- --- 其中的一个延伸最终成了那篇猫论文。在一个简单的层面上,郭乐想看看,能否训练计算机自行识别一张图像中绝对关键的信息。他把一张从 YouTube 截取的静帧喂给神经网络。接着他让神经网络丢弃图像中包含的一部分信息,但他并未具体指定它该丢弃什么或不该丢弃什么。机器起初随机丢弃了一些信息。然后他又说:“开玩笑的!现在只根据你保留的信息,把你刚才看到的原始图像重建出来。“这就像是他在要求机器找到一种方式来”概括”图像,然后再从这个概括扩展回原图。如果这种概括建立在无关的数据之上 --- --- 比如天空的颜色而不是胡须的存在 --- --- 机器就无法完成像样的重建。它的反应会类似于某个遥远祖先:他短暂接触剑齿虎后的要点总结是,剑齿虎移动时会发出一种令人安神的”呼 --- --- “声。与那位祖先不同的是,郭乐的神经网络可以再试一次、再试一次、再试一次、再试无数次。每一次,它都会在数学意义上”选择”优先考虑不同的信息片段,并一点点做得更好。

然而,神经网络是一只黑箱。它能从中洞察模式,但它所识别的模式并不总能让人类观察者直觉上理解。同一个捕捉到了我们所说”猫”的概念的网络,也会对一种看起来像某种”家具 --- 动物”混合体的模式表现出热情,像是一种脚凳与山羊的杂交体。

在那段令人飘飘然的”猫”年代里,郭乐并不把自己视为研究语言的人,但他感到一种冲动,想把这些线索与他早年的聊天机器人联系起来。在猫论文之后,他意识到:如果你可以让一个网络去概括一张照片,那么或许也可以让它去概括一句话。接下来的两年里,这个问题一直困扰着郭乐,以及他在 Brain 的一位同事托马什·米科洛夫(Tomas Mikolov)。

在那段时间里,Brain 团队在他周围搬离了好几间办公室,规模不断扩大。有一阵子,他们所在的楼层还与高管们共用。某次他们收到管理员的邮件,请他们不要再让人睡在拉里·佩奇和谢尔盖·布林套间门前的沙发上了。这会让前来拜访的贵宾们感到不安。后来,他们被分配到街对面一栋研究楼里的一部分,在那里的”微型厨房”里交流时,就不会被迫把时间浪费在与西装革履者们礼貌寒暄上。那个过渡时期,也见证了谷歌竞争对手为追赶而做出的专门努力。(当郭乐跟我讲他与托马什·米科洛夫的紧密合作时,他一遍又一遍地重复米科洛夫的名字,用一种近乎咒语般的方式,听起来令人心酸。郭乐从未显得如此庄重。我最终忍不住,开口想问:“他…?“郭乐点点头。“在 Facebook,“他回答。)

在这一时期,他们试图提出能够容纳不仅是静态的简单照片分类、而且是随时间展开的复杂结构(如语言或音乐)的神经网络架构。其中许多架构最早在 20 世纪 90 年代就被提出了,郭乐和同事们回到那些长期被忽视的贡献中,看看能从中汲取什么。他们知道,一旦你建立起基本的语言预测能力,接下来就可以做各种其他智能的事情 --- --- 比如预测一封邮件的合适回复,或者预测一场合理对话的走向。你可以悄然逼近那种从外部看来很像”思考”的本领。

第二部分:语言机器 {#0ff8 .graf .graf—h3 .graf-after—p name=“0ff8”}

5. 语言学转向 {#d4c3 .graf .graf—h3 .graf-after—h3 name=“d4c3”}

Brain 目前大约一百名成员 --- --- 它常常给人的感觉,与其说是庞大企业层级中的一个部门,不如说更像一个俱乐部、一个学术社团,或者一家星际小酒馆 --- --- 在这些年间成了整个谷歌组织里最自由、也最受敬仰的一群员工。他们如今驻扎在公司山景城主园区西北侧绿树成荫的边缘地带,一栋阶梯式的两层蛋壳色建筑里,建筑上有大窗户,玻璃被染成一种带着威慑感的炭灰色。他们的”微型厨房”里有一张桌上足球台,我从没见人用过;有一套 Rock Band,我也从没见人用过;还有一套围棋用具,我倒是见人用过几次。(有一次我确实看到一位年轻的 Brain 研究助理把熟透的菠萝蜜介绍给同事们,他像切火鸡一样把那个巨大带刺的球状果实剖开。)

我在 6 月开始花时间待在 Brain 的办公室时,那里有几排空着的工位,但其中大多数都贴着便签纸,上面写着诸如”Jesse,6/27”之类的字样。现在那些工位全都有人了。我第一次去的时候,停车完全不是问题。离入口最近的车位是留给孕妇或特斯拉车主的,但停车场其余地方仍有充足空位。到了 10 月,如果我 9:30 之后才到,就不得不去街对面找车位。

Brain 的增长让迪恩对公司将如何应对这种需求略感不安。他想避免谷歌内部所谓的”成功灾难” --- --- 也就是公司在理论上的能力超过了在实践中落地产品的能力的情况。在某个时候,他做了一些粗略的估算,并在一天用两页幻灯片把结果展示给高管们。

“如果未来每个人每天都对着他们的 Android 手机说三分钟话,“他对他们说,“我们就需要这么多机器。“他们将不得不把全球计算规模扩大到两倍或三倍。

“那样的话,“他带着一点戏剧性的吞咽动作和瞪大的眼睛说道,“听起来很吓人。你就得” --- --- 他迟疑着去想象后果 --- --- “建新的楼。”

不过,还有另一个选择:只要设计、量产并在分散的数据中心里安装一种新型芯片,让一切都更快。这些芯片将被称为 T.P.U.,即”张量处理单元”(tensor processing units)。而它们的价值主张 --- --- 反直觉地 --- --- 在于它们被刻意设计得比普通芯片更不精确。它们不会去计算 12.246 乘以 54.392,而是会给出一个敷衍的答案:12 乘以 54。从数学意义上 --- --- 而不是比喻意义上 --- --- 神经网络不过是一系列有结构的矩阵乘法,以连续的方式执行数百次、数千次或数万次,而这些过程更重要的是速度,而不是精确。“通常,“迪恩说,“专用硬件是个坏主意。它往往只能加速一件事。但由于神经网络的通用性,你可以把这种专用硬件用于很多其他事情。”

就在芯片设计流程几乎完成之际,郭乐和两位同事终于证明,神经网络也许可以被配置来处理语言的结构。他借鉴了一个已有十多年历史的想法,称为”词嵌入”(word embeddings)。当你概括图像时,你可以推演出概括每个阶段大致是什么样子 --- --- 边缘、圆形,等等。以类似方式概括语言时,你本质上会生成一种多维地图:根据常见用法,描绘某个词与语言中每一个其他词之间的距离。机器并不是像我们可能做的那样”分析”数据 --- --- 用语言学规则把其中一些识别为名词、另一些识别为动词。相反,它是在地图中不断移动、扭转并扭曲这些词。

在二维空间里,你无法让这张地图变得有用。比如,你希望 “cat” 大致靠近 “dog”,但你也希望 “cat” 靠近 “tail”、靠近 “supercilious”、靠近 “meme”,因为你想尽可能捕捉 “cat” 这个词与其他词之间所有不同的关系 --- --- 强的也好,弱的也好。只有当它能在不同维度上分别与它们相关联时,它才能同时与所有这些词产生关联。你不可能轻易画出一张 160,000 维的地图,但事实证明,你只用大约一千个维度就能相当好地表征一种语言 --- --- 换句话说,在一个宇宙里,每个词都由一份包含一千个数字的列表来标记。郭乐对我反复要求在头脑中”想象”这些地图这件事,善意地取笑了我一番。“吉迪恩,“他会说,语气里带着巴特尔比式直白而一贯的推辞,“我通常不喜欢尝试在三维空间里去可视化一千维向量。”

尽管如此,空间中的某些维度后来被发现似乎确实代表着可读的人类类别,比如性别或相对大小。比如,如果你把表示 “king” 的那一千个数字逐项相减去表示 “queen” 的那一千个数字,你得到的数值结果与把表示 “man” 的数字减去表示 “woman” 的数字所得的结果是一样的。而如果你拿到整个英语语言空间与整个法语语言空间,至少在理论上,你可以训练一个网络,让它学会如何把一种空间中的一句话转换成另一种空间中的等价表达。你只需要在一侧给它输入数以百万计的英语句子,并在另一侧给出它们期望的法语输出,随着时间推移,它就会像图像分类器从像素中识别相关模式那样,从词语中识别出相关模式。之后你就可以给它一句英文,让它预测最好的法语对应句。

然而,词语与像素之间的一个重大差别在于:图像里的所有像素是同时存在的,而词语是随时间推进逐个出现的。你需要一种方法,让网络能够”记住”按时间顺序展开的序列进程 --- --- 从第一个词到最后一个词的完整路径。2014 年 9 月,大约在一周时间里,三篇论文相继发表 --- --- 一篇出自郭乐,另外两篇出自加拿大和德国的学者 --- --- 它们终于提供了完成这类任务所需的全部理论工具。这些研究为 Brain 的 Magenta 之类开放式项目提供了可能性 --- --- 那是对机器如何生成艺术与音乐的探索。它也为机器翻译这类工具性任务扫清了道路。辛顿告诉我,当时他以为后续工作至少还需要再花五年。

6. 伏击 {#bec0 .graf .graf—h3 .graf-after—p name=“bec0”}

郭乐的论文表明神经网络翻译是可行的,但他使用的只是一个相对较小的公开数据集。(对谷歌来说算小 --- --- 不过那其实已经是全世界最大的公开数据集了。旧版 Translate 运行十年所积累的生产数据规模,要大出一百到一千倍。)更重要的是,郭乐的模型对长度超过大约七个词的句子效果并不好。

随后,当时在 Brain 担任资深研究科学家的迈克·舒斯特(Mike Schuster)接过了接力棒。他知道,如果谷歌找不到办法把这些理论洞见扩展到生产级别,别人就会做到。这个项目占据了他接下来的两年。“你以为,“舒斯特说,“要翻译点东西,你只要拿到数据、跑完实验就结束了,但事情不是那样的。”

舒斯特是一个紧绷、专注、似乎不显老的存在,皮肤黝黑,头颅像活塞一样,肩膀窄,穿着一条迷彩工装短裤,裤腿系在膝盖下方,脚踩一双荧光绿色的耐克 Flyknit。他看起来仿佛是以莲花坐姿醒来,伸手拿起小巧、无框、椭圆形的眼镜,靠一小份腌制橡子补充热量,然后在去办公室的路上轻松完成了一场沙漠十项全能;但实际上,他告诉我,他只是每天往返各骑 18 英里自行车而已。舒斯特在杜伊斯堡(Duisburg)长大,那里是昔日西德的高炉工业区;他先学习电气工程,后来搬到京都从事早期神经网络研究。20 世纪 90 年代,他曾用一台神经网络机器做实验,那台机器大到一间会议室,造价数百万美元,还得训练数周才能做出如今你在桌面电脑上不到一小时就能完成的事。他在 1997 年发表过一篇论文,在之后十年半里几乎无人引用;而今年,这篇论文被引用了大约 150 次。他并非没有幽默感,但他经常带着一种略显刻薄的神情,我把它理解为他标志性的”德国式克制 + 日本式克制”的组合。

舒斯特需要处理的问题错综复杂。一方面,郭乐的代码是为项目定制编写的,与谷歌当时正在开发的新开源机器学习平台 TensorFlow 并不兼容。2015 年秋天,迪恩给舒斯特配了另外两位工程师:吴永辉(Yonghui Wu)和陈志峰(Zhifeng Chen)。他们仅仅为了在新系统上复现郭乐的结果,就花了两个月时间。郭乐也在场,但即便是他,有时也搞不清他们究竟做了什么。

用舒斯特的话说:“有些东西并不是在完全清醒的意识状态下完成的。他们自己也不知道为什么会起作用。”

今年 2 月,谷歌的研究组织 --- --- 公司里一个松散的部门,总计大约一千名员工,专注于前瞻性与难以归类的事务 --- --- 在联合广场的威斯汀圣弗朗西斯酒店(Westin St. Francis)举行了一场外出闭门会议,召集各负责人参加。那是一家豪华酒店,华丽程度略逊于谷歌在往东约一英里处自家的旧金山”店面”。上午安排的是一轮轮”闪电演讲”(lightning talks),用快速更新来覆盖研究领域的各个方向;下午则在跨部门的”引导式讨论”(facilitated discussions)中消磨过去。人们希望,这次会议能提供一个契机,促成那种不可预测、迂回、带点贝尔实验室气质的交流,从而让一家成熟的公司仍能保持高产。

午饭时,科拉多和迪恩结伴去找 Google Translate 的负责人麦克达夫·休斯(Macduff Hughes)。休斯一个人在吃饭,两位 Brain 成员分别坐到他的两侧。用科拉多的话说:“我们伏击了他。”

“好吧,“科拉多对着警惕的休斯说,为了制造效果还屏住了呼吸,“我们有件事要告诉你。”

他们告诉休斯,2016 年似乎是个好时机,可以考虑用神经网络对 Google Translate 来一次彻底翻新 --- --- 那是数百名工程师十年来写下的代码。旧系统的工作方式与过去约 30 年来机器翻译的一贯方式一样:它把句子切成一个个连续的短语片段,将这些词在一张由大量统计方法得出的词汇表中逐一查找,然后再应用一整套后处理规则来加上正确的词尾,并重新排列一切使之合乎语法。这个方法被称为”基于短语的统计机器翻译”(phrase-based statistical machine translation),因为当系统处理到下一个短语时,它并不知道上一个短语是什么。这也是为什么 Translate 的输出有时看起来像一袋被摇晃过的冰箱磁贴。Brain 的替代方案如果能成形,将会一次性读入并生成整句文本。它会捕捉上下文 --- --- 以及某种近似于”意义”的东西。

利害关系看起来也许并不大:Translate 产生的收入微乎其微,而且它大概永远都会如此。对大多数英语世界用户而言,即便该服务的表现有了激进式的升级,也几乎不会被当作超出预期的东西来欢呼;最多也就被视为理所当然的渐进式改良。然而,有理由认为,达到人类水平的机器翻译不仅是短期所需,而且从长期来看,很可能会被证明具有变革性。在眼前的未来,它对公司的商业战略至关重要。谷歌估计,互联网上有 50% 的内容是英文,而全球人口中大约只有 20% 的人会说英语。如果谷歌要在中国竞争 --- --- 那里搜索引擎流量的多数市场份额属于其竞争对手百度 --- --- 或者在印度竞争,那么像样的机器翻译将是基础设施中不可或缺的一部分。百度本身也在 2015 年 7 月发表了一篇开创性的论文,讨论神经机器翻译的可能性。

而在更遥远、更具猜测性的未来,机器翻译也许是迈向一种能处理人类语言的通用计算能力的第一步。这将代表一个重大的拐点 --- --- 也许是最重要的拐点 --- --- 通往某种让人感觉像真正人工智能的东西的发展之路上的拐点。

硅谷的大多数人都意识到机器学习是一个快速逼近的地平线,因此休斯并不意外会遭遇这场”伏击”。他仍然持怀疑态度。休斯是一位略过中年的结实、朴素的男人,赤褐色的头发有些凌乱,鬓角已经发灰;他是典型的一线工程师,是那种放在 20 世纪 70 年代波音公司的制图桌旁也毫不违和的匠人。他的牛仔裤口袋经常鼓鼓囊囊,装着一些尺寸笨拙、用途古怪的工具,仿佛他随身带着卷尺或热电偶;而且与许多在他手下工作的年轻人不同,他的衣橱并不依赖公司发的”周边”。他知道,谷歌内部以及外部的各路人马,多年来一直在尝试让神经翻译真正跑起来 --- --- 不是在实验室里,而是在生产规模上 --- --- 但几乎没有成效。

休斯听完他们的陈述,最后谨慎地说,在他看来,他们也许能在三年内把这事做成。

迪恩却不这么认为。“如果我们全力以赴,我们能在年底之前完成。“人们之所以如此喜欢并敬佩迪恩,其中一个原因是他长期以来确实有”全力以赴并成功做到”的记录。另一个原因是,他一点也不觉得说出诸如”如果我们全力以赴”这种真诚的话有什么可尴尬的。

休斯确信这场转换短期内不会发生,但他也不愿意自己成为阻碍的原因。“让我们为 2016 年做准备,“他回去对团队说,“我可不想成为那个说杰夫·迪恩做不到速度的人。”

一个月后,他们终于能够做一次并排实验,对比舒斯特的新系统与休斯的旧系统。舒斯特想用英法翻译来跑测试,但休斯建议他换点别的。“英法翻译,“他说,“已经好到这种程度了,改进不会明显。”

这却成了舒斯特无法抗拒的挑战。评估机器翻译的基准指标叫 BLEU 分数,它会把机器译文与多份可靠的人类译文的平均水平进行比较。当时,英法翻译的最佳 BLEU 分数在 20 多分的高位。提升 1 分就被认为非常好;提升 2 分则被认为极为出色。

而神经系统在英法语言对上,相比旧系统提升了 7 分。

休斯告诉舒斯特的团队,他们旧系统在过去四年里甚至连一半那么强的提升都没有。

为确保这不是指标上的某种偶然,他们还让一批人类承包人员做了并排对比。用户感知评分中,样本句子按 0 到 6 分打分,结果显示平均提升了 0.4 --- --- 大致相当于旧系统在其整个开发生命周期里累积的总体提升。

3 月中旬,休斯给团队发了一封邮件。旧系统上的所有项目都必须立刻暂停。

7. 理论变成产品 {#9921 .graf .graf—h3 .graf-after—p name=“9921”}

在那之前,神经翻译团队只有三个人 --- --- 舒斯特、吴永辉和陈志峰 --- --- 但在休斯的支持下,更大的团队开始凝聚起来。他们在舒斯特的指挥下,每周三下午 2 点在 Brain 大楼里一间名为 Quartz Lake 的角落会议室开会。会议通常有十几个人轮换参加。休斯或科拉多在场时,他们往往是唯二以英语为母语的人。工程师们会说中文、越南语、波兰语、俄语、阿拉伯语、德语和日语,不过他们大多用一种高效的”皮钦语”和数学来交流。在谷歌,谁在主持一场会议并不总是完全清楚,但在舒斯特这边则毫无歧义。

即便如此,他们需要采取的步骤仍并不完全明朗。舒斯特曾对我说:“这个故事很大程度上关乎不确定性 --- --- 贯穿整个过程的不确定性。软件、数据、硬件、人。就像 --- --- “他从窄窄的肩膀伸出那双修长优雅的手臂,肘部微微弯曲 --- --- “在一片巨大的泥海里游泳,而你只能看到这么远。“他把手伸到胸前八码的位置。“目标在某个地方,也许就在那儿。”

谷歌的大多数会议室里都有视频聊天显示器,闲置时会展示超高分辨率、过饱和的公开 Google+ 照片:林木繁茂的梦幻景致、北极光,或是德国国会大厦。舒斯特指了指其中一块屏幕,上面显示着华盛顿纪念碑夜景的一张晶莹剔透的静帧。

“从外面看,“他说,“好像每个人都有双筒望远镜,能看得那么远。”

把工作推进到这一点的理论研究已经足够艰苦而漫长,但把它转化为可行产品 --- --- 学术科学家也许会把这一部分贬为”不过是”工程 --- --- 同样一点也不轻松。首先,他们必须确保训练所用的数据是好的。谷歌用来训练的、数以十亿计的词汇”阅读材料”,主要由中等复杂度的完整句子构成,就像你可能在海明威作品里读到的那种。有些数据属于公共领域:统计机器翻译最初的”罗塞塔石碑”是加拿大议会的完整双语记录,足足数百万页。然而,其中很大一部分是从十年来收集的数据中筛选出来的,包括从热心响应者那里众包得到的人类译文。团队的库中大约有 9700 万个独特的英文”词”。但当他们去掉表情符号、拼写错误以及重复项之后,可用的词表只剩下大约 16 万个。

然后,你还得重新聚焦于用户实际上想翻译什么 --- --- 而这往往与”合理语言”的日常用法几乎毫无关系。谷歌发现,许多人并不是用这项服务来翻译完整、复杂的句子;他们翻译的是一些古怪的、零碎的小片段。如果你想让网络能够处理用户查询的洪流,你就必须确保它朝这个方向被校准。网络对它所接受训练的数据非常敏感。休斯曾在某个时候对我说:“神经翻译系统在学习它所能学的一切。它就像个幼儿。‘哦,爸爸生气的时候会说那个词!‘“他笑了笑。“你得小心。”

不过最重要的是,他们必须确保整个系统足够快、足够可靠,以至于用户不会察觉。2 月时,翻译一个 10 个词的句子需要 10 秒。他们绝不可能上线任何这么慢的东西。Translate 团队开始在一小部分用户身上做延迟实验 --- --- 用伪造的延迟 --- --- 以测出用户的容忍度。他们发现,翻译耗时如果变成原来的两倍,甚至五倍,用户都不会注意到;但如果慢了八倍,就会被察觉。他们并不需要保证所有语言都如此。对于法语或中文这类高流量语言,他们几乎无法容忍任何速度下降。对于更冷门的语言,他们知道,只要质量更好,用户就不会因为轻微延迟而那么容易流失。他们只是想防止人们放弃并转去使用某个竞争对手的服务。

就舒斯特而言,他承认自己并不知道他们是否真的能把速度做到足够快。他记得在”微型厨房”里的一次谈话,当时他转向陈志峰说:“一定有什么我们不知道的东西能让它快起来,但我不知道会是什么。”

不过他确实知道的是:他们需要更多计算机 --- --- 用于训练的”G.P.U.”(图形处理器,被重新配置来运行神经网络)。

休斯去问舒斯特他怎么想。“我们要不要申请一千块 G.P.U.?”

舒斯特说:“为什么不申请 2000 块?”

十天后,他们就拿到了额外的 2000 个处理器。

到 4 月时,最初的三人阵容已经扩大到 30 多人 --- --- 其中一些人(比如郭乐)来自 Brain 这边,更多人来自 Translate。5 月,休斯为每一组语言对指派了一名临时负责人,大家把结果汇总进一张大型共享的绩效评估电子表格里。任何时候,至少都有 20 人在各自独立运行为期一周的实验,并处理随时冒出来的各种意外问题。有一天,一个模型不知为何开始把句子里出现的所有数字都丢掉。有几个月里,一切都岌岌可危。“人们几乎是在喊叫,“舒斯特说。

到晚春时,各个部分开始汇聚成形。团队引入了所谓”词片模型”(word-piece model)、“覆盖惩罚”(coverage penalty)、“长度归一化”(length normalization)。舒斯特说,每一项也许只能把结果提升几个百分点,但叠加起来效果显著。一旦模型标准化,它就会成为一个会随着时间不断改进的单一多语言模型,而不是 Translate 目前使用的 150 个不同模型。尽管如此,这个悖论 --- --- 一种旨在通过学习机器进一步泛化自动化过程的工具,却需要如此惊人的协同人类聪明才智与努力 --- --- 他们并未忽视。他们做的很多事情纯靠直觉。每一层用多少个神经元?1024 还是 512?用多少层?一次输入多少句子?训练多久?

“我们做了数百次实验,“舒斯特对我说,“直到我们知道训练一周后就可以停。你总是在问:我们什么时候停?我怎么知道我做完了?你永远不知道你做完了。机器学习机制从来都不完美。你需要训练,但到某个点你必须停下来。这就是整个系统非常痛苦的本质。有些人会觉得很难。这有点像艺术 --- --- 你把笔触落在哪里才能好看。它来自于反复去做。有些人更擅长,有些人差一点。”

到 5 月,Brain 团队明白,他们能把系统做得足够快、从而作为产品上线的唯一办法,是让它跑在 T.P.U. 上 --- --- 也就是迪恩所要求的那种专用芯片。正如陈志峰所说:“我们甚至都不知道代码能不能跑。但我们知道,没有 T.P.U.,那它肯定跑不起来。“他记得自己单独去找迪恩恳求:“请给我们预留一些。“迪恩确实给他们预留了。然而,T.P.U. 并不是开箱即用的。吴永辉花了两个月时间坐在硬件团队某个人旁边,试图弄清楚原因。他们不只是给模型调试;他们是在给芯片调试。神经翻译项目将成为整个基础设施投入的概念验证。

6 月的一个星期三,在 Quartz Lake 的会议一开始,大家就在低声议论一篇最近出现在该学科主要在线论坛上的百度论文。舒斯特让会议室安静下来。“是的,百度发了一篇论文。感觉就像有人在我们肩膀后面看 --- --- 相似的架构,相似的结果。“那家公司的 BLEU 分数基本上就是谷歌在 2 月和 3 月内部测试中达到的水平。郭乐看起来并不慌乱;他的结论似乎是,这反而说明谷歌走在正确的路上。“它和我们的系统非常相似,“他带着安静的赞许说道。

谷歌团队知道,他们本可以更早发表结果,也许就能抢在竞争对手之前,但正如舒斯特所说:“发布比发表更重要。人们会说,‘哦,我是第一个做出来的,‘但到头来谁在乎呢?”

不过,这也使得他们必须让自家服务先上线、并且更好。休斯曾有一个幻想:他们甚至不告诉用户系统已经切换。他们只等着看社交媒体会不会因为巨大提升而开始起疑、热议。

“我们还不想说这是一个新系统,“他在劳动节后两天的下午 5:36 对我说 --- --- 就在他们毫不声张地把中译英向 10% 用户上线的前一分钟。“我们想先确保它能运行。理想情况是推特上炸了:‘你们看到 Google Translate 变得有多牛了吗?‘“

8. 一场庆祝 {#84ee .graf .graf—h3 .graf-after—p name=“84ee”}

在没有四季之分的硅谷,只有两种可靠的计时方式:一是”微型厨房”里当季水果的轮换 --- --- 从盛夏的李杏(pluot)到初秋的亚洲梨和富有柿(Fuyu persimmons) --- --- 二是技术进步的曲折跳跃。9 月下旬一个几乎热得让人不自在的周一下午,团队的论文终于发布了。作者多达 31 人,几乎带着一种滑稽感。第二天,Brain 和 Translate 的成员聚在 Translate 的微型厨房里,给自己办了一场小型庆祝招待会。Brain 大楼里的会议室 --- --- 也许是为了致敬他们”流散时代”的漫长寒冬 --- --- 以阿拉斯加的地名命名;Translate 大楼的主题则是夏威夷。

夏威夷主题的微型厨房,一面墙上挂着一张略显颗粒感的海滩照片;有一个小小的服务台,像是挂着花环的茅草屋,中央摆着一只填充鹦鹉;天花板的灯具被设计成纸灯笼的样子。两侧立着两排稀疏的竹竿柱状图,像是一座防守不严的热带堡垒的桩柱。越过这些竹竿,玻璃墙和玻璃门通向外面:两侧是一排排一模一样的灰色桌位。那天上午,纪念 Translate 十周年的新连帽卫衣送到了,许多团队成员穿着新装备从工位走到派对现场。他们一方面是在庆祝:截至那一天,他们十年来的集体劳动正走在”退休”的路上。在别的机构里,这些新卫衣也许会因此变成一种哀悼的制服,但两支团队的工程师和计算机科学家看起来都很高兴。

谷歌的神经翻译终于跑起来了。到派对开始时,公司在中英测试中已经处理了 1800 万次查询。Translate 团队里有一位工程师拿着手机满场跑,试图用百度的替代方案把整句中文翻译成英文。他得意洋洋地对愿意听的人嚷嚷:“你一次输入超过两个字,它就超时!“(百度表示用户从未报告过这个问题。)

在接下来的几周里,当消息开始传播:谷歌已经为中译英引入了神经翻译,有些人猜测,那是因为这可能是该公司唯一取得不错结果的语言对。派对上的每个人都知道,他们成就的真实分量会在 11 月变得一清二楚。不过到那时,他们当中的许多人早已转去做别的项目了。

休斯清了清嗓子,走到提基酒吧前。他穿着一件褪色的绿色 Polo 衫,领口皱巴巴的,腰腹部位隐约有些深色带状的汗渍,像是汗水将干未干的痕迹。临近最后时刻出现了问题,然后又出现了”最后的最后时刻”的问题,包括论文里一个非常大的测量错误,以及系统里一个与标点有关的奇怪 bug。但一切都解决了 --- --- 或者至少暂时解决到了足够的程度。来宾安静下来。休斯主持会议一向高效而富有产出,对冗长散漫或旁枝对话的容忍度很低,但这一次,他被这一时刻的分量所触动。他承认,这或许有点牵强比喻,但对他来说,强调这样一个事实很重要:神经翻译项目本身就是一次”讲不同语言的团队之间的合作”。

他接着说,他们的神经翻译项目代表了一次”阶跃式前进”(step function forward) --- --- 也就是说,这是一种不连续的进步,是一次垂直跃升,而不是一条平滑曲线。相关的”翻译”不仅发生在两支团队之间,也发生在理论与现实之间。他举起一只塑料制、半长笛形的香槟杯,里面装着看起来很昂贵的香槟。

“为沟通,“他说,“也为合作!”

在场的工程师们彼此看了看,随后发出几声克制的小欢呼和掌声。

杰夫·迪恩站在微型厨房的中央附近,双手插在口袋里,肩膀微微向内收着,身边是科拉多和舒斯特。迪恩看出来,现场有一种弥漫的期待,希望他也为这一场合说两句,于是他以一贯的低调方式做了回应:一段轻快、迅速、简洁的补充发言。

迪恩说,他们所证明的是:他们可以同时做两件大事 --- --- “做研究,然后把它摆到,我也不知道,五亿人面前。”

所有人都笑了,不是因为这话夸张,而是因为它并不夸张。

尾声:没有幽灵的机器 {#a1a2 .graf .graf—h3 .graf-after—p name=“a1a2”}

也许,对人工智能 --- --- 或对其名义之下的各种主张 --- --- 最著名的一则历史性批评,牵涉到翻译这一问题。“中文房间”论证由伯克利哲学家约翰·塞尔(John Searle)于 1980 年提出。在塞尔的思想实验中,一个只会英语的人独自坐在一间牢房里。一个看不见的狱卒通过门上的小孔递给他写着汉字的纸条。囚犯手里有一套用英文写成的表格和规则,用来构造回复。他对这些指令越来越熟练,以至于他的回答很快就”与中文母语者的回答绝对无法区分”。那么,这个倒霉的囚犯是否可以被说成”理解”中文呢?塞尔认为答案显然是否定的。塞尔后来写道,这个作为计算机隐喻的实验,击穿了这样一种主张: “恰当编程的数字计算机,只要有了正确的输入和输出,就会因此拥有一种与人类拥有心智完全同样意义上的心智。”

但对于 Google Brain 团队而言 --- --- 或者对硅谷几乎所有从事机器学习的人而言 --- --- 这种观点完全偏离了要点。这并不意味着他们只是在无视这个哲学问题,而是意味着他们对心智有一种根本不同的看法。与塞尔不同,他们并不假定”意识”是什么特殊的、带着神秘光辉的心理属性 --- --- 哲学家吉尔伯特·赖尔(Gilbert Ryle)称之为”机器中的幽灵”(ghost in the machine)。相反,他们只是相信:我们称为”意识”的那套复杂技能组合,是由许多不同的简单机制协调活动而随机涌现出来的。其含义是:我们在所谓”更高层级”的思维方面的能力,并不比那些我们倾向于视为”更低层级”的能力在本质上有什么不同。按照这种说法,逻辑推理被视为一种幸运的适应;投掷并接住一个球的能力也是如此。人工智能并不是在”建造一颗心灵”;它关乎的是改进工具以解决问题。正如科拉多在我去谷歌的第一天对我说的那样:“关键不在于机器’知道’或’理解’了什么,而在于它’做’了什么 --- --- 以及,更重要的是 --- --- 它还没做到什么。”

你在”知道”与”做”之间站在哪一边,会带来真实的文化与社会含义。在派对上,舒斯特走到我身边,表达了他对媒体如何报道这篇论文的沮丧。“你看到第一波新闻了吗?“他问我。他转述了那天早上的一个标题,一边背诵一边用手逐字遮挡着它:谷歌称 A.I. 翻译与人类无法区分。在论文撰写的最后几周里,团队一直在为此纠结;舒斯特经常重复说,论文想传达的信息是:“它比以前好很多,但还不如人类。“他原本希望大家能清楚,他们的努力不是为了取代人,而是为了帮助人。

然而,机器学习的崛起让我们更难为自己划出一个特殊的位置。如果你像塞尔那样相信人类的”洞见”有某种特殊之处,你就可以画出一条清晰的线,把人类与自动化区分开来。如果你同意塞尔的反对者,那你就做不到。可以理解,为什么那么多人牢牢抓住前一种观点。在 2015 年麻省理工的一场关于人工智能根源的会议上,有人问诺姆·乔姆斯基(Noam Chomsky)怎么看机器学习。他把整个事业贬成不过是统计预测,是一种被美化了的天气预报。即便神经翻译达到了完美的功能性,它也不会揭示语言底层本质的任何深刻内容。它永远无法告诉你一个代词该用与格还是宾格。这种预测可以成为一个很好用的工具来达成我们的目的,但它并不能按照”增进我们对事物为何以这种方式发生的理解”的标准取得成功。机器在医学影像扫描中已经能比人类放射科医生更好地检测肿瘤,但机器无法告诉你癌症究竟是由什么引起的。

不过话说回来,放射科医生就能吗?

医学诊断是一个最直接、也许也最不可预测地受到机器学习威胁的领域。放射科医生接受过长期训练、薪酬极高,我们把他们的技能视为一种职业性的洞见 --- --- 思维的最高层级。仅在过去一年里,研究者不仅证明神经网络能够比人类同行更早在医学影像中发现肿瘤,还证明机器甚至可以仅凭病理报告的文本作出这类诊断。放射科医生所做的事情,原来更接近于预测性的模式匹配,而不是逻辑分析。他们并不是在告诉你癌症是由什么造成的;他们只是告诉你它在那里。

一旦你为某个目的构建起一个强健的模式匹配装置,它就可以被微调去服务于其他目的。一位 Translate 的工程师把他搭建来评判艺术作品的网络,拿去驱动了一辆自动化的遥控赛车。一个为识别猫而构建的网络,可以反过来用 CT 扫描来训练 --- --- 而且训练样本可以多到无穷无尽,远超过哪怕最优秀的医生所能审阅的数量。一个为翻译而构建的神经网络,可以在最昂贵、资历最深的律师所需时间的极小一部分里,处理完数百万页法律取证文件。未来被自动机夺走的工作,不再只是那些重复性的任务 --- --- 需要强调的是,这些任务曾经被不公正地与所谓”受教育程度较低阶层的低智力”联系在一起。我们谈论的不只是那三百五十万名可能很快失去职业的卡车司机。我们谈论的是库存管理人员、经济学家、理财顾问、房地产经纪人。Brain 在九个月里做到的事情,只是一个例子:它说明一家大公司里一个小团队,能以多快的速度把一种从未有人会与机器联系在一起的任务自动化。

硅谷眼下最重要的事情并不是”颠覆”。相反,是建制 --- --- 以及权力的巩固 --- --- 其规模与速度很可能都在人类历史上前所未有。Brain 有实习生;有驻场研究员;还有用来培训其他部门员工的”忍者”课程。到处都是免费自行车头盔的箱子,和一年里下雨那两天用的绿色免费雨伞,还有小份水果沙拉、午睡舱、共享的跑步机办公桌、按摩椅、成箱的高端糕点、婴儿衣物捐赠点、配有固定教练的两层攀岩墙、读书小组、政策讲座以及形形色色的支持网络。那些获得这些对”人类培育”的重大投入的人 --- --- 因为这些远不只是给某个数字盐矿里的苦工发的福利 --- --- 手里掌握着分布在四大洲 13 个数据中心、复杂协同运作的服务器之力;这些数据中心消耗的电力足以点亮大城市。

但即便像谷歌这样庞大的机构,也会受到这股自动化浪潮的影响;一旦机器能够从人类言语中学习,就连程序员这种相对舒适的工作也会受到威胁。当提基酒吧里的派对渐渐收尾时,一位 Translate 工程师拿着他的笔记本电脑走过来,想给休斯看点东西。屏幕上旋转、脉动着一段鲜艳的万花筒式动画:明亮的彩色球体沿着长长的环形轨道运行,周期性地坍缩成星云般的形态,然后又再次散开。

休斯一眼就认出了那是什么,而我得凑近了才看清所有名字 --- --- 人名与文件名。那是一段关于 Translate 代码库十年变更历史的动画:每一项由每一个团队成员贡献的更改,都在其中嗡鸣、绽放。休斯轻轻伸手快进,从 2006 到 2008 再到 2015,每隔一会儿就停下来暂停一下,回忆某场遥远的战役、某次古老的胜利或灾难;这些往事此刻飞速掠过,要么被吸纳进别处,要么在自己的轨道上爆发。休斯指出,杰夫·迪恩的名字在这里那里常常膨胀成发光的球体。

休斯把科拉多叫了过来,两人站在那里出神地看着。为了打破那种忧郁怀旧的迷咒,科拉多看起来有点受伤,抬头说道:“那我们什么时候能把它删掉?”

“别担心这个,“休斯说。“新的代码库会长起来的。万物都会生长。”

原文:https://www.nytimes.com/2016/12/14/magazine/the-great-ai-awakening.html{.markup—anchor .markup—p-anchor data-href=“https://www.nytimes.com/2016/12/14/magazine/the-great-ai-awakening.html” rel=“nofollow noopener” target=“_blank”} ::: ::: :::

← 返回文章列表