Facebook的“十年路线图”,人工智能成为重中之重。作为“后来者”的Facebook凭何赶超谷歌和微软等在人工智能已经遥遥领先的公司?本文深入Facebook人工智能最核心的两个部门:LeCun的FARI和Candela的AML,一个负责研究,一个负责应用,从某种程度上代表了学术和产业的矛盾,LeCun 如何平衡?文章认为,开放或封闭是Facebook能否在AI上获得成功的一个关键,更多的开源才会带来更多的人才。
Facebook的公司文化盛产口号,不少还都挺流行的,比如扎克伯格和其他高管常挂在嘴边的“代码胜过争论”、“快速行动,破除陈规”和“完成比完美更重要”。
在纽约办公室墙上,有一句口号完美地诠释了Facebook人工智能和机器学习带头人Yann LeCun的领导哲学——保持开放(Alway be Open)。人工智能现在Facebook中的比重已经相当大。这一技术现在已经用于在照片中识别人脸和修正信息流推荐等。上周,Facebook推出了文本理解引擎DeepText:“准确率接近人类”,每秒能读几千条贴子,通晓20种不同的语言。很快,多种语言间的自动翻译将得以实现。
后来者能否居上?
Facebook的野心是统治AI和机器学习,正如这家公司在社交网络和即时通讯中所做的那样。目前为止,Facebook已经聘用了超过150名员工,专门负责这一领域的开发。Facebook称,对相关研究的投入已经翻了三倍,虽然具体数额并没有透露出来。
在计算机领域,如果说上一个王朝是移动云的话,那么下一个将会是AI,Nvidia CEO Jen-Hsun Huang在接受采访时说。Nvidia与Facebook在开放资源硬件的设计上有合作。
在接下来的20年内,AI将会是计算领域最重要的发展,现在,Facebook等公司正全力展开竞赛,以确保拥有AI核心竞争力。但是,鉴于Facebook只是在近三年才真正踏入这一领域,仅仅有钱还不足以保证竞争力,因为这是当下最火热的科技领域之一。“他们(Facebook)属于后来者”,华盛顿大学计算机科学教授、《主算法》(The Master Algorithm)的作者Pedro Domingos说,“谷歌和微软等公司现在遥遥领先”。在扎克伯克宣布计划研究智能管家时,这些公司已经在开发智能软件了。
微软从1991年开始就在研究机器学习,在先关的领域,这家公司有近千名科学家和工程师。Google Assistant是谷歌深度学习研究的核心,正在成为公司大多数app和服务的前端大脑。2014年,中国的搜索引擎巨头百度挖走了谷歌深度学习项目的领头人Andrew Ng。此外,特斯拉创始人马斯克和其他科技巨头联合创建的OpenAI现在已经获得了10亿美元的投资。亚马逊的CEO贝索斯在Code大会上说,亚马逊已经暗自研究AI已经有4年了,现在已经有近千人在开发公司的语音识别生态系统。苹果和Uber也在人工智能上投入重金,争夺人才。
所有的这一切都得益于AI领域一波显著的创新,其中一些就来自LeCun,他也被认为是该领域成就最大的人物之一。LeCun加入Facebook后,让这家公司告别了没有正式的研究室的日子,并且一下设了两个:一个是由Lecun领导的人工智能研究项目(FAIR),主要负责基础科学和长期研究;另一个是西班牙人 Joaquin Candela领导的机器学习应用部门(AML)。Candela是一个有着丰富经验的机器学习专家,在剑桥大学开设了相关课程。他的团队主要负责把最新的技术应用到既有的Facebook产品上。
这两个部门是独立的,LeCun和Candela都对Facebook的CTO Mike Schroepfer汇报。现在的难题是,如何让这两个部门合作,把长期的科技研究的成果应用到近期的商业计划中去。
最简单的一个办法是:让两个团队坐在一起办公。“他们需要建立私人关系”,LeCun说,“同时,他们需要真正的紧密的合作。”在Facebook,这两个团队可不仅仅是坐在一起,他们还位于整个公司的核心部分,离扎克伯格和 Schroepfer仅有几步之遥。事实上,这也显示了AI和机器学习在公司的价值。
但是,仅仅是办公位置靠得近,并不会让你为科研项目争取资金的任务变得更加容易。要理解LeCun和Candela是如何做到的,你首先要了解这两人究竟是何方神圣。
FARI:研究70% 研发30%
纽约大学计算机系 Yann LeCun 办公室门前贴着一幅Facebook 风味的蓝色“竖起拇指”logo 。LeCun 是深度学习领域最杰出的专家之一 。这个 logo 并不是 LeCun 自己贴的。这会儿,LeCun 正穿着一件海军蓝 polo 衫,上面绘着爱因斯坦头像和“思考”二字。他笑着解释说,两年半之前,当他宣布要加入 Facebook 时,就有人把这个“竖拇指”logo 贴在了他的门上,自此他也从未把它摘下。
LeCun 今年55岁,他现在仍然是纽约大学计算机系兼职教授,而学校离Facebook 办公室只有几步之遥。在人群里,你很难辨认出这位在全球最大的社交媒体公司中引领人工智能壮志的人——而且,他第一次乘坐 Telsa 轿车的体验还是和 Elon Musk 一起度过的。
如果你曾经用 ATM 存过钱,那你大概已经体验过 LeCun 的研究成果了。LeCun 是深度学习的分支——卷积神经网络的创始者之一,是人工智能界的名人。因为,LeCun 等创造的 ConvNets 为研发可规模化的自动自然语言理解和图像识别、语音识别和视觉搜索系统等工具提供了基石。而这些工具对Facebook、谷歌、百度、微软等公司都具有巨大的价值。LeCun 在该领域中的工作专注于这样一些模型,这些模型能重现生物视皮层的工作方式。
LeCun 有很大的权力,他能以他认为合适的方式来打造Facebook人工智能研究实验室,为这个原先只有十几名人工智能研究人员的实验室雇佣新人、进行组织。Zuckerberg 和 Facebook CTO Schroepfer 之所以赋予 LeCun 如此大的权力是有原因的:LeCun 曾在贝尔实验室工作了 14 年,他已经养成出了一种直觉,知道什么可行、什么不可行;他也曾长期思考,如果有机会的话他将如何建立一个全新的研究性实验室。
LeCun 相信,他成功的关键在于投身于开放性。LeCun 过着业界和学界的双重生活,因为他坚持这样的原则:一个研究者应该发表其作品以让所有人阅览,应该参加会议、与学界广泛互动,并在 GitHub 这样的开源服务上发表代码。
“我曾经见过,我的许多朋友离开了具有开放性文化的实验室,加入了大型科技企业,他们试图改变企业的文化,但都失败了。”LeCun 说。在他加入 Facebook 之前,他问 Facebook 的第一个问题便是,Facebook 是否真的会保持对开源世界和开放性文化的承诺。
LeCun 也希望能在做研究和把研究转化成产品这二者之间取得平衡。他感到,许多科技公司都很难做到这一点,很难在不让其研究者失去对研究的专注的同时,保持研究与产品的平衡。或许,这方面最臭名昭著的例子是当年硅谷的传奇企业 Xerox PARC 研发的图形用户界面工作;乔布斯 1979 年访问了该公司之后,把它应用于苹果公司的 Lisa 电脑,随后又应用于 Macintosh 电脑,而 Xeron PARC 自己却未能在商业上获益。
LeCun 曾见过一种失败的模式,这种模式被称为“混合研究”(hybrid research),在这种模式中,科学家被嵌入到工程团队之中。这么做通常会阻碍科学家的创造力。另一种失败的模式是把研究者们藏在象牙塔中,不与公司其他人进行多少交流;这么做可以为公司带来名望,但没什么别的好处。
LeCun 了解这一点。从 2002 到 2003 年,他在著名的日本电气(NEC)普林斯顿实验室工作。日本电气建立了这家高级研究实验室,但并不要求实验室去影响产品。LeCun 说,“公司从不要求实验室去为公司创造任何产品。然后有一天,公司突然开始这么要求。他们告诉研究人员,你们若能生产出一些公司能用的东西,那样才好。结果,大家纷纷辞职——包括我。不可能打破做研究和研发产品之间的隔阂。”
在 LeCun的领导下,Facebook 于 2013 年 12 月建立了人工智能研究实验室(FAIR),专注研究人工智能和机器学习领域的长期问题。Facebook 知道,为了让该团队既能致力于长期发展,又能取得短期成果,它必须让一些科学家和工程师去发展那些多年后才能影响产业的新技术,而让另一些人去研究能直接影响当前产品的技术。LeCun 估计,实验室中大约 70% 的工作是做研究,而 30% 的工作是近期技术研发。
LeCun 解释说,“我们更倾向于外向型的研究。因此我们把我们做的许多东西都发表了出来,也开源了大量代码。因此,我们真的是研究社区的一部分,因为我们真的希望能把技术和科学进步都推进到极致。我们要确保,我们具有相关的专长,并能掌握目前最先进的技术,在相应方向上驱动进步。”
该团队的目标是雄心勃勃的:他们要教机器学会常识——在本质上让机器能够像婴儿或动物一样进行学习。LeCun 说,人工智能研究实验室目前最大的项目是对对话系统的自然语言理解。这一项目将成为Facebook 的智能语音助手的基础。
显然,每家科技巨头都希望能成为语音助手方面的领导者。最著名的例子是苹果的 Siri。微软开发了Cortana,亚马逊开发了 Alexa,而 siri 的早先版本的开发团队则开发出了 Viv。
Facebook 也有智能语音助理方面的计划,例如一年前它建立的 Facebook M 计划。LeCun说,人工智能是智能助理的核心,因为为了让系统能在“现实中成功回答任何问题”方面带来改变,系统必须具有常识。
“这意味着,我们如何让机器通过观察世界来进行学习,”他说,“而不是去刻意训练机器去辨认厕纸、汽车、手机和其他物品。”
目前,还不存在能让机器具有常识的技术。LeCun 相信,不能通过直接进攻的方式来解决这个问题。相反,我们需要弄清楚,如何让机器能够理解文本;而这又意味着教机器学会足够多的关于世界的背景知识,这样机器才能理解文本。
“如果我说‘ 奖杯装不进箱子里,因为它太小了’,你就会知道‘ 它’是指箱子,而不是指奖杯。因为你知道,把一个东西装入另一个东西是什么意思。 ”
机器还理解不了这一点。而 Facebook 人工智能研究实验室的长期目标之一便是让机器获得这一水平的理解能力。
当机器获得了复杂常识和文本理解能力,这将不仅为语音助理带来巨大影响,而且会影响到自动语言翻译。Facebook 将语言翻译也视为其核心工作,因为 Facebook 用户正在变得越来越国际化。
“翻译非常重要。”LeCun说。“Facebook 的主要使命是连接众人,而为此你要做的第一件事便是确保,人们能够通过翻译进行有效的交流。
开源成为招贤纳士的关键
AML的目标是“提升把产品影响力做到最大的能力”,是“科学研究与产品影响之间的黏合剂”。
为排名、广告、搜索、翻译、语音识别、视频字幕自动生成、自然语言理解等应用开发更好的算法,是AML一直在努力的方向。
Candela 此前曾在微软研究院有过5年的经验,也在德国著名的 Max Planck Institute工作过,后到 Facebook 担任工程经理,领导一个负责机器学习基础架构的团队。在最开始组建AML时,Candela希望能避免他所看到的其他应用研究实验室所犯的错误。他说:“在从科学到工程的转化中,我见过许多导致没能找到最优选择的例子。”
这些错误包括:实验室和工程团队的联系太少、研究员不太关注产品效果。
LeCun的团队花在研究上的时间是70%,而Candela的团队正好相反,只有30%,他们大部分的时间花在把研究应用到可部署的产品上。Candela说,他的团队对项目的规划都是以季度或月来计算,通常以6个月为节点来组产品计划,虽然目前团队大多数的工作是“计划从现在起两年内,我们要到达什么目标”这样的事。而LeCun他们的目标,都是5或者10年这样的时间跨度。
虽然两个团队的工作有分别,但是Candela和LeCun都同意:追求开放会让他们获得更大的成功。CTO Schroepfer 也同意这一观点。在践行开放哲学上,Facebook确实做了一些事实。Schroepfer 说,除了硬件和数据中心的开放以外,Facebook的工程师已经发布了超过1000万行开源代码,此外,在Github上还有350个活跃的项目。
对开放性的追求已经成为招贤纳士的关键。“顶尖的科学家想到哪儿去工作?”Candela问,“当然,他们想要和一些有相同思想境界的人一起工作。那么他们怎么知道我们这有没有这样的人?他们可以看我们都做了什么,看我们发布了什么。你在开源的项目中可以看到科学家们在尝试解决什么问题,他们又是怎么做的。”
AML最新的一个团队是计算机图像,由Rick Szeliski和几位研究员组成,他们去年10月从微软跳槽过来。这一团队将主要负责视频业务,其中包括360度视频以及怎么帮助人更好地自拍,怎么让人们更好地在手机上组织可视化内容。
Szeliski 在微软研究院主要负责交互视觉媒体,他说:“我们选择Facebook是因为这就是照片产生的地方,是数据产生的地方。这里有大量的我们可以分析的东西。我们每天都能处理像素,取悦用户,让他们高兴,从而拍更多的照片,分享更多的信息。所以,这并不仅仅是照片所在的地方,这是照片流动的地方。“
技术的价值不在技术本身
“流动”是在Facebook常常能听到的一个词。很多时候,这个词指的是“FBLearner Flow”, 这是AML创建的一个端对端的研究和设计渠道。从某种程度上来说,对于测试和分享机器学习,这是一个杀手级的应用。虽然目前,还只能在内部使用。这也是一个平台,Facebook内任何对AI或者机器学习感兴趣的人都可以在上面发布自己的工作成果,让其他工程师可以在自己的项目中使用。”
“假如我们有一些新的广告团队,需要把广告加入到贴文中去,但是团队内并没有太多的机器学习经验”, Candela 说,“那么工程师就可以到Flow中去,在整个公司中,找一些简单的试验和产品模型,利用起来。我常常鼓励员工去请求、去接或者‘偷’。没必要重新再造一个轮子。”
Flow还是一个在可控环境下测试新的功能的平台。“这是一件美妙的事情”,Candela说,“这是一个能把你从研究带到实际的试验的地方,如果我们正在做的试验有1%在交互,并且看起来还不错的话,我们就开始把它推向所有人。”
Flow广泛的实用性使得Facebook中不仅是AI团队,甚至所有的工程师都开始在使用这一工具。Flow也是Facebook在内部实践开放性的最佳代表:所有的员工都可以看到。
Facebook动态的、长短期结合的研究让其在AI和机器学习领域赢得了不少声誉,但是这并不能保证这家公司能实现CEO马克·扎克伯格所许下的10年战略雄心。能导致失败的原因很多,其中最明显的一个是——隐私。随着Facebook的用户逐渐意识到自己的照片、文字会在多大程度上被分析,并进一步地影响到自己的生活,他们可能会有所顾虑。
还有一个问题来自财政:Facebook的管理和董事层对AI花费的回报率的要求是多少?
Schroepfer坚称,Facebook的管理层并不担心FAIR和AML的回报问题,他说,我们并不会花心思去计算ROI。
但是,考虑到几位领导人——LeCun, Candela, Schroepfer 都十分强调开放的关键性,如果条件发生改变,几位领导人会趋于保守吗?
“如果他们偏离了这个,正如过去所做的那样,那么他们将很快失去在研究上的优势”,深度学习另一位领军人物Yoshua Bengio评价说,“在某些时候,公司会自然地催促研究员短期内出成果,这对实验室是有害的,对公司自身长期的发展也是如此。”
Bengio补充说,要解决这一难题,就应该有一些比较强的人,比如LeCun,作为产品开发者和研究者的缓冲,保证不会有太大的压力,要在短期内出成果。
“但是(对于Facebook来说),未来,这将是一个持续的难题,因为来自短期目标的压力其实一直都是存在的。”
LeCun自己也意识到这一问题。他说:“目前为止还没有人强迫我们去证明自己存在的价值,在几家公司的实验室经历了起起伏伏后,我知道除非你可以用事实来说明,你为公司做了什么,为什么你花掉了这些钱,要不,这个问题会一直存在。
这也是为什么 LeCun 和 Candela在建设自己的实验室时都如此小心翼翼,以能把成功的希望最大化的方式在推进。
“你对团队内要做的事情规划得越清晰,你要做的事情就越少”,Schroepfe说,“你如果要求做10件事,他们可能会把其中的3件做得很好,然后剩下的7件很烂。所以你最好希望他们能选到那三件对的事。但是,如果团队只做一件事,你就可以看到事情是怎么做的。现在,我们有两个基本的问题要解决:“研究未来,以及,找到当下产品能够应用的途径。”
这意味着要在整个团队内找到高效的途径,来分享创意。“理想的场景,也就是我们在努力的方向”,Candela说,“就是构成一种循环,AML的人会加入FARI,反之亦然。
这确实是在发生。Candela说, Facebook的人脸识别团队最先是在FAIR起来的,后来,因为工作跟产品相关度比较大,转到AML门下。计算机视觉团队也是如此,其领导人Manohar Paluri现在仍在两个团队间来回转换。
此外,Candela还举了机器翻译团队的例子:机器翻译团队的研究员先是在AML工作,但是对神经网络研究非常感兴趣,后转到FAIR。
LeCun提到,一个实验室开发的基础设施,可能也会转移到另一个实验室。比如,最近公布的DeepText就是AML直接从FAIR所做的工作中拿过来应用的。其中涉及的技术包括,使用卷积神经网络和其它深度学习技术来对文本分类、理解文本。
“(在Facebook)你在现实和虚拟中都会有最好的收获”, Paluri 说,“你会发表学术论文,参加学术会议,对科技作出贡献。同时,你也会看到,你的工作如何影响10亿多人。”
一些人担心,开放会带来商业上的风险,但是LeCun否定了这一说法。Facebook能从外部的的工程师上获益,因为如果这些人非常优秀,Facebook可以聘用他们或者直接采纳他们的成果。
“如果其他人使用我们的技术,这没什么,因为技术的价值几乎不在技术本身”,LeCun说,“价值在于,我们用自己所在的市场地位对其进行开发。在社交网络业务上,我们做得很大。所以如果我们创造了一种可以应用的技术,我们将会是最快利用的”。
但是,“如果我们没能在他人之前利用好这些技术,那就是我们的问题了”。
【来源: fastcompany 翻译:胡祥杰 朱焕】
·氧分子网(http://www.yangfenzi.com)延伸阅读:
➤ 十年后Facebook或许以“视频、机器人、AI、VR”统治全世界
➤ Facebook首次公开内部机器学习平台,启动AI帝国
➤ Caffe 作者贾扬清:我为什么离开 Google,加入 Facebook?
➤ 我们想看到的 Facebook 是什么样?究竟该如何使用社交网络?
➤ 专访地平线机器人创始团队:余凯的地平线机器人是家什么样公司
➤ 卡耐基梅隆大学邢波:为人工智能装上引擎—忆格拉丹东登山之旅
➤ AlphaGo认输!人类代表李世石佐为附体打败人工智能取首胜!
➤ 马云对话扎克伯格:人工智能、虚拟现实、梦想和下一代
不同于以往的“深度好文”,这篇描写 Facebook AI发展的文章不仅仅聚焦在机器学习技术,更多地强调各种先进的机器学习模型与Facebook 本身的基础架构、大规模部署和产品管道之间的配合,并强调硬件的支撑能力。对于公司来说,得应用者才能得天下,文章列举了 Facebook 从2012年来在图像识别和视频识别等方面的技术应用,强调AI 技术的发展中学术实验与产业应用之间存在显著差异。不管是扎克伯格还是Yann LeCun,他们的目标都是打造具有类似人类智力的对话代理,AI 毫无疑问是Facebook的未来核心战略。
未来,Facebook 会有一个拥有类人智能的对话代理。Siri、Google Now 和 Cortana目前都在尝试变得更智能,但是一旦脱离既定情景,它们都失败了。这是为什么扎克伯格在2016年为自己的家庭打造私人AI 助手的一个原因——当下的产业发展情况并不能满足他的需求。
当然,Facebook也已经开始打造自己的AI 平台——M。M不会拥有跟人一样的智能,但是它会在一些狭窄的领域拥有智能,通过观察人类的行为进行学习。Facebook 希望让AI 成为公司的下一个大平台,M 只是其中的一个研究项目。
在通往打造类似人类的智能的道路上,Facebook将使用机器学习(ML) 来了解用户反馈给公司的基础设施的所有内容。 Facebook想要使用AI来让其平台理解贴文,故事,评论,图像和视频的意义。然后将这些信息存储为元数据,以改善广告定位并提高用户新闻流内容的相关性。元数据还可用作创建高级对话代理的原始材料。
这并不是一个遥不可及的目标:AI现在是Facebook的下一个平台。Facebook 正在悄悄地实现这一目标,与此前从网页到移动端的转变具有相同的优先级。(移动端目前占据了Facebook收入的84%。)虽然你目前不能通过发出“OK Facebook”或“Hey Facebook”的指令与之进行互动,但是,今天已经有大量的AI,能够让 Facebook 通过图像,视频,新闻流或其正在萌芽的聊天机器人,来增加对用户的吸引力。并且,如果他们的集体的工程设计能找到方法,那么自动化程度只会不断增加。
LeCun的小目标:专注10个科学问题,更好地模拟人类智力
在早期阶段,项目M作为基于文本的数字助理存在,通过将AI与人类训练者结合来理解用户意图(用户想要什么,例如呼叫 Uber),这一会话发生在使用机器学习训练的 Facebook Messenger 机器人和用户之间。当人类训练员介入以找到用户意图时,机器人倾听和学习,以便在下一次预测用户的意图时提高其准确性。
遇到一个问题时,如果机器计算出的概率较低,无法达到准确率要求,它会请求训练员的帮助。如果机器计算的概率足够高,则机器会对人类训练者没有注意到的用户进行回应。
这种交互是可能的,这要得益于创建于 Facebook 人工智能研究院(FAIR)建造的记忆网络(Memory Network)。一个记忆网络指的是带有内存的神经网络。虽然这并不是从人脑的研究获得启发,但是这一神经网络跟大脑皮层很相似,相关的网络内存就好像海马体,它通过长期、短期和空间导向的内存转换来搜集信息。当这些信息被送到皮层或者神经网络中,就会被转化成思考或者行动。
Facebook 的记忆网络技术已经通过开源社区开源。FAIR 主管Yann LeCun 把Facebook 未来的智能对话代理描述为一个高级版的M。
“它以M为基础,但是是完全自动化和个性化的”,他说,“所以,M是你的朋友,但不是所有人的朋友,它只是你的M,你可以跟它进行交互,它是完全个性化的,它了解你,你也了解它。并且,你能够与它进行的对话是有信息量的、有用的……这一个性化的助理,你能够把它带到任何地方,从理论上说,它也能在各个方面帮助你。从本质上看,这要求具有人类水平的智能。”
LeCun 是 AI 和 ML 研究的先驱。他被招到Facebook来建立和领导FAIR。正如一些先进研究所暗示的那样,目前的M项目的机器人并不是LeCun的终点,它们是实现智能会话代理长期目标的一个里程碑。 LeCun不能预测什么时候达到最终目标,甚至可能在他的职业生涯中都不会成功。但每个阶段式的里程碑都定义了需要构建的硬件和软件,以便未来的机器可以更像人类一样推理。在每次的迭代中,功能变得越来越好。
教计算机像人类一样推理面临的阻碍是巨大的。凭借在该领域30年的研究经验,LeCun相信Facebook可以专注于10个科学问题,以更好地模拟人类的智力。他在我们访问期间分享了其中的一些。
例如,在 3 到 5 个月的年纪,婴儿就学会了客体永久性的概念。客体永久性是指儿童理解到物体是作为独立实体而存在的,即使个体不能知觉到物体的存在,它们仍然是存在的。AI 研究人员还没有建立一个能理解客体永久性概念的ML模型。
另一个例子,对于人工智能系统来说,“奖杯不适合放在手提箱,因为它太小了”这样的句子歧义太多,难以理解。人类很容易分辨出“它”指代的对象是手提箱,但是计算机很难理解其具体意义。
这是一类被称为 Winograd Schema 的问题。去年夏天,在第一次年度Winograd Schema挑战赛中,经过最好训练的计算机翻译60句话,最后正确率为58%。作为对比,人类的准确率是 90%,完全随机猜测准确率是44% ,涉及到这些问题,计算机的能力目前更接近于猜测,而不是人类。
“事实证明,这种预测接下来会发生什么的能力是人工智能系统的一个重要部分,我们还不知道如何构建,”LeCun说, “你如何训练机器来预测本质上是不可预测的东西?这提出了一个非常具体的数学问题,那就是,当预测的东西不是单一的东西,而是一系列的可能性时,你怎么做ML?”
作为催化剂的硬件
如果这类的问题可以得到解决,那么10个科学问题也就能够找到答案,进而,像人类一样进行推理的ML模型就可以构建。但是,要运行非常、非常大的神经网络,需要新的硬件——使用一个分布式计算架构,由非常高速的网络进行连接,并且,要运行这些模型,还要有算法来进行高度的优化。这一切的基础是,要训练这些模型需要一个新的专用的超级计算机,它需要非常擅长处理数字运算。
过去10年间,DL的发展,要得益于新的、专用化的硬件催化。虽然ML研究的理论在多年前就已经得到验证,但是之前很少有研究者会追求ML。由于可以支撑研究的硬件能力总体上是不可用的,所以ML 在过去被视为“死胡同”。2011年,谷歌的大脑数据中心使用的16,000个CPU,通过观看YouTube视频识别猫和人的工作证明了ML的可行性,但这一配置也同时说明。谷歌以外,几乎没有研究团队能够拥有如此强大的硬件资源,可以在这一领域展开研究。
突破来自2011年,当时英伟达的研究者 Bryan Catanzaro 与斯坦福大学吴恩达的团队合作,一起证明了在深度学习上,12块GPU就能实现2000块CPU的性能。GPU硬件的商用加速了纽约大学、多伦多大学、蒙特利尔大学和瑞士AI实验室的研究,也证明了ML的实用性,重新唤起了研究者对这一领域的兴趣。
英伟达的GPU在训练和运行机器学习模型上性能更加强大,但是,还没有达到LeCun所展望的私人助理所需要的量级。另外,在实验室中运行ML模型,与在拥有17亿用户的 Facebook 中运行ML模型,二者还是有差别的。
学术上的可行性必须与在Facebook 大规模的生产基础设施上高效地运行ML模型的可行性相平衡。这一数据处理量有多大,Facebook 没有具体透露,但肯定是艾字节(exabytes)的。
虽然一些Facebook用户知道社交网络使用算法来选择他们在其时间线中看到的帖子和广告,但很少有人知道该公司已经将ML应用于与Facebook的许多交互中。对于每个用户、时间轴帖子、评论、搜索、广告、图像和一些视频,Facebook使用ML模型对用户最可能感兴趣的点击或评论的预测来动态地排序。
建立这样的神经网络,有两个阶段。在第一阶段使用大的标记的样本数据集或输入和期望的输出来训练神经网络。在部署神经网络的第二阶段中,使用其先前训练的参数来运行推理、分类、识别和有条件地处理诸如时间线帖子等未知输入。培训和推理可以在针对每个阶段优化的不同硬件平台上运行。
一切都起源于图像识别
Facebook AI 程序的起点在2012年,当时ML被用于理解用户帖子中图像的内容和背景。应用计算机视觉是一个非常广泛的研究领域,也是ML在学术界的早期应用示范。这是说服扎克伯格和 Facebook 的 CTO Mike Schroepfer(他在公司内部被称为“Schrep”)开始从研究到产品化地拓展 AI,将 AI 作为整个公司的平台,并增加对 ML 的投资的信号之一。这与 GPU 显著地提高图像识别精度是同时发生的,下图是年度的视觉识别挑战赛Imagenet的结果。
Manohar Paluri 于2012年作为实习生加入 Facebook 的应用计算机视觉团队,当时唯一在使用的图像识别是人脸识别。公司的搜索团队正在为 Facebook 的搜索引擎构建新的语法结构,当时的搜索引擎除了用户添加的标签外,无法理解图片的内容。根据 Paluri 的说法,应用视觉团队是为“理解图像中一切人类可以理解的东西,不需要让计算机记住特定的使用场景,而要建立这样一种方式,让产品组里的开发人员可以利用机器学习模型找到他们自己的答案。”
神经网络是由多个简单的、高度互连的单元(element)组成的计算系统,基于他们对外部输入的动态回应(dynamic-state response)来处理信息。神经网络被训练通过处理大量的标记数据来理解特定的应用情景。鸟的图像被标记为“bird”,汽车的图像被标记为“car”,等等。然后很快地,这个非常大的标记图像样本被压缩成像素处理。在这个训练阶段,通用的 ML 软件(例如 Torch 或 Tensorflow)被用于训练网络来识别图像中的物体。
在这种情况下,输入层是有标记图像的一个大型集合;输出层是将图像描述为“car”或“not car”之类的标签。处理单元(通常称为神经元)的隐藏层产生 ML 软件通过学习算法处理的中间值(权重),从而将权重与有标签的汽车图像相关联。然后,样本数据被重新处理为不带标签的数据,以测试模型预测标签的准确率。结果将被比较,然后校正误差并反馈到神经网络中以调整算法,利用反向传播过程来分配权重。这种迭代校正能得到更高的识别准确率,因此当图像识别模型被用于识别新图像中的内容时,模型在推理阶段能够更高效。
Paluri 的模型的第一个版本为 Facebook 用户上传的图像用一组标签进行标记,例如自拍、食物、室内、户外、风景等。这个图像元数据(metadata)被作为节点集成到 Facebook 的 Open Graph。Open Graph 是 Facebook 对其页面上共享的所有内容的一个动态对象存储库(dynamic object storage ),根据用户的隐私设置实行访问限制。用户信息、文章、照片、音乐等等,几乎所有的内容都是 Open Graph 的存储对象,并且与其他相关对象有链接。Paluri 的 ML 模型添加了元数据作为上传者的评论和标签的补充,并提供当没有评论时的理解。
这个添加的元数据改进了广告投放和搜索结果,并且基于用户的兴趣权衡帖子的重要程度,优化了新闻推送的发布顺序。这导致用户花更多时间浏览他们的时间线。
从公司的第一个图像理解项目以来,Facebook 的图像识别模型在识别照片中的物体,比如猫以外,获得了显著的提升,现在的图像识别技术包括:分类、探测、分割、图说(描述图像中的内容,比如照片中猫在哪个位置,旁边有什么)。
自应用计算机视觉团队开始工作以来,图像识别已经转移到一个称为 Lumos 的自助服务平台上(开发团队不再监督它)。今天,ML 图像识别训练模型和其他模型分布在整个 Facebook 的产品开发团队与 FB Learner 流程平台中。FBLearner Flow 目前由 Facebook 的 40 多个产品开发团队使用,包括搜索、广告和新闻源,用于训练由 FAIR 和应用机器学习团队创建的模型。
建模是一个专业领域,需要高等数学、概率、线性代数和 ML 理论训练,这些都是大多数软件开发人员没有学过的东西。然而,这并不妨碍开发人员训练模型来执行特定功能,例如使用新的分类器来创建和训练模型,具体说就是用各种潜水员图像训练机器识别具有标记的潜水者图像。一旦训练好以后,模型和元数据被处理,就可供整个 Facebook 内部的开发人员使用。
Facebook 图像识别工作现在主要用于区分两大类型的图片。一是暴力、仇恨言论和色情图片。过去,用户将这些图片标记为令人反感的,并将该信息汇入专门的信息管理小组。确认为不良的图像被管理团队成员删除。后来,Facebook 开始建立 ML 模型来识别和删除这些图像。2015 年,ML 模型检查并消除的这些图像,比人类标记的更多。现在,信息管理小组开始独立创建新的分类器,识别新类型的令人反感的材料,并重新训练模型实现自动响应。
另一个是出现在用户新闻源中的记忆,那些通常出现在周年纪念日的蒙太奇。很大程度上,Facebook 的机器学习模型推断的友谊关系和图像往往是准确的。
用神经网络进行视频识别
虽然图像识别蓬勃发展,但视频内容识别和实现处于早期发展阶段。 更高的理解视频的准确性在技术上是可能的,但是如果不改进基础设施架构性能,改进算法或两者同时改变,这是不可行的。 与大多数商业应用一样,ML模型的实现是成本效益、速度和高精度的折中。
尽管如此,FAIR 和应用计算机视觉团队还是实现了Facebook Live 视频的实时视频识别。
用户和明星将各自预计和临时想要发布的实时视频流从他们的智能手机摄像机使用 Facebook Live 广播到粉丝的新闻流。AI 推断可以对实况视频流进行排名,个性化用户的新闻流(newsfeed),消除视频发布和分发产生的延迟。实时视频个性化的服务非常有吸引力,这将再次增加用户在Facebook 应用中花费的时间。
用图像识别那么高的精度做视频识别,目前还做不到。整个 AI 研究圈还没有找到一组共同的特征描述符,也就是一个帧中的小区域,这个小区域能够用于精确检测对象,以便对大范围的视频类型进行分类。视频识别包括动作识别、显着性(人类观察者的注意力的焦点的识别)以及图说的等价物(称为视频摘要)。
让机器理解视频内容十分重要。为了加快这一领域的研究和开发,Facebook 与学界和开发者社区合作,开源其视频识别软件,发布一些研究成果并举办研讨会。
视频识别ML模型已经在 Facebook中 得到了其他的应用。 这些模型也被应用于优化视频压缩,提高重放质量,同时减少播放视频的带宽。
神经网络和基础设施:部署产业规模的低延迟 ML 模型
神经网络在研究和生产中的应用有很大不同,因此学术研究中的神经网络和在产业中应用的神经网络,面对的困难也有很大不同。在数以万计的机器上运行具有超低延迟的推理模型,准确地预测用户将点击哪些新闻故事与撰写研究论文,在书面上证明准确预测用户响应是可能的完全是两码事。
现有学术研究论文讨论的是使用具有标准化分布的大数据集训练神经网络,其方法和结果也在非常开放的氛围中由研究人员共享和协作。但是,Facebook的 Open Graph 的巨大规模对实际应用这些研究带来了问题。此外,要整个在现实中建造出类似大规模的基础设施,为 17 亿个人用户提供推理服务,也是一个非常艰巨的问题。正如 Facebook 核心机器学习工程总监 Hussein Mehanna 所说,“数据集变一下,你面对的几乎就是一个完全不同的程序了”。
2014 年,Mehanna 在 Facebook 的广告团队工作,使用 ML 预测用户会点击哪些广告。按照学术研究标准,这根本算不上是突破,但在 Facebook 的规模运行这种预测算法实际上是一项非凡的成就。
Facebook 以前的数据分布不适合于神经网络。因此,数据需要通过预处理来提高预测的准确性。但是,预测的准确性只是问题的一部分,在实际应用中,在让用户体验低延迟进行大规模数据预测才行,而这是 ML 理论和基础设施交叉的问题。通常,神经网络会简化为一层或两层,推理模型的软件堆栈用本地代码优化。Mehanna 十分看重推理结果与其对 Facebook 平台影响两者之间的权衡:“只要再增加这些机器数量的 5% 就可能需要英特尔花好几个月来完成。”
ML 预测平台的第一个产业版 V1,在实际使用中为 Facebook 广告团队带来了比不使用 ML 更好的结果。 Mehanna 具体解释了 AML(应用机器学习小组)这一成就对 Facebook 商业上的影响:将收入提高1%、2%、3%,用户的观看时间就要增加1%、2%、3%,而对 Facebook 来说,每一个百分点的提高都是巨大的影响。
也许比盈利的增长和用户新闻观看时间增长更重要的是,V1 让团队中很多对 ML 和神经网络抱有怀疑的人无话可说。作为一个平台,V1 在设计和建造时就是为了在公司的许多地方使用的,包括新闻源、搜索等各个产品团队。在首次使用成功后,下一个季度的时间里,Facebook 公司又使用了 15 种新的 ML 模型。如今,Facebook 产品团队中,有四分之一开发者在使用 V1 的升级版 V2 平台,每个月有超过 100 万个新的 ML 模型被测试。
V1 平台使 ML 扩展到广告团队之外,让 Zuckerberg 和 Schrep 意识到要增加对 AI 的投资。而优化学习平台又提高了建立和训练 ML 模型的迭代速度。这对研究人员来说无疑是一个大好的消息。Mehanna 解释说,研究人员有一个想法,一天内就可以做完但却要等一个月才能知道结果,没有什么比这更令人沮丧的了。
推理的优化是独立于模型的,因此它可以和其他模型一起使用。FAIR 和应用机器学习团队的人将 ML 抽象为模块,其他不了解 ML 的人也可以直接拿过来使用。因此,Facebook 内部,FAIR 和应用机器学习团队开发的 ML 模型也得到了越来越多的应用。
这就是从研究到产品化的多阶段 AI 管道的工作原理。模型是基于应用机器学习小组的经过验证的研究而构建,用于解决通用性的问题。模型通过专门的 ML 技术和技术优化在 Facebook 的基础架构上运行,然后将其抽象,以便产品团队开发人员可以使用这些模型。最后,这些模型被应用于 FBLearner Flow 的各种产品中。
在我们访问期间,Mehanna 经常谈论做研究并将其转换为这些可用的产品。他总结了抽象的 ML 平台在整个公司的影响,就像厨师 Emeril 说的那样。“真的,人们只要打开罩子、按下开关——BAM!好了,全部都是现成的。”
Facebook 副总裁:连续七年,最令我担忧的事情是行动速度在放缓
大多数大公司至少有一个创新副总裁;Linkedin上,你可以发现 IBM 有 34 名副总裁,头衔里有“创新”的字样。Facebook 一个也没有,因为创新已经是整个工程文化的一部分。Facebook 的创新模式可以总结为紧迫性、定期迭代和定量展示进度。新的开发项目可以使用实时数据进行测试,因为 Facebook 构建了一个屏障来保护用户体验不受实验的影响。扎克伯格那句代表性的话的前半部分——“动作快、有突破”(move fast and break things)在现实中得到了应验。只不过,现在的 Facebook 打破的事情要比以前少得多。
“连续七年,最令我担忧的事情就是行动速度在放缓,”Facebook 全球工程和基础设施副总裁 Jay Parikh 说。
基础设施、平台硬件和平台软件使开发人员能够快速行动。Facebook Live 在原型开发出来 3 个月后就发布了。“动作快”也被应用到 AI 这个具有相同紧急性的下一代平台,只是 AI 被给予了更长的时间。这是因为 AI 作为一个平台,与移动端相比还不那么成熟。实时视频内容理解、无监督学习和强化学习这些有前途的研究要投入到产业应用,还有一些问题需要解决。还需要设计、验证和构建新的硬件架构。
Facebook 属于一个非常小的队伍,这个队伍里的成员还有谷歌、IBM 和微软。这些公司都具有深厚的专业知识,并已开始大规模的应用 ML。虽然这些公司拥有巨大的人才和资源,AI 社区需要集体发展才能加快进步。所有这些公司都开源了他们的软件,公开研究,在会议上发言,与大学和研究机构合作。这种开源与协作是十分重要的,因此相互竞争的 Facebook 和谷歌才会有研究人员联合发表论文。
开放性对吸引人才也有用。Facebook 的平台吸引了很多 ML 工程师,因为他们在 Facebook 可以建立由10 亿人使用的 ML 系统。但是,开放性对研究人才招聘更为重要,因为发表的研究论文是衡量研究人员职业生涯的标准。工程师只有与外部同行自由沟通,才能快速完成他们的工作。
“哪家公司垄断都不好,你必须成为广大研发社区的一部分,”Facebook 人工智能研究总监 LeCun 说:“吸引人的是优秀的同事。实验室里有影响力的人越多,对他人的吸引力就越大。事情开始是最难的,你必须吸引几个人,这几个人必须要吸引其他年轻人。还好我们这个阶段很快就过去了。”
Facebook 基础设施建立在商用 X86 硬件上。Parikh 被委派了一个任务,辅助将大型基础设施公司和供应商(如 AT&T,高盛,谷歌,IBM,英特尔和微软)组织到一个称为“开放计算项目”的开源硬件社区当中。该组织促进标准化计算和通信硬件,满足平台公司非常具体的大规模需求,减少数据中心资本和运营成本。
去年 12 月,Facebook 通过发布商品硬件来源的 Big Sur AI 计算服务器规范,将开源硬件模型应用于 AI 硬件。Big Sur 采用 Nvidia的GPU构建,是第一个用于大规模生产数据中心工作负载的商用AI计算服务器,有 44 Teraflops 的 ML 计算能力。
Facebook 及其开源合作伙伴希望影响用于在智能手机和数据中心运行推理的AI优化硬件的开发,并优化ML培训阶段的基础设施。除非有像 X86 和 ARM架构一样的生态系统,一个速度更快的新型 AI 芯片也只能成为部分解决方案,短瞬即逝。因此,尽管 Facebook、谷歌、微软和 IBM 的数据中心是硬件供应商的重要业务,但 Facebook 还是希望让更多的成功 ML 开发者社群参与进来,激励英特尔、英伟达和 Qualcomm 优化硬件。
Facebook 应用机器学习小组主任 Joaquin Candela 喜欢用一个比喻描述 Facebook 迭代、学习和创新 AI 目标的速度。“如果你砍掉一个螺旋桨飞机的发动机,它会继续飞行,但砍掉一个发动机后,像 F16 这样的现代喷射机就不稳定了,”她说:“你需要两个发动机和一个控制系统将不稳定的系统变稳定。而且你还需要以超快的速度进行操作。在 F16 上面你能实现螺旋桨飞机永远也做不到的事情。”
在花了一些时间与 Facebook 的AI工程主管和管理高层打交道后,F16 的隐喻就感觉很自然了。这些人都深信,减缓创新的步伐,让今天的 Facebook 平台继续滑行,最终将会结束公司迄今为止连续 12 年的成功飞行。 他们必须重新创建 Facebook,让平台拥有类似人类的智能,为用户提供更灵活和更快的体验。
而实现这些需要在三个维度上努力:学术研究、产业部署和硬件基础设施。
“嘿,Facebook(对话代理唤醒指令),AI 创新是什么样子的?”
文章来源:http://arstechnica.com/information-technology/2017/01/the-origins-and-future-of-artificial-intelligence-at-facebook/
作者:Steven Max Patterson