]Facebook将对用户行为进行分析,并自动推荐用户想要的内容。
氧分子科技 瑞雪 12月13日编译
在过去三十年时间里,纽约大学教授Yann LeCun一直都致力于探索人工智能,他设计了所谓的“深度学习”计算系统,这种系统能以类似于人脑的方式来处理信息。而在三十年后的今天,他将把自己的工作成果带给社交网络巨头Facebook。
本周早些时候,Facebook宣布其已经聘用了这位法裔科学家,他将担任该公司新建立的人工智能实验室的负责人,这个实验室的相关业务运作将横跨美国加州、伦敦和纽约。Yann LeCun将在位于曼哈顿Astor Place的Facebook新办公室办公,负责管理深度学习工具的开发工作,这种工具将可帮助Facebook对来自其流行社交网络服务的数据和用户行为进行分析,并追踪改变其服务的运作方式。
Facebook将可利用深度学习工具来自动鉴别用户上传的照片中的人脸,自动标记出正确的姓名,并将其与用户的好友和家人即时共享。此外,这种工具还能对用户在Facebook网站上的日常活动进行分析,然后自动显示出用户想要看到的更多内容。
从某种程度上来说,Facebook与人工智能的结合会让人感到有些不寒而栗,原因是深度学习能提供一种更加有效的方法,让Facebook对你最私人的习惯进行分析。
“通过深度学习工具,Facebook所能做到的事情几乎是无限的。”穆罕默德(Abdel-rahman Mohamed)说道,他在多伦多大学也正在从事类似的人工智能研究工作。“在每一天,Facebook都会收集人们互相之间关系网的信息,并获取你在一天中所从事之各种活动的相关信息。Facebook将会知道你投票给了民主党还是共和党,还会知道你购买了什么产品。”
但与此同时,如果Facebook能在其人工智能技术与用户的隐私权需求之间达成平衡,那么这个新兴的研究领域对于这家社交网络服务公司来说就是前景无限的。除了Facebook以外,谷歌、微软和百度(纳斯达克股票交易代码:BIDU)等其他互联网巨头也正在沿着同一条道路前进。
“一方面这很吓人,”穆罕默德说道,“但在另一方面,这能让我们的生活变得更好。”
本周,LeCun参加了在太浩湖(Lake Tahoe)召开的神经信息处理系统大会(Neural Information Processing Systems Conference),这是人工智能社区的年度大会,Facebook首席执行官马克·扎克伯格(Mark Zuckerberg)就是在此次大会上宣布聘用了LeCun。会议间歇,LeCun接受了《连线》杂志的采访,谈及他正在从事的新项目。以下是访谈内容摘要。
问:我们知道,你在Facebook启动了一个人工智能实验室。不过,我们想知道的是,你和你的人工智能团队成员到底正在从事什么工作呢?
答:我能告诉你的就是,这个新组织的宗旨和目标是什么,那就是在人工智能领域中取得重大的进展。我们想要做好两件事情,一是真正从科学技术的角度取得进展,这一过程中我们将参与到研究社区中去,并发表相关论文;二是将我们开发出来的某些技术变成能被Facebook利用的东西。
但这个目标极具长期性,比Facebook目前正在从事的工作要耗费更长时间。从某种程度上来说,我们想要实现的目标与日常生产将是各自孤立的,从而给人们带来更多的空间来事先做好准备。当你解决了诸如此类的重大问题以后,技术就会自然而然地浮出水面。
问:那到底会是什么样的技术呢?能做些什么事情?
答:基本上来说,我们正在开发的技术就是任何能让机器变得更具智能的东西。更具体的说,那就是基于机器学习的东西。就目前而言,唯一能制造智能机器的方式就是让其处理海量数据,然后建立起数据模型。
过去几年时间里,一个名为“深度学习”的系统已经浮现出来,这个系统在运用于图像识别和语言识别等领域时相当成功,在自然语言处理领域中也取得了一定的成功,只是没前两个领域那样大。现在这些方面的应用都已非常成功,即使我们只把精力集中用在这些领域,就已经可以给Facebook带来重大的影响。人们每天都会向Facebook上传数以亿计的图片、短视频和聊天信息。
但我们想要完成的任务不止于此。举例来说,我们要怎样才能真正了解自然语言?如何才能建立起用户模型,从而让系统向其显示的内容中包含他们很可能感兴趣的东西,或是很可能有助于他们实现目标的东西,又或是很可能帮助他们节省时间的东西?这才是Facebook关注的核心内容,而目前已经达到的水平是,我们能决定向人们显示什么信息以及显示哪些广告。
扎克伯格将这叫做“心智理论”,这个概念并不算新,在人工智能和认知科学领域中已经流传了一段时间。我们怎样才能用机器来构建模型,从而知道人类用户对什么感兴趣和将会做些什么?
问:就是说这项工作的核心技术已经很老了,对吧?你还有目前在谷歌供职的吉奥夫·辛顿(Geoff Hinton)在上个世纪八十年代中期就已首次开发出这样的深度学习方法,也就是我们所说的“反向传播算法”(back-propogation algorithm)。
答:那是根基所在,但现在我们已经超越了当时的范畴。反向传播算法能让我们“监管运行”(supervised running),也就是你手头有照片和标签,然后可以训练系统用标签去标记新的照片,这就是谷歌和百度目前用来标记照片的方法。
我们知道这种算法是如何运作的,但对于视频和自然语言,我们手头现有的标签数据是非常稀少的。现在我们还没办法播放一个视频,然后让一台机器告诉我们视频里有什么。不光是标签数据不够的问题,而且到现在我们还不清楚标记视频的水平是否能达到跟标记照片一样高的程度。
因此,我们目前正在从事的工作是利用视频结构来帮助系统建立一种模式来理解一些事实,比如说某些物体互相位于彼此的前方,而当摄像机移动时,位于前方的物体与位于后方的物体的移动方向是不同的。这就要求我们必须发明新的算法,也就是“无监管”的学习算法。
在深度学习社区中,这一直都是非常活跃的研究领域。社区中没人会认为我们能拥有某种“灵丹妙药”,但我们已经拥有了某种程度上类似于此的东西;在某些情况下,这些东西能极大提高纯粹的受监管系统的表现。
问:你刚才提到了谷歌和百度,而微软和IBM等其他一些互联网公司也正在从事深度学习工作。在我们这些门外汉看来,所有这些工作都来自于一个相对较小的深度学习学术团体,包括你和辛顿在内。
答:正是如此。不过我必须要说的是,这个团体正在迅速扩张。你必须认识到,深度学习真的是辛顿、Yoshua Bengio和我自己共同“阴谋”策划的结果,当时我们都在蒙特利尔大学。十年以前,我们聚在了一起,觉得应该开始着手解决机器深度学习的问题。
最开始的时候,人工智能技术是为了控制机器人而开发的。当时我们从加拿大高级研究所(Canadian Institute for Advanced Research)那里拿到了一些资金,辛顿担任项目负责人,我担任顾问委员会主席,然后我们会一年碰两次头,互相交流下项目进展事宜。
之所以说带那么点“阴谋”的意味,是因为机器学习和计算机社区中的大多数人都对这个项目不感兴趣。所以,在很多年时间里,这个项目一直都局限在我们的那些工作室中。但后来我们开始发表论文,越来越多人都开始感兴趣,再后来整个行业也开始感兴趣。与学术界的兴趣相比,来自企业界的兴趣要强大和迅速得多,这真是让人感到非常吃惊。
问:深度学习和普通的机器学习之间到底有什么区别呢?许多人都很熟悉谷歌在创立以后头十年时间里所从事的那种机器学习工作,机器会对海量数据进行分析,然后自动识别网络垃圾什么的。
答:那是相对简单的机器学习。人们付出了很大努力来创造那种机器学习系统,他们觉得系统本身无法真正处理原始数据,必须将数据转换成系统能够消化理解的格式。
举例来说,如果想要系统理解一张图片,那么你不能直接把原始的像素输入到传统的系统中去就行了,而是必须把数据转换为一种能让分类器消化理解的格式,这就是许多计算机社区在过去二十或三十年时间里一直都在尝试去做的事情。与此相比,深度学习能让机器同时也学习上述转换的格式,而不是必须由人来控制系统去解决每一个新问题。
本文转载自:AI科技评论
12 月 27 日,清华大学脑与智能实验室首次举办学术研讨会,主题是「从阿尔法 Go 到通用人工智能:脑科学与人工智能」。
在这次研讨会上,有很多有趣的事,比如那么多脑科学家讲怎么用老鼠、猴子做实验。除此之外,两场 AI 相关报告非常引人深思——一场为张钹院士做的《 AI 和神经科学》,另一场是今日头条 AI Lab 主任李航博士的《 NLP 现状和未来》。
张钹院士在报告中首先分析了什么是智能。他认为智能包含三个成分:perceive、rational thinking 和 taking action。综合来说就是,一个智能体要能够感知它周围的环境,进行思考并采取行动来最大化它实现某些目的的机会。
现在的 AI model 无外乎两种类型:符号模型(Symbolic model)和亚符号模型(Sub-symbolic model)或者称为连接主义(Connectionism)。
符号模型
符号模型的基本思想主要由 J. McCarthy 等人于 1955 年提出。他们认为 AI 的研究基于这样一个猜想,即学习或者任何其他的智能特征原则上都可以被精确地描述。他们提出两个基本假设:
物理符号系统假设:物理符号系统是智能的充分必要条件;
人脑和计算机都是物理符号系统,认知过程就是在符号表示上的运算。
在 1976 年 Newell 和 Simon 提出了一个符号模型。它包含两部分:知识库和推理机(Inference Engine)。这种 AI 主要是知识驱动或者基于规则的模型。
在 McCarthy 等人提出符号模型之后大约 40 年,1997 年 IBM 推出的基于符号模型的 IBM 深蓝(Deep Blue)在国际象棋比赛中以 2 赢 1 败 3 平打败了当时的世界冠军 Kaspanov。在深蓝的系统中,包含了 700,000 份人类大师的棋谱,这些棋谱分别用 V-value 函数来表示,函数有 8000 多个变量。
IBM 沃森的结构
2011 年,IBM 沃森在综艺节目《危险边缘》中打败了最高奖金得主布拉德·鲁特尔和连胜纪录保持者肯·詹宁斯。同样它也是基于知识的符号型 AI 系统,它的知识来源于百科全书、字典 、词典、新闻、文学作品以及维基百科的全部文本,在其 4TB 的磁盘中包含了 2 亿页结构化和非结构化的信息。
以Watson为代表的新一代的基于知识的符号模型系统相对之前有少许变化。其一是知识库中的知识表示变成多样化;其二是多推理机(Multi-Inference Engines)结构;其三是增加了大众知识(来自互联网)。
但是这种知识驱动的符号模型也有其局限之处,如下:
有很多人类行为(知识)并不能精确描述,例如常识;
知识库总是有限的,它不能包含所有的信息;
知识是确定的;
它只能描述特定的领域;
大量知识不能做到定量化(例如质量)。
所以这种模型只能在宏观层面上用来模拟人类的某些行为。
亚符号模型/连接主义
1965 年,在达特茅斯夏季研讨会的提议文件(http://t.cn/RAnjsCF)的问题 2 中说到「怎么安排一组(假设的)神经元来形成概念?……这个问题仍需要更多的理论工作。」
对于神经网络,大致有两个时期。第一个为浅层神经网络(Shallow Neural Network),这个网络只有一层隐藏层。在这种网络中,需要手工特征(Hand-crafted Features)来构建分类器,因此它需要有领域的知识。
另外一种是在 2000-2006 年间,由 Igor Aizenberg 和 Geoff Hinton 完成。这个网络有更多的隐藏层,称为多隐藏层(深度)神经网络。多隐藏层的结构带来了很大的变化。首先是,我们可以用 Raw data 代替手工特征,所以领域知识也就不再是必须的了。以图像为例,我们只需要将图像按照 pixel 的格式输入即可。其次,深度神经网络让亚符号模型的表现有了很大的提高。再次,在 90 年代 AI 研究人员发展了一系列成熟的统计数学工具,这在模型中有很多表现,让模型变得更具可度量和可验证性。另外,这个模型有很清晰的神经科学的解释。
这种 AI 系统主要是基于数据驱动。只要有数据,我们不需要有太多的领域知识就可以在任务中做得很好。基于深度神经网络的例子很多,例如 AlphaGo。
相比于人类的神经网络,它仍有一系列的缺点。如下:
以 2014 年 Goodfellow 发表的《Adversarial examples and adversarial training》为例,输入的图片加上一点点的噪声,AI 系统就将一张明显是熊猫的图片以 99.3% 的置信度识别成长臂猿。所以目前的 AI 系统在 robustness 上还是非常弱的。
这种 AI 系统只是一种分类机器,是一个 AI without Understanding,所以仅仅依靠基于数据驱动的深度学习很难产生真正的智能,也远没有触及智能的核心。若想做到真正的智能,就必须
人工智能的核心
前面说道,深度学习并没有触及到人工智能的核心,那么人工智能的核心是什么呢?张钹院士认为主要表现为以下五个方面:
在缺乏知识和数据的情况下依然能够完成任务;
在信息不完善(甚至缺乏信息)的情况下依然能够完成任务;
能够处理非确定性的任务;
能够处理动态任务;
能够处理多领域和多任务。
AI 研究的新趋势
基于对上面的讨论,可以看出目前 AI 的研究有两种,基于知识的符号模型和基于数据的亚符号模型(连接主义)。张钹院士认为现在在 AI 研究中渐渐出现了一种新的趋势,即建立一种同时基于知识和数据的 AI 系统。
他认为,处理知识是人类所擅长的,而处理数据是计算机所擅长的。如果能够将二者结合起来,一定能够构建出一个比人类更加智能的系统。
如何去做呢?
现在我们有两种基本的 AI 方法。一种是基于语义符号的方法,一般用在处理文本和语言,我们会构建一个语义符号空间(Semantic Symbolic Space)。另一种是基于数据的特性向量的方法,用来处理图像和语音,我们会构建一个特性向量空间(Feature Vector Space)。
因此我们可以构建一个新的空间,叫做语义向量空间(Semantic Vector Space),即将语义符号空间进行 embedding 处理或者将特性向量空间进行 Raising 处理。通过这种方法,我们将可以统一处理 text、language、image 和 speech。
张钹院士认为在这些方面,尤其是在将特性向量空间 raising 到语义空间上,我们应该向神经科学学习。例如脑神经中有 feedback connection、lateral connections、sparse firing、attention mechanism、multi-model、memory 等机制,这些都值得设计 AI 系统的人员去注意和学习。
研究案例
张钹院士介绍了四个案例来说明如何向神经科学学习,以及如何构建同时基于知识和数据的 AI 系统。(公众号后台发送「张钹」,获取四篇案例论文原文)
一、Sparse Firing + HMAX
论文:Sparsity-Regularized HMAX for Visual Recognition
这项工作的一个创新点在于将神经科学中的发现 Sparse firing 和 HMAX 结合在一起。
HMAX 模型是 Riesenhuber, M. & Poggio, T 等人于 1999 年提出,其理念是模仿人的认知,由点到线到面逐级抽象,还原高级特性。HMAX 是计算机视觉中非常重要的一个模型。
Sparse firing 是神经科学中的一个概念。神经科学的研究表明在人的大脑中,针对一个刺激大多数神经元是沉默的。例如依照大脑内细胞的密度、探针大小以及探针可以测量到的信号距离来估计,一根探针应该可以测到周围十个甚至上百个神经元的信号,但实际情况通常只能测到几个神经元信号,90% 以上的神经元是测不到的。这就是说针对一个刺激,只有少数(稀疏)神经元是被激活的。
大脑神经元的这种 sparse firing 激活方式,或者说 sparse coding 方式有许多优点,一方面可以用少量的神经元对大量的特征进行编码,另一方面也能降低解码误判以及能量损耗等等。
这篇文章的工作正是将 Sparse firing 与 HMAX 模型相结合,应用于图像识别任务当中。工作非常有意思,感兴趣的读者不妨一读。
二、视觉识别验证码
论文:A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs ( Science, 26 Oct. 2017)
这篇文章于今年 10 月份发表于《Science》期刊,是人工智能向神经科学学习的一个范例。
目前的机器学习模型在图像识别的任务中往往需要大量的训练数据集,而训练的结果往往只能应用于特定的领域内。但人类的视觉智能则可以通过少数样本(甚至不需要样本)来学习并能够很轻易地迁移到完全不同的情景当中。所以向人类的视觉神经机理学习或许是机器学习模型进一步发展的方向。
在这篇文章中,知名的人工智能创业公司 Vicarious 就通过人类视觉一些工作机理的启发,构建了一个层级模型,他们称之为「递归皮层网络」(Recursive Cortical Network, RCN)。在模型中他们引入了视觉概率生成的模型框架,其中基于消息传送(message-passing)的推断,以统一的方式处理图像的识别、分割和推理(Reasoning)。
这个方法表现出了非常优秀的泛化和遮挡推理(occlusion-reasoning)能力,在困难的场景文字识别任务上远优于深度神经网络,且具有 300 倍的数据效率(data efficient)优势。
其实验结果如下表
在 reCAPTCHA 的验证码单词识别准确率已经可以达到 66.6%,BotDetect 为 64.4%,雅虎上为 57.4%,PayPal 上为 57.1%。
三、DNN 的可解释性
论文:Improving interpretability of deep neural networks with semantic information (2017)
这篇文章是张钹院士组在 CVPR 2017 上的一篇论文,是「Knowledge+data」的一个典型范例。
在传统的图像识别的 DNN 模型中,我们输入图片,得到描述性结果,但是我们却不知道为什么会得到这样的结果,也不知道隐藏层中都是什么 feature,或者当得到一个错误结果时我们不知道为什么会错。
这篇文章的研究主要方法就是先获得一些人类对图片的描述作为语义信息数据;将这些数据和图片同时送入到 DNN 模型中进行训练;这里每一个神经元都会与一个 topic 进行关联,于是整个网络变得具有可解释性。
四、Zero-shot 视频识别
论文:Recognizing an Action Using Its Name: A Knowledge-Based Approach
这篇文章的工作也是一个典型的「Knowledge+data」范例。
现有的动作识别算法需要一组正面的示例来训练每个动作的分类器。但是,我们知道,动作类的数量非常大,用户的查询变化也很大。预先定义所有可能的行动类别是不切实际的。
在本文中作者提出了一种不需要正面示例的方法,通常这种方法被称为「Zero-shot Learning」。目前的零点学习模式通常训练一系列属性分类器,然后根据属性表示识别目标动作。为了确保特定动作类别的最大覆盖范围,基于属性的方法需要大量可靠且准确的属性分类器,这在现实世界中通常是不可用的。
在这篇论文中,作者提出的方法只需要一个行动名称作为输入来识别感兴趣的行为,没有任何预先训练的属性分类器和正面的示例。
给定一个动作名称后,首先根据外部知识(例如 Wikipedia)建立一个类比池,类比池中的每个动作都会与不同层次的目标动作有关。
从外部知识推断的相关性信息可能是嘈杂的。所以他们又提出一种算法,即自适应多模型秩保持映射(Adaptive multi-model rank-preserving mapping model, AMRM)来训练动作识别的分类器,能够自适应地评估类比池中每个图片的相关性。
以上四个例子有两类,一类是向神经科学学习的结果;一类是基于「数据+知识」的结果。(公众号后台发送「张钹」,获取四篇案例论文原文)
张钹院士介绍说他们工作的一个思路就是:数据+知识=统计学习模型。其中知识包括先验模型、逻辑规则、表示学习、强健的统计约束等。
此外他还提到了的 Bayesian Deep Learning 的概念。
最后他认为我们目前的 AI 系统是在介观层面上模仿了人类,我们还需要向神经科学学习和合作。在 AI 系统的研究中应当将知识驱动和数据驱动结合起来,将理性行为和感性行为结合起来。
总结(划重点)
张钹院士演讲的亮点在最后的 summary,原文整理如下(稍作修改):
鲁迅说到,不同的人对《红楼梦》有不同的看法,经济学家看到《易》,道学家看到淫,才子看到缠绵,革命家看到反满,流言家看到宫闱秘事。
现在的人工智能有点儿像《红楼梦》,不同的人有不同的看法。企业家看到商机,科学家(霍金)看到危险,工程师看到应用前景,老百姓看到 AlphaGo 打败李世石。我现在就说教授们应该看到什么,这也是我今天报告希望大家能够看到的。
看到什么呢?就是——AI 科学的曙光。
大家看待 AI,有两个过程。过去是低看了 AI,觉得 AI 没什么。现在 AlphaGo 出来以后,突然 AI 上天了,大家对它仰视了。我告诉大家,这两个都不对。大家要平视 AI。
为什么过去对 AI 有这个印象呢?确实,过去的 AI 我们没有资格去谈,因为我们只有猜测、假设,只有 case by case。我们没有什么本事。再加上有些人炒作,不靠谱的东西很多。所以过去我们不能给大家谈。
现在我们有希望给大家谈的,就是刚才讲的。现在从深度学习中大家看到的是广泛的应用。但是没有看到深度学习给我们点燃了一个曙光,就是人工智能完全可以用建立数学模型的方法来做。当然它也告诉我们,光用数学的方法来建造人工智能是不行的,例如深度学习获得的结果只是一个机械的分类器,这跟人的认知或感知完全是两码事。
那么我们接下来怎么走向建造人工智能的数学模型这一步呢?只有两条路。一条就是向脑科学学习,看大脑里面是怎么做到智能的。大脑里面也是使用神经网络, 为什么它可以认识「鸟」,而计算机就不行呢?我们很清楚,计算机的这个神经网络和大脑的神经网络不可同日而语。我们必须向大脑学习。
另一条路就是把知识和数据结合起来。大家想一想,人的智能主要不是来自于数据,而是来自于知识。但是为什么大家要把数据看得这么重呢?这是因为数据很多,而且计算机最擅长的就是数据的处理。所以就给大家一个模糊的认识,以为数据决定一切。这是错的。但是这也给我们提了个希望,既然计算机搞数据厉害,人利用知识厉害,如果我们能够让这两个结合起来,我们就有希望做出比人还要好的系统。
问:张老师您好。您最后一个 slice 说在 AI 中商人看到了商机等等。所以我特别想知道您最后问的问题的答案,教授们应该看到的什么?
张钹:教授应当看到的是——去做人工智能的基础问题。我们不能去看那个商机,商机应该让企业家去看。我现在认为人工智能正处在突破的前夜。深度学习不是我们的突破,深度学习只是展示了突破的希望,因为深度学习并没有构造真正的 Intelligence。
现在我们有机会触及到 the core of intelligence。在什么情况下我们才有可能触碰 the core of intelligence 呢?就是刚才我讲那 5 个条件,即
在缺乏知识和数据的情况下依然能够完成任务;
在信息不完善(甚至缺乏信息)的情况下依然能够完成任务;
能够处理非确定性的任务;
能够处理动态任务;
能够处理多领域和多任务。
现在的人工智能做的并不是真正的智能。它是选择了那些确定性的、静态的问题,这个本来就是计算机会干的事。计算机不会干的事是随机应变,举一反三,由表及里,这才是智能的本质。我们过去做的系统,没法做到智能的本质,因为我们还不知道。深度学习给了我们一个提示,就是我们已经接触到了智能的本质。那么我们沿着这个去做,才有希望。
大家现在都在消费深度学习。我们都知道,如果用深度学习来做识别,把石头看成人没有关系;但是做决策,把敌人看成朋友是不允许的。深度学习不解决这个问题,它绝对会产生大错。这是它本质造成的。 所以我一直说,到目前为止,在复杂路况下,还很难实现真正的无人车,「无人车」旁边还需要坐一个人。为什么?稍微懂点人工智能的人都知道,目前人工智能还不能解决突发事件。
过去我们没有能力做到真正智能这一点。而今天是科学研究人员的一个机会。希望大家去做。如果大家持续去做,我相信会有新的发现。现在很多人看到了商机,看到了应用,看到了计算机打败李世石,但却很少人有看到这一点。局外人看不清,作为局内人,我提醒大家,教授应当看到——AI 科学的曙光。