Netflix正研究人工神经网络和深度学习,目的是模仿人脑思考,猜出网民最爱看的电影电视剧,实现个性化推荐节目。
氧分子科技 晨曦2月11日编译
亚马逊研究无人飞机送货,谷歌(微博)研究无人驾驶汽车,互联网公司做到极致,都会从事一些“高端项目”。全世界最有名的版权视频网站Netflix,也不例外。据报道,Netflix开始研究人工神经网络和深度学习,目的是模仿人脑思考,猜出网民最爱看的电影电视剧,实现个性化推荐节目。
2月10日,Netflix三位工程师在一篇官方博客中,介绍了正在从事的一个人工神经网络项目。
三位工程师分别是AlexChen、Justin Basilico和XavierAmatriain,他们搭建“人工大脑”的“材料”,是英伟达公司制造的图形处理器,整个人工神经网络,将运行在亚马逊云计算提供的基础设施之上。
这一人工神经网络,可以完成许多工作,而任务之一,就是根据Netflix用户过去观看电影电视剧的数据,模仿人脑,分析出他可能喜欢观看的影视节目,从而提升Netflix影视服务的“个性化特色”。
据报道,按照专业术语,Netflix进行的研究被归类于“深度学习”,深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
在这篇博文中,三位工程师详细介绍了他们所使用的图形处理器类型,以及研究过程。
媒体指出,Netflix这样一家拥有海量用户、海量大数据的互联网公司,开始进入深度学习领域具有极为重要的意义。这种深度学习研究,也会带来巨大的商业利益。
在美国互联网公司中,Netflix独树一帜,其没有任何网络服务器,所有的视频服务,完全租用亚马逊的云计算服务,可以说实现了“全云”的战略,此次研究神经网络,也表明Netflix希望进一步利用云计算的模式,提升视频服务的质量。
上述工程师表示,利用图形处理器训练神经网络是一个极富挑战的工作,如果依靠企业自身的IT基础设施,成本和复杂程度将极大,依靠亚马逊的云计算服务,可以极大降低成本。
实际上,挖掘大数据、分析用户偏好、深度学习,已经成为美国互联网行业发展的一个方向,Pinterest、雅虎和Facebook最近都已经开始招募这方面的人才,Netflix成为最新加入的服务商。
媒体称,Netflix神经网络研究,采用了英伟达的图形处理器,对于这家芯片厂商也将是一个利好。
Netflix是美国最大的电影电视剧视频服务商,和YouTube一起占据了美国一半的网络流量(YouTube以网民原创视频为主)。Netflix早已走出美国,向欧洲、拉丁美洲等地区扩张服务。
尽管有异构芯片TPU+48V直级 POL,谷歌仍在这一难题上被阿里的黑科技变道超车?
什么样的问题可以称得上是困扰全球长达50年的科技难题呢?
摩尔定律。
“芯片上的晶体管数量每18-24个月增加一倍。”自1965年摩尔定律问世起,就有人担心芯片的制程工艺不可能无限缩减,甚至从25年前开始,每隔一段时间就会传来摩尔定律即将失效的种种言论。因为,更强大的计算能力就需要性能更快的CPU,性能更快的CPU则需要单位面积更小尺寸的集成电路。这种“更快更小”带来的却就是能耗瓶颈,摩尔定律难题从这个角度看也就是能耗问题:
小到CPU集成电路,大到整体数据中心,能耗不仅制约了摩尔定律的发展,还是基础设施最大的运营支出,供电系统也越发捉襟见肘。
为摩尔定律续命,这两年成为整个产业界的聚焦话题。
1
逆向思维的第三方向
如果量子计算、新型材料等颠覆性科技暂且不提,单就目前可行的产业方向上看,多数企业都在以下两大方向上努力:
一,CPU芯片持续改进:增大芯片核心面积die size,增加更多内核来分担计算能力,16、24、32核都相继出现;增加多路CPU计算能力,让更多的芯片以更高带宽互联分担计算能力。但是,制程的演进,更多的内核,更高的互联带宽、更多路CPU尽管都是为了为摩尔定律续命,但都需要加大电压,也同时带来更高能耗。
二,研制异构计算芯片:用专用芯片来卸载通用计算的压力,例如最近热炒的谷歌TPU,英伟达的GPU,赛灵思和英特尔的FPGA。但它们在数据中心中同样也是发热大户,随着数据量和计算量的增加,能耗仍然是难题。
据英伟达公开数据显示,单颗GPU的功耗为200w~300w,比如Tesla P100的散热设计功耗(TDP)为300w。虽然谷歌的TPU具备最低功耗——每颗芯片总计118w,但能量平衡最差:在10%的负载下,TPU应用了100%负载下功耗的88%。
由此可见,散热技术的突破也就水到渠成的成为为摩尔定律续命的第三大方向。如果说前两种方式都是正向思考,那么第三种则是逆向思维。
三,浸没液冷技术:浸没液冷业界并不陌生,作为最近几年备受关注的新型散热技术,尤其在SC14全球超级计算大会上,来自国内外的多家服务器企业均展示了在浸没液冷散热上的产品,大幅提高了业界对液冷的关注度。
但是在这一方向上做得最彻底的,不是服务器架构企业,也不是谷歌微软等国外超大规模数据中心的拥有者,而是中国的阿里巴巴。
4月阿里刚刚公布了“麒麟计划”成果——浸没液冷服务器集群技术。据悉它可将数据中心PUE值大幅降低到接近于理论理想值1.0,处于全球领先水平。也因此被看作马云在首届阿里技术大会上号召技术“变道超车”的第一案例,阿里“NASA”计划的第一回应。
NASA计划对于阿里的重要性在于,从商业驱动到技术驱动的双轮转换。如今,云计算、人工智能、量子通信与计算,生物识别等都已经成为阿里的黑科技。既然未来所有企业都会是科技企业,阿里为什么不一马当先?
2
液冷是否“雷声大雨点小”?
浸没液冷技术广受关注,但在“麒麟计划”之前为什么没有被全球大型数据中心大规模采纳呢?
微软建立海下数据中心,但服务器计算单元仍采用风冷技术,只是将基础设施密闭在箱体后放入海中以达到数据中心级的液冷。
Facebook则将数据中心建立在了北极圈内,期望依靠寒冷天气解决散热问题,这仍处于整体数据中心的寻址散热阶段。
IBM服务器最早采用液冷技术,但是风冷+液冷的组合;
而其他参与浸没液冷服务器设计的企业,对浸没液冷的应用也仅局限于单机测试、单机展示阶段,从目前公开的信息看,并无服务器集群部署先例……
究其原因,还是受限于液冷技术实现的难度:浸没液冷解决方案相比风冷是一种全新的变革,需要具备从服务器到数据中心整套解决方案的架构创新和重构设计的能力。
这对于长期习惯于参考英特尔架构的服务器架构企业来说,确实有些认知的跨界。而对于拥有超大规模数据中心的企业,则是水到渠成。从早期中国数据中心独有的“天蝎计划”开始,它们就已经超越了用户的“权限”,毕竟应用特殊,规模庞大,痛点突出,价值显著。
那么谷歌呢?这个在数据中心技术上屡屡创新的企业,难道会让阿里捷足先登?
3
谷歌的正向思考vs阿里的逆向思维
谷歌作为全球科技界在数据中心基础设施技术上一直拔得头筹:11年前,云计算的概念就是谷歌最先提出;11年后,最热门的AI异构芯片TPU,以及最新的48V直级POL(负载点电源)架构,从摩尔定律角度看都堪称技术里程碑似的产品。
不过谷歌在摩尔定律问题上的研究方向重点在于前文所提的前两大方向,CPU芯片技术的电源改进,以及异构计算芯片的研制。前者由于采用48v直级负载点,打破了传统48V-12V-负载点电源设计的能耗损失,3月一经宣布就成为数据中心技术设施领域的突破技术。后者则是4月初对外披露的细节,谷歌TPU和英伟达GPU的AI指标对比,现在还处于热门的讨论阶段。
不过这些都无法避免能耗持续增高的宿命。从单位计算性能的功耗来看,异构计算有能力低于x86,但伴随着数据量和总体计算量的增加,功耗和如影相随的散热问题仍令人头痛。
如果说,谷歌将研发重点聚焦正向思考,那么阿里却将研发重点聚焦逆向思维。
阿里认为,谷歌的TPU异构计算架构+48V单级PoL电源方案,只可以有效解决单机架20kw-30kw的供电效率问题,虽然足以应对3~5年的“近忧”,但对无法解决5年之后的“远虑”——基于计算量增长预测,5年后单机架的功耗将达到100kw以上。
从这个角度来看,谷歌今年公布的两大最新研究成果在能耗问题上只能算是权宜之计。
阿里选择了以散热与制冷为突破口的浸没液冷作为“变道超车”的赛道。”麒麟计划“的成果在于:采用新型3M氟化液液体,全环境无风扇无振动设计,实现了单机架功耗200Kw-300Kw的负载,已经解决了5年之后的“远虑”。
此外,浸没式液冷对CPU芯片厂商也是一个利好消息。在不需要顾虑散热能否充分的前提下,留给芯片厂商设计高密度机型的发挥空间扩展了许多,让它们可以放心大胆地施展拳脚。以每个水箱的散热能力可达 200~300kw来考虑,如果其内部的服务器只需要散热100kw,就是对水箱散热能力的浪费,即计算密度增加高才能充分发挥水箱的散热能力。
在这个困扰全球长达50年的科技难题上,谷歌的正向思考和阿里的逆向思维,谷歌的权益之计和阿里的变道超车,殊途同归都是为了解决超大规模数据中心的现实问题。
不过,商业环境下不少企业的黑科技只在自身数据中心应用,也就无法带来更广泛的社会效益。而马云的愿景是:“未来20年中,阿里成为世界第五大经济体,服务全球20亿消费者,创造1亿个就业机会,帮助1000万家企业盈利。”拥有这样的格局,阿里的“麒麟计划”必然会对产业链公开参考,共同演进。
来源:news.mit.edu 编译:文强
【新智元导读】MIT 新研究为解开深度神经网络黑箱迈出重要一步:今年的CVPR上,研究者提交一份新的研究,全自动分析了 ResNet,VGG-16,GoogLeNet 和 AlexNet 执行 20 多种任务的过程。他们提出的 Network Dissection 能够量化 CNN 的可解释性,发现深度神经网络并非完全的黑箱结构。
神经网络性能强大,用处广泛,但有一个致命的缺点:一旦训练好,哪怕是设计者也无从得知其中的运作原理。没错,也就是所谓的黑箱。
2 年前,MIT 计算机科学和人工智能实验室(CSAIL)团队的一组计算机视觉研究员提出了一种方法,能够“窥视”神经网络的黑箱。这种方法提供了一些有趣的见解,然而其所需的数据需要事先经过人工标记,费时费力。
在今年的计算机视觉顶会 CVPR 上,MIT CSAIL 研究人员将发布同一个系统的全自动版本。将整个过程自动化很重要,因为这意味着结果不是由人,而是由机器生成的,这对解开神经网络的黑箱是重要的一步。
在之前的研究论文中,CSAIL 研究组分析了一种能够完成一项任务的神经网络。在新的论文中,作者分析了 4 种神经网络,分别是 ResNet,VGG-16,GoogLeNet 和 AlexNet,这 4 种神经网络能够完成 20 种任务,包括识别场景和物体、为灰色图像上色,以及解决拼图。
研究人员还在这些网络上进行了几组实验,得出的结果结果不仅对研究计算机视觉和计算摄影算法有用,还对人类大脑的组织方式提供了启发。
上图显示了,在 VGG-16、GoogLeNet 和 ResNet 中,选定的单元经过训练后,可以对地点(来自数据集 Places-365)进行分类。许多单个的单元会对特定的高级概念(物体分割)产生响应,而这些高级概念是网络在训练数据集(场景分类)中没有接触过的。
自动分析,精确表征节点行为
与人类大脑中神经元连接的方式类似,神经网络也是由大量节点构成。当接收到相邻节点传递的信息后,网络节点要么“发射”信号,也即产生响应,要么什么都不做。不同的节点发射信号的强度也各有不同。
在新旧论文中,MIT 研究人员训练神经网络执行计算机视觉任务,根据设计,单个节点针对不同的输入的响应可以被检测到。然后,研究人员选择了 10 幅能最大程度刺激神经元产生响应的输入图像。
论文的联合第一作者之一、MIT 电气工程研究生 David Bau 说:“我们编目了 1,100 个视觉概念,例如绿色、漩涡纹理、木质材料、人脸、自行车车轮或雪山顶。”“我们借用了其他人开发的几个数据集,将它们合并成一个视觉概念数据集。这个数据集有很多很多标签,对于每个标签,我们都知道哪幅图像中哪个像素对应于这个标签。”
研究人员还知道哪些图像的像素对应于给定网络节点的最强响应。神经网络是一层一层组成的。数据先被馈送到最低层,处理后会再传递到下一层,以此类推。在处理视觉数据时,输入图像被分成小块,每一块被馈送到单独的输入节点。
对于网络中高层节点的强烈反应,研究人员可以追溯到它的触发模式,从而识别出对应的特定图像像素。因为研究人员开发的系统可以很快识别出这样的像素对应的标签,因此可以精确地表征节点的行为。
研究人员将数据库中的视觉概念组织成一个层次结构。其中,每个层次结合了以下级别的概念,从颜色开始,到纹理,材料,部分,对象和场景。通常,神经网络的较低层将对更简单的视觉特征(例如颜色和纹理)产生响应,较高的层则对更复杂的特征产生响应。
此外,层次结构也让研究人员能够量化训练好的网络在执行不同视觉特性任务时所分配的重点。例如,为黑白图像上色的网络为将大部分节点用于识别纹理。另外一个用于在多帧视频中跟踪对象的网络,则将较高比例的节点用于场景识别。
为什么要研究可解释单元?“看见”神经网络形成概念的过程
这些可解释的单元十分有趣,因为它们的存在表明了深度神经网络并非完全的黑箱结构。但是,目前并不清楚这些可解释单元是否能证明所谓“disentangled representation” 存在。
研究人员在论文中致力于回答以下 3 个问题:
什么是 disentangled representation?如何量化并检测它的因子?
可解释的隐藏单元是否反映了特征空间上一种特殊的一致性?还是说,可解释性是不存在的(chimera)?
当前最先进训练方法中的什么条件,使表征中产生了 entanglement?
研究人员提出了一个整体框架式的 Network Dissection(见下),用于量化 CNN 的可解释性。他们还分析了 CNN 训练技术对可解释性的影响,发现不同层的表征揭示了含义的不同类别,而不同的训练技术对隐藏单位学习的表征的可解释性有显著影响。
结果发现,网络的可解释性 ResNet >VGG >GoogLeNet > AlexNet,并在在训练任务中,数据集的结果也不同,Places365 > Places205 >ImageNet。
在自监督任务中,对于不同的任务,可解释性也各不相同。
不仅如此,Network Dissection 还让研究人员“看见”了在训练时,网络“形成概念”的过程。
上面的动图显示了,一开始用于识别“狗”的神经网络,在后来变为识别“瀑布”的神经网络。
CNN 中存在“祖母细胞”?单个神经元响应的概念远多于神经元组合
研究人员进行的实验中,还有一项为神经科学中长期以来的一项争论给出了答案。此前有研究表明,大脑中单个神经元会对特定的刺激产生响应。这一假说最初被称为祖母神经元假说,后来又被称为“詹妮弗·安妮斯顿神经元假说”而广为人知。当时,提出詹妮弗·安妮斯顿神经元假说的科学家发现,他们实验中的几位患者,有的神经元似乎只对特定好莱坞名人的脸作出反应。
很多神经科学家都不同意这一假说。他们认为,是不同的神经元的组合,而不是单个的神经元,在大脑中负责确定判别感知。因此,所谓的詹妮弗·安妮斯顿神经元只是许多神经元之一,是对詹妮弗·安妮斯顿的脸的图像产生响应的神经元的一部分。这部分神经元还可能是许多其他神经元组合的一部分,只是那些组合现在还没有被观测到而已。
由于 MIT 研究人员提出的新分析技术是完全自动化的,所以能够测试神经网络中是否发生了类似的事情。除了识别对特定视觉概念产生响应的单个网络节点外,研究人员还考虑了随机选择的节点组合。但是,结果发现节点组合选择的视觉概念远远少于单个节点——大约减少了80%。
Bau 说:“在我看来,这表明神经网络实际上在努力得到一个祖母神经元的近似。神经元并不想把祖母的概念弄得到处都是,而是把这个概念分配给一个神经元。这一结构的这一点,大多数人都不相信这么简单。”
论文《网络剖解:量化深度视觉表征的可解释性》
摘要
我们提出了一个通用框架,叫做网络解剖(Network Dissection),通过评估单个隐藏单元和一组语义概念之间的一致性程度,量化 CNN 潜在表征的可解释性。给定任何 CNN 模型,我们所提出的方法利用一个含有大量视觉概念的数据集,评估每个中间卷积层隐藏单元的语义。具有语义的单元会被赋予一系列不同的标签,包括对象,部件,场景,纹理,材质和颜色。我们使用所提出的方法测试了这样一个假说,即单元的可解释性等同于该单元随机线性组合。然后,我们应用我们的方法比较各种网络的潜在表征,这些网络都被训练用于解决不同的监督和自我监督的任务。我们进一步分析训练迭代的效果,比较不同初始化训练的网络,检查网络深度和宽度的影响,并测量 dropout 和批量归一化对深度视觉表征可解释性的影响。我们展示了所提出的方法可以揭示 CNN 模型以及相关训练方法的特性。
来源:QZ,arXiv 作者:文强
【新智元导读】如何让神经网络学会完成一项任务后,不忘记已有的知识,再次学会另一项任务?日前,来自 MIT 和谷歌研究人员分别朝着这一目标做出了努力。MIT 的研究创造了一种方法,让算法能将不同形式的概念——声音、图像和文字——联系起来,谷歌的研究则用单一的一个深度学习模型,学会文本、图像和翻译这些不同领域的 8 种不同任务,朝“一个模型解决所有问题”迈出了重要一步。
神经网络学习某件事情,是靠加强神经元之间的连接,也即调整权重来完成。这也意味着,一旦神经网络学会了做某件事情,神经元之间的连接也固定下来,于是,再让这个神经网络学做另一件事情,就必须改变已有的连接/权重,相当于不得不“忘记”已经学到的知识。
这种现象被人工智能研究人员称之为“灾难性遗忘”问题(catastrophic forgetting)。今年 3 月,在 AlphaGo 获胜一周年的时候,DeepMind 在 PNAS 发表研究成果,利用监督学习和强化学习,让神经网络成功在学习新任务的同时,不忘老的任务,向着自适应学习迈出重要一步,也证明了灾难性遗忘并非不可逾越的问题。
具体说,当时 DeepMind 研究人员借鉴了神经科学的原理,从哺乳动物和人类的大脑固化以往知识的理论中汲取灵感,提出“弹性权重固化”(Elastic Weight Consolidation,EWC)方法,让系统在学会玩一个游戏以后,不忘此前学到的内容,继续学习玩新的游戏。
在发表这项成果时,DeepMind 研究员表示,他们的工作证明了神经网络可以实现序列性学习,但对学习效率是否有提升还不明确。
日前,两项分别来自 MIT 和谷歌的研究,在此基础上更进一步,让人工智能系统在同一时间能够完成多项任务。其中,谷歌的研究还揭示了对应完成单独任务的模块及相应学习效率的联系。它们都为人工智能系统迈向“通用”“全能”打下了重要的基础。
MIT 研究:让神经网络具有“通感”的能力
谷歌的研究新智元此前已经有相关报道,所以,我们首先来看 MIT 的研究。
在接受 QZ 采访时,MIT 研究的第一作者、博士后 Yusuf Aytar 表示,他们研究的关键在于“一致”(align)。
在这项工作中,MIT 的研究人员并没有教给他们的算法任何新东西,而是创造了一种方法,让算法能将不同形式的概念——声音、图像和文字——联系起来。例如,输入一段足球赛的音频,系统会输出另一段与足球赛相关的音频,还输出踢足球的图像和文字描述。
为了训练这个系统,MIT 的研究人员首先向神经网络展示了与音频相关联的视频。网络首先将视频中的物体和音频中的声音关联起来,然后会试着预测哪些对象与哪个声音相关。例如,在什么时候波浪会发出声音。
接下来,研究人员将配有类似情况的图说的图像馈送到网络中,让算法将文字描述与物体和动作相关联。首先,网络识别出图片中所有的物体,以及音频中所有的相关单词,然后将词和物体关联起来。
除了输入音频,输出图像和文字,研究人员还做了其他实验,比如输入一张吉娃娃犬的图片,算法能够输出一段带有(其他类型的)狗叫声的音频、其他狗的图片和描述狗的文字。
MIT 研究的意义在于,在使用音频和图像,以及图像和文本训练后,系统能够将音频和文本匹配起来,而这是系统之前没有接触过的。研究人员表示,这表明系统生成了一个更客观的观念,能够将看到、听到或阅读到的信息关联起来,而不仅仅依赖训练时接触到的信息。
Aytar 在接受 QZ 采访时说:“系统知道 [斑马] 是一种动物,它知道斑马会产生这种声音,而且在本质上知道这种信息是跨模式传递的(across modalities)。”这样的假设使算法能在各种概念间建立新的联系,加强对世界的理解。
谷歌大脑研究:一个深度学习模型,语音、图像、文本“通吃”
或许你已经知道了,谷歌的研究就是之前新智元报道过的,“用一个模型学会所有问题”(One Model to Learn Them All)。
谷歌研究人员提出了一个多模型适用的架构 MultiModel,用单一的一个深度学习模型,学会各个不同领域的多种不同任务。
具体说,谷歌研究员同时在以下 8 个任务上训练 MultiModel:
(1)WSJ 语料库
(2)ImageNet 数据集
(3)COCO 图说生成数据集
(4)WSJ 语义解析数据集
(5)WMT 英-德翻译语料库
(6)与(5)相反:德-英翻译语料库
(7)WMT 英-法翻译语料库
(8)与(7)相反:德-法翻译语料库
图1:MulitModel 能够完成不同领域不同任务。其中,红色表示语言相关的任务,蓝色表示分类相关的任务。
MultiModel 由多个部分构成,比如不同的卷积层、注意力机制和混合专家层。每个部分此前都没有在其他任务上训练过。例如,卷积层此前没有处理过文本或语音任务;混合专家层也没有处理过图像或语言相关的任务。
作者发现,每个单独的模块对于相应的任务而言都十分重要,比如注意力机制在解决与翻译相关的任务时,远比在处理图像任务中重要。
实验结果,谷歌研究人员提出的模型在所有上述任务中都取得了良好的结果——虽然具体到一项任务,结果并不是当前最佳的。
类似,MIT 的系统也并没有在所有单项任务上取得最佳结果。
不过,Aytar 认为这并不是问题。“当你使用的传感器多了,准确度就会提高。”