深度学习、人工智能(AI)的新技术革命已经来临,变革的不仅是技术之争,还有产业格局。
11月 30日,在主题为“释放IA原力拥抱AI时代”的英特尔人工智能论坛上,一个观点引发了现场人士的认同:当前的人工智能仍处于婴儿时期,一切都在发展变化之中。的确,AI未来的路径选择仍有诸多可能性,这不能不让人联想起英特尔与英伟达越来越火药味的AI芯片争霸。
就在11月 30日这一天,英特尔的人工智能战略正式亮相,发布了一系列涵盖从前端到数据中心的全新产品、技术及相关投资计划,以期拓展人工智能的发展空间并加速其发展。
而在人工智能领域,英伟达的动作也非常之快。自从英伟达的GPU被谷歌率先应用于深度学习之后,GPU加速深度学习的特性开始成为人工智能领域的一大路径方向。
随后英伟达开始了人工智能芯片上的迅速推进,今年9月,黄仁勋在百度世界大会上第一次高调表示“英伟达是一家人工智能计算公司”。
有野心的企业都在争夺人工智能的未来,英特尔与英伟达之战已经不可避免。
GPU不是为深度学习而生?
变化早已开始,今年英特尔连续进行了多次收购,基本都围绕人工智能进行布局。
5月,英特尔收购计算视觉软件公司Itseez;6月,英特尔以167亿美元收购FPGA制造商Altera,以加强专用芯片制造能力;8月9日,英特尔收购深度学习初创公司NervanaSystems;9月7日,英特尔收购机器视觉初创公司Movidius,继续加强从设备到云端的深度学习解决方案。
一系列的收购,正是为今天英特尔人工智能战略而进行的准备。11月 30日,英特尔发布了基于英特尔架构的涵盖至强处理器、至强融核处理器、Nervana平台和FPGA、Omni-Path网络、3DXPoint存储等技术的硬件平台,结合英特尔针对深度学习/机器学习而优化的英特尔数学函数库(Intel MKL)、英特尔数据分析加速库(Intel DAAL)等。
可以看到的是,英特尔利用自身技术和产品的整合优势,已经能够提供灵活的端到端解决方案产品组合,以期帮助更多的行业和企业开发和部署人工智能应用,将人工智能潜能在各个领域中充分释放,如智能工厂、无人驾驶汽车、体育、欺诈检测、生命科学等等。更多英特尔解读:www.yangfenzi.com/tag/yingteer
在这些解决方案之外,更让业界关注的则是英特尔深度学习芯片的进展。在英特尔的诸多收购项目中,最引人注目的是Nervana公司。这次论坛也是Nervana Systems公司创始人、现任英特尔人工智能解决方案部门总经理的Raveen Rao在中国的第一次公开亮相。
Raveen Rao曾任职高通神经网络研发负责人,2014年创立了Nervana。今年8月,英特尔收购Nervana时就曾对外表示,Nervana有着目前最快的深度学习框架,并预计于明年推出深度学习专用芯片,据称速度将比GPU快10倍。
在这次的英特尔人工智能论坛上,Rao表示,英特尔将于2017年上半年测试第一款深度学习芯片(代号为Lake Crest),并在下半年向主要客户发售。此外,英特尔还在产品路线图中增加了一款新产品(代号为Knights Crest),它将Nervana创新技术与英特尔至强处理器紧密集成。此外,Lake Crest处理器专门针对神经网络进行了优化,可为深度学习提供极高性能,并可通过高速互连网络提供前所未有的计算密度。
事实上,说到根本,英特尔与英伟达之争是路线之争。英特尔走的是深度学习CPU之路,本质是CPU,而英伟达则是GPU之路。
据Rao介绍,英特尔Nervana平台产品组合能够提高人工智能应用的速度和易用性,是构建高度优化的人工智能解决方案的基础,可帮助更多的数据专家在基于行业标准的技术上解决世界上极度艰巨的挑战。
用Rao的话讲,英特尔将推出的专用深度学习芯片不仅比GPU解决方案快10倍,更重要的是,GPU不是为深度学习而生。
这句话看来指向的正是英伟达,火药味真的太浓了。但这只是英特尔的判断,会成为人工智能的未来方向吗?
深度学习CPU,还是GPU?京东给出了一个选择
英伟达又是如何看呢?9月13日,在英伟达在北京举办的GTC CHINA 2016(GPU技术大会)上,全球首发了两款深度学习和自动驾驶最新产品,并与京东达成战略合作并共建联合实验室。
寰寰姐在采访NVIDIA联合创始人、总裁兼首席执行官黄仁勋时,对于Nervana将会有比GPU快10倍的解决方案一事,老黄称:“他们说是10倍,可是,我感觉十倍不太够,因为我的(加速)已经做到我自己的65倍了。”
事实上,加速速度只是一方面,核心在于,深度学习是要走CPU方向还是GPU方向,这才是路径选择。
但从今天诸多企业的选择来看,行业也在多方合作,选择多种方向进行尝试。比如,京东既与英伟达共建联合实验室,同时也与英特尔合作。
京东集团AI/VR/AR实验室人工智能方向研发总监陈宇表示,京东采用英特尔至强处理器以及英特尔优化的Caffe版本解决方案,让京东可以更好、更灵活地应对亿级量级的图像数据处理任务,例如,对非法图像识别的线上inference性能提升4倍以上。
从京东的结果来看,目前京东基于英特尔技术的平台上深度学习线上服务性能达到预期,并具有明显的规模性价比和大规模网络集群扩展优势。下一步,双方在人工智能领域将继续深入合作,共同进一步挖掘和提升各种处理器架构的技术优势,为京东的客户提供基于技术解决方案的良好消费体验。
与英特尔合作的同时,在京东也与英伟达合作,双方的技术团队会在京东内部推广模型(前向)优化方案,京东将借助NVIDIA深度学习的技术优势和在研发环节技术团队的支持,进一步优化包括实时服务在内的业务应用系统。此外,基于目前GPU集群优化的成果和经验,京东还会与NVIDIA携手,基于京东业务场景,从深度学习平台出发,在GPU集群的深度学习训练、KMeans等图像算法加速上,共同打造新解决方案。
京东的双重合作态度其实表明的是:在AI芯片的未来发展上,英特尔与英伟达的方案正是两种不同的路径选择,京东都在参与,都在合作。
某种意义上,京东的做法其实正体现了今天AI芯片争霸的现实:AI仍在婴儿时期,一切探索皆有可能。看到这里,我们也要对京东点个赞。
而未来AI芯片之路将如何走,还要看英特尔与英伟达的下一步发展落地。
总结:中国应该在AI时代扮演重要角色
根据MarketsandMarkets最新市场研究报告显示,预计到2022年,全球深度学习市场的价值将达到172.29亿美元,在2016年和2022年之间以65.3%的年复合增长率增长。其中,由于对运行深度学习算法高计算能力的硬件平台需求的增长,在2016年至2022年之间深度学习硬件市场预计将以最高速度增长。
市场的确非常之大,但英特尔与英伟达之争,其实还不仅是两家企业对于未来市场地位的竞争,这更是对于未来人工智能发展方向的探索,这反而是好事。
“人类正在进入智能互联时代,而中国正在引领数据洪流。作为发掘数据巨大价值的创新方法,人工智能技术和应用取得了长足的发展和进步。”如英特尔公司全球副总裁兼中国区总裁杨旭所说,中国其实应该在未来的AI时代扮演更重要的角色。
英特尔认为未来有四大趋势:数据洪流、万物数字化、计算感知化和云的增值。杨旭说,英特尔正在发力八大领域,最看好的是精准医疗,中国已经走在全球领先,这就是基于中国数据洪流引发的智能落地。
在今天,英特尔与英伟达关于未来AI芯片争霸之时,双方都不约而同看好中国,与中国企业合作。京东基于电商平台的巨大数据洪流,正在参与其中共同探索,这更是一种中国力量。
未来AI芯片之路将如何走?英特尔与英伟达谁会胜出?没有答案。但我以为,未来的竞争取决于三点:技术的极致、构建产业生态的全面以及战略落地的力度。
【文/李瀛寰(微信号:yinghuanlee)】
·氧分子网(http://www.yangfenzi.com)延伸阅读:
微流体装置产生“无源”液压动力,可用于驱动小型机器人。
从高耸的红木,到低矮的小雏菊,这些大自然中的植物都是天然的液压泵,它们源源不断地将水分从植物的根部输送到树叶顶端,并将叶子产生的糖分再输送回根部。这种稳定的内部输运是靠植物木质部与韧皮部中的导管和筛管来实现。
不久之前,麻省理工学院联合其他地方的科学家们一起合作,开发了一种称之为“树叶芯片”的全新微流体装置。他们研发的这一装置模仿了树木及植物中养分的输运机制:犹如自然界中的植物一般,这块芯片完全不需要外部能源就能工作。它能以稳定的流速输送水与糖分,持续至数日之久。该研究结果刊发在近日出版的《Nature Plant》杂志上。
麻省理工学院机械工程系教授安内特·霍索(Anette “Peko” Hosoi)表示,在不远的将来,这一芯片上的无源水泵或许可用做驱动小型机器人。
在过去,工程师们只能使用具有微型可移动部件的液压系统来驱动小型机器人的复杂运动,但这样的系统不仅制作难度高,而且成本高昂。麻省理工学院这个团队所研发的这一新型水泵,或许会改变这一现状,让未来的小型机器人仅靠“吃糖”来获取动力。
液压原动力
这项灵感源自树木的研究,最初的目的是设计一款液泵驱动的液压机器人。霍索对于设计小型液压机器人十分感兴趣,她希望这些小型机器人有朝一日可以媲美赫赫有名的“机器狗”。波士顿动力公司研发的“机器狗”拥有四条腿,体型与一条圣伯纳德犬相近。它如同高性能山地车一般,能够在崎岖的山地上奔跑和跳跃。
霍索说,“对于小型系统而言,制造微型可移动部件是十分昂贵的。所以我们就想,为什么不制造一个可以产生很大压力,却不包含任何可移动部件的小型液压系统呢?接下来我们就问自己,在自然界中,这样的系统存在吗?而最终我们意识到,大自然的树木不正是如此吗!”
这样的过程目前在生物学家中的共识是:水在表面张力的驱动下,沿树木木质部中的导管向上移动,然后在渗透压的驱动下通过一层半透膜,进入韧皮部中含有糖和其他有机物的筛管。
随着韧皮部中的糖分越来越多,在渗透压的作用下,将有更多的水从木质部自发地扩散到韧皮部。最终,产生的水流会将糖分等有机物“冲刷”到根部。这样,在根部也产生了渗透压,进而从土壤中吸入更多的水,然后通过导管向上传输,这样就形成了一个完美的循环。
树木内部构建而成的这个简单的“水循环”传输模型,其实早在数十年前就被科学家们发现了。尽管原理非常容易理解,并且符合逻辑,但是进行量化模拟时,科学家们发现,这个简单的模型根本无法解释植物中为何会出现稳定的液体流动。
事实上,在此之前,工程师们曾试图设计类似的微流体泵,并制作出了木质部和韧皮部的仿生部件。但在他们设计出来的系统中,物质的输送只能维持短短的几分钟。
而现在,霍索教授的学生康姆泰特找出了树木泵送系统中,韧皮部和木质部之外的第三块重要的拼图:叶子,它可以通过光合作用产生糖分。在康姆泰特的最终模型里,就包含了这个额外的糖源,糖分源源不断地从叶子向植物的韧皮部扩散,从而增大了糖分与水分的浓度梯度,继而使得整颗树能够保持恒定的渗透压,最终实现水分与营养物质的连续循环。
用糖来奔跑
基于康姆泰特的假设,霍索教授和她的团队设计了这一款新型“树叶芯片”,这一微流体泵同时对木质部,韧皮部以及作为糖源的叶子进行了仿生。
为了制造这款微流体芯片,研究人员将两块塑料片夹在一起,并在载玻片上钻出小通道,用以代表木质部的导管和韧皮部的筛管。随后,他们用水填充导管,用糖水填充筛管,然后用半透性材料隔开了两个载玻片,用以模拟木质部和韧皮部之间的半透膜。
接下来,在模拟韧皮部的载玻片上放置了另一个膜,并且在顶部放了一块糖块,用以代表从树叶扩散到韧皮部中的额外糖源。最后,他们把整套装置挂放在一根管子上,使得水能够从水箱流入微流体芯片中。
通过这样的简单设计,使得这套系统能够以恒定的流速从罐子抽取水分,经由芯片,再泵送到烧杯中,整个过程无需外加能源。此外系统可以持续工作数日之久,这相较于之前的区区几分钟,无疑是巨大的进步。
霍索表示:“我们一把这个糖源加上之后,这个微流体泵就能以稳定的状态,连续运行好几天。这正是我们想要的。我们一直想要设计一个可以植入微型机器人的设备。”
霍索还设想,这种拟树微流体泵可以内置于小型机器人中,产生液压驱动力,进而直接驱动机器人运动,这样就不需要配备有源泵或者其他部件。她表示,如果能对机器人进行巧妙地设计,以后绝对可以在机器人身上贴上一块方糖,它就会自己动起来了。
相关论文的第一作者是毕业于麻省理工学院机械工程系的研究生简·康姆泰特(Jean Comtet),其他共同作者还包括:来自丹麦技术大学的卡瑞· 简森(Karre Jensen),以及康奈尔大学的罗伯特·特简(Robert Turgeon)和亚巴拉罕·斯特洛克(Abraham Stroock)。
日前,英特尔正式宣布推出旗下Optane闪腾品牌的首款产品——Intel Optane SSD DC P4800X,首发容量是375GB,PCI-E 3.0 x4扩展卡样式,支持NVMe,售价1520美元(约合人民币1万元),折合4美元/GB。Intel承诺,将在第二季度发布U.2样式的375GB容量以及PCIe扩展卡的750GB款式,到了下半年会再推出1.5TB的版本。
其实从几年前开始,伴随着“硬盘内存一体化”概念的升温,英特尔就已经加强了对于这项技术的摸索。
在 2015 年第一次对外公布3D XPoint非易失性存储技术时,英特尔声称,它结合了DRAM内存的高速度与NAND闪存的可靠性两大优势,将比NAND闪速快1000倍,存储密度是DRAM的10倍,寿命更是比NAND闪存高出1000倍。
在早期产品都还没有发布的时候,这一切描述显得有些夸张,但如今随着产品的推出,也都证明英特尔口口声声的“高性能”并非虚言。
有意思的是,此次发布的P4800X固态硬盘的初始规格早在2月份的时候就被泄露了出来。总结下来就是该产品是定位于企业数据库,适用于具有高读/写需求且要求低延时的应用。
尽管2400MB/s的读取和2000MB/s的写入成绩在某些好的NAND闪存面前有些逊色,但P4800X最大的特点就是可以维持较高I/O负载的能力。
通常情况下,SSD制造商会引用的一个技术指标就是——每秒进行读写操作的次数,但需要注意的是这些图形生成队列的深度通常为32。也就是说,驱动器总是保持32个未完成的操作以应对所收到大量的读/写请求(取决于测量什么),利用这些深层队列,NAND闪存SSD可以实现3-400000 IOPS。
P4800X的读写速率分别可以达到550000 IOPS和500000 IOPS。英特尔特别强调,即使在低队列深度,比如在16时,也能实现这一速率。他们还称,队列深度大约为8时是现在可以保证该速率的最低深度。
此外,英特尔还表示,即使在高负载下,每个I/O操作的延迟率仍然很低。当队列深度为1时, 99.999%的操作的读或写延迟分别低于60或100微秒,当队列深度为16时,延时增长到150或200微秒。在类似负载下,英特尔的P3700 NAND SSD只能保证 99%的操作延迟低于约2800微秒。
同样,在持续写入的负载下,P4800X的读取延迟仍可以保持在较低水平。而相同情况下,P3700 NAND的读取延迟将随着写入带宽的增加而不断增加。
这一性能使Optane驱动器非常适用于像缓存这样的应用方向。
但是,英特尔的目标却远不止于此。3D XPoint是字节可寻址的,也就是说,每个单独的字节都可以被重写,这也使得它与NAND闪存不同。NAND通常被分配到大小为512、2048或4096字节的页面。
然后,这些页面被排列成区域,每一区域通常为16、128、256或512千字节。读取和写入操作以页面粒度进行,但每个页面只能写入一次。如果想再次写入,它必须首先被擦除,并且擦除不是以页面粒度而是以区域粒度进行。而使用3D XPoint时,读取和写入可以在单个字节上进行。
与闪存反复擦除会产生物理磨损不同,3D XPoint的写入是无损的,这使得其与同等密度的NAND相比具有更长的寿命。英特尔称,Optane固态硬盘每天可以写入30次,与之相比,传统的产品通常只能写入0.5-10次。
低延迟和寿命长的特点使得Optane非常适合缓存和数据库服务器等方面的应用。而且,英特尔利用这两个属性开发出了一种叫做“内存驱动技术”的功能,这意味着P4800X不仅可以被用作普通的固态硬盘,它还可以搭配适当的芯片组和处理器来起到RAM的作用。
这也使得Optane在延迟和带宽都比DRAM差的情况下,依然可以凭借高密度和低价格取得一定的市场。
实际上,内存驱动技术是将常规的DRAM与SSD结合在一起,用以存储易丢失的临时信息。当然,这会比使用同等规格的DRAM稍慢一些,但是其成本明显是更低,并在功耗方面也表现的不错。
除此以外,这种技术最大的好处是大大增加了服务器中物理内存的数量:2插槽的Xeon系统只能容纳3TB的RAM,却可以有24TB的Optane,4插槽的系统支持12TB的RAM,但对于Optane来讲却是48TB,这种转变也是市场对于高容量内存巨大需求推动的结果。
今天,我们正在拥抱一个万物智能互联的新世界。越来越多的物和设备通过网络实现互联互通,让数据呈现爆发之势。数据洪流汹涌而至,数据正在成为技术领域最重要的驱动力。人工智能、自动驾驶、5G 和VR/MR 等一系列前瞻性技术的出现,令我们有机会充分释放这些数据的潜能,不断升级人类生活体验。
非常高兴从今天开始,我们在雷锋网开设英特尔中国研究院专栏。借助这个平台,我们希望与大家分享并交流英特尔对于前瞻技术趋势的观察,探讨万物智能互联的当下与未来。作为专栏系列文章的开篇,让我们先从机器人、人工智能的视角切入,探究数据洪流时代的产业机遇。
融合 AI 与 SI 推进智能机器人产业
机器人作为人工智能最重要的应用领域,一直饱受关注。好莱坞大片中经常出现的智能机器人为大众设置了很高的预期,而现实的服务机器人的智能能力远未达标。伴随着近来深度学习催热的这一波人工智能大潮,智能机器人产业如何破局是一个很重要的问题。我认为两个方面非常关键:一个是人工智能(AI: Artificial Intelligence)与智能交互(SI: Smart Interaction)深度融合;另一个是智能机器人的安全性。关于安全性我们留到以后再谈,今天重点探讨AI与SI的融合。
AI 在学术界有一个比较常用的定义,就是要了解智能的实质,并且要能够生产出一种像人一样,以智慧的方式对外界输入作出反应的智能机器。这个学科的最终目的是让机器具有智能的反应能力,所以智能机器人可以看做是人工智能的终极目标。
了解智能的实质有两种办法:
一种是通过哲学或者心理学的方法,从外部观察人的行为来推测人是以怎样的智能方式在思考;
另外一种是把人脑切开看看神经解剖结构,并且通过脑活动检测技术和精心设计的实验来发现智能活动的规律。
当我们对智能有了一个认识(未必正确、但至少有了模型),那怎样把机器变得智能就需要数学家、计算机科学家、自动化专家去钻研。所以,人工智能相关的学科很多,除了软的理论、模型和算法,还需要依赖硬件落地,比如说需要芯片去给它提供强有力的计算和存储。对于机器人这种智能体,还需要有复杂的系统控制技术支撑。
现在这一波人工智能的热潮,实际上也是受益于目前最新的计算和存储的改进。神经网络技术来自于脑的神经元结构启发,但它跟脑的处理过程完全不一样。它是通过大规模的数据去训练,然后机器从数据中学习一些内在的规律,形成一个模型,再用这个模型去推测新的数据。这称为一个机器学习的过程,它需要很多的存储和计算能力,而我们现在正处于一个非常适合它大发展的时代。
为什么非常合适呢?因为受益于摩尔定律,过去20年硬件的能力获得大幅发展,其中单位成本的计算能力提高1.5万倍、存储能力提高3万倍。通讯技术从有线发展到无线,现在正向5G迈进。这意味着我们不仅可以让智能机器具有强大的大脑,在需要的时候还可以灵活利用云端的能力。云、端结合释放持续学习和改善的能力。
而 AI 的算法像深度学习,通过统计和大数据迎来一个非常大的飞跃,它在图像识别还有语音识别上已经超越了人类的能力。而且我们看到更大的数据也成为了可能,例如一辆无人驾驶汽车一天就产生4TB 的数据,而且是不同源的、异构的数据。有了这些数据以后就要考虑怎样去处理它来产生实时的价值,提供可靠、高质量的服务。
现在深度学习一枝独秀,但是处理这么多种数据完成目标任务只靠这一类算法是不够的。所以,NN+X 就代表要让神经网络加各种新的技术,并且要正视人工智能算法的局限性。引用一下机器人界也是人工智能学界的大牛 Rodney Brooks 教授(人工智能专家,行为学派杰出代表,美国国家工程院院士,iRobot、Rethink Robotics 创始人,Baxter 之父,MIT CSAIL前主任)的观点,他主张先不去管用什么样的逻辑模型或者什么样的神经网络模型去模拟人的思维过程,而要通过实际的智能体去感知,然后去研究怎样通过全系统优化去做出正确的反应。他认为特别是产业界不要沉迷于某一种技术,重要的是根据实际需要去使用技术,为人类提供价值。他认为第一轮AI可以提供的价值是在五年左右,在辅助驾驶和自动驾驶这个领域,第二轮就是十年左右,可以在助老机器人领域提供很大的社会价值。
机器智能,整个产业界在分三步走
首先是把一些不联网的设备连了网,连网以后设备就有了信息传递和更新的能力,同时它也可以结合社交服务提供客户价值。但这个还不算多么智能,只算把设备互联了。
第二步就是我们现在所处的智能设备这个级别,其实就是手机上能够提供的这些智能服务,把视觉、听觉识别的能力加进去,再结合数据挖掘技术和知识库提供服务。这些智能机器能够听和看,但还不是听懂和看懂。
终极目标是第三步,就是自主机器。
现在我们基本上已经跨越了第二步,正在向第三步迈进。但这个发展过程不是线性的,因为从第二步到第三步会越来越复杂,不仅要理解环境和行为,还要能理解人的情绪。因为机器人服务的是人,如果不能理解人的情绪、达到交流共识的话,就没法提供很好的服务。
从CT到RT,需要人工智能技术与其它技术紧密合作完成“感知-认知-执行”的人机交互闭环
智能机器人就是典型的自主系统。如上图所示,从现在的计算机技术(CT: Computer Technology)到未来的机器人技术(RT: Robot Technology),需要人工智能技术与其它技术紧密合作完成“感知-认知-执行”的人机交互闭环。机器人工作在一个开放的环境里,服务的是不愿遵守刻板交互规则的普通消费者。从整个交互过程来讲有很多不确定性,没有AI算法能够保证不出问题,因此必须结合其它技术来满足消费者对智能机器人的预期。我认为智能交互(SI)是最佳选择,因为它可以充分通过机器人的移动性和主动交互能力来利用人这个通用智能体去补足人工智能。
举两个例子来说明智能交互的威力。我们知道在视觉识别物体的时候,角度和遮挡都会影响识别效果。对于机器人来讲,它可以利用移动性主动选择一个好的角度、避开遮挡来准确识别物体。再进一步,在场景理解的时候,对于能够准确分割的物体,如果不能确信是什么的话(例如凳子还是茶几),机器人可以主动组织一个问句来询问人。由此我们可以看出,灵活利用机器人的主动移动和交互能力可以显著提升整体服务能力,促进智能机器人的产业化。
总结
简而言之,我认为在智能机器人的商业化迭代方面,首先要保证服务能力达标,然后在这个能力要求下选择合适的人工智能算法,配合灵活的智能交互的方案一起去达成这个能力。随着算法能力和硬件技术的提高,在保持服务能力的前提下,逐步扩大 AI 的比重,是通过商业化发展推动AI技术发展的正循环之路。