深度学习十分适合高度复杂场景下的自动驾驶应用,尤其与增强学习相配合,能让从感知到执行的过程变得简单。
谷歌和李世石的人机大战引爆了公众对于人工智能的关注,也让基于深度学习的人工智能成为汽车业界关注的重点,那么深度学习在智能驾驶的应用场景下有什么帮助呢?
自动驾驶最先出现在美国,而不是欧洲或者日本,更不是中国,非常关键的一个原因在于,美国的驾驶环境相对于其它地区而言,是最简单的,无论是道路情况还是驾驶习惯。这就意味着,开发一个自动驾驶原型产品的技术难度可以大大降低。
这种高度复杂的场景很难用有限的规则来定义清楚,所以传统的算法的表现往往无法满足自动驾驶的要求,而深度学习非常适合在复杂场景下的自动驾驶应用。如果这个场景足够简单的话,深度学习并不能表现出相对于其它基于传统模式识别方法的优势。
更具体一点来讲,对于非结构化数据的识别、判断、分类是它的优势所在。图像、语音都是非结构化的,而像 Excel 表格上的数据,我们称之为结构化的数据。自动驾驶所面临的环境,如果表达出来,正是非结构化的数据,深度学习可以很好地处理这种场景。
深度学习的前沿技术
深度学习的发展其实有很长的历史,它的原理从上世纪五十年代末期就已经出,80 年代在手写体数字的识别方面取得相当的成就,并应用于美国的邮政系统。但其真正崛起还是在十年前开始的。
这里面其实是有时代的大背景的因素,这个时代提供了深度学习两个最关键的助推引擎:大数据和高性能处理器。深度学习非常适合利用大数据提高性能,随着用于训练的数据量不断增加,深度学习的性能也得到持续的提升。
事实上到目前为止,我们还没有发现其性能提升的上限。这是深度学习目前受到关注的一个非常重要的原因。过去很难获得如此大量的数据,也缺乏足够强劲的计算平台,而今天随着物联网的发展,据获取已经不再是问 题。另一方面,着单个处理器的性能进入 TFLOPS 时代,深度学习所需要海量计算已经在经济上变得可承受了。谷歌的 AlphaGo 的计算能力是当年击败国际象棋冠军的 IBM 深蓝的三万倍。要知道当年的深蓝可是大型机,成本不是一般应用可以承受的。
从 2012 年 Hinton 和他的学生 Alex 在国际上权威的图像识别领域 Imagenet 比赛夺冠以来,深度学习目前已经可以达到 97%的识别准确率,超过普通人的 95% 的识别准确率。机器视觉的识别能力超过人类,这是人工智能领域了不起的成就, 而这一切在仅仅 4 年的时间内就实现,则更凸显了深度学习的潜力和业界的研究 热潮。深度学习还在持续扩展其潜力,在人脸识别方面的准确率可达 99.5%以 上(基于 LFW 数据库)。
很多人也会问,到底深度学习是一个什么样的东西?要用简单的话解释清楚其实是一件很有挑战性的事情,它涉及很多较为抽象的基础知识,比较形象地描述:深度学习其实是对人的大脑识别机制的模拟。
举个例子,我看到对面走来一个人,瞬间就可以判断出这个人是我的同事。眼睛获取的影像有几十万像素, 需要上百万字节去描述,而大脑经过处理后,可以将它简化为几个字节,就是同事的名字。人的大脑可以非常高效地处理海量的非结构化数据,把其中的内容识别出来,用极其精简的信息去描述。这也正是深度学习的本质——把复杂信息精简地表达出来。
技术化的描述是:基于数据驱动的、自动学习要建模的数据的潜在(隐含)分布的多层(复杂)表达的算法(DT君表示读完以后,舌头已经不好使了)。目前深度学习使用最多的建模技术是多层卷积神经网络,并建立大量的隐含层(可达上百层)。
这个技术出现已经很久了,但在此之前一直表现不好,那个时候大家都是在小规模样本下进行的,对于参数的调整非常困难。深度学习一个最大的突破就是,将参数的计算自动化,人不再进行干预,而是让它通过大量的数据学习,自己确定这个参数。
深度学习的技术也在快速演进,比如 LSTM(长短期记忆模型)的使用,赋予深度神经网络保存状态的能力。也就是,我们将赋予机器记忆的能力。
它的用途在哪里呢?拿玩游戏来说。比如射击类的游戏,目前基于深度学习和增强学习的人工智能系统可以有非常出色的表现,因为它不需要记住过去的游戏状态,而当机器玩一些策略类游戏 的时候,比如星际争霸,没有记忆能力导致它无法进行长时间跨度的策略规划,与人的表现就相差甚远。
LSTM 使得深度神经网络从一个二维空间网络变成了一 个时空结构的网络,即在时间尺度上也表现出深度,结果就是机器不需要从头开始认知,而是把过去和现在连接在一起,规划下一步的行动。显然,这让大型的策略类游戏成为机器的下一个征服目标。上周传出消息 AlphaGo 要在今年内对战柯洁,期待一下 AlphaGo 的下一次惊艳出场吧。
深度学习的注意力模型也是一个技术热点,它是对整个场景进行语义级别的理解,可以让机器锁定图像中我们需要关注的部分。在未来几年,这些技术可以让机器理解视频流,并将其转化为直接的语义述。这么说吧,结合上面的技术,机器可以跟你一起看电影,并分享对于电影的理解(单身狗的福利呀,一个人去电影院也不会感到寂寞了,只要带着你的机器宠物一起去) 。
总体来讲,具备深度学习能力的设备就好像是一个有生命力的机器,它会随着数据训练的过程逐步成长,它的本领是可以持续提高的,而且这种本领可以被复制到另一个设备中。
深度学习与增强学习双管齐下通往自动驾驶
深度学习对感知有非常强的能力,可以理解各种复杂图像的含义,但是它并不能把这种感知转化为决策能力。增强学习就是用来解决这个问题。
如果打个比方的话,增强学习借鉴了驯兽员的方法,不教动物们任何规则(当然也教不会呀), 一开始让动物们随便地做各种动作。当其中有一个动作是符合期望的时候,立即给它们好吃的,就是增强了它们继续这个动作的动力。随着训练时间和次数的增加,动物们就会真的在头脑里建立一个规则:做某个动作可以得到好吃的。因而,将其称之为「增强(reinforcement)」学习的原因。
某种意义上,这也借鉴了管理学上的结果导向的理念,有两个关键点:第一,只看重结果,不关心过程或者动机;第二,对于每一次行动,及时奖惩,强化认知。
自动驾驶的整个系统,一般来说由三个层级组成:感知层、规划决策层和控制执行层。深度学习和增强学习结合的结果,会使得感知和执行以前所未有地方式真正紧密地结合在一起,完成自动驾驶。
1.感知
感知层的任务是完成环境态势感知,这个是自动驾驶的核心环节。在自动驾驶中,任何执行动作都要以理解整个驾驶环境为前提。这里面分为两层:车外环境和车内环境。
对于车外环境,首先是多种传感器的输入,比如多摄像头、毫米波雷达以及激光雷达等,通过融合映射到一个统一的坐标系中,这些图像信息需要进行物体的识别和分类,比如车道、路肩、车辆、行人等等,这正是深度学习的优势。利用深度学习,在计算系统中重构出来一个 3D 环境,这个环境中的各个物体都会被识别并理解。
对于车内环境,是指对车内驾驶员的感知,包括其疲劳程度、驾驶意图等,这将给后面的决策控制提供决策基础信息,如疲劳检测系统在检测到驾驶员进入严重的疲劳状态后,自动将驾驶状态从人工操控转为自动驾驶。
2.局部路径规划
这里需要对整个车外环境中车辆、交通状况和行人等的意图或者在一段时间内的行为进行预测,再根据本车的状态和意图,结合前面的环境感知结果和高精度地图提供的道路信息等,规划出最佳的行驶路径,这个规划需要可以满足驾驶意图,并对周围的车辆友好、安全。
通过积累大量的数据进行足够的训练,基于深度学习的系统可以给出最优规划。当然,这种规划不能单纯依赖深度学习的预判,它必须和交通规则的专家系统,以及其它高可靠性手段结合,才可以达到实用。例如 V2X 的普及,会使得本车可以在超视距范围内,精确地获取周围车辆的位置、速度以及驾驶意图(转弯/变道)等。
3.决策控制
在路径规划确定后,自动驾驶系统需要进行本车意图决策,比如什么时候进行超车、什么时候转弯、选择什么时机进行变道是最优的等等。自动驾驶系统需要学习人类开车的习惯,学会如何在复杂的会车场景下进行操作、保持合理的车距等,更进一步地,学习主人的开车习惯,在满足安全性的前提下,尽量使自动驾驶的风格与其开车行为相适应,提供更好的用户体验,并优化自己的驾驶效率。很显然,这里增强学习是非常适合的技术。
目前,前沿的研究人员正利用深度学习和增强学习开展一些非常炫酷的功能,例如完成从原始传感器数据到实际动作执行器的直接过渡。
在今年的 CES 展上,丰田展示了一套类似的自动驾驶演示系统,在一块布有障碍并有指示方向的方形地形中,8 辆没有驾驶经验的模型车,将传感器监测到的环境信息输入深度学习系统,并将深度学习系统与油门、制动和方向输出连接。经历约 4 个小时的学习后, 基本实现了零事故。
自动驾驶的测试是一个非常耗时、费钱的工作,谷歌累计的自动驾驶实际道路测试里程已经超过 100 万英里,如何更高效地测试也是自动驾驶领域的一个关键问题。
从理论上讲,我们可以用计算系统去模拟实际道路的情形,如果我们可以对道路上的各个要素进行准确地建模, 并且模拟这些要素的行为,例如超车、刹车、变道。利用蒙特卡洛模拟,配合增强学习的技术,就能构建一个自主运行的系统。这个系统本身在不需要耗费一滴汽油的情况下,产生大量的模拟场景,发现自动驾驶原型的各种缺陷,并获得大量的数据。就像谷歌训练它的 AlphaGo 一样。
小结
去年 10 月,丰田宣布投入 10 亿美元,设立一家专注于研发人工智能的新公司 Toyota Research Institute,希望打造像人类一样会自己「思考」的、可以应对突发情况的汽车, 让自动驾驶技术更加可靠。
去年年底,丰田还投资了 Preferred Networks,另外一家深度学习领域的初创公司,通用则直接收购了初创公司 Cruise Automation,只要看名字你就知道这家公司是干什么的。
真金白银的投入,其背后折射出的是车厂对于深度学习技术的认可。奥迪在 2015 年首次在美国从硅谷自动驾驶至拉斯维加斯测试其基于 A7 的自动驾驶汽车时,就明确表示:“自动驾驶的关键是深度学习”。
作者简介,本文作者李星宇,现地平线机器人汽车业务总监,前飞思卡尔应用处理器汽车业务市场经理,原士兰微电子安全技术专家。
·氧分子网(http://www.yangfenzi.com)延伸阅读:
➤ 地平线余凯新年致辞:创业不是party,而是一场艰苦的旅行
➤ 专访地平线机器人创始团队:余凯的地平线机器人是家什么样公司
➤ Star VC投资商汤科技SenseTime,“明星+星探”双重落地人工智能
➤ 百度吴恩达谈深度学习局限:AI经济价值目前仅来自监督学习
➤ 【nature】深度学习巨头看人工智能界人才迁徙
➤ 深度学习会让机器学习工程师失业吗?
➤ 机器学习两极化引发杠铃效应,硅谷投资人指出初创企业三条路
➤ 出门问问李志飞:一个硅谷工程师在中国的 AI 创业“实践论”
➤ 没有任何行业可以忽视人工智能——MIT EmTech Digital 峰会干货
➤ AlphaGo之父戴密斯·哈萨比斯:除了下围棋,AI还要塑造人类未来
你可能都认为数据更重要,但这个问题实际上非常复杂,不是简单的“是”或“不是”就能一言以概之。对于这个问题的理解,能够反映出对理论和实际应用问题把握的深刻,新智元摘选 Quora 精彩问答供你参考。
Xavier Amatriain(Quora 工程副总裁)
对这个问题,我希望你期待的不是一个简单的是或者否的答案。在过去几年里,数据更重要还是算法更重要这个问题,专家们(以及非专家们)已经进行过许多冗长的辩论,概括其结论,就是二者谁重要取决于许多细节和细微差别,了解需要时间。
我之前回答过一个很相似的问题:在机器学习中,更多的数据总是比更好的算法好吗?我建议先阅读那个答案,可以解决这个问题的80%,然后再回到这个答案来。这两个问题有一些细微但很重要的区别,我将在下面讨论。
首先,我前面回答的问题是指向机器学习(ML)的,而这个问题提问的是人工智能(AI)。机器学习和人工智能是一回事吗?不完全是。实际上,ML 是 AI 的一个子领域,ML 特别需要用大量数据来训练算法。而 AI 还包括基于逻辑或基于规则的其他方法,这些方法不像 ML 那样需要大量的数据。换句话说,假如我们同意在 ML 中数据并不总是比算法更重要,那么在范围更广的 AI 领域,数据的重要性应该更小。
正如我在另一个问题“市场认为 AI 与 ML 间的区别是什么?”的答案中提到的,大多数人可能不太在意 ML 和 AI 之间的区别,往往将它们混合使用。实际上,今天大多数人把 AI 当做深度学习的同义词,而深度学习其实是一种特殊的机器学习方法。所以,我认为从深度学习的最新进展的观点来看这个问题更好:
在现代深度学习方法中,数据是否比算法更重要?
是,也不是。的确,深度学习方法非常的“数据饥渴”。深度学习算法有很多参数需要微调,因此需要大量的数据以得出可概括的模型。所以,在这层意义上,拥有大量的数据是是为这些方法提供良好的训练集的关键。
有人认为在大型公共数据集(例如 Imagenet)以及最近的一些研究进展上,算法的表现优劣与数据的量有直接关系。需要注意的是,这里强调了起码在某些领域,公共数据集的存在使得数据不再是很大的竞争优势。
斯坦福大学实验室主任李飞飞
此外,这些算法和方法的有趣的一些方面是,它们有时可以由拥有数据集的人进行“预训练”(pre-trained),然后被许多人应用。在这种情况下,数据就显得不那么重要。举个简单的例子:如果你需要训练一个将英语翻译为西班牙语的模型,拟需要做的是收集数据做成一个巨大的数据集,然后在这个数据集上训练模型一次。模型本身已经具有所有的信息,所以得到这个模型的其他人就不再需要原始数据了。例如,著名的22层的 Googlenet 模型可以从不同的库里下载,例如 GoogLeNet in Keras。
所以,即使对这些数据饥渴型的应用程序来说,是否需要很大量的数据来利用最新的研究,答案也不是确定的。也就是说,如果你在做 state of the art 的研究,或者想做出非常具体的某个场景的应用程序,那么,你需要有内部数据来训练你的最新深度学习方法。
Max Loh(UC Berkeley EECS,Quora Published Writer)
如果你是指短期的考虑,那么数据比算法更重要。许多机器学习研究者将数据比喻为机器学习的“火箭燃料”。一般来说,在大量数据上训练的平庸模型的表现会比在少量数据上训练的伟大模型要好得多。
然而,state of the art 是技术的永恒追求。为了获得突破(如 AlphaGo,Wavenet 等),需要有人不断研究新的机器学习方法。多大的数据量也不可能装满了人类水平的智能,可以编写史诗小说,发明新的医疗技术,打篮球,或者用更少的数据(如人类大脑一般)做出高质量的预测。
所以,如果你想今天就在实际业务中使用机器学习,那么数据更重要;如果你想推动机器的智能潜力,那么算法/模型更重要。
Roman Trusov(Facebook AI 研究实习生,Quora Top Writer)
Neal Stephenson 曾在 Cryptonomicon 中给出了数据和算法之间的关系的最好描述:
“深度”(depth)可以通过在每个人的头顶上安一个绿色的灯泡,然后追踪他们在伦敦的行踪得到。得到的结果将是一堆厚厚的图纸,每一张图纸看起来都是随机的。图纸的厚度越大,深度就越深。
“独创性”则是完全不同的问题。没有系统的方法能够获得独创性。看着一大叠矩形波追踪图纸(square wave tracing)时,可能一个人只能看到乱糟糟一团线,而另一个人会找到一个令人着迷的源头,一种其他人无法分享的不合理的感觉。心灵的某些深层部分擅长注意到模式(或模式的存在),这会唤醒大脑的某个部分的信号,让大脑继续注意图纸。信号是昏暗的,并不总会被注意到。
无论你拥有怎样的数据,你所能做到的事情仍会有限制。更好的算法是突破这个限制的唯一方法。同时,数据永远都不会缺乏——整个世界就是各种信号的巨大型的来源,这些信号可以被解释或用于训练,现在已经在做这些事了。但是要有效地使用它们,我们需要开发能够有效地“在某个领域”学习的方法,这仍有很长的路要走。
使用相同的旧算法就像盯着那堆厚厚的图表。
Mehmet Ufuk Dalmis(PhD,6年机器学习经验)
我认为答案是肯定的,在这个方向上数据是明显的趋势。
在开始解释之前,我想说明的是,以下的讨论限制在机器学习,而非整个AI领域。
“就算你有很厉害的算法,最重要的仍然是数据的量。”我想没人会反对这句话。但是,我们已经有了“厉害的”算法吗?
经过几十年的机器学习研究和深度学习的进展,在过去几年里,答案越来越倾向“是的,我们的算法很好了”。请看下图,这是经常被拿来解释为什么深度学习如此强大的图示。当你向深度学习系统提供更多的数据,他就会变得越来越好,远比旧的方法要好。
这是人们在实践中能体会的。我自己体会过,我也听许多研究人员说过,就是你可以尝试许多不同的深度学习架构和训练策略,但最终你会发现最重要的还是数据量。这是决定算法性能的关键因素。
总结而言,经过几十年的机器学习研究,尤其是最近几年深度学习的进展,现在我们已经有了很好的算法。所以,数据已经成为决定性能的最重要的决定因素。
为了支持我的答案,我想举一个谷歌的例子。现在谷歌已经开始进军医疗领域,尤其是病理、放射学图像和显微图像的自动化分析。他们不需要再花几十年来研究更好的算法,因为他们已经有了算法。他们只需要的是数据。这也是他们正在努力的方向:与医院合作以获取数据。
近日,地平线同时登上自然语言推理领域三个重要数据集SNLI、MultiNLI ,及Quora Question Pair 的榜首,斩获三个世界第一。根据以上数据平台公布的测评数据显示,地平线的自然语言推理准确率最高已达88.9%,这也代表了自然语言推理的世界顶尖水平。
自然语言理解历来被认为是人工智能的核心问题之一。近年来随着深度学习的广泛使用,一些相对简单的自然语言理解问题取得了重大突破,但在语义理解、推理上的进展还不尽如人意。为了推进相关研究,一些机构发布了面向语义理解、推理的数据集,其中最具有代表性的便是Stanford Natural Language Inference(SNLI)、Multi-GenreNatural Language Inference (MultiNLI)与Quora Question Pair。
SNLI由斯坦福大学创办,在此数据集上发表的论文会被作为基础研究内容收录到包含斯坦福在内的各大高校自然语言理解课程中,其在学术界的影响力可见一斑。Quora Question Pair由美国知名问答网站Quora发布,MultiNLI则出自纽约大学。这三大数据集数年间吸引了包括Google、IBM、香港中文大学、中国科学院大学等大批世界范围内顶级团队的关注,在推动自然语言推理的快速发展上功不可没。
(SNLI数据集榜单)
(MultiNLI数据集榜单)
(Quora数据集结果)
地平线作为人工智能初创企业,始终保持对AI最前沿领域的关注和技术研发投入。此次地平线自然语言推理的新突破,由算法实习生宫一尘主导完成,地平线主任架构师张健,高级算法研究员罗恒博士指导。宫一尘提出了一种新的网络框架用来在交互空间中提取层次化语义特征,这种新的框架大大增加了模型的灵活性,一举在这三大数据集上显著地超越了之前的最好结果。(查看完整论文请点击阅读原文)
地平线此次同时在三大数据集上夺冠,除了在前沿技术研究上长期扎实的投入外,更得益于对算法人才培养的高度重视。宫一尘作为实习生,不仅可以参与公司重要技术开发项目,还可根据个人意愿选择前沿技术研究方向。由联合创始人兼算法副总裁黄畅博士带领的核心算法团队,在实习生的研究项目、论文撰写等方面也会给予细致耐心的指导。此外地平线也为宫一尘提供了强大的基础架构上的支持,使得其在短短的三个月时间里,能够探索各种灵活的网络架构,在多个具有挑战性的数据集上验证自己的想法。
(论文第一作者:宫一尘)
地平线成立至今,得益于开放务实、以人为本的人才培养理念,逐渐汇聚了一大批战绩辉煌的顶尖人才。目前280+正式员工中40%具有海外经验,拥有博士学位的更是高达14%,平均工业界经验5年以上。团队成员在人工智能领域权威数据集中获得过多项世界第一,如KITTI、TRECVID、ImageNet等。地平线始终坚信技术和创新的价值,坚信人工智能可以让世界更美好。在砥砺前行的道路上,我们也希望越来越多有梦想,敢拼搏的人加入,一起打造万物智能的世界。