深度学习会让机器学习工程师失业吗?

有人说,每10到15年神经网络就会经历一个这样的循环:由于人们变得对大规模凸优化问题兴致盎然,神经网络会被遗忘10年——然后换上一个性感的新名字(比如深度学习)、慢慢回到人们的视野中。

有人说,过去被视为对于中型到大型数据集来说最佳的预测算法的那些模型(比如说提升决策树(Boosted Decision Trees)和随机森林)将会变得无人问津。

还有人说,深度学习随着训练数据量增加,非常接近于能解决监督式学习问题,这一点会让一些学习算法接近出局的边缘。

这篇文章讨论深度学习和机器学习非常核心的话题:深度学习在中、大型数据集的有效应用,是否会让其他机器学习算法出局?

或者说,在深度学习快速扩张的情况下,总还有一些领域必须使用特定的机器学习算法,才能取得很好的训练效果?

我们来看看 Quora 上各位专家的讨论。

Jack Rae,Google DeepMind研究工程师


我打算特立独行一下,回答“是的”。我同意Jacob Steinhardt的评价——有一些例子里深度学习可能永远无法提供最强的预测力。但我认为,深度学习随着训练数据量增加,非常接近于能解决监督式学习问题,这一点会让一些学习算法接近出局的边缘。

过去几年的实证结果已经显示了深度学习在数据集足够大时能够提供最佳的预测力。这是真的吗?好吧,至少我不知道在过去这些年里当数据集超过1亿行时有什么算法能够击败深度学习(如果你知道这样的例子,请在下方评论里告诉我)。

即使当你的训练集没有那么大时,你也可以使用一些技巧来增加你的训练集大小(Sander Dielman有一个很棒的例子:http://benanne.github.io/2014/04/05/galaxy-zoo.html)来达到很高的预测力。

所以,我预期:过去被视为对于中型到大型数据集来说最佳的预测算法的那些模型(比如说提升决策树(Boosted Decision Trees)和随机森林)将会变得无人问津。

深度学习,或者更宽泛地说——使用联结主义架构的机器学习算法,另一个可能会让许多机器学习算法变成过去的原因是,深度学习算法还远远不是饱和状态。逻辑回归可以被调整吗,比如说增加一个新的连接函数(link function)或是其他什么东西来成为语音识别领域中位列前茅的算法?我对此表示怀疑。

在未来的几年里,很有可能会出现一些训练深度神经网络的方法,让它们能够显著提升性能。在优化方法、激活功能、联结结构以及初始化步骤之间,还有一些突破出现的空间。

Jacob Steinhardt,斯坦福AI博士在读

至少有两点让深度学习不会取代其他的机器学习算法:

1.对于许多应用来说,简单得多的算法——比如逻辑回归或是支持向量机——已经做得够好了。用深度学习网络来做这些事只会把问题变得复杂。

2.虽然深度学习网络是最好的、对领域不敏感的算法(domain-agnostic)之 一,如果一个人对某个领域有所了解,那么许多其他的算法(比如用于语音识别的HMM、用于图像的wavelets等等)是能够在表现上超过深度学习网络的。有一些将这些专用于某个领域的知识整合进神经网络模型的工作(比如http://www.socher.org/index.php/Main/ParsingNaturalScenesAndNaturalLanguageWithRecursiveNeuralNetworks),但这当然还不能够达到足以替代所有其他模型和算法的水平。

Tomasz Malisiewicz,vision.ai联合创始人,机器人学博士,计算机视觉专家

我预测,每10到15年神经网络就会经历一个这样的循环:由于人们变得对大规模凸优化问题兴致盎然,神经网络会被遗忘10年——然后换上一个性感的新名字(比如深度学习)、慢慢回到人们的视野中。我猜这种循环将会一直发生,只要Hinton、Lecun、Bengio还有他们的门徒们还活着(门徒的数量很可能以前所未有的速度增长)!

Carlos E. Perez,Alluviate联合创始人,软件架构师,机器学习

上图是一个1969年的感知器的透视图。我没办法找到Rosenblatt那张1957年的透视图了。半个多世纪过去了,我们仍然在辩论这个感知器是否会取代1957年以来所有已有的和尚未发明的其它机器学习算法。这相当于半个世纪的研究都被扔进了垃圾桶,因为这里面的想法是如此的简单又强大。

更麻烦的事实是,这个感知器甚至都不是实际上按照一个生物神经元的方法工作的。事实上它仅仅只是一个真实神经元的“卡通版本”。然而,它却出人意料得有效。事实上在1957年的时候它都算不上一个创新了。你对矩阵相乘的话最后得到的矩阵里那些元素都是点乘之和。矩阵的乘法大约出现在1812年。Sigmoid函数出现在1854年。事实上它只不过是一个线性函数加上一个非线性的激活(activation)函数。你可以用任何微分网络(differentiable network)解决同样的问题。事实上这就是一个让人惊讶的启发,使用简单的梯度下降方法来更新权重看上去对训练来说效果非常好。

这种方法的简单性以及它可以由许多层组成的特点,让它有了其他单层机器学习算法无法随意匹敌的能力。训练方法是极度模块化的,因为你需要做的所有事情就是让每一层网络都有所不同。更进一步的是,你能够利用数据中你知道的不变条件来改良训练效果。神经网络的组合型和模块性给了它一种可能无法被其他机器学习方法超越的优势(见Jack Rae和Subhasis Das答案中的那些例子)。

所以我得要谦虚地承认,这个粗鄙的感知器(现在被贴上了深度学习的新名字),将很难被击败。要知道,抨击长寿的东西是一件很困难的事情!

Subhasis Das,正在学习机器学习

虽然永远不可能存在一种“可以让一切竞争算法出局的算法”,但是在我看来,未来深度学习在语音、图像、自然语言处理等领域扮演最重要的角色几乎是肯定的了。其他的答案,特别是Jack Rae的答案,已经提到了这个观点,但我想要更详细地解释一下深度神经网络的一些特征,我觉得这些特征都是非常有用的优点。

概括和迁移学习:为ImageNet的图象识别任务而训练的深度神经网络,在这一方面已经保持了一段时间的领先。然而,一个非常有趣的事实是,这些网络生成的特征可以用来对很多种看上去无关的任务生成最先进的结果(比如CNN Features off-the-shelf的论文中所写的,文末附论文下载)。这意味着,现在,我作为一个在计算机视觉领域彻头彻尾的新手,可以简单地获取公开可得的、对ImageNet经过预训练的神经网络模型(比如可以从这里获取:https://github.com/BVLC/caffe/wiki/Model-Zoo),把第二高的层(the second highest layer)作为特征,将它应用到我想要的任务上——比如路人探测、猫咪探测、蓝裙子/金裙子识别等等。

使用和训练都很简单:深度学习框架正在渐渐增多,而且我认为,事实上从头开始写一个运行深度学习的脚本是程序员能做的最简单的事情之一。花里胡哨的东西并不多:这个领域才刚诞生,所以你连一周的时间都不用就能了解完最“前沿”的技巧和小贴士。训练也超级简单,没有什么让人眼花缭乱的东西,只有朴素陈旧的随机梯度下降法和反向传播(实际上只是符号微分法(symbolic differentiation)的炫酷新名字)。事实上,我认为,用来解决问题的神经网络通常会简单得多,因为你不需要去思考那些血淋淋的难弄的细节——应该选择哪些特征、如何提取这些特征等等(我同意,这一点是好是坏取决于你怎么看它)。

迅速向各领域扩张:好了,你可能要说,在语音或者自然语言处理的领域,深度学习做得怎么样?深度神经网络将原始的语音波谱作为输入(而不是MFCC),然后生成文本作为输出,已经在语音识别领域成为了表现最好的算法(比如深度语音,文末附论文下载)。语音识别的未来看上去已经很明确了。应用于翻译任务的序列到序列(sequence-to-sequence)深度神经网络模型,也很接近超越经过许多学者多年改良的最新式的基于短语的翻译模型的水平了。

所以,我觉得深度学习即将在这些领域中成为最大的玩家是一个很合理的推测。虽然无论是我还是其他任何人都不能预测到下一个10年过后一切会变成什么样,至少在即将到来的未来,深度学习将会取代其他一些竞争算法。

Charles H Matrin,Calculation咨询公司,我们预测事物

不。

但这里真正的问题是:

“是否所有的(机器)学习都是非凸性的?”

深度学习自身发展得并不是十分完善,通过运用传统的凸优化(convex optimization)和压缩感知(compressed sensing)的手段还可以对它做很多优化。

比如,最近的研究表明,做出NMF的简单凸公式(convenx formulation)是有可能的(见https://charlesmartin14.wordpress.com/2013/05/06/advances-in-convex-nmf-part-1-linear-programming/)。这在本质上是一种对矩阵分解的压缩感知,与稀疏模式的自动编码(sparse auto-encoder)非常相似。

这就让人开始猜想,如果将自动编码变得稀疏而凸性,是不是所有的自动编码都能从这种方式中受益。

比如,因为RBM格式的自动编码器使用的是对数分割公式(log partition formulation),它们可能可以用基于对Bethe Free Energy的凸近似的方法来重新表述,比如Meshi等人的论文中写的那样。

一个很好的例子是用WellSVM方法来进行半监督式以及弱标记的学习(Weakly Labeled Learning)。《从弱标记数据中学习》中(文末附资料下载),他们选择了从根本上看上去是非凸性的问题——直推式/半监督式支持向量机问题,然后用凸松弛将它转化为一个容易解决的上界下界问题。

这是将旧式的技术(也就是割面法,cutting plane method)与新式的对于凸优化的理解相组合的产物。

但这并不意味着所有的学习都是简单的,或者我们可以减少使用非线性和非凸性的方法。

对于更复杂的深度学习网络,我还没有被“所有学习都是非凸性的”所说服,因为凸优化本身是一个非常广阔的领域,而且已经有人展示出重新表述一个看上去非常非凸性的问题——作为凸优化的分子电子Schrodinger等式——是可能的,虽然这不能通过半定式编程的常规方法来解决(见http://news.uchicago.edu/article/2012/07/03/new-method-knocks-out-stubborn-electron-problem)。

如果量子化学是凸性的,为什么机器学习就不会是凸性的呢?

Mark Stoehr

对于这个问题已经有了许多出色的答案,但我还有一些意见:

1.“深度学习”是一个广阔的领域,这个词描述的东西更像是生成特征的元算法,而不是机器学习算法自身。

2.作为一种特征学习方法,它很有可能替代手工特征选取。未来的特征学习方法中可能始终会包含着一些深度学习的元素。

我并不非常确定,一个算法“取代其他所有的算法”这种事发生得有多频繁。算法上已经有了很大的进展:线性判别分析(Fisher)、感知器、逻辑回归、多层感知器、随机森林、增强(boosting)、支持向量机、核方法(kernel methods)等等。我们应该注意到,几乎所有这些算法都以某些形式或者形态与深度学习相结合、一起应用,其中深度学习提供数据样本中的特征,而其他算法也要应用在数据样本上。

然而,深度学习也改变了特征学习。虽然我们目前还不能说在计算机视觉领域可以不再使用HOG/SIFT、在语音领域可以不再使用MFCCs,但人们已经可以不依赖于HOG/SIFT就能在MNIST、ImageNet上获得最好的结果。

我的观点是,手工设计(hand-designed)的特征可能会走上八十年代专家系统(expert systems)的老路——并不是说它们会彻底消失,而是我们对新类型的数据进行运算时特征将来自于对训练集的学习,而不再是来自专家的直觉和知识。我的推理很简单:循环(cycles)比突触(synapses)更便宜,而深度学习可能将会展示出循环在构建特征方面可以和突触做得一样好、甚至更好。

我需要注明,我们还没有到达这个地步。在语音识别中,应用在波谱上的Mel Frequency过滤被是模型获得强劲表现所必需的预处理步骤,所以,将深度学习直接应用到音频信号上到目前为止还并不太成功。随着我们有计划地研究更强力的深度学习架构,我预测这一点将会在未来几年里得到改变。

Brian Quanz,机器学习博士,在搜索领域运用机器学习算法的研发人员

不,不同的问题将会始终有不同的最佳模型。要做的事情是找到最适合你的数据的那种方法。不存在对任何问题来说都是最佳方法的万能模型(也就是“天下没有免费的午餐”定理)。

每一种方法都有一些偏差(bias)和一些波动(variance),如果你的模型越接近真正的潜在模型(underlying model),那么平均来说你用这种方法能做到的效果就越好。一个基本的例子是,对于总体平均值做估算时,对所有样本做平均是一种常用的很好的估算方式,但这比起只会返回一个固定值作为平均值、大小又恰好等于潜在的真实平均值的估算来说,会有更高的风险(更大的错误概率)。

也就是说,用固定值来做估算会有很厉害的偏差、波动也相当小,但如果它恰好就是那个正确的值,那么它就会带来最好的表现。

核心观点是:

“天下没有免费的午餐”定理

http://www.statsblogs.com/2014/01/25/machine-learning-lesson-of-the-day-the-no-free-lunch-theorem/

http://www.aihorizon.com/essays/generalai/no_free_lunch_machine_learning.htm

http://no-free-lunch.org/

偏差-波动的权衡

http://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff

更多实际应用的例子:

1.比如说,如果对于一些输入的参数,你有一系列反应值(response values),你把这些数据画在图上,可以看到很清晰的线性变化的趋势。你是打算尝试用一个深度神经网络来学习模型呢,还是打算用一个简单的线性回归来做拟合?

2.从Kaggle机器学习竞赛中可以发现,表现最好的方法在各场比赛中都是不同 的,许多时候都能看到随机森林比深度学习方法表现更好。大部分时候,给出 最佳结果的方法都是许多不同类别方法的混合体。

3.虽然深度网络方法已经在图片分类之类的视觉学习任务中变得非常流行,我 却认为贝叶斯非参数性方法(比如潜在狄利克雷分配(Latent Dirichlet Allocati on)和层次狄利克雷过程(Hierarchical Dirichlet Process))一样也很流 行,并且对于处理文本数据很有效——虽然它的一些延伸也可以被认为是深度 学习,但和深度学习方法的视角是不同的——也就是说,它的生成过程看上去 没有深度学习那样黑盒,而更是一个概念模型(conceptual model)。

另外,在选择方法的时候还有许多其它问题需要考虑——一些人提到过,有时为了满足对于可解释性、资源局限、算法/软件复杂度、系统/软件可维护性、可扩展性等方面的特定需求,其他的方法可能会比深度学习方法更适合被选用。

Aapo Kyrola,卡内基梅隆大学博士生

事实上深度学习通常(或者说总是?)与基本的机器学习算法一起使用:深度网络是用来从原始数据(或者稍微处理过/正态化过的数据)中学习特征地图(feature map),然后SVM、逻辑回归、随机森林等等就会被用来在深度网络提供的特征向量的基础上完成分类的任务。特征值会由最终输出层的活动(activations)来给出。

比如,在那份Quoc V Le等人(与Google一起)的有名的“猫咪探测器”论文(文末附下载)中,他们使用了One-vs.-All逻辑分类器来进行最终的分类。

所以深度学习可能会慢慢取代特定功能的特征提取器(比如提取图片特征的SLIT),但在许多其他案例里它只是一个补充部分。

来源:Quora 译者:王婉婷 新智元(微信号:AI_era)

·氧分子网(http://www.yangfenzi.com)延伸阅读:

Facebook深度学习专家:未来的人工智能是怎样

诺蓝:大数据创业,数据哪里来?需要跨过几道坎?

MOOCs Coursera创始人吴恩达:翻转课堂

现在创业就去搞人工智能!风投们喜欢砸钱

颠覆的思考:互联网产品之间也能被重新定义

中国脑计划紧锣密鼓,类脑计算和类脑智能研究中心成立

您可能还喜欢…

2 Responses

  1. 傅盛雪球分享:深度学习的机会在应用结合,而不是技术输出说道:

    3月25日,我受邀参加2017雪球中概股高峰论坛,跟雪球社区各位支持猎豹的朋友们分享我对深度学习的一些新思考,以下为部分演讲原文,分享给你们:)
    最近,中国最火的两个话题:一个是人工智能,一个就是北京房价。北京房价起起伏伏,牵动了我们的心。

    回想,我来北京不久,被我的房东赶来赶去,实在没地方住了,咬牙在通州买了房子。我记得,那时房子均价3000多块,当时身上只有几万块。交房时,我坐在一楼小阳台,心想——一个月供三千块,还不起怎么办?后来,横下心,大不了把房子卖了,回老家。

    一晃几年,通州也不是当年的通州了,房价也涨成这样,四处都是哀嚎一片。

    那个时候,我作为北漂一族,也是一点点靠自己的努力,奋斗着。从未想到,有一天,猎豹能登陆纽交所上市。2014年5月8日,我站在敲钟台,看着台下忙忙碌碌的纽交所员工,按响了敲市钟。当时的我,感慨万分。

    我在想,我为什么能从一个月供3000块而惶惶不可终日的北漂,成长为一个有机会做成一家美国上市公司的人呢?

    这么多年,我一直在不断思考。

    我认为并不是因为我多么出色。有一天,有那么一个机会,我进入了互联网,进入了一个当时被绝大部分人都不看好的行业。

    这个行业,在传统行业的公司看来,无非就是一个Web Page;在技术人眼里,它就是一个TCPIP(又名网络通讯协议);在传统硬件厂商那里,它就是一个简单的门户。总之,它没什么新奇特别的。

    然而,却有一帮无所畏惧、不知天高地厚的年轻人,在这个行业里不断打拼,孕育了一批又一批互联网的创业者。这些创业者,要说起点,我并不认为有多高。但在这个行业,他们获得了其他行业所不能获得的认知。他们对整个互联网的理解,对用户的理解,对信息传递的理解,远远超越了工业时代那一代又一代人的整个积累。

    正因为这样一个单点的突破,使得像我这样一批创业者有幸崛起。

    认知是人类前进的唯一武器

    我读过一本书叫《人类简史》,当时特别激动,于是飞到以色列,拜见了这位作者,请他到北京做过一次交流。为此,我写过一篇文章《认知是人类前进的唯一武器》,包括智人的崛起,就在于认知。不是因为智人脑容量比别的动物大,核心是他们能让很多人相信一个虚拟的事情或概念。

    人类从相信过去的先贤,相信孔子,相信穆罕默德,相信释迦牟尼,变成了相信科技。相信科技改变生活。尤其,过去20年,中国坚信了互联网。

    互联网是全人类的头脑风暴。它就像珊瑚一样,珊瑚很弱小,但一个腔体能把所有珊瑚连接在一起,长成巨大坚硬的珊瑚礁。互联网,可想像成一个网络。它将以前散落在全世界的、聪明的脑袋连接在一起,使得所有人快速作思维的碰撞。

    正因为这样,人类知识的传播时间,极大被缩短。过去,一个概念的传播,至少需要100年,或是几百年。像牛顿的几大定律,如果要传到中国,最终变成中国的生产力,经历了从鸦片战争到洋务运动,再到最后的新中国,我们才真正接受了这样的现代科学知识。

    到今天,一个AlphaGO出现,世界各地都在研究它的论文。这个传播速度已在极快地缩短,这背后孕育着巨大的生产力。

    人和人之间最大的差别就在于认知

    我再把这个概念与人结合起来。我们不妨思考一下:一个人怎么才能从一群人中脱颖而出?一个人如何才能变得与众不同?

    我记得,第一次见雷总时,内心激动万分。那时,他刚离开金山,朋友引荐我们认识。见他前,我还在幻想,他的脑袋后面是否会有一个光环?第一次见马化腾时,我也在幻想,这个人是不是三头六臂?

    后来,跟他们交流久了,也经常去讨教,发现其实他们都是非常勤奋的一帮人。雷总每次跟我聊天,到半夜还非常亢奋。腾讯也有很勤奋的一群高官。某次大战,我跟腾讯有过亲密接触。有一次我约Pony和Martin,他们说你晚上12点有没有时间。

    你看,都是一帮很勤奋的人。

    但,勤奋的人也有很多啊,到底是什么造成了他们现在都还像神一样地存在呢?我们有没有机会接近他们?

    我在最近的一篇文章《所谓成长就是认知升级》专门总结一句话叫:技能的差别是可量化的,而认知的差别不可量化,是本质的。也就是说,你对一件事的观念和看法,决定着你对一件事情坚信的坚决度,以及能不能快速掌握信息并做出正确决定。这可能是人和人之间最大的差别。

    认知是唯一的壁垒和成长的核心。猎豹抓住的上一个认知是中国互联网的国际化,那么,下一个机会是什么?

    猎豹关于深度学习的三个机会

    我看到的一个机会是深度学习。很多人会说,深度学习就是一个概念,你为什么要做深度学习?AI+时代,你有什么机会做出深度学习?

    我想,从三个点来讲,为什么猎豹会有机会?当然,这三点的前提是——移动互联网本质的核心竞争已经结束。

    第一,深度学习是算法革命。它把分散在各个领域的算法集中起来了。以前做语音的、做图像的、做无人驾驶的,做SLAM空间定位的,每一项都是一个专业,专业之间的算法差别也非常巨大。

    但有一天,突然有一个东西出现了——叫深度学习,既可解决语音和图像问题,又可解决无人驾驶问题,可解决股票交易问题,还可解决下围棋的问题。人类历史上从未出现这么有魅力的东西。

    随之而来的芯片革命也已经开始。去年年初,NVIDIA股价从20多亿美金,涨到年底100多亿美金。有一个NVIDIA工程师告诉我,2014年他们的CEO上台,在内部会议上说放弃Mobile CPU,全力以赴做GPU,整个公司都快炸锅了。但事实证明,他们在这里的深远布局,做得非常对。

    为了解自动驾驶技术,我专门拜访过以色列的Mobile eye,前不久刚被英特尔收购。拜访完了之后,我认为,Mobile eye很快就会被NVIDIA颠覆掉了。因为Mobile eye所有的算法都是基于传统的CV算法。

    包括谷歌的无人车也一样。我跟他们的创始员工聊了两个晚上。聊完以后,我买了两辆特斯拉。我的P90D跑在北京的五环上,已可放开双手,自由直播。而谷歌的无人车,还在那里,进行工程化演算。

    你会发现,其实真正恐慌的应该是大公司。

    因为他们积累了很多的技术,不管语音,还是视觉,在深度学习的冲击下,很多算法都被颠覆掉了。前不久,我见了一个国内某知名大公司实验室的负责人。他说他做了7年翻译,后看到谷歌一篇论文,突然发现,他原来做的翻译技术,全白积累了。

    深度学习本质在降低技术壁垒。如果以前猎豹要出一个语音产品,我都不敢想象;或者猎豹自己的人脸识别,能做到全球排前几名,我也不敢想像。但近期,我会披露一些我们取得的一些成果。

    我认为,越是大公司喊他们想做的,其实越是他们恐慌的。

    第二,算法驱动变成数据驱动。每一篇论文对整个行业还是有推进作用,但由于基本算法模型的固定化,算法的驱动力,已大大降低。当然,我们也希望有一个算法神人,再发一篇论文,又把某个领域往前推进几十年。

    但从整个动向来看,比如斯坦福大学教授李飞飞加入Google,都表明这场人工智能的革命,是以工业化和数据驱动为主的。数据量大了之后,产生的巨大推进量,可能远远胜于一篇论文。而大量的数据,同时也需要进行标注。

    所以,大规模标注数据,成为核心竞争力。

    这个概念有一点误导。比如你说话的声音,就像我现在说话,被上传到网上,它并不是人工智能可用的数据。你必须找人把声音数据里面的关键点标注出来,才是人工智能可用的有效数据。有一句话叫——人工智能今天还是,要多少智能,就需要多少人工。

    第三,深度学习的机会在于和应用的结合,而不是技术输出。深度学习的核心是数据驱动。虽然你有模型调参,有自己的优势,但别人有更多的数据调参,很快拉平优势。未来深度学习会变成基础的技术运用,很多公司都会具备深度学习的研发能力。

    举几个例子。我们收购了一家公司叫News Republic。两个季度内,我们用深度学习做出了个性化推荐系统,能把用户的点击行为,变成数据标注的一部分。

    我们还做了一个直播平台Live.me,现在是美国最大的第三方直播平台。每天有几十万的美国用户开播,会产生上千万张标准人脸。这个数据,使得我们能够精准地鉴别涉黄视频、小孩直播及无直播内容或不露脸的直播。

    猎豹会全力出击,用AI助力内容。我们新的使命是Make The World Smarter,成为一家有伟大技术理想的人工智能公司。

    这一次,中国在科技浪潮上是赶在美国前面的。深度学习有40%的论文都是华人发表的。我们跟这些专家沟通起来,已经没有语言障碍。今天中国的GPU运算能力和编程能力,也有了足够的积累。

    我相信,后手机时代一定会来临。手机使用时长,不会有爆发性增长了。越来越多的智能设备像Amazon echo ,和我们梦想中的机器人,一定会走进我们的生活。中国最大的机会就来自于人和机器人共存的时代。

  2. 【机器学习博士竞争力对比】美国ML高薪岗位排名及职业发展分析说道:

    来源:80000Hours 作者:Richard Batty 编译:闻菲

    【新智元导读】要不要读机器学习博士?根据美国教育职业咨询网站 80000Hours 的分析,答案是肯定的。如果你适合这份职业,攻读机器学习博士可能是你对社会产生影响力的最佳方式。退一万步说,机器学习博士学位有很大的可能让你获取高薪,而获取高薪后,你不是有机会做很多事情了吗?不论你是否决定读博,这篇文章都有参考价值。

    如今,每个人都想学机器学习;近几年来,这已经成了炙手可热的领域。

    那么,盛誉之下,机器学习名副其实吗?从某种程度上说,确实如此,机器学习的成功体现了它的实力。

    所以,如果你有理工科背景(不一定要学计算机科学专业),想为这个世界做点事情,那么读取机器学习博士学位不失为一个好的选择。机器学习 PhD 能让你拥有使用和塑造这项造福全人类技术的能力。退一万步说,ML 博士证书也能为你敲开许多高薪职位的大门。

    接下来,这篇文章将解释为什么机器学习有这么大影响力,你要如何才能学好机器学习,怎么样、去哪里申请相关的博士学位。这个简介中的大部分信息来自与几位机器学习博士的交谈,包括 DeepMind 的研究科学家,一家机器人创业公司的联合创始人(也是计算机视觉博士),以及顶尖大学的博士生。 此外,我们也大量参考了这份计算机科学博士学位的在线指南[1],指南的作者是 CMU 计算机科学系教授 Mor Harchol-Balter,最后更新于 2014 年。

    核心要旨(太长不看版)

    机器学习 PhD 会将你置于一个对全人类发展至关重要的领域。你能用学到的技能对人工智能的发展产生积极影响,使用机器学习技术解决亟待解决的全球性问题。退一万步说,你能挣很多钱,将来捐献给慈善事业。凡是拥有理工科背景的人(本科不一定学计算机)都能读机器学习的博士。

    优点

    研究潜力巨大
    掌握可以说是未来十年最重要的一项技术
    毕业后极有可能获得高收入
    与有能力的同事进行思维智力交锋

    缺点

    需要 4-6 年,工资相对较低
    需要大量的工作,没有多少反馈,这使许多人失去信心
    有泡沫存在的风险,这导致将来更难找到工作

    综合评分

    职业影响力 ★★★★☆
    工作影响力 ★★★★☆
    收入水平 ★☆☆☆☆
    社会影响力 ★★★☆☆
    困难程度 ★☆☆☆☆
    岗位满意度 ★★★☆☆

    职业描述:机器学习博士是做什么的

    一般而言,我们必须明确告诉计算机要做什么。但是,对于那些很难预先给出确切步骤的任务,这样做就行不通了。相比之下,在机器学习领域,程序员制定软件“学习”的“规则”,也就是算法,而不是直接对软件编程。这意味着我们可以构建能够自动改进体验的系统。

    在攻读机器学习博士学位的过程中,你将学习如何设计和实现这些算法。你的博士研究可以涵盖这些课题:创建可以标记视频内容的程序;改进技术,了解机器学习系统如何做出预测;分析在线文本以了解社交行为过程,比如在线俚语如何传播。

    你可以查看高校网站(例如斯坦福大学)和以前的论文列表(例如多伦多大学和卡内基梅隆大学的网站),找到更多的研究项目例子。

    机器学习是计算机科学的一个子领域,与统计学密切相关。统计学和机器学习的目的是从数据中学习,许多概念和数学工具都是共通的。

    但是,与统计学不同,机器学习更注重构建软件进行预测,通常应用于较大的数据集,对于数据及其收集方式的假设也更少。

    读机器学习 PhD 的日常是怎么样的

    在美国,博士通常持续 5-6 年。头两年你会上课,在剩下的几年里做研究。英国的博士学位较短(通常为 4 年),只做研究。与美国的博士不同,英国通常要求你完成硕士课程,但这取决于具体的大学。

    对于研究,你需要撰写论文,论文就是对特定课题进行长期深入的探索,或者相关主题的论文集(在美国更为常见)。你的研究将经历几个阶段,从完善你将要探索的主题开始,然后从事相关研究项目,最后编写论文。

    你将花大部分时间编程,做数学题,阅读论文,思考,并与合作者讨论你的想法。

    为什么要读机器学习 PhD:优缺点分析

    5 大优点——将来可能高薪、自主性强、接受智力挑战、了解重要技术、推动人工智能发展

    1. 了解未来十年最重要的技术

    得益于理论突破、数据可用性和投资的增加,还有处理能力的提高,机器学习在过去十年中取得了飞速发展。机器学习已经成功应用于许多以前未解决的任务,包括自动驾驶、图说生成、游戏、操控直升机、合成语音和电影推荐。

    商业利益爆炸式增长,推动了公司对技术型员工的需求和大型企业在收购机器学习初创公司方面的兴趣。2014 年以来被收购的大部分机器学习团队,收购方为每位员工所支付的平均价格为每人 250 万美元,有一家甚至出到了每位 1000 万美元。

    技术不断改进,我们将能使越来越多的人力劳动自动化,并解决以前难以解决的问题。最终,我们可以制造出在大多数任务中比人类更有能力的软件。

    这种进步将从根本上改变社会,其结果可好可坏。我们可以看到自动驾驶汽车的出现使交通事故死亡人数急剧下降,医疗诊断费用更便宜、医疗诊断更为准确,危险或枯燥工作由机器代劳。

    同时,也可能出现自动化武器,社会普遍失业,政治和经济权力集中在少数人手中。更令人担忧的是,如果我们开发的软件具有高度智能,但有违人类的利益,那么这可能会产生灾难性的后果。

    由于这些原因,我们认为机器学习是未来几十年中最重要的领域之一。尽管近期世人对机器学习兴趣有所增长,但这一技能仍然只掌握在相对较少的人手中。

    2. 积极塑造人工智能的发展

    根据我们的调查 [2],积极塑造人工智能的发展是对未来人类社会影响最大的问题领域,需要更多的机器学习专家参与,因此我们认为,从事这方面的工作是机器学习博士的最佳选择。(如果你在另一个高优先级问题领域有重要的经验,或者不同意我们对此重要性的评估,则不适用。)

    拥有机器学习博士学位能给你良好的技术背景和信誉。在这个方向,主要有两条路可走。

    1)技术安全研究

    当前,人工智能技术研究人员存在短缺。机器学习博士可以为此做好准备。

    2)政策与战略研究

    AI 政策有助于政府、公司和非营利组织等机构的决策者设计和实施有助于塑造 AI 未来的政策。政策相关的工作岗位包括制定政策选择的研究人员和倡导和实施政策的从业人员。

    3. 将机器学习应用于其他重要的社会问题

    在美国,败血症和败血症休克占所有重症监护病历的 10%,所有医院死亡人数的 20-30%。约翰霍普金斯大学的科学家开发了一个名为 TREWScore 的机器学习系统来解决这个问题。相比标准的筛选方法,TREWScore 可以提前几个小时检测发生脓毒性休克的高风险患者,从而加速治疗。

    机器学习可以用来解决有很多紧迫的问题,包括:

    健康医疗:改善诊断,预测登革热疫情,减少不适当的抗生素使用
    全球贫困:使用机器学习推算适合使用太阳能的家庭用户,使用卫星图像找出适合进行现金转账的村庄
    动物福利:预测哪些植物蛋白质最适合制作植物性肉类

    要从事这样的工作,你需要了解那些能将你的技能学以致用的社会问题。要获得这样的知识,你可以在公司或研究项目中实习,与其他工作人员交流。你可以在一家成熟的公司工作,开创自己的公司,或进行学术研究。

    4. 获得高薪

    市场对机器学习专业的需求使相关的职位都属于高薪范围:

    这些数字包括仅需要硕士或学士学位的岗位,我们预计博士学位的收入将处于上述范围的高端。

    这样的薪水可以让你赚钱,然后捐赠贡献社会。当然,这只是备选,比起捐赠,机器学习博士可以有其他更多的方式对社会做出更大的贡献。

    由于机器学习的快速发展,相关技术能解决各种问题,相关的职业收益潜力很高(我们预计未来十年将持续保持高位)。然而,由于许多人有兴趣进入这一领域,也会有薪资下降的风险。

    机器学习技能在技术创业公司中很有用,最近机器学习初创公司也在不断涌现。Y Combinator 前不久首次为 AI 创业公司增添了专门的渠道。大型公司近年来一直在收购 AI 创业公司,这些收购的价值通常取决于初创团队人员构成,而不是更常见的收入指标。自 2014 年以来,被收购的 AI 初创团队,每位员工的平均身价是 250 万美元,有一家甚至达到了 1000 万美元。

    有业内人士告诉我们,机器学习博士学位很容易能在对冲基金领域能找到高薪工作。

    5. 从事极富挑战、自主性高的工作

    你会与一些地球上最有能力的人一起,从事思维上极具挑战的工作,你会对机器学习拥有深刻的理解。你有自由选择做什么,以及在什么时候做。

    3 大缺点——不利于心理健康、花很长时间、将来竞争风险可能升高

    1. 对心理健康是个挑战

    虽然你在读博士的过程中做的工作令你很有成就感,但读博士也是众所周知的一场心理斗争。这通常是由于孤独,还有很难去适应高度自主的工作:“做研究可以让人感觉非常好,也可以感觉非常糟。大多数学生将读研称为过山车,峰值特别高,谷底特别低。”

    2. 会花很长时间

    读博士需要很长时间(4-6 年),在此期间你的薪酬相对较低。如果退学,你不但得不到博士学位(也丧失读博的大部分价值),最终结果可能还不如当初选择其他薪酬更低但回报快的职业。

    3. 机器学习可能会变得更有竞争力

    机器学习现在是很多人都想要进入的热点领域,所以也有很多风险,因为很多人聚集在这个专业,就业就变得更加困难。例如,MIT 机器学习导论课程最近有 700 人注册,学院不得不另外找人多的教室上课,还故意出很难的题目,让学生尽早挂科。另一方面,如果机器学习的发展速度比预期慢,没有达到炒作的程度,那么就业人数也可能会缩水。

    如何申请并被录取?能不能做好研究是关键

    要被录取,你需要有很强的理工科技能,通常本科学计算机科学、数学、工程、定量经济学或物理学来获得。最起码,你应该学过概率和统计、多变量微积分和线性代数。

    我们也知道一些没有理工科背景,被机器学习硕士研究生项目录取的人,但这十分罕见。这需要你在其他地方(比如 MOOC)自学相关的数学课程。

    在英国和欧洲其他地区,要读机器学习博士你一般需要先读机器学习硕士学位或计算机科学、数学等相关课程,但这取决于具体的大学。在美国、加拿大和澳大利亚,则通常没有这个必要,不过掌握这些绝对没有坏处。

    不需要硕士学位的课程通常长于 1-2 年。如果你打算读硕士课程,那么两年制学位更好,因为你有更多的时间去做研究,而做研究是进入顶尖博士课程的关键。

    根据在线指南和我们与业内人士交流的结果,是否被录取几乎完全取决于你能不能做好研究。

    怎样才能表现出你能做好研究?

    首先,你需要做过研究。如果你还是本科生,最好跟着你大学的老师做研究,或者申请一个暑期研究职位。许多研究小组都有本科生暑期研究职位,其中还一些是会付工资的(比如 REU)。

    如果你要读机器学习硕士,选择一个有很强研究组成部分的项目,并尽快开始做研究。理想情况下,你应该在完成学位前先发表 1-2 篇论文。最不济,你至少应该完成了一篇研究论文,哪怕没有发表——研讨会论文、审查中的论文,还是上传到 Arxiv(任何人都可以提交),这些都管用。完成研究论文十分重要,如果没有把这件事做完,我们不建议你完成学位。

    其次,你需要好的推荐信,理想情况下这封推荐信来自于领域知名学者,并且是你要申请的导师认识的人。推荐信要能够突出你做研究的潜力,而不仅仅是你学习能力强。

    第三,你需要写一篇文章,介绍你的研究经验和你想要研究的事情。

    第四,除非你打算做纯理论研究,你需要展示你编程的能力。证明这一点的最好办法是上过编程课程,或在工作或实习中有商业编程经验。

    虽然不是必需,但对开源机器学习项目做出贡献,撰写有关机器学习技巧的博客文章,或参与 Kaggle 等竞赛也可以写进来。

    如果申请美国大学,成绩(和 GRE 成绩)比研究经验和推荐信更重要。根据上述指南和我们交流过的专家,你的平均成绩(如果去美国大学)至少应该 3.6。不过,3.6 以上的分数并不会改变你没有研究经验的事实。有 3.6 之后就看研究经验了。

    你的整体 GRE 一般应在 TOP 10% 或更高。理工部分的分数比口语和散文分数更重要,目标应在 165 分以上(≥95%),理工分数和总分 ≥90%(位于前 10%)。

    近几年机器学习博士学位越来越热,许多院校今年的申请数量都创下历史新高。这可能会在未来几年增加入学要求的水平。另一方面,由于产业资助,更多的高校可能开设机器学习博士培养项目。

    如何选择研究组和机构?

    根据在线指南和我们实地交流的业内人士经验,最重要的标准是:

    1. 研究组的声望。这个研究组应该是一个持续在顶级机器学习会议发表论文的团队。热门会议有哪些呢?

    主要:ICML,NIPS,COLT,AAAI,UAI,IJCAI,AAMAS,ICLR
    次要:AISTATS,ECAI,ECML,ALT
    应用:ICCV,CVPR(计算机视觉),ICASSP(语音),ICRA(机器人),EMNLP,ACL(NLP)

    2. 你的导师:不要只看大学或学院的名声——你的导师对你的成功至关重要。

    选择一个能和你一起工作并支持你的导师。你可以跟他现在的学生谈谈,看他们是否对你目标导师满意。
    确保你导师的研究兴趣和你的兴趣一致。
    如果前两个标准都符合,那么请去申请成功的,有声望的导师。负责大型实验室的著名研究人员通常拥有更好的资金和人脉,但是往往太忙而无法对你的工作及时反馈,因此可能比较难以处理。选择一位不那么有名但能及时提供帮助的导师可能会更好。或者,你可以在大学里同时选择多名顾问/导师。如果你在感兴趣的领域有多名顾问/导师也很有帮助。

    3. 导师和实验室的稳定性和资源。你应该找一个稳定、资金充足的实验室和导师。或者,你申请到奖学金(如 NSF 和 NSERC 的奖学金),那么你可以和资金较少的导师合作。同时,记得查看你的目标导师是否在考虑在你读博期间换实验室。读博中途导师离开对你来说可能是灾难性的,因为你可能很难找到另一位合适的导师。
    教学负担:有些部门要求你做很多的教学工作,减少你做研究的时间。

    4. 实验室氛围和兼容性:你会与其他学生和博士后合作并一起学习。因此,实验室的氛围是很重要的,如果可能,你最好能参加实验室的研讨会,或与现在的学生交流一下。

    5. 选一个你开心的地方:在人生地不熟的地方读博是很困难的,选一个至少让你开心的地方吧。

    6. 有高影响力的研究工作:例如,如果你想从事人工智能安全方面的工作,那么在大学里有人工智能安全研究小组是十分有用的,你可以在你的博士期间从事相关的工作,并且与领域内的其他研究人员建立联系。

    加分项:

    与当地产业的联系:如果你想了解在博士后期间做什么,那么你可以考虑与当地产业的联系。因此,如果你对创业公司或大型科技公司感兴趣,旧金山湾区的大学,比如斯坦福大学和加州大学伯克利分校是优选;为了更好地与 DeepMind 建立联系,你应该能去英国读大学。

    整体项目的声望:如果要读机器学习专业,那么机器学习专业强的研究组比整个大学的名气要重要得多。

    举例来说,如果你想攻读 AI 安全相关的博士学位,下面是一份不完全列表:

    伯克利(Stuart Russell)
    剑桥(Zoubin Ghahramani)
    蒙特利尔大学(MILA)
    阿尔伯塔大学(RLAI 研究组)
    伦敦帝国学院(Murray Shanahan)
    牛津大学(Michael Osborne)
    麦吉尔大学(RLLAB)
    澳大利亚国立大学(Marcus Hutter)
    阿姆斯特丹大学(Max Welling)
    斯坦福(Percy Liang)
    CMU(Emma Brunskill)
    多伦多大学
    IDSIA(Jürgen Schmidhuber)
    哈佛(HIPS)
    麻省理工学院(Joshua Tenenbaum)
    Google DeepMind
    谷歌大脑
    FAIR
    OpenAI

    选择什么研究课题:深度学习

    以下是最有希望的一些课题:

    深度学习

    虽然不同的机器学习方法对不同的应用都是有用的,但是深度学习在过去10年终取得了令人瞩目的成功。深度学习是受人类大脑网络结构启发的一种方法,尽管二者之间差异很大。

    深度学习帮助我们解决了许多以前的人工智能技术无法解决的问题,包括在图像识别问题上的成功,以及“预测潜在的药物分子的活性,分析粒子加速器数据,重建大脑回路,预测非编码DNA突变对基因表达和疾病的影响。”

    由于深度学习取得的许多成功,深度学习的专业知识不管对在机器学习前沿工作的公司,还是积极促进AI发展的研究者来说都是很有价值的。

    强化学习

    利用强化学习,软件根据其环境采取行动,以最大化地得到编程定义的奖励。例如,下面的视频展示了 DeepMind 的玩 Atari 游戏的软件。它的目的是得到最高的分数,并通过来回移动拍子采取行动。

    强化学习很重要,因为它是一种创建可以执行多个不同的任务的AI的有前途的方法,而当前大多数机器学习系统的适用性非常窄。

    鉴于深度学习现在非常热门,学强化学习方向的博士可能不像深度学习那么困难。你也可以同时学这两个方向,即深度强化学习。

    应用

    如果要实现机器学习的某种应用,例如视觉识别或语音识别,那么需要考虑的有几件事情。只要你具有基础的机器学习方法,选择什么应用区别不大。但是,选择在什么应用工作仍然需要考虑。

    理想的工作是已经取得一些进步但仍有提升的空间的领域。

    在读博期间获得产业实习经验

    在企业实习可以成为读博的有益补充,能让你了解行业的工作原理,获得实践经验(比如谷歌的基础设施),还有工作机会,激发你新的研究方向。从机器学习社区的声誉来看,企业机构分为几等:

    顶级:DeepMind,OpenAI,Google Brain,Facebook AI Lab(FAIR)
    第二梯队:百度,微软,亚马逊,Twitter,苹果,IBM
    第三梯队:深度学习初创公司(点击下图,查看 CB Insights 总结的 60 家值得关注的 DL 初创公司),机器学习公司(点击下图,查看机器智能 3.0 市场图景),以及培养博士生毕业生将其技能应用于行业的公司

    CB Insights 总结的 60 家值得关注的 DL 初创公司

    CB Insights 日前汇集了美国市值超过 10 亿美元估值的独角兽公司地理分布情况,新智元结合该公司今年 9 月汇总的 2016 年全球值得关注的 60 多家深度学习初创企业,更新数据。一起来看看这些独角兽和深度学习企业之间都有哪些联系吧。【继续阅读】

    【彭博研究巨献】机器智能 3.0 市场图景

    今年的 3.0 版生态全景图,比两年前的第一版增加了三分之一的公司,而且更加详细、尽量全面,但它也只触及了这个领域无限活力的表面。机器智能堆栈的“一站式服务”(one stop shop)第一次进入人们的视野——尽管它正式化需要一至两年。这种堆栈的成熟或能解释,为什么越来越多的著名公司更加专注于建立合法化的机器智能。任何对此时刻保持头脑清醒的人能够做出初期的发展和购买决定,所以我们认为尽早尝试布局这些技术比不尝试更好。【继续阅读】

    读其他博士学位期间获得机器学习产业实习经验

    在你读其他理工科博士学位时,比如应用数学,统计学或物理学,也可以进行机器学习研究。如果你想尝试这种可能性,首先要在大学机器学习实验室进行会谈,参加研究小组会议。然后,你可以看看是否能与那里的研究人员一起工作(一般都可以这样做,不需要转专业或换导师),或者安排对研究组进行几个月的访问交流。

    参考资料

    1、80000hours.org/career-reviews/artificial-intelligence-risk-research/
    2、Applying to Ph.D. Programs in Computer Science
    3、‘The field of Machine Learning seeks to answer the question “How can we build computer systems that automatically improve with experience, and what are the fundamental laws that govern all learning processes?”’ Mitchell, Tom Michael. The discipline of machine learning. Vol. 9. Carnegie Mellon University, School of Computer Science, Machine Learning Department, 2006.↩
    4、web.archive.org/web/20170313102628/http://shikharsharma.com/publications/msc-thesis.pdf

    编译来源:80000hours.org/career-reviews/machine-learning-phd/

发表评论

邮箱地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>