2016年4月14日(周四)21:00 – 22:30,酷我创始人、北大大数据与机器学习中心联合主任雷鸣先生以线上对话的方式,在微信群中与人工智能领域专家吴恩达(Andrew Ng)、徐伟对话,畅谈深度学习的现在与未来。此次活动一共有近10,000人参加。
嘉宾介绍
吴恩达(Andrew Ng):百度首席科学家,“百度大脑”、“谷歌大脑”负责人,斯坦福大学计算机科学系和电子工程系终身教授,人工智能实验室主任,Coursera联合创始人
徐伟:百度IDL杰出科学家,前Facebook大规模推荐平台负责人、NEC lab高级研究员
内容
1)深度学习的技术现状和未来发展
2)语音识别、计算机视觉和自然语言等领域的现状、挑战和未来发展预期
3)自动驾驶、机器人等AI技术产业化的未来预期和相关探索
4)对于AI领域专业人士的职业发展建议
深度学习的技术现状和未来发展
【雷鸣】首先我们探讨第一个问题:深度学习的技术现状和未来发展,是否会成为通用基础技术?现在深度学习非常火热,被吹得神乎其神。这个技术是否会成为某种意义的终极技术?
【徐伟】深度学习是为人工智能的一个重要部分。未来人工智能会是运用非常广泛的技术,所以深度学习也将被广泛使用。
【吴恩达】关于第二个问题,现在确实有太多关于深度学习的夸大的宣传。我认为深度学习正在创造很多价值——帮助我们把海量数据转化成巨大的价值;同时,我也相信深度学习在未来若干年仍将继续创造巨大的价值——我们仍有太多的想法需要去实现,却只有很少的人在做这些事情。但是,我们离真正人类水平的人工智能还相差甚远,而且也还没有找到清晰的实现路径。我认为一些相关的炒作是不太负责任的。人工智能会对整个社会有很大的影响力,所以我认为,对于我们来说了解清楚它能带来什么和不能带来什么是非常重要的,所以我们需要制定相应的规划。
【雷鸣】一个问题,如果在有比较充分的数据和运算能力的条件下,是否深度学习可以超越几乎所有的经典的数据挖掘算法?
【徐伟】可以说对大多数监督式学习问题,深度学习会超越传统的算法;对于一些非监督学习的问题,似乎还不是很明确。
【雷鸣】@徐伟,那对于半监督学习呢?
【徐伟】目前为止一个比较成功的非监督的例子是word embedding;不过也有很多人不认为word embedding 是深度学习。另外word embedding 和传统的非监督学习也并不完全一样,实际上运用了上下文作为监督。我认为非监督学习要取得成功,实际上更会使用类似这样的弱监督学习。
【吴恩达】我同意徐伟的观点。深度学习所创造的所有价值,现在大部分都是监督学习,也就是学习相对简单的A–>B映射。举例来说:可能A是一封电子邮件,B表示A是或不是垃圾邮件,这就是一个垃圾邮件过滤器;或者A是一个图像,B是一个对象标签,这就是物体识别。有了很多标记过的数据(例如A,B配对)和一个足够大的网络,你可以证明一个深度学习算法可以以极高的精度学习任意函数。近期最激动人心的重大突破之一就是:深度学习算法现在可以学习一个A–>B的映射,其中B不只是1 /0或一个整数(如前述的例子),而可以是非常复杂的事情,比如一句话。
【雷鸣】@Andrew,你在说自然语言吗?是指的翻译,语音识别,还是语义处理级别的?
【吴恩达】例如:如果A是图片,B是对应的文字说明,就是图说 (第一篇论文由徐伟以及他的同事发表);如果A是英语句子,B是法语句子,就是机器翻译(可以参考Ilya Suskevar等人的研究);如果A是图片问题对,B是相应的答案,这个问题就变成了基于图像的QA问题(也是徐伟的成果)。监督学习在机器翻译和语音识别里得到了广泛的应用。例如,在百度语音识别系统里,我们最大的成就之一是利用大规模的神经网络系统让机器学习将语音片段映射到相应的文本。坐在我身边的Tony负责其中的普通话识别版本,我们相信这个系统是目前最好的普通话识别系统。
【雷鸣】看起来不仅仅是语言,还包括了图像,这个进展是非常大的。
语音识别、计算机视觉和自然语言处理等领域的现状、挑战和未来发展预期
【雷鸣】下面我们聊一下在一些领域,深度学习带来的新的进展。比如说语音识别,我前些时间到百度美国研究院,看到Andrew给我演示的语音识别:在非常大的噪音环境下,我基本上听不出来里面的人说什么,但是语音识别出来了;之后我仔细听,发现语音识别是对的。@Andrew,方便介绍一下全球在语音识别方面的最新进展吗?对于语音识别,随着技术进步,我们做出超过人对人声识别的系统,是否是一个必然结果?
【吴恩达】我认为语音识别会逐步使用端到端的学习方法。在这些方法里,数据集的大小是影响性能的重要因素。最近我发现使用基于attention模型的结果很好。我们的工作也深受Alex Grave在CTC工作上的影响。
目前还有两个主要的挑战:第一个是对于长句子的识别。我们的语音识别系统,在没有上下文的时候,对短句子的识别超过了人类的水平;然而在有上下文的情境下,比如在长对话中,系统的识别效果还是不如人类。另一个主要的挑战就是理解文本的内容,而不仅仅是转录。
尽管如此,我还是很期待建立一个语音驱动的世界。就如乔布斯用触摸屏改变了我们与手机交互的方式,我认为语音会在未来进一步改变我们与机器交互的方式。
【徐伟】目前的语音识别系统还没有像人那样能够很好的利用上下文信息。
【雷鸣】另外一个问题是关于图片识别以及视频内容识别,全球的最新进展如何?微软最近的一个图像识别的进展,用了100多层的深度神经网络,得到了不错的效果。是否超深的神经网络,也是一个发展方向?
【徐伟】对像ImageNet这样的问题,目前的deep residue net的结果已经非常好了。目前我们也看到很深的模型在一些NLP也有很好的效果。对于视频内容,运算能力还是一个重大的瓶颈;只有百万级别的数据,训练就需要数天。
【雷鸣】对于计算机视觉,尤其是运动图像(视频)处理,当前的进展和挑战如何?在自然语言对话领域,现在深度学习应用的效果如何?
【徐伟】目前深度学习模型最大的难点之一还是记忆以及知识表达,还有推理也是一个难点。
【雷鸣】@徐伟,是否面临的最大问题,正如你上面说的,是记忆和知识表达?
【徐伟】深度学习模型还不能很好地利用已有知识库。
自动驾驶、机器人等AI技术产业化的未来预期和相关探索
【雷鸣】下面我们聊一下一些实用的领域,比如现在百度大力发展的无人驾驶,这块的挑战和机遇是什么?对于无人驾驶,在5年内我们真的能够在大街上乘坐商用的无人驾驶汽车吗?
【吴恩达】我很幸运我之前做过几次无人车的项目。百度无人车项目是我第四次参与无人车研发了。但是这一次是我有生以来第一次感到前路如此的清晰,来让无人驾驶成为现实!这也是我有生以来,第一次感到前路如此的清晰!下面是我之前几次研发的无人车。
【吴恩达】在中国,每天都有500人死于车祸。我们的无人驾驶技术早实现一天,就相当于多拯救了500人的生命,这将会是接下来的十年中,人工智能得到的最重要的应用之一。为什么我觉得这一技术非常有希望实现呢?一方面,我们有着远超从前的复杂的深度学习算法。我们非常荣幸林元庆先生几个月前加入百度,承担其中的重要工作;另一方面,我们也制定了独一无二的无人车发展战略——铁轨战略。
【雷鸣】@Andrew,你是说给无人驾驶汽车规定路线?那我们五年内有可能在大街上乘坐无人驾驶车吗?
【吴恩达】我们计划在2018年开始提供商用的无人驾驶服务,并在2020年前将其推广普及。下面是“铁轨战略”的核心要点:
不要试图将无人车一下子覆盖到每个地方,先从局部展开(比如固定路线或者小城市),然后逐步推广。
计算机驾驶车辆和人驾驶车辆有所不同:计算机从不醉酒,但也不能理解交警的手势。所以需要确保人们对无人车有切合实际的期望。
无人车设计要容易识别,这样大家才能立刻认出它们。
让无人车的行为高度可预测,可预测甚至比智能更能保证安全。
在自动驾驶区,适度改变一些基础设施,保证无人车知道它们需要做什么。比如,给应急人员配备同无人车交互的设备(例如无线航标器),确保道路维护良好,划线都很清晰等等。有了这些改变,我想无人车应该很快就可以上路了。
我们在北京和硅谷的团队都在快速壮大。在这一战略的指导下,我们非常地兴奋的看到,有大批的人都在申请加入我们,为“每天拯救500人”而努力!
【雷鸣】自动驾驶,一个挺科幻的概念,再有几年就满大街都是,真让人感慨技术发展速度啊。我们再谈一下机器人,Google现在要销售掉Boston Dynamics,让人非常震惊!
【吴恩达】是的!我想和在座的年轻人说几句话。我们处在一个独特的时期,这是一个人工智能将会改变世界的时期。如果你知道怎么运用人工智能,你今天的一个决策将有可能在接下来十年里改变世界。你的努力可能会拯救数以万计甚至百万计的生命。或许,你可以改变整个行业,帮助无数的人。也正因如此,我对人工智能如此兴奋!如果你还年轻,正在考虑未来的职业如何规划,我希望你能够考虑人工智能,加入百度或者其他地方的人工智能研发团队。让我们一起让世界变得更加美好!
【雷鸣】@Andrew,这确实非常激动人心!现在已经有无数的人为AI痴迷。现在的理科学生们确实都在学习机器学习。
【吴恩达】我很高兴听到有很多人对机器学习感兴趣。现在的问题是机器学习的想法和机会太多,不过能做的人太少。世界需要更多懂人工智能的人。
【雷鸣】@Andrew,你也多做一些好的在线课程,让大家多学习!这次活动,一共有20个大群,近10,000人参加,可见现在大家对AI是多么感兴趣。
【雷鸣】机器人真的离我们还非常遥远吗?是否近5年都没有巨大的商业化机会?
【徐伟】功能非常专用的机器人,应该还是会有很快的发展和应用。但像人那样的机器人,还比较遥远。self-driving car可能是最重要的一种。未来几年内,家用机器人还很难真正帮人做事。
【雷鸣】现在销售量最大的应该是扫地机器人,不过很多人都觉得他们不像机器人。那么在未来几年,会有那些机器人领域大放异彩?工业机器人?家庭机器人?服务机器人?
【吴恩达】机器人在一些垂直细分的领域也有了很多令人振奋的应用。除了无人驾驶,还有精准农业、电站自动检查、电子商务自动取件、安全机器人等等。这些机器人中,大部分的硬件和软件都是为了特定任务设计的,因此他们并非人形机器人。我认为,真正的通用机器人(并非工厂里面的机械臂)离我们还有一些距离。
【雷鸣】 你怎么看待亚马逊的助理机器人Echo,它在美国非常流行。
【吴恩达】我家里面就有一个Amazon Echo。我认为这是基于语音的智能家庭的一个很好的开始,但这一新的产业现在仍然处于最早期。亚马逊的产品给我留下很深的印象,但是从长期来讲,我认为现在来讨论这个产品是否正确仍然为时尚早。
【吴恩达】不过我的确认为在将来,我们可以与家里面所有的设备对话,让它们理解并且能回应我们。我期待几十年后,我们的孩子们会对我们今天的生活感到非常神秘。他们会感到非常不可思议,当你和家里的微波炉讲话时,它居然会不搭理你!
AI领域专业人士的职业发展建议
【雷鸣】对于AI从业的人士,Andrew有什么职业发展建议?
【吴恩达】人工智能发展的如此迅猛,从事这一行业的我们应该不断的学习。再一次,我想跟在座的年轻人共勉:每个周六,你可以选择看美剧,也可以选择学习。如果你学习,两天后的周一,你不会很快的就在工作中出彩,你的老板也不会知道你花了整天的时间学习,更不会夸奖你什么。你几乎找不到任何东西可以证明你在努力学习。但是我想告诉大家:如果你每个周末都这样努力工作,持之以恒,你会发现你已经突飞猛进。我认为,学习是一件几乎没有短期回报的事,但是从长远来看,回报却是非常丰厚的。
【雷鸣】非常鼓励的话,大家共勉!
【吴恩达】所以,一个巨大的挑战——我想大家都会遇到的挑战——就是让我们自己始终充满动力地学习,日复一日,年复一年!
【徐伟】说到reward, 延迟很久的reward目前也是deep reinforcement learning很难处理的一点。
【雷鸣】@徐伟,对人类也相当复杂的问题,对机器学习也一样啊。
问答探讨
【问】End to end的方法,对数据的依赖有多高?机器学习如何提高对数据的学习和处理能力,而不是所有的数据必须人工标注后才能使用?如果不能解决这个问题,AI如何真正的进化?
【徐伟】所以需要Agent在环境中能主动地获取数据,像人那样。
【问】深度学习应用在自然语言处理方面感觉还是不怎么理想。有这么一种说法:图像是你直接看到的,语言却是人类抽象之后的;特别是将深度学习应用在贴吧的帖子,或者电商网站上的评论数据,貌似效果都不如人为的规则+传统的模型。你们怎么看呢?
【徐伟】人类对话还涉及了大量的知识的运用,目前深度学习还很缺乏这一点。在较少依赖语言的一些NLP问题上(比如机器翻译),我们的试验显示深度学习目前已经可以超越传统模型了。
【问】在传统的机器学习任务上,模型选择一直是个问题。现在深度学习给人的感觉是要比传统的svm、决策树、或者boosting等都要好,但是实际应用中真是这样吗?像搜索排序、推荐等问题,业界已经成熟运用深度学习了吗?
【吴恩达】 谢谢你的问题。是的,深度学习是业界在许多重要任务上所使用的效果最好的算法,包括检索、推荐等等。一般的情况是这样的:如果你的训练集相对较小,那么最终的效果更多地取决于你手动设计特征的技巧上,深度学习同SVM、boosting、决策树等传统方法相比就没有很大的优势。但是在大数据领域——也就是你可以获得庞大的带标记的训练集——那么有监督的深度学习往往更合适。这种情况的部分原因是由于深度学习是“大容量的”(也就是很高的VC维,如果你知道这个的具体含义)。这个特点使它与其它的许多算法相比能更好地处理非常大的数据集。深度学习模型往往比传统方法,比如非线性核SVM具有更好的数据扩展性,这让我们可以构建基于大量数据集的训练模型。为了帮助大家更直观地理解,这里用一个图表情节来帮助解释我对于深度学习同传统算法的性能比较整体趋势的观点。
【问】请问两位老师:第一个问题,怎样用深度学习做点击率预测CTR?其中一个难点在于输入特征维度高而且sparse,深度学习针对这类问题怎么解决?第二个问题,深度学习在推荐方面有什么好的方法?
【徐伟】其实这是深度学习的一个优势,把高位稀疏直接作为输入,它学到的是类似embedding一样的东西。所以,我的问题是能否将一些在NLP(自然语言处理)上的方法应用到生物学问题上?如果可以,那哪个方法最有可能呢?——在NLP中应用最广泛的模型是递归模型。它们已经在解决生物学问题上有所应用了。
【问】您知道有什么方面AI(人工智能)实际上能帮助扩展或者训练人类的智能吗?例如谷歌的alphaGO,专业的围棋选手是否可能通过学习它的推理过程获得提升?
【吴恩达】其实从Gary Kasparov输给深蓝之后,这种情况就发生了。现在的象棋选手可以通过向电脑棋手学习或者与其对战而提高自己的水平。我也听说了关于围棋这方面的消息,但是这么说还为时尚早。更一般地说,我看到了许多计算机可以来弥补人脑的机会。我对在线教育很感兴趣,我认为像Coursera和网易公开课都是一个很好的开始;我希望随着时间的推移,在线教育将来可以更加灵活、更能适应需求,可能会成为大家的私人导师。
【问】对于医学影像处理,收集大规模、准确以及带标记的数据是非常困难的。请问我们如何提高性能?
【吴恩达】深度学习目前在大规模数据的应用上取得了许多唾手可得的成果。如果你并没有大的训练数据,那么短期来看,你只能从更传统的工程方法入手(包括细心设计你的特征提取)。稍微往前来看,有许多激动人心的其他形式的学习方法,包括迁移学习、半监督学习以及无监督学习——以及其他一些我们现在没法想像的方法——能帮助我们在小训练集上也能取得更好的性能。百度和其他机构都在这些领域积极开展研究。我认为没有谁现在已经找到了最佳算法,但是我可以看到每年都会有许多进步。
【徐伟】人类在基于小规模样本进行学习上有着令人的能力,这一部分依赖于人类的建模能力,一部分来源于可以向其他人学习的能力。深度学习目前还缺少这些能力。
【问】深度学习网络会进化到能够进行逻辑思考吗?或者说逻辑思考与深度学习方法在本质上相差甚远,所以我们需要其他的方法来弥补深度学习网络?
【徐伟】目前为止,还没有好的方法去进化一个大型的深度学习模型(但在小模型的进化上有一些研究)。所以,能否让深度学习网络具有逻辑思辩能力就取决于研究者设计的新的模型。但是我认为深度学习是有可能实现这一点的,这个判断是基于深度学习在NLP上取得的飞速进展。
【雷鸣】回答结束,那我们就结束今天的讲座吧。很高兴和各位分享交流!非常感谢几位嘉宾在百忙之中参加活动!
【吴恩达】 谢谢大家的热情,这么晚的时间还在和我与徐伟交流。我们也希望未来会有更多的机会和中国的人工智能人士交流,也希望会有机会来支持中国的人工智能发展!
【徐伟】谢谢大家的非常好的问题。时间有限,不能一一解答。我们今天的沟通到此结束!谢谢大家!
【来源:机器学习研究会】
·氧分子网(http://www.yangfenzi.com)延伸阅读:
2017年1月13日晚,百度人工智能代表“小度”与最强大脑选手孙亦廷在声纹识别上展开人机大战,最终双方战平。本文带来百度首席科学家吴恩达对百度声纹识别技术的全面解读,本次比赛百度使用了两个不同的算法模型:DNN-ivector 和基于端到端深度学习的说话人信息提取。另外,吴恩达还对深度学习当下的发展态势以及对抗生成网络进行了评论。
百度人工智能代表“小度”与最强大脑选手孙亦廷在声纹识别上展开人机大战,最终双方战平。在总比分上,小度凭借着上周险胜王峰,继续保持领先优势。这场人机大战依然留有悬念,双方将在下周迎来终极决战。
本周比赛的项目是凭借既有声音片段识别发声者身份,也就是所谓的声纹识别(Speaker Recognition)。比赛的设置是,最强大脑“听音神童”孙亦廷和小度需要凭借3位目标对象残缺的声音资料,在性别相同、年龄相仿、声线极为相似的专业合唱团中将她们分别找出,找出多者获胜。
从现场的情况来看,这一任务难度颇高,人和机器都只正确地找出了一位目标对象,正确率只有33.33%。
2个模型,2万人数据,5千小时训练
1月13日的媒体见面会上,百度首席科学家吴恩达(Andrew Ng)介绍了百度在此次比赛中所使用的人工智能技术:包含两个模型,一个是DNN-ivector,另一个是基于端到端深度学习的说话人信息提取。
DNN-ivector是目前被广泛采用的声纹识别系统。其主要特点就是将之前提取的声学特征按照一定的发声单元对齐后投影到一个较低的线性空间中,然后进行说话人信息的挖掘。直观地说,就是在挖掘“不同的人在发同一个音时的区别是什么”。
百度提供的资料显示,他们首先会用大量的数据训练一个能够将声学特征很好的对应到某一发声单元的神经网络,如下图所示。这样,每一帧特征通过神经网络后,就会被分配到某一发声单元上去。然后,会对每一句话在所有的发声单元进行逐个统计,按照每个发声单元统计得到相应的信息。这样,对于每一句话就会得到一个高维的特征矢量。
在得到高维的特征矢量后,会采用一种称之为Total variability的建模方法对高维特征进行建模,
M=m+Tw
其中m是所有训练数据得到的均值超矢量,M则是每一句话的超矢量,T是奇通过大量数据训练得到的载荷空间矩阵,w则是降维后得到的ivector特征矢量,根据任务情况而言,一般取几百维。最后,对这个 ivector采用概率线性判别分析PLDA建模,从而挖掘出说话人的信息。
在实际中,百度训练了一个高精度的深度神经网络来进行发声单元的对齐,然后依托海量数据训练得到了载荷矩阵空间T,最后创造性地采用了自适应方法来进行调整T空间和PLDA空间,大大增强了模型在唱歌和说话跨方式以及短时上的声纹识别鲁棒性。
吴恩达介绍说,百度参加本轮次比赛的声纹识别模型一共包含了20000个人的声音数据,模型训练时间超过5000个小时。
第二个模型,基于端到端深度学习的说话人信息提取算法。这是一种纯粹的数据驱动的方式。通过海量数据样本以及非常深的卷积神经网络来让机器自动的去发掘声学特征中的说话人信息差异,从而提取出声学特征中的说话人信息表示。第一期的人脸识别也使用类似算法。
这一模型的训练,使用了数万个ID。
最终,小度的识别结果出自两套系统最后在得分域上进行的加权融合。
吴恩达:深度学习短期内还会更热
声纹识别中,可用于处理和存储声纹的技术非常多,包括频率估计 (Frequency Estimation),隐藏马尔科夫模型,高斯混合模型,模型匹配算法、神经网络、矩阵表征、矢量量化以及决策树等等。一些系统中还用到了一些降噪技术 。
吴恩达也表示,未来百度还将训练更大的模型,可能不止采纳两个模型的方案。
不过,在新智元问到深度学习是否还将主导人工智能时。吴恩达说,深度学习技术现在很火,而且还会变的越来越火。未来肯定会有新的技术出现,但是具体是什么,现在他也不能预测。
谈到2016年备受关注的对抗生成网络(GAN),吴恩达表示,这一技术有很大的潜力,但是目前主要还停留在研究阶段。
声纹识别技术应用
声纹技术在安防、金融和C端消费应用,比如手机上,都有着广泛的应用场景。目前,声纹识别技术可用但不限于以下几个领域:
金融领域反欺诈(用声纹识别确认用户信息,提高客服和系统反欺诈的能力)
客服呼叫中心,快速定位用户身份等;
智能硬件的声纹识别能力,让机器人知道自己在和谁对话以及声纹唤醒能力;
安全领域的声纹认证,类似于人脸闸机;
个性化语音识别和语音合成的辅助。
近年来,在市场上也看到了一些声纹技术应用的产品,比如支持声音解锁的智能手机。但是,与其他人工智能技术一样,声纹技术也面临着潜力巨大,但应用困难的问题,目前仍然没有成熟的产品出现。
百度大脑开放
在记者会上,新智元了解到,近日百度大脑官网(ai.baidu.com)全新改版上线,百度大脑不止小度可以拥有,现已全面开放给所有开发者。
改版后的百度大脑官网除了原本的语音技术、图像技术、自然语言、用户画像、和机器学习五个模块外,新版网页还新增加了AR 增强现实的功能技术,AR 内容平台能提供高效灵活的一站式的 AR 行业解决方案,贯穿各行业 AR 的内容创作、内容管理全流程服务。
此外,13类场景化技术服务、超过20种功能调用,相比原版网页,新版网页在对每一项技术分类上做得更加细致,能够全方位为企业/机构/创业者/开发者进行更细致、更明确的产品技术展示,并提供以 API 或 SDK 的形式的接口服务。