百度将全面人工智能化。百度高级副总裁、自动驾驶事业部总经理王劲说,百度将用人工智能对研究院、语言、图像等部门进行重构。在未来,百度会高度依赖人工智能技术,巨额投资无人驾驶汽车。此外,百度要在未来3-5年内,将激光雷达的价格从70万降到2至3万,从而实现无人车3年商用5年量产的目标。百度自动驾驶事业部副总经理林元庆介绍说,百度无人车将使用传感器融合技术,将自动驾驶的安全性提到最高水平。
人工智能统领百度技术体系核心
2006 年深度学习兴起,50多年来一直起起落落的人工智能迎来黄金时机,发展速度如火箭般上升。2013年开始,百度、谷歌和脸书之类的互联网领域的巨头看到人工智能的潜力,纷纷开始布局人工智能产业。2016年,人工智能已经不仅仅是公司的目标产品,更成为从内部推动公司技术变革的主要力量。
百度——中国互联网行业的巨头,公司技术体系正在全面人工智能化。“百度将对当下的人工智能进行加强,将来会用人工智能技术来改造百度所有的技术。各个产品和技术体系,都由人工智能来规划”,百度高级副总裁,自动驾驶事业部总经理王劲在3月30日的百度人工智能技术媒体开放日上说。
人工智能、大数据和云计算是百度最核心的三大技术。据王劲介绍,目前,百度研究院、百度大数据、百度语音和百度图像等技术都已经归入人工智能技术体系。也就是说,目前百度所有的先进技术都将由人工智能来统领,包括搜索和广告等业务,百度未来的发展将严重地依赖人工智能。
未来的百度将是一个智能+的百度,涉及的领域会包括基金、保险等领域。
百度在人工智能领域的核心——百度大脑,目前已经具备视、听、说和预测、规划决策以及行动控制的能力。王劲对新智元说,百度大脑跟中国大脑有着紧密的联系,虽然今年很少有人再提中国大脑,但是国家确实在推动,许多跟中国大脑有关的项目已经立项了,之所以很少被提及,可能只是换了一种名字而已。
谈到这几天颇受关注的百度“凡尔纳计划”,通过视频参加记者见面会的百度首席科学家吴恩达对新智元说:“我在网上写了几篇文章,(目前)没什么可以说”。
百度无人车,未来将每天挽救 500 条人命
谷歌的阿尔法狗与李世石的围棋大战是科技领域2016年春天最让人津津乐道的事。许多人在问,中国什么时候才能有自己的“阿尔法狗”。在今天的媒体会上,有记者问王劲,百度会不会考虑举办类似的活动,用百度的人工智能机器人参与竞赛。
让媒体朋友很失望的是,王劲给出了否定的回答。他说,百度也曾认真的考虑过这个问题,但是最后决定不要在这种竞赛类的事情中浪费精力。“有多一点点的精力,我们还是希望能投入到无人车的研发上”,我们早一天用上智能汽车,就能让500人免于在交通事故中丧命,这是对生命的尊重,我们有什么资格去游戏”,王劲说。此前王劲曾引用数据说,在中国,每天因为交通事故死亡的人数是500人左右,智能汽车可以有效地减小这一数字。
谷歌一直是人们拿来对比的对象。王劲说,我们承认在一些方面谷歌是领先的,但我们也不是在所有地方都落后。在无人车的发展上,今天的中间状态不是最终结果,希望在量产时能实现超越。他还说,今天百度以及许多中国技术在世界上已经跟先进国家并驾齐驱,我们不该妄自菲薄。
百度首席科学家吴恩达说,事实上,近几年来,百度新创了许多技术,不少还走在了世界领先水平,比如做了世界上第一个超级计算机平台,在计算机视觉、深度学习、图片识别等方面也居于领先地位。
人工智能的发展主要依靠三个技术:服务器、数据和深度学习。在服务器方面,百度的MinWA服务器具有相当于两个“天河一号”的超强计算能力;在数据方面,百度有万亿级的网页、移动和行为数据可供分析;在深度学习方面,百度的万亿参数排在世界第一。
垂直锁定:百度重金砸向无人车
无人汽车是百度目前最大的资本投入领域。王劲认为,无人车市场是赢者通吃的市场,谁先进入谁的技术就会领先很多,在这里面,数据和市场的保有量是基础。
此外,无人汽车所涉及的技术,都是目前人工智能领域比较关键的技术,比如语言识别、语音合成和图像识别。王劲在记者会现场向大家展示了百度在语音方面所取得的技术突破,称百度语音是当下“最好的中文语音识别”技术,在安静场景中的识别率能达到97%,在车载场景下的识别率可以达到92%。而在语音合成上,王劲说:“给我10个小时的语量,我就能合成一个人的声音”。
不难看到,人工智能是百度目前最重要的战略方向。所涉及的技术不仅仅可以用在汽车,在其它比如家居、健康和娱乐方面也有很大的用途。
参考美国国家公路交通安全管理局(NHTSA)的分级标准,自动化汽车根据自动化的程度可以分为5个等级。0级指司机全程完全控制汽车;1级指单个部件的自动化,比如自动闸;2级指至少两个部分的部件可以同时自动化,比如自适应性巡航控制和车道保持的结合。比如,Tesla Model S;3级指的是在特定的条件下,司机能完全脱离对关键的安全功能的控制。也就是目前许多汽车厂家在做的ADAS(高级驾驶辅助系统);4级,也就是最高级,是汽车全程进行所有的控制,不需要司机的参与。
百度和谷歌之类的互联网公司的无人车发展战略,目前都是走的最高级的智能化发展道路。百度无人车包括4大模块:高精度地图、感知、定位、智能决策与控制,底层为高精度地图、中间层为感知和定位,最高层为智能决策与控制。
百度无人车的大致模式是:根据高精度的地图规划路线,通过雷达等部件感知周围物体,根据GPS定位目的地,通过大数据分析进行决策,选择最优路径。
百度无人车的传感器其实并不仅是车顶上的雷达,而是激光雷达、毫米波和普通摄像头三者结合的综合系统。“也许激光雷达能解决97%或者98%的问题,但是,剩下的2%到3%的问题需要别的装置来补充”,百度深度学习实验室高级总监林元庆说。这是确保安全性的必要手段。
雷达价格从70万降到2-3万,可能吗?
这一目标从一开始提出就额外吸人眼球,无人驾驶领域要在3到5年内普及大众市场,确实是一个非常令人兴奋的提法。百度在这一点上显示出了非常充分的信心,但是具体来看,无人驾驶面临的困难并不小。
第一是成本问题。百度无人车的“眼睛”,也就是用于感知周边环境的LINDAR雷达,去年的成本是70万,今年降到50万,而这仅仅是无人车一个部件的成本。成本是决定无人车能不能量化的一个重要参数,现在仅一个雷达就要花费70万,对于普通消费者来说,还是很难接受的价格。王劲说,百度目前正在与一些雷达厂家合作,希望把雷达的成本降低到2-3万左右。此外,无人车的主机等计算系统的成本也要下压。
第二个问题是交通系统的问题。无人车要上路,需要整个交通系统的配合,包括公路标志、交通信号灯、收费站等设施的改造。
第三个是相关法律法规。针对无人驾驶汽车管理,目前国内还没有明确的法律法规,这会对无人车的应用和普及带来一定的阻力。
【本文由新智元(微信ID:AI_era)胡祥杰原创】
·氧分子网(http://www.yangfenzi.com)延伸阅读:
7月5日雷锋网消息,国家会议中心,百度AI开发者大会,百度度秘总经理景鲲现场讲解百度DuerOS战略,以及宣布百度全资收购KITT.AId的消息。据雷锋网了解,此前KITT.ALd拒绝了来自Facebook的收购。
景鲲表示,唤醒万物的核心三要素是要做好听清、听懂、满足。听懂是人工智能时代用数据和技术解决的关键问题。景鲲称,在这个时代,只有百度在中国市场是唯一具备听清、听懂、满足的实力,打造一个开放赋能的生态系统。
“听清”
百度的语音识别率做到了近场识别的准确率97%以上,但这些在AI时代还不够。在AI时代,技术要与场景相结合。百度希望将语音放到真正的场景里面去解决问题,研发了麦克风阵列、回声消除、语音唤醒、人像识别等技术。这些都是百度逐渐推进的世界先进技术,将被放到各种场景中实现用户听清的需求。
“听懂”
数据多、介入深是打造对话系统的必然条件,具备这两点才能做好一个真正可以对话的“听懂”系统。景鲲表示,百度是具备数据量最大的公司,拥有亿级的多轮对话数据、十亿级的知识图谱数据。
“满足”
听懂并满足“听一首某某的歌”这样的用户需求还不够,真正用户想要的是更自然、更复杂的需求,比如“我要听我手一杯品尝你的美这首歌”,比如“想听哥哥的歌”,只有把用户在真实场景中表达的复杂请求做好,才能真正做出一个真正听懂用户需求的产品。
“‘听懂’的目标,就是要FreeStyle,让用户最自然地跟设备进行交互,毫无拘束。”景鲲现场演示了利用DuerOS的多轮交互过程,这种交互只有百度的技术才能驱动。
现场,景鲲公布的另一个重大消息,是全球顶级AI创业公司KITT.AI正式加入百度。百度将把KITT.AI的语音能力和自然语言处理能力融入到百度平台中,全面免费向百度的合作伙伴赋能开放。
据雷锋网了解,KITT.AI专注语音唤醒和自然语音交互技术,是世界上唯一一家获得亚马逊Alexa和微软联合创始人Paul Allen投资的公司,并入选了CB Insights人工智能创业一百强。
KITT.AI联合创始人、CTO陈果果先生现在演示了如何使用KITT.AI语音唤醒技术快速打造一个语音唤醒设备。根据陈果果先生演示,进入Snowboy的唤起词库并新建唤起词“你好景鲲”后,接着只需要说三遍“你好景鲲”,即可完成唤起词的训练。在测试环节,设备只会对唤起词“你好景鲲”进行响应。
最后,景鲲表示,DuerOS将为开发者提供最容易上手的软硬件一体化解决方案,包括多样化的开发套件和完全开放的参考设计:
1、搭载树莓派,利用科胜讯技术的个人版。即刻申请就可以搭载一个个人可以对话的语音设备。
2、轻量版。把一元钱大小的芯片放在任何一个设备里面,设备就可以对话。
3、标准版。两麦、四麦、六麦、八麦的标准版都可以即可申请。
4、完整一体化的参考设计。如开放电路板设计、开放结构设计、开放麦克风阵列等等。
手机、电视、冰箱等任何设备,都可以搭载DuerOS,变成一个能“听懂”的设备。
7月15日,《WARE2017语音智能峰会》在深圳隆重召开,大会聚集了国内众多语音智能业内人士,深度聚焦智能语音。百度度秘事业部总经理景鲲作为本次会议的主讲嘉宾在会上分享了DuerOS,并希望开放赋能每一个人,唤醒万物。
(百度度秘事业部总经理景鲲在会上分享DuerOS)
在会上,景鲲认识了许多新朋友,也见到了许多老朋友,其中就包括我们的开发者 “大舅”杜志鹏,上一次见面景鲲亲切的称呼他为杜工,现在,景鲲却要叫他杜总了。
(相亲相爱的老朋友)
提起杜志鹏想必大家印象都特别深刻,“中国好大舅”名不虚传。在百度AI开发者大会上,这个厉害上天的大舅和小外甥带着会说话的乐高机器人的精彩亮相,引起了无数粉丝的尖叫!
(大舅的故事在百度AI开发大会上亮相)
当我们都以为大舅的故事结束了,大舅又给我们带来了新的消息,杜工已经变成杜Boss了。这到底是怎么回事呢?
杜志鹏原先是一名玩具公司的工程师,喜欢玩具也热爱生活。一次偶然的机会他看到了自己的外甥在搭玩具,他突然想到:为何不让玩具活起来和自己的小外甥说话呢?说干就干,中国好大舅开启了他的改造玩具之路。
在改造过程中,他遇到了许多困难,也寻求了许多外界帮助,终于在DuerOS神奇功能的帮助下,仅半天时间就顺利的完成了玩具改造。我的天,一个支持语音交互的乐高机器人诞生了!
其实,杜志鹏从小就有创业的梦想,在百度AI开发者大会,杜志鹏和景鲲经过数次交谈,得知创业时将可以得到DuerOS的帮助,一颗火热的心燃烧起来了。
于是,杜志鹏便和两位合伙人一起创建了新的科技公司,杜工也正式成为了CEO,完成了人生的华丽转身。上个星期,杜志鹏和两位合伙人经过三天时间就“造”出了小白音箱,这款音箱说话了得,可以满足人们的日常需求,集可爱和智能于一身。
对于DuerOS,杜志鹏一直心存感激,他觉得DuerOS大大降低了自己开发智能硬件的难度,减少了基础性繁琐操作和开发成本,让自己的科技公司有了前进的动力。未来,他打算继续和DuerOS深度合作,打造出更多智能新产品,抓住AI 的时代大潮。
Hello,我是百度度秘事业部的运营经理胡娈,很开心通过DuerOS的能力可以切切实实的帮助杜工,也很开心能见证这位开发者(我们内部亲切的称他为“大舅”)从杜工到杜总的飞跃。
DuerOS在不断壮大中,目前我们每天都能收到几百份合作请求,这里面不仅包含了个人开发者同时也有许多企业及中小厂商,在合作层面,我们会秉持开放共赢的态度对待每一位合作伙伴。
DuerOS很快将陆续颁布针对不同类型的合作伙伴计划,敬请大家关注!感谢所有使用DuerOS能力并长期支持我们的伙伴!
大家好,我是百度度秘事业部产品经理栾帅,我们非常欢迎像杜工一样有想法有创造力的开发者们与DuerOS一起发挥更大的能量。因此在DuerOS开放平台中,我们对开发者做了全方位的支持。其中包含了手机、音箱、电视、冰箱、故事机、小家电等十分丰富的场景,实现上也可以支持各种主流平台。
杜工就是选择了DuerOS提供的轻量级设备方案,用迅速的时间、低廉的成本实现了自己和小侄子的畅想,也实现了自己公司产品的构想。
现在所有能力已经在(dueros.baidu.com/developer)充分开放,开发者可以获取各类场景方案的详细资料,我们期待更多的开发者尽情发挥想象力,与我们共同创造一个万物有声的世界。
随着人工智能时代的到来,DuerOS希望把自己的能力和技术最大程度的开放给开发者,DuerOS希望和所有有创造力的开发者一起让这种可对话的智能设备走进千家万户,无处不在,共同迎来唤醒万物的新时代。
移动互联网时代即将落幕,崭新的AI时代即将开启!面对这样一个变革大时代,BAT三巨头之一的百度将如何实现战略转型,并构建出全新的AI开放平台与生态系统?作为百度AI驱动型新业务,DuerOS将在百度战略转型中扮演怎样的角色?
声学在线有幸采访到百度度秘事业部总经理、DuerOS负责人景鲲,对以上问题进行了深度解读。 景鲲相信,DuerOS承载了百度从“连接信息”到“唤醒万物”的新使命,是基于AI技术打造的下一代人工智能平台级产品。8月31日,在柏林IFA(柏林国际电子消费品展览会)期间举行的搭载DuerOS的TCL智能电视新品发布上,景鲲也表示,DuerOS将发掘长期市场机遇,为生态合作伙伴增添更广阔的空间。
景鲲:百度度秘事业部总经理,百度人工智能产品委员会主席,NLP领域专家。曾历任百度搜索公司产品委员会主席、大搜索总产品架构师,前微软首席研发总监,是微软小冰的创造者。目前,全面负责百度度秘和对话式人工智能操作系统DuerOS。
谈生态
百度DuerOS从底层服务入手打造AI时代的生态系统
变革期需要大气度,开放终究会打败封闭
声学在线:7月5日,百度AI开发者大会上,DuerOS开放平台面向全球所有开发者亮相,作为AI时代的Android系统, DuerOS是AI时代开放赋能的生态系统。而当天阿里AILab实验室也召开了一个小型发布会,推出的是一款智能音箱产品。作为国内两个翘楚的科技巨头,两家作了截然不同的选择,为什么百度会选择打造DuerOS一个大的生态系统,而不是从ToC消费电子产品入手?
景鲲:在时代变革期需要有更大的气度、更大的心态。开放是一种心态和气度,就像百度AI开发者大会中,Robin在最后提到“开放终究会打败封闭”!
社会的发展趋势是变的彼此跟彼此有关系的,变成一个更加connected的社会。我们不应该形成一个封闭的系统,把一些东西封闭在自己的体系里面。
在这种大的变革期,是需要有人来做基层的、底层的服务,才能够支撑更多“有梦想的玩家”。从这个角度来讲,我们觉得做生态是更有意思、更具有社会责任感、更加能够推动整个时代的变革。
而且,从效果上来看,也有很好的成效。现在跟我们合作的伙伴非常多,无论是大的企业,还是优秀的中小创业者,甚至个人开发者。真正的开放赋能,是能够让大家基于我们的人工智能的开放平台作出更好的产品——我觉得这正是百度的机会,也是百度的责任。
做生态最关键是找好自己的位置
声学在线:DuerOS要做AI时代的安卓系统,其本质是要共建新生态,而所有的操作系统在初期构建生态都是最艰难、最痛苦的。站在生态系统层面,DuerOS构建生态初期过程中遇到的最大的困难是什么?又是如何迎接这些挑战的?
景鲲:构建生态的过程的初期是比较困难,但是不痛苦,因为你在实现自己的理想和梦想的过程中。两三年前,做这个事情的时候,理解的人很少。到今天大家都在讨论这件事情,其实我是有很大的成就感的。这个过程其实迈过了很多槛儿,越来越多的受众、媒体都关注人工智能、都来谈语音交互,这是很让人兴奋的一件事。
的确,打造生态过程初期的确是困难的,初期主要的困难是如何协调几方的合作。我们有用户、有设备方、有方案商、有芯片企业、有内容方、有开发者……怎么样把大家放到一起冷启动是一件比较困难的事情。
对于“冷启动”做生态最关键的是如何找好自己的位置,以及你对外释放的心态。找到了合适的位置之后,冷启动会比较顺利,否则处境很尴尬。在语音交互方面,国内像百度一样有储备的公司很多,但是,生态并不是很有活力。所以在这个位置上,你是不是有足够开放的心态,是不是有足够开放的能力,同时找到一个好的位置,这是攻克这个生态很重要的一环。
扶持为主,谨慎补贴;开放赋能,体验第一
声学在线:提起构建生态,一定离不开促进生态进化的策略。目前,一些公司会推出一些促进普及的政策,比如成立基金补贴给下游参与平台建设的优秀开发者,百度DuerOS会采用什么策略促进生态发展,也会推出相应的补贴政策吗?
景鲲:我们主要以扶持为主。DuerOS的平台很大,平台合作企业也很多。从平台角度我们可以了解到谁有技术能力和有意愿做这件事,且需要扶持。像这种公司我们会去倾斜资源扶持。
对于补贴,要看市场发展阶段来决定。生态是以体验为第一位的。如果体验不太好的话,不能盲目的去做补贴。我们希望用一种更合适的方式推进产业的发展,不要让它过热,过热大家反而会忽视用户体验,会伤害一些用户。我们希望理性和感性相结合,共同推进这个产业往前走。
百度生态是开放赋能的一个生态。我们有肥沃的土壤,各种养分齐备。这块土壤上的植物,该长成大树的会慢慢长成参天大树。如果你拼命的施肥催熟,对树木本身也不好,我们希望以更健康的方式发展。
选择合作伙伴标准——品类标杆、行业示范、引领风向
声学在线:DuerOS是整个行业参与完成的开放生态,需要众多的合作伙伴和开发者共同参与。百度作为大公司,在选择合作伙伴会有什么样的策略或者偏好?会倾向选择自带用户流量的伙伴,还是偏好有技术内核的伙伴呢?
景鲲:我们会比较偏向于打引号的标杆客户。这个时代是需要一些标杆、领头羊冲到前面带领着选择生态,让所有用户看到技术和场景结合之后,能爆发出什么样的火花。
这个时候标杆客户包含了很多,比如和TCL、联想、国安广视,极米等的合作,他们是电视领域的标杆、领头羊,会带给整个行业示范作用;个人开发者也是标杆的一种,并不是因为他们的流量多大、用户有多少,而他们是代表了一批很有梦想,想把语音交互融入到自己生活里的一类人,这个示范作用也很大。
所以,更多的是看这个标杆客户是不是有很强的代表性,有很强的辐射能力,能够引领风向,能够吸引更多的合作伙伴跟我们一起来做这件事情。
谈语音
从“连接信息”到“唤醒万物”,语音交互将无处不在
语音是大势所趋,未来是语音交互的时代
声学在线:从PC互联网时代到移动互联网时代,搜索方式一直在不断进化。而AI也是百度基于搜索引擎的核心技术自然进化的结果。您加入百度后,开创的引入了语音搜索、图像搜索、对话式搜索等创新搜索交互方式,从以往的关键词到现在的语音Freestyle,语音搜索会成为未来搜索的主流方式吗?
景鲲:科技发展的基本趋势是不变的。第一,对于交互而言,无论下一代搜索是什么,它都是以更简单、更自然的搜索方式,人和设备之间的交互变得越来越简单,没有门槛。无论视觉、语音,或者其他的搜索方式,肯定是这样一种大趋势。
第二,未来的搜索和人机交互,肯定是双向的,而不会是单向的。人跟机器表达,最高效的方式是用语音;而机器与人表达,最高效的方式是使用屏幕——图像。所以,语音是一个趋势。人跟设备之间的语音对话会变得越来越自然,所以未来应该是语音交互的时代。
现在,有的人还半信半疑,有的人可能还不确定,但是时代可能就是往往掌握在那些有理想、有愿景、想把事情做成的人身上。
不要着急抢风口,用户体验才是王道
声学在线:在中国,智能音箱被小米、京东、阿里巴巴等巨头押宝,俨然形成了抢占人工智能入口的大战。也有人质疑智能音箱,认为其不会是一个现象级的产品。您如何看待入口这件事情?DuerOS在这个过程中会扮演什么角色?
景鲲:我觉得最重要的是产品体验,是用户体验,而不是抢风口。如果用户体验好,你去抢风口,就会站到一个合适的位置,拿到机会。而如果单纯为了风口而去抢入口端,因为抢时间的原因,肯定没有很深的打磨产品,反而会对品牌有一定的影响。
所以我们跟我们的合作伙伴说,如果我们推出一款基于DuerOS的设备产品,我们希望体验是最好的,不要为了争抢这几个月的时间,盲目的透支自己的品牌。用户体验绝对是第一优先级,无论是不是风口,如果体验做好了,绝对就是风口,如果体验不好,风口也不是你的。
DuerOS现在之所以赋能这么多合作企业,就是希望每一个设备都是可以交互的,语音交互无处不在,唤醒万物,万物都能够对话,这是我们的愿景。如果万物都可以对话,这样所有设备都是入口,大家都有机会。
产业是需要分工的,DuerOS的分工就是要把底层听清,听懂和满足的能力做到绝对最好,配合产业链上下游发展。DuerOS是一个很开放的平台,很多第三方都在上面build skill。生态的发展是比较开放的好,从这个角度,我们把底层搭建好,上端开放给用户,合作伙伴和开发者基于此做产品功能的深度定制,做他们擅长的技术攻关。这样的话,我们有我们的竞争力,同时我们也跟整个产业上下游有一个清晰的分工,大家会有不同的收益。
最看好软硬结合的创新,DuerOS服务于生态系统所有玩家
声学在线:DuerOS是赋能AI时代的底层操作系统,要把底层听懂的能力做到绝对最好。那么,您认为现阶段对于DuerOS来说,挑战是什么?DuerOS将在哪些应用领域突破创新?
景鲲:现在,很多合作企业已经跟我们走到一起了。对于DuerOS来讲,我们现在最大的挑战其实不再是接触新客户,更多的挑战是:面对生态系统里这么多玩家,怎么把自己的工作做好,来满足这些合作企业的需求。当星火燎原之势展开之后,怎么让火势更猛烈一些。
目前,对于DuerOS所在的领域,我们第一个看好的是软硬结合的创新。其实,智能设备的发展是有起伏的。早期,设备能连接上手机就自称为智能设备。其实它的交互是很复杂的。首先,在家里找到手机就是很费劲的一件事,找到之后还要解密码、打开App、选择设备等等,还不如走到设备面前按一下更简单。这是那个时代智能设备发展的挑战。
现在使用语音,比你走到设备前更方便。比如说你躺在床上不想走,跟灯说让它关灯,这个灯就关好了——这就是一个很自然的使用场景,我希望这种软硬结合的创新更多一些。在家里、在车里,双手被束缚、或者不希望用双手去处理一些工作的时候,语音就可以发挥它的作用。
我们希望DuerOS作为底层的开放平台支持各种各样的具体设备,无论是音箱,还是电视。这些设备,在我眼中它都是麦克风,我希望大家能养成一种习惯,看到这个设备就跟它说话。
分而治之,DuerOS要做支持所有应用的开放平台
声学在线:您是NLP(自然语言处理)领域的专家,从微软开始就推动NLP研究和应用的进展。您如何看待NLP领域的两个子集——开放域聊天和任务型对话的?DuerOS又是如何处理这两方面应用的技术挑战?未来,DuerOS在NLP领域中又将承载哪些期望与使命?
景鲲:首先,做一个大而全的开放人机交互系统有很多挑战,最大的挑战在于对话控制。即使是单轮对话也会有挑战,而在多轮对话的时候,需要结合上下文,理解整个情境。而用户跟机器表达的时候,思维是跳跃性的,机器理解就会更有挑战。
如何解决呢?我是学计算机出身的,策略就是分治原则,分而治之,把大问题变成小问题。我们把通用的人机交互进行切分,有的切分成开放域聊天,有的切分成任务型对话,有的切分成其他的。
开放域聊天要跟用户产生真实的连接黏性,这方面技术挑战是非常大的。现在也有一些公司把开放域聊天放到更多的垂直领域上去,比如说,做某一个垂直品类的聊天、甚至是某一个群体聊天,例如儿童。这也是分治原则,由一个大问题切分成小的问题。
任务型对话,其实有的时候是从声控指令过渡来的,往往边界比较清楚,解决起来更容易。所以,基本上是从最初的控制指令,慢慢变成让用户Freestyle的表达,这是一个逐步的由简变难的过程。
从百度来讲,DuerOS是一个大的开放式平台,对于任务型对话,就是指令型、控制型的这种表达是支持的。我们希望它能够在很多实际场景中落地,解决用户的痛点。而对于开放域聊天,对于某些特定的用户,比如日本的宅男文化,比如小朋友跟机器人对话就喜欢跟汤姆猫聊天的模式,我们也希望有一些技术平台支持开放域聊天,我们对他们都会进行支持。
为什么百度会去支持?第一,解决这些问题还是要数据足够多,百度的数据足够多。第二,百度永远是站在技术的最前端。所以,对于现在来讲有挑战,但是未来潜力巨大的技术,我们也会有一些投入。短期和长期的都会有相应的技术储备,只不过产品化的时间点不太一样。
标准与标配,未来语音交互无处不在
声学在线:自从百度开发者大会之后,我们明显感受到语音交互的重要性被再次划线。 DuerOS战略地位的上升,这是的战略决策的结果,还是人工智能发展的必然趋势?百度会同国外巨头微软、亚马逊等一样,推出NLP领域的相关评测标准吗?如果畅想5年后DuerOS的发展,您的期望是什么?
景鲲:百度战略一直都是持之以恒的进行的。对于语音对话自然交互的投入的时间和资源都非常大,这是百度主航道的业务的延伸,其实就是我们前面提到的搜索的进一步——下一代搜索。
标准方面我们还在内部的探讨期,希望推出一个让大家都比较认可的标准。标准之所以能成为标准,就是其他人要遵守、愿意参与到其中。这涉及到一些具体执行规则的制定,现在我们还在讨论过程中。
我们希望将来形成一种行业背书,让用户看到DuerOS的标识,就知道这个是经过测试,体验稳定的设备。具体怎么更进一步的开放标准,我们内部也还在讨论过程当中。但是,百度已经在布局这件事了。
如果畅想5年后,我希望比较形象化一点,那个时候,我儿子估计8岁了,希望他能够看到一个设备就想跟它去对话,我希望5年后达到那种程度。怎么能够让用户、让普通老百姓认知到语音交互应该是标配,是应该具备的能力,这需要整个业内一起做这件事情的时候会更好。
希望未来每一个设备都是可以交互的,语音交互无处不在,唤醒万物,万物都能够对话,这是我们的愿景!