作为亚马逊打入智能家居并占据入口地位的标志产品,Echo的研发历程一波三折。本文记者采访内部一线人员,得到Echo问世幕后消息:亚马逊最初瞄准AR,不成后转做声控扬声器,Fire Phone的失败让这款产品成了亚马逊语音控制的出口,发货时间一延再延,偶然之下被定位成智能家居入口型产品,最后关头做出5大改变。文中能看到亚马逊产品研发流程、员工待遇,还有杰夫·贝索斯其人其心的剪影。
告诉杰夫·贝索斯(Jeff Bezos)他有错是件令人恐怖的事情。2014年秋天,亚马逊全新语音控制扬声器的开发团队认为他们需要去跟CEO好好谈一谈。扬声器的发布迫近,大部分事情准备就绪。设备外观看起来很不错,声音识别软件也有了飞速提升,连发货的箱子都已设计并组装好。但是,有个悬而未决的问题,那就是印在盒子上的名字:Amazon Flash。
据两位亚马逊前雇员所述,在亚马逊硬件部门126实验室工作的很多人都不喜欢Amazon Flash这个名字。然而,贝索斯十分钟爱这个名字。此外,还存在另一个顾虑:这款设备的核心功能是通过“唤醒词”开启语音指令。“Alexa”是两个候选词的其中之一。贝索斯认为最好的唤醒词应该是“Amazon”。而这就带来了问题,因为人们常说这个词。126实验室达成的共识是,这个项目有可能正朝着灾难性的方向急速发展:扬声器会在听到电视中亚马逊的商业广告后便自行启动,然后开始随机在网上购物。
一般情况下,126实验室的工程师与产品经理会在平息分歧之后才找贝索斯会谈,而不是聚在一起告诉老板他们认为老板想要的是什么。据一位前雇员所述:“我们花费了很多时间努力揣测杰夫想要做什么或说什么,拼命分析他在会议上的发言,想从字里行间读出他的想法,这为我们带来了很多额外的工作量。”
把事情变得更糟糕是126实验室那个夏天的整体气氛。亚马逊在2014年7月发布了与iPhone竞争的Fire Phone。在扬声器研发的最后冲刺阶段,Fire Phone一败涂地,整个实验室那段日子举步维艰。员工要么转到新的项目中,要么辞职,这感觉就像126实验室跌到了谷底。
在扬声器装好准备发货的几周前,反对者找到贝索斯摊牌。贝索斯愿意做出转变:这个设备改称为Echo, 唤醒词是“Alexa”。用户之后可以根据自己喜好把唤醒词改为Echo或Amazon。Amazon Flash的包装盒被销毁,首批扩音器在2015年11月份发货。
在一个满是长方形触摸屏构成的硬件市场里,Echo确实与众不同。这款扬声器是一个没有屏幕的圆柱体,高约9.25英寸(约23.5厘米),直径3.27英寸(约8.35厘米)。它能够播放音乐,回答一些基本的家居问题,例如一个茶杯有几个茶匙。与Echo互动的唯一方法是与它交谈,它也随时待机等候唤醒词。
Echo一经推出,就有批判者跳出来取笑亚马逊。有人称它为无用的噱头;另一些人则指出这是亚马逊“乔治·奥威尔倾向”的证据。紧接着,一些奇怪的事情发生了:人们开始喜欢上Echo。亚马逊从来没有披露过有关该产品销量的数据,但是2016年4月Consumer Intelligence Research Partners 发布的一份报告指出,亚马逊Echo的销量已经了超过300万台,其中有100万销售是在2015年圣诞节假期间完成的。约有3.5万人在亚马逊网站给这款扩音器打过分,评分有4.5星之高,满分为5星(注:新智元编辑这篇文章时查看评分为4.4星)。
对于亚马逊而言,更重要的或许是有几十个独立开发商都在编写可供Echo语音控制使用的App。用户可以说一声Alexa来关灯,询问它自己汽车里还剩多少汽油,或者预订披萨。考虑到亚马逊在研发Echo时其语音控制与苹果及谷歌之间的差距,这就更令人吃惊了。起初Echo看起来可能只是一个多余的玩具,但是现在看来这成了亚马逊进军人与计算机和互联网交互入口的一种方式。
“我们想成为一家大公司,同时也是一家发明工厂”,贝索斯2016年4月在一封给投资者的信中这么写道。Echo展现了亚马逊实现其目标后所发生的事情。贝索斯拒绝接受有关Echo开发过程的采访,但是10位亚马逊的现雇员及前雇员同意接受访谈,鉴于他们没有获得公司的授权,大多数以匿名形式进行。接下来就是亚马逊开发Echo的真实故事。
铺垫6年的专利战
亚马逊在2004年设立126实验室打造Kindle电子阅读器。实验室名字的由来参考了字母表,1表示字母A,26表示字母Z。实验室的人有时候把Kindle叫做项目A。Fire Phone是项目B。Echo——作为项目D——始于2011年。在项目高峰期,西雅图、旧金山湾区及马塞住萨州剑桥省,有几百名雇员为项目D效力。
Echo的构思是项目C的衍生物,许多Echo的早期员工都来自项目C。尽管这个项目已经停止,但亚马逊十分关切让有关信息保持机密。不过,可以从126实验室工程师所申请的专利中对项目C略知一二。
首次行动是在2010年12月21日至23日之间出现的。126实验室的雇员在此期间申请了5项标题包含“增强现实”一词的专利。增强现实——把类似全息图的展示投影到现实世界中来,已经是当时的一个流行词语。一家电商公司不大可能成为该领域的标杆。但是,亚马逊的专利申请向我们展示了亚马逊早在6年之间便开始追寻一个愿景,这个愿景远远超出现今市面上的任何商品。
其中一项最初的专利申请描述了一个可以显示增强现实图像的设备,人可以与这些图像进行互动;另一项则是在人们鼓掌、吹口哨、唱歌或说话时候,对人的动作与反应进行追踪的设备。总体来看,亚马逊在这段时间所申请的专利都描绘智能家居的愿景,虚拟显示器跟着人从一个房间走到另一房间,根据语音指令和肢体语言为人提供相应的一系列服务。贝索斯自己也是此期间申请的两项专利的发明者,都跟语音控制或增强现实有关。
亚马逊并没有染指原始专利申请,Rawles有限责任公司是这些专利的受让人,也就是拥有专利的机构。Rawles恰好是在亚马逊开始提交有关增强现实专利申请的两周之前在特拉华州注册成立的。自那年起,126实验室员工提交了数十项以Rawles为受让人的专利申请,全部都与增强现实或语音控制有关。在LinkedIn上没有人把Rawles列为雇主,而Rawles公司与美国版权与商标局来往的信件均由华盛顿州的律师来处理,而亚马逊的总部正好就在华盛顿州。
“毋庸置疑,我们想要悄悄做事情,”亚马逊设备高级副总裁Dave Limp说:“除非产品问市,能从中获益的只有竞争对手,或许还有媒体。”
用Rawles做专利掩护并没有把保密工作做得很彻底,但这确实让它更难被察觉。这样的策略似乎起到了作用。尽管围绕着亚马逊智能手机及机顶盒研发进度的猜测早在这些项目开始前几年已经有了,但亚马逊以增强现实为核心的智能家居野心仍不为人所知。2015年11月,Rawles把106项专利转到亚马逊名下。一个月之后,美国版权与标签局批准了其中一项专利,引发了媒体一小轮的关注。那时候,虚拟现实项目已破冰而出,Echo已上市。
整合购物的每一个环节
一些曾经在项目C工作的员工感叹,项目C的失败是亚马逊雄心放小的信号;其他人则说,亚马逊只是意识到是时候放弃一些对处于全盛期的公司而言太过愚蠢的想法。据称,直到Fire Phone一败涂地导致126实验室的管理层质疑其领导特大项目能力的时候,项目C才彻底终止。但是Echo早在此之前就脱离出来,作为独立项目运作,其目标是开发一款不会太过科幻的商品。
按照最初的设想,Echo要比当前的扬声器更简单、更便宜。据效力于该项目的一位员工回忆,公司预计该设备的生产价是17美元,售价为50美元。现在Echo的成本是180美元,如果把包装、运输及市场推广等费用计算在内,市场分析人士认为亚马逊每卖出一台Echo都是在亏本。亚马逊公司拒绝就此发表评论。
当时,人们还不清楚这款扩音器的主要用途为何。当然,它可以用来播放音乐,但是除此之外,人们为何想要一个可以交谈的扩音器呢?贝索斯有很多的想法。“围绕该设备的功能几乎有一个非理性的预期,”据一位当时在126实验室工作的人所述:“杰夫有这样一个愿景,他想要整合购物体验的每一个环节。”
亚马逊聘请了几位曾经在语音识别公司Nuance工作过的人员,也收购了两家专门从事语音识别的初创公司Yap及Evi。亚马逊的工程师全身心投入开发一个能够和谷歌Now或苹果Siri相媲美的语音识别系统,通考虑到这两家公司已经取得的成就,这实在是一个艰巨的任务。
当亚马逊的工程师开始制作这款扩音器的时候,他们立马就意识到该设备需要比预期更多的处理能力。他们抛弃了微型控制器,一种用于控制设备的简单计算机(例如遥控器),改用能够处理更多复杂任务的微型处理器。进行了这些根本性的改变之后,实验室的负责人还是深信扩音器已经做好上市准备。在连续3年的时间里,这款产品的预期送货时间都停留在6个月之内。50美元的定价变得越来越牵强。
效力于126实验室不同项目的员工对其他正在进行的项目的情况并不了解,因此,Echo团队在数年时间里并不清楚其他实验室人员正在开发一款电话,其他团队情况亦是如此。2014年6月,当贝索斯推出Fire Phone的时候,扩音器项目进展十分顺利。但Fire Phone的失败让126实验室的一切偏离了原有的轨道。
亚马逊对于Fire Phone的官方说法是,偶尔跌倒也是工作的一部分。在他最近给投资者的信中,贝索斯把此次失败看作是发明不可以分割的一部分。Limp表示,Kindle与Fire TV受欢迎是团队的慰藉。他说:“看到产品受客户预料之外的好评与产品不受待见相比当然有很大差距。”
曾经在那个时候效力于126实验的人把那个时期描述为极其痛苦时刻,完全是对该部门集体自信心的一种摧残。亚马逊并没有立即解雇为Fire Phone 效力的员工。取而代之的是一小部分管理人员空降Echo团队,这些人对扩音器有着不同的看法,怀着不同的热情。这激怒了一部分从开始就一直参与该项目的员工。此外,这款扬声器不得不挽回亚马逊的声誉,而这也构成了压力。更糟糕的是,所有这些的发生使整个实验室疑云四起:或许亚马逊确实无法生产理想中的高端消费产品。
最后关头5大改变
Echo在最后关头经历了几次大的关键改变。这款扬声器必须要拥有在同一时间发声与接听指令的功能,这对工程师而言一直是个问题。如果音乐声音太大了,掩盖了人的声音怎么处理?研发初期,工程师设计了一些外观像冰球一样的小型样机,可以放在房间各处,在用户偏离主扬声器太远的时候接收指令。实验室的负责人把这个想法置于一边,而把重点放在主设备的研发方面。但是,这个想法在近期变身成为了Echo Dot。亚马逊于2016年3月发布了Echo Dot, 该产品目前以限量形式发售。
Echo 产品线的两款新品:Amazon Tap(左)和 Amazon Dot。
在2014年秋天,有关于Echo自身听力是否足够好仍然存在分歧。除了扬声器自带的声音控制输入模式以外,贝索斯及其他顶层高管坚决反对使用任何其他形式的输入模式,他们将其视为作弊行为。一些工程师不这么认为,他们力推遥控器,以便人们可以在房间的任何角落进行语音输入。好在亚马逊已经为Fire TV做了这么一款遥控器。双方最终达成共识,第一批扬声器会配置遥控器。之后工程师收集了关于人们使用频率的数据,并相应对产品做出了调整。显然意见,这种担心似乎是多余了。用户使用Echo时几乎从来没有使用过遥控器,因此,在之后的配送中原装盒里不再配有遥控器。
2014年年末以前,126实验室都没有关心过要把Echo与其他公司生产的互联网功能电灯泡与温度控制装置相匹配。有位工程师闹着玩,把扬声器当作一部流媒体电视设备的声音控制系统。据某位与贝索斯直接共事的雇员所述,这如同给了他当头一棒。那人说,贝索斯越来越中意这个想法,而且很积极地推进它。亚马逊现在对Echo的愿景很大程度上依赖于这个扬声器作为所谓智能家居的中枢。Limp开玩笑说,让跃跃欲试的开发人员写程序用Echo声音控制来冲马桶只是时间上问题。
许多曾经参于开发Echo的人已经不在亚马逊工作。他们离开的原因各种各样:做完某个大项目后的完结感;竞争对手高薪挖墙脚,或开始自己尝试制作一些东西;长期工作后的倦怠;多年来内部政治斗阵的苦楚。接受采访的前雇员对于在亚马逊工作是不是很残酷这一点没有一个闪烁其词。当被问及参与例如Echo产品工作是否真的“有趣”,某位前雇员嘲笑说,没有人会正儿八经用“有趣”形容亚马逊。
Echo的成功正吸引着代替这些离职员工的人。2016年2月,亚马逊在总部一幢建筑里举行了公开招聘会。数百名序员与工程师出席——他们之中的很多人来自微软。他们听取了亚马逊高管所做的有关公司未来发展的雄大计划,将亚马逊的语音控制扬声器作为连接所有市面上已有和将有互联网功能设备的纽带。“现在是让智能家居成为现实的时候了,”Alexa智能家居总监Charlie Kindel告诉与会者。
手机之后的下一个平台
在开发了Echo后, 亚马逊已想出了如何通过其他设备与服务来把自己加入客户的互动中来。这一部分归因于好的时机。科技行业早已在寻找手机之后下一个大计算平台。目前对一些语音控制与人工智能相结合项目还没有出现大规模投资。苹果、谷歌及微软均拥有属于自己的虚拟助手,他们设计虚拟助手的目的是为了让智能手机更好地运作。但Echo与过去这些案例有着很大的背离。
在某种程度上来说,Echo的成功是Fire Phone失败的一个结果。亚马逊扼杀了智能手机项目,它在语音控制上的努力注定要放在其他方面。虽然智能手机已被吹捧为带来方便的巅峰之作,一边拿出手机点开某个App查询天气,一边给衬衣扣上扣子,跟在房间里喊一声相比,工作量其实还挺大的。
Alexa有超过500项技能——你可以通过这款扬声器来查询银行账户余额、播放Pandora电台,或发出你孩子喜欢的动物叫声。公司存有一个内部记录,上面列有客户提出的新增操作建议,根据受欢迎程度排序来确认执行顺序。
亚马逊下一步大的任务是要开始尝试提供组合服务的新路子,Forrester Research的分析师Julie Ask表示。她说,能够告诉Echo去Uber打车很有趣,但不是必需。“5年后,我的Echo会说,嗨,现在到点要去机场了。需要我帮你叫辆车吗?我会说,好,”她这样说:“这就是现实与希望之间的差距。”
作为一家公司,亚马逊更愿意面对这些挑战,而不是退回去解决Echo开发过程中那些没有解决的问题。Limp似乎更愿意大略描述Echo的开发过程,但谈话中涉及具体时总会闪烁其词。对他而言,整个开发过程最显著的一步就是减少了滞后时间,也就是你向Echo提问之后,它作出反应的时间间隔,从约9秒缩短到1.5秒。他声称已经不记得最后时刻有关为扬声器命名焦虑的任何细节,唯一记得的是最终大家达成了共识。
他说:“我向你保证,杰夫喜欢Echo这个名字。”
【文/新智元(微信号:AI_era)翻译,译者:米粒,来源:bloomberg.com,作者:Joshua Brustein】
·氧分子网(http://www.yangfenzi.com)延伸阅读:
亚马逊的Alexa在CES上的大获成功让关于智能语音的话题再次被业界广泛谈起。低调的亚马逊似乎已经在这一潜力巨大的市场上完成了布局。大家的共识是, 智能语音助理将成为下一代计算平台,在国外,目前这一市场竞争已经呈白热化,虽然亚马逊 独占鳌头,但谷歌、微软和苹果也不是没有机会。可以看到,虽然市场争夺战异常激烈,但是语音要成为智能时代全新的操作系统,在语音识别、自然语言理解、用户界面设计乃至安全隐私方面都还存在急需解决的难题。本文带来智能语音市场、技术两方面的深入解析。
2017年的 CES上,亚马逊 Alexa 大放异彩,成为“最大赢家”。亚马逊以Alexa和Echo为代表的智能语音系统,已经悄悄地占据了这一各大互联网公司必争之地的“下一代计算平台”之争的有利位置。
语音市场的巨大潜力在于对话。对话经济(Conversational Economy)通常被定义为主要用对话计算界面(conversational computing interface)构建的公司和产品的集合。它包括:1)即时通讯软件,2)语音控制计算,3)聊天机器人及服务(内置于即时通讯软件或语音控制硬件中)。
这个下一代的软件的核心技术要素被称为“4M”,即:
摩尔定律(Moore’s Law ):成本更低的计算能力能够实现以前非常昂贵的计算任务。
多租户架构(Multitenancy):按需公共云提供商显著降低了构建和扩展新服务的成本和复杂性。
机器学习(Machine Learning):机器学习的进展(尤其是深度学习算法)已经被证明在解决传统编程上非常难的问题是非常有效,例如“智能代理”服务底层的自然语言处理技术。
移动数据(Mobile Data):智能手机上收集的非常丰富、实时的数据为 ML 提供了自动用户上下文(automatic user context)信息和足够的数据。
“嗨Siri,你知道音频接口的未来在哪里吗。”
虽然以Siri的智慧程度现在还无法回应,但是以Siri为代表的智能设备会在2017年以实质性的科技进步作出回应。现在,人们还是每天200次地打开手机来实现各种操作;但是很快,语音会成为是环境计算的门户,具有极大发展空间。
2017年是语音成为主流“操作系统”的年份,第一因为我们有“足够好”的语音识别,第二因为语音硬件大规模的使用,第三作为大公司在建立语音平台生态上花了大力气(比如亚马逊,苹果,谷歌,微软,还有中国的百度、讯飞)。
人们正在创造迷人的新硬件计算节点和语音本地应用程序。语音将减少我们在数据输入上花费的努力,支持残疾人,更强大的预测应用程序,并为移动设备带来新的工作流程。这些系统只受其智能水平的限制,以及良好的设计能力来覆盖智能中的弱点。
语音助理正在成为新的操作系统
亚马逊 Alexa 已经从一个新事物悄悄成长为了一个平台。它现在有7000项“技能”(编者注:类似于插件),销售量超过500万个。
现在,企业部署的拉锯战也已经展开:个人助理的战斗俨然升级为巨头之间的多重产品线之战。
Alphabet发布了Google Home和以Google Assistant为中心的Pixel手机。语音识别在过去18个月已渗入到智能手机、可穿戴设备、越来越多的家用电子产品和汽车,甚至是床垫的标准功能。2016年中期,Android搜索的20%是基于语音的,Siri每周收到20亿次请求。
在技术方面,去年几家公司(包括百度和微软)宣布他们打破了人类语音识别的障碍,通过深度学习方法提高了与人交流的准确性,在高噪音环境中也取得了不错的进展——允许人们在房间里喊话设备,或者在办公室里向AirPods窃窃私语。
重要的是,像Echo这样的产品似乎已经跨越了“延迟障碍”,能足够快地提供回应,以便促进用户参与,容忍失败的问询。
虽然许多这些进步开始出现在大公司的实验室,全功能平台PullString和平台性工具 Amazon Lex的出现,大大降低了开发成本。像高通这样的组件制造商甚至将主动噪声消除这样的通用功能移植到到他们的蓝牙芯片当中。
市场现状:亚马逊 Alexa 暂时领先,谷歌、微软、苹果仍有机可乘
这个领域里最大的技术玩家们拥有数据、社交图谱和分布优势(如 Facebook Messenger 的快速增长就证明了这一点)。而谷歌和苹果则尽可能地占据了消费者的移动设备体验。
2016年,亚马逊的 Echo 系列设备似乎销量很好,价格不高的 Echo Dot 智能音箱已经成为购物季时亚马逊网站最畅销的商品。Forrester 的研究估计,到2016年年底,亚马逊卖出了 600 万台 Echo 设备。
2017年1月刚过一半,就好像已经能预见这一年将是亚马逊的 Alexa 之年。在今年的 CES 上,亚马逊显然成了主导。LG、GE、福特等公司宣布他们的小工具、家用电器,甚至汽车,都可以连接到 Alexa。与智能手机相比,Echo 的市场仍然很小,但它的增长很快。
这一切都引向了一个普遍的看法,就是亚马逊正在语音助理及语音助理中运行的 App 这个不断增长的市场中赢得竞争。到目前为止,Alexa 在这场竞争中已经基本没有对手。
在 CES 2017,LG 发布内置亚马逊 Alexa 的智能冰箱
但是,仅仅到目前为止。搜索巨头谷歌有着 Google Home 设备和 Google Assistant,微软正在将其 Cortana 个人助理定位为工作场景的智能助理,甚至苹果据说也在造类似 Echo 的设备。他们都对亚马逊的午餐虎视眈眈。
亚马逊何以领先?
亚马逊在2014年推出 Echo,其早期的成果很大一部分原因是它没有过度吹嘘。几年来,iPhone 的用户已经对 Siri 这个所谓的第一代真正主流的语音代理非常失望了。因此,亚马逊把 Echo 强调为一个音箱,附带内置有几个智能的语音命令。
然后,随着人们开始习惯于 Alexa 聊天,出现了一些积极的口碑传播,亚马逊也为 Alexa 增加更多的功能。现在的 Alexa 已经拥有非常多的“技能”,能够与各种应用程序链接,例如 Uber、Twitter、Nest 恒温器等。似乎是突然之间,Echo 从一个新奇的玩意儿变成了一整个的生态系统。
同时,Echo 的“无障碍”购物功能直接进入亚马逊的核心零售业务。实际上,Gartner 研究总监 Werner Goertz说,他有三个月没去过线下杂货店了,因为他的所有事物都是通过呼唤 Alexa 直接从亚马逊网站买来的。
Forrester 首席分析师 Thomas Husson 认为,亚马逊的整体发展策略是继续推进 Alexa,让它的功能更多,集成到更多的智能家居,以及支持更多的媒体功能。使用 Alexa 设备的人越多,他们在亚马逊网站上花钱购物的可能性就越大。因此,与其他竞争对手不同,亚马逊可以为 Alexa 承受损失。
Husson 说:“亚马逊将通过为设备捆绑内容(例如音乐、视频)来更多地补贴 Echo。”他们负担得起,因为这些不是他们的商业模式的核心:他们的最终目标是促进用户与 Echo 的互动。Husson 指出,Echo 不仅会鼓励用户更多地去购物,而且会将更多的数据反馈给亚马逊的推荐系统,因此网站和应用程序都可以再次促进用户购买更多商品。
谷歌的优势:搜索技术和安卓用户
谷歌大力推广 Google Assistant,总的看来有两处关键优势。
首先,Forrester 研究的 Husson 指出,谷歌有海量的搜索数据库,同时比起竞争对手来在机器学习方面的投入也更早。在搜索方面,谷歌是无敌的。因此,谷歌也比任何人都擅于回答问题,而这是语音助理的核心功能。
其次,全球安卓用户约有 15 亿,这些人的手机理论上都能升级安装 Google Assistant(但实际安装与否就是另一回事了)。此外,谷歌的最新信息应用 Google Allo 和智能手机 Google Pixel 都内置 Assistant。
谷歌的 Google Home 智能音箱
这些都是当前亚马逊在努力做但是没有做成功的。在 Business Insider 的测试中,Google Assistant 在执行日常任务时,表现超越了包括 Alexa 在内的其他语音助理。亚马逊 Alexa 才刚刚在手机和 TV 上面起步,谷歌的安卓操作系统几乎可以说已经无处不在。
微软的强处:Cortana 和商务软件
根据微软最新向 Business Insider 透露的消息,微软的战略是将 Gortana 虚拟助理打造为商业和忙碌的职业人士的语音助理。
跟谷歌一样,微软也在人工智能领域大力投资,在一些最先进的技术方面,比如 Cortana 这样能够进行像人类一样对话的虚拟智能体——Windows 10 将内置 Cortana。
但微软有其独有的专长:在过去的几十年里,一直在商务软件方面独占鳌头,Office 办公套件、Dynamics 销售软件,以及很快即将推出的 LinkedIn 职业社交网络。
而由于微软有这一优势,就跟尼桑和大众这样的公司建立起了联系,尼桑和大众两家的汽车里面都内置微软的技术。尼桑甚至还在下一代汽车的操作面板内置 Cortana。微软将 Cortana 定位为在任何地方都能帮助你提高生产力的产品,哪怕在车里,你两手不得空的时候。
当然,微软也有自己的困难。虽然 Cortana 正逐渐开始走入其他设备,比如上面说的尼桑的车,以及 Harman Kardon 制造的像 Echo 一样的音箱,但 Cortana 主要还是在 Windows 10 的设备上。而根据 2016 年 9 月份的数据,全球 Windows 10 的用户只有 4 亿,相较苹果 iOS 和安卓用户这个数字就很少了。
苹果的机会:后来者打造差异化用户体验
“苹果把所有因素都集齐了:超过 10 亿用户的安装系统,Apple Music、Beats、Siri 等等,”Forrester 的 Husson 表示:“苹果完全可以把这些整合起来,打造一个更好用的用户界面。”
但是,对于苹果这家全球市值第一的公司而言,进入市场的时间剩下的不多了,而且其他几大竞争对手都可以在苹果出手前就把苹果挤出战场。
如果你买了一台内置亚马逊 Alexa 的智能冰箱,你可能在要换冰箱时才会考虑市面上其他的智能语音助理。不然的话,你就会担心你的冰箱不能与灯泡或者家庭治安系统沟通出现问题。就算能工作,你家里也会有好几个智能语音助理,这对用户使用而言是不太好的。
在这种情况下,Goertz 表示,“Alexa 就把你锁住好几年。”
同时,苹果自己的 HomeKit 智能家居方案还处于“没有开发起来”的阶段,“不那么统一”(not that cohesive),这导致消费者和智能家居供应商开始找寻其他的产品和制造商。另一方面,尽管苹果在各种宣传推广中将 Apple TV 打造为智能家庭的枢纽,但由于 Siri 内置,Apple TV 使用起来不像一直开机的亚马逊 Alexa 或 Google Home 一样便于操作。
但是,Husson 还是持乐观态度:“苹果几乎从来不是最先打入市场的玩家,但他们能够做出差异化,就像触摸屏那样。”
苹果产品转型战略:AirPods
美国人去年花更多的钱在无线耳机比有线品种。苹果固定了35毫米耳机端口,并出来了他们真正的无线AirPods(悬念!)。如果你有AirPods,你的iPhone附近,你可以说话命令,在你周围的稀薄的空气,而不触摸你的手机。你甚至可以跳过令人讨厌的“嘿Siri”唤醒字与一个离散的双抽头的耳塞。只是这个功能将显着增长我的Siri使用(从今天零)。 AirPods本身是伟大的硬件。我爱他们,我使用他们,他们使Siri一个新的和更好的经验;已经有很多热门评论了。
然而,从戴耳机一天几个小时,到每天更多的时间穿戴更轻,无线的耳机,甚至在我们的大部分醒来时间都有耳塞——这是不是一个巨大的延长——特别是如果他们可以连接我们应用程序,同时允许我们继续体验世界其他地方。
亚马逊 Alexa 在智能家居领先,但技术和生态上谷歌、微软和苹果仍有反击余地
虽然 Alexa 在市场份额中独占鳌头,但是Siri,Alexa,Google Assistant,Cortana 到底哪个好用,哪个笨拙?!这要把它们放在一起真刀真枪地比试一下才会见分晓。
为此,Business Insider 做了实验,测试者会就交通、邮件、发信息、社交、翻译、知识面、性格特征等方面提出一些问题或指令,然后评选出这一项中表现最优的产品。
用了几轮下来,如果按每一项测试的积分叠加,Siri 应该是是冠军,但是测试者整体感受下来,还是比较倾向使用 Google Assistant。从技术上来说,Google Assistant是最流畅的,测试者不需要把一个问题重复多次,在很多实用场景下解决问题的能力也比较好,而 Siri 给人感觉更像是一个机器人。亚马逊 Alexa 最擅长的还是一个向设定闹钟和日历提醒这样的基本功能,而且它的“绝技”是网上购物和智能家居控制。Cortana 则更像是一个Bing的语音版。
由此,亚马逊的 Alexa 虽然在年轻的智能家居市场似乎稳居第一,但是在智能语音技术方面上升的空间还有很多,因而被赶超的可能性大有所在。当然,以下测评发生在 2016 年的11月,各款助理现在或许都有改进。但究竟谁能登上下一代计算平台的霸主地位,目前还说不好。
语音成为下一代计算平台还需解决的技术挑战
一、自然语言理解
去年,Facebook 的AI 研究室成立的时候,作为实验室主任的 Yann LeCun说:“对于深度学习来说,下一个大的进步在于自然语言理解(NLU),其目标的是让机器具备不仅是理解词语,而是整个剧组和段落的能力。
并且,截止2016年6月,Loebner 大奖的金牌(通过图灵测试的奖励)也并没有颁出去。也许,现在的人机对话可以做到很好,拥有复杂的自然语言能力,许多的服务也以此为目标。但是,NLU 的实际发展情况究竟是什么,为什么会如此困难?
语言很难建模(和编程),因为它过于模糊。类似的句子可能会有非常不同的含义,同时,看起来非常不同的句子又可能有相同的意思。人类的交流是非常奇怪、无规则、无意识和上下矛盾的,但是,这些问题都可以通过人类理解非完全的、模糊的沟通信息的能力进行弥补,这是基于语境的。通过自身经验,我们会无意识地建立起复杂的模型,来理解不同的情境下,某个词的具体含义是什么。并且还能把这些模型组合到一起。
最近,许多围绕对话交互界面的突破都要追溯到自然语言处理的概念,这一技术近年来已经获得了足够充分的发展。
因为我们不会有意识地以一种结构化的方式来理解语言,所以,用于从大规模的、非标签的数据中进行推理的新数据方法(比如,深度学习)看起来非常适用于自然语言理解。这些技术极大地提升了我们计算语言的能力,并且不需要具体地对语言的原理进行编码。正如此前讨论到的,这得益于三个要素:更多的数据、更多的计算和更新、更好的算法。
结果证明,即使深度学习技术是NLU上非常严肃的一个进展,我们的自然语言“难题”离最终的解决还有很远。不同的应用(问答、情感分析、机器翻译、部分语音标签)需要有不同的模型架构:强监督式记忆神经网络、树形长短记忆网络、双向LSTM限制随机域(CRF),动态记忆网络等等。
即使我们在研究上有一些非常有潜力的新想法,设计、工程合成、可扩展的对话系统与这些想法的 结合依然处于非常复杂的状态,离商用还很远。人工智能的天才们都极端地聚焦在平台型的公司(因为那里有训练模型所需要的数据)。非盈利组织OpenAI已经开始行动,保证这些能力不要被垄断在这些以盈利为主要驱动力的互联网公司中。Open AI 最初宣布的四个目标中,有一个就是“打造拥有自然语言理解能力的代理”。
二、音频识别
语音受到几乎所有与发信息bots相同的技术问题,除了要求准确地转录。尽管最近在语言理解和语音合成方面取得了令人印象深刻的进展,但是创建引人注目的基于语音的体验仍然是一项艰巨的任务。
在音频本身,除了转录,还有很多未解决的问题,如口音、不同的环境、说话人识别、更情感的文本到语音的输出。现在Google助手或Siri所发出的每个声音仍然是一个机械式的女声,在“串联语音合成”的过程中切断和重新组装。然而,深层次和强化学习似乎正在取得长足进步,最近Google DeepMind的WaveNet发出的音频是基于原始波形建模的。
三、未知UX领域
因为我们的技术还不成熟,所以我们需要用好的设计来打磨缺陷。
语音交互的设计仍处于早期阶段,对于平面接口有无限的输入。对于用户可以说的自然限制,并且危险地,他们自然地将人类特性归因于语音系统。在接下来的几年中,语音系统将无法正确地对许多查询做出反应。即使没有解决NLU问题,我们可以提高可用性,我们将看到扩大对语音接口设计的兴趣。
支持用户控制和自由,提高灵活性和效率,防止和处理错误,甚至使用可共享设计都将有所帮助。我们的语音助手会更好,当我们可以教他们特定的快捷命令,名称,默认和热门词,当公共设备支持独特的用户配置文件。
屏幕具有大量的相对信息密度,多模式语音+屏幕体验将是许多问题的正确短期解决方案(参见有关屏幕的回声的传言)。
用于语音原型设计和分析(如Sayspring和VoiceLabs)的必要支持工具已经开始出现。
四、计算功率和电池
Siri最常见的投诉是,它很慢,无法连接到Apple服务器场,并且无法离线工作。实际上,目前主要的语音助理(亚马逊,苹果,谷歌)都没有在本地工作 – 他们的大脑都在他们各自的父母的云后端,这不太可能改变很快。响应语音查询需要复杂的基于机器学习的模型推理,一个强烈的计算量大的任务。
始终在线监听和连接是强大的功能。因此,我们看到大多数语音控制的无线产品需要一个按钮敲击,而不是一个热门词汇:便携式Echo Tap,以及使用分离的专用处理器,例如DMBD4 和 Apple W1。
五、隐私,安全和身份验证
最后,为了让我们通过语音接口访问许多重要的服务,我们必须能够对其进行身份验证。 Alexa从相关的亚马逊账户购买默认启用,导致电子商务能力的孩子,办公室恶作剧和一个新闻广播员偶然命令他的观众玩具屋。更重要的是,如果我想通过虚拟助理访问我的美国银行帐户,她怎么知道我是我?
传统凭证在基于语音的设备上看起来像是一个比移动设备上更差的解决方案。一些人认为语音生物识别认证是更可能的下注。不幸的是,语音生物识别解决方案作为独奏解决方案感觉不可持续。正如照片处理软件意味着看到不再相信(不知何故,今天的社交媒体上的每十五岁比我在那个年龄时看起来更好看),音频操纵和综合技术表明很快听到不再相信。虽然今天有关于语音记录同意的各种州级规则,远场麦克风使执行更困难。
这些接口又一次推动了当今有缺陷的认证方法向行为,语境,基于风险的身份系统考虑了许多不同的信号。
综上,技术支撑上的挑战以及消费者较高的期待,让语音和对话服务处于一种十分尴尬的境地。更奇怪的是,“开始”一项对话服务的成本变得非常之低。许多开发者都对于入门对话服务开发的容易程度感到很兴奋,比如,只需要创造一个Facebook主页,下载BotKit,创造一个API、AI 或者Twilio账户等,但是,他们很快就会发现,创造一个良好的用户体验有多困难。
话说回来,技术触发是移动软件发生这种转变的可能原因。但只是可能的原因,并不意味着它是唯一的原因——经济、文化,特别是生态系统的触发(虽然较少得到人们的关注),实际上更重要。
移动生态系统的现状也是对话经济的驱动因素之一,与技术、经济和文化因素并列。
有一点是清楚的——这是新的技术战场,因为大企业间已经发起了硝烟。
编译来源:
http://www.businessinsider.com/amazon-echo-google-home-microsoft-cortana-apple-siri-2017-1
http://www.businessinsider.com/siri-vs-google-assistant-cortana-alexa-2016-11/
https://news.greylock.com/the-conversational-economy-whats-causing-the-bot-craze-4dd8f1b44ba1#.jb2zfb5v9
https://news.greylock.com/https-news-greylock-com-the-conversational-economy-voice-and-the-new-era-of-multi-modal-computing-96f535c058f6#.gf1d8rd1m
你更喜欢哪一个助手?
Google、Amazon两大巨头在智能助手市场的竞争再次升温。
据information报道,为了与Amazon的Echo比拼智能硬件的销售业绩,Google打算升级自家Google Home中的智能语音助手版本。在新版本中,Google Assistant会内置网格WiFi网络,可以帮助解决家中某一角落连不上网的窘境。
在Google推出新服务的时候,Amazon也没有闲着。日前Amazon推出了两项新服务:Device Address API和Metrics Dashboard。前者可以帮助开发者定位用户的位置信息,包括街道地址、城市、州、邮编等。后者帮助开发者追踪用户的信息,如用户的访问情况、话语、意图等。
具体来看,这也算是两大公司在对方还没有推出相关功能的的时候发力。
这次Google计划推出的新产品,类似于一个WiFi路由器和“中转器”,可以把上网的信号覆盖到整个室内空间。公司这样做是为了加快智能助手的服务速度,从而为用户提供更有竞争力的智能家居设备。未来公司也想把WiFi服务安装到更多的智能家居设备中。
2016年10月,Google发布了内置语音助手的Google Home,当时该设备还没有WiFi服务,售价为129美元。
相比起来,Amazon的Echo自面世以来就更受欢迎,但该设备还没有内置网格WiFi服务。这意味着,Echo需要连接室内的其他WiFi服务,这会延缓使用其他设备的速度。但有迹象表明,Amazon对这一服务也很感兴趣,此前公司花1250万美元投资了网格WiFi初创公司Luma。
据介绍,网格WiFi可以连接空间内的多个设备,并且可以自动调试每一个设备需要的流量。初创公司Eero 和 Plume已经打算进入这一市场。2016年12月,当Google推出新产品Google WiFi的时候,就意味着公司正式涉足这一业务,但公司没有公布具体的销售数字。
目前,Google还没有透露带有网格WiFi的Google Home的具体售价。不过,Amazon的Echo的售价是180美元,Echo Dot的售价是50美元。
从Amazon方面来看,公司推出的定位和应用分类功能是Google所没有的。从智能助手和智能音箱的发展来看,两者都颇为相似。相比Apple和Microsoft来说,Amazon和Google的智能语音助手的使用生态更为广泛。在未来,Google也极有可能推出类似的服务。
除此之外,Google Home 和 Echo 还有很多其他的不同点。后者有7个麦克风,而前者只有2个。所以Google不再过多依赖于让软件去识别用户到底说了什么内容。
最后,智能家居设备的竞赛可能更多的在软件而不是硬件。Google正在尝试将AI技术应用到公司的一系列设备中。目前,用户可以通过Google的Pixel智能手机、 Allo信息应用、最新版本的Android和 Android Wear应用来使用Google Assistant服务。另外,Google还打算将语音助手服务带到电视中。
而Amazon在CES大会上表示,公司将把Alexa带入智能家居及厨房设备、汽车、机器人等产品中。
在未来,很显然两家公司的竞争还将持续下去。不过最终谁会更胜一筹还不得而知。