商业的本质和零售的本质仍然是交易,仍然是价值,但是整个形势已经发生了巨大的变化。我们看到在这个变化背后渠道的变化是压缩,品类巨大的扩张在淘宝上超过10亿这样的规模在线下是永远见不到的。
阿里的整个零售交易系统超过沃尔玛,不是一个中国企业超越美国企业的问题,而是一个在线的交易体超过线下零售体的交易过程。
VR会带来整个用户体验高度提升,会带来用户入口的转变和整个交易流量转化成交易额巨大的提升,所见即所得,会变成很快的现实。在线交易系统对实体店的影响可能刚刚开始,未来的零售交易会非常好玩。
人工智能、大数据——这两个会比移动互联网更大的动力去推动新的独角兽产生。BAT的时代变成了过去,新的独角兽崛起,整个中国互联网的格局在未来三年五年会发生重大的变化。
2011年全球市值最高的公司基本上都是工业经济、实体的企业,但是2016年8月份开始,能源也好,线下传统也好,全部出局,全部换成了ET和IT的公司,所以互联网企业已经是一个时代变革的标志。
本文为阿里研究院院长高红冰在2016派代电商年会的演讲实录(有删减):
电子商务发展到这一步的时候,它已经变成了广泛存在的时候,我们要重新思考广义的或者泛义的电商是什么?电商已经由简单的买卖交易变成电子商务经济体的时候,我们怎么思考它,应该怎么理解?
我们可以稍微回忆一下电子商务的发展不是因为有电子商务而有电子商务,是因为背后有互联网的发展,是因为互联网的技术不断的往前推动,使得各种技术的创新不断出现。使得技术的商业化和交易结合起来的时候我觉得形成了电子商务,电子商务一路的发展的过程实际上是互联网的技术不断的创新,不断的跟实体的经济结合,创造一个又一个新业态的过程。
整个消费者已经变成了13亿这样的时候,发生了很大的变化。我觉得这是争论了很长时间,实际上网店和实体店的区别,人们不断的说商业的本质是什么,但是你聚焦到实体店和网店的时候你会发现,它们所蕴含的含义是不同的。
一个网店可以借助互联网的平台卖中国、卖全球,它的销售半径是全国市场,在中国至少是4亿多的网络人群。但是你做实体店再大,你也就是北京城,小一点的店辐射一公里两公里到头了,所以它的用户群聚焦是不一样的。聚焦4亿的用户和聚焦一个城市里头的比如说一百万的人群,你的消费是完全不同的。
电商其实卖的是信任
商业的本质和零售的本质仍然是交易,仍然是价值,但是整个形势已经发生了巨大的变化。我们看到在这个变化背后渠道的变化是压缩,品类巨大的扩张在淘宝上超过10亿这样的规模在线下是永远见不到的。
实际上消费者在这个过程当中是跨时间和空间的,跨的消费半径从一个简单的几公里跨到了全国。我们看到网店的销售再往下走是它的数据化,一个实体店它再怎么好,没有数据。实体店跟网店重大的区别在于大家对价值的主张,价值的判断是完全不同的。网店在不断经营过程当中不断的积累数据,不断的经营消费者的经验,我们看到在这样的平台上,已经从简单的交易扩展成全社会的电子商务体系,同时成为一个新的基础设施。
那么在未来背后还有很重要的一点,实体店的交易借助于面对面,但是在线的交易借助陌生人买陌生人卖,用信任用数据来建设一套全社会大范围的信任体系。因为有了信任体系的建设使得整个商业交易的本质发生重大的变化,人们的交易成本获得巨大的下降,我想这个都是在今天我们看到的电子商务发展新的特征新的方向。
我觉得阿里的整个零售交易系统超过沃尔玛,不是一个中国企业超越美国企业的问题,而是一个在线的交易体超过线下零售体的交易过程。这是一个标注,标注着碎片化分布式小而美的交易,被互联网连接起来,通过这些商业的基础设施,交易的基础设施,可以达到一个买全国,一个卖全国的新的状态。
未来整个电商的交易规模会达到多高?我觉得十万亿肯定不是梦想,而是一个随着时间的到来必然发生的事情。
我们看到在云端今天渗透推广的不管是人工智能,AR、VR,机器人的使用可能会在电商的客服里头率先的使用,如果标准化的客服系统,维护客户的售货员系统标准化,我想员工会节省下来。
机器和VR,VR会带来整个用户体验高度提升,会带来用户入口的转变和整个交易流量转化成交易额巨大的提升,所见即所得,会变成一个很快的现实。在线交易系统对实体店的一个影响可能刚刚开始。AR和VR的发生我觉得未来的零售交易会非常好玩。
在生产和信用当中只是一个闭环,零售商把货给消费者是一个闭环,这是双结构是两段市场,但是在电商的时代,他是一个产产销市场,进一步的渗透会往上一部倒逼,把原材料拉进来变成一体化的交易链路,这个时候电商就不只是一个网站的交易前端,而会变成整个全社会的经济社会产业的整个网站战略系统,这是未来主要可能要发生的特征。
更多未来解读:www.yangfenzi.com/tag/weilai
制造业一定会随着经历不断的渗透,转变成SAS,今天封闭割裂的制造业,会不断的跟大淘宝这样的平台对接起来,然后把数据打通通过这样的打通使得消费者跟制造商的连接快速的形成,平台化的电商系统会更加有利于制造业洞察消费者,而不是阻断消费者信息。
再看未来的发展需求,从电商的平台未来的发展有三个关键词,第一个新常态,第二个全球化,第三个互联网+。所谓新常态,我们讲中国经济的发展要出头导向靠城市房产投资来驱动,今年中国整个经济的发展,正在发生的变化是新的消费机遇,所以新常态的一个转向一个结构变化就是消费不断的升级。消费的升级不单在中国发生,信任升级是在全球化实现,过去的全球化是以跨国企业、经济贸易,但是今天的互全球化是以互联网化来实现,未来的电商是跨境的电商,也是不断覆盖农村的电商,这是未来我们看到的一些方向。我们看到互联网会变成以前的基础知识跟整个交易系统结合起来变成未来的发展方向。
实体店还是会存在,但不用数据,一定会被淘汰
互联网全新的一个发展,技术作为生产力,落在互联网上就是云端,高性能的计算很重要,但是低价格低成本的计算大家用得起的计算更加中国,端会进一步升级变成一个VR、AR或者是无人驾驶,数据变成新的,数据会改写,不管是网店还是实体店都会使用数据,不使用数据的实体店没有生存没有未来,实体店还是会存在,但是不使用数据的实体店一定会被慢慢的淘汰。当然最根本的是在数据的推动下、商业的推动下,带来了新的分工企业,在分工企业下数据做好带来的发展和创新是我们想不到的。更多VR趋势:www.yangfenzi.com/tag/vr
我想这次机会把前一个月研究的数据分享给大家,我觉得这个数据可能会给大家带来实际的感受而不是抽象的认为。我们研究了2008年到2015年七年的时间,我们的经济发生什么变化。以七年作为一个阶段,我们可以看到从2001年到2008年我们的出口贸易达到了10万亿。我想在那个时候做外贸的人怎么做才能赚钱,这是整个经济发展的黄金时间,这是当时整个商业创新的风口。
但是好景不长,大家看到2008年从10万亿的交易规模到2015年变成了14.1万亿,增加了4亿,整个外贸行业开始往下走,但是大家注意在这个过程当中出现了新的变化,这个变化就是消费在崛起,我们看到2001年2008年的消费从4.3万亿人民币扩展到11.5万亿涨了2.67倍,这个时候你发现消费起来了,关键的一个非常重要的变化是在2008年以前的这些生产能力,在2008年以后变成了库存,变成了过剩,但是这些过剩和库存借助了淘宝,借助了电商的交易把产品铺向了三四五线城市的消费者,铺向了80,90后的消费者,创造了新的数据市场。
在这个数据背后我们看到出现一些新的中产阶层和消费升级。这个消费升级就是已经有上亿的家庭今天具备了中产阶级的标签,每个月收入在八千到一万二的这样一个已经变成了中产阶级,我们跟BCG共同研究发现有三股力量在推进今天的消费升级,第一股力量就是上中产的消费阶层他们非常有限中国高端的产品不能满足他的需求,社会的环境不能满足他的需求。
另外一股就是年轻的消费能力,新新人类,90后,95后,00后,用新的观念生活,负债生活,而不是像老一辈存钱生活。未来的购物五年就是私人消费,就是从企业政府的购买完全到个人的购买,这个领域的增长未来会有42%来自于网络的消费,电商如果存在下半场的话一定是巨大的蛋糕。
再来,如果讲这一轮的变革是由移动互联网驱动的话,不管是BAT、Facebook、Google我觉得都在努力的完成一个动作,就是从PC端转向移动端。今天从阿里交易数据看,移动端交易人群已经变成主流的消费人群,未来新的是什么?是人工智能、大数据。这两个会比移动互联网更大的动力去推动新的独角兽产生,不管是小米估值450亿美元,还是新美大估值到170亿美元,这些企业事实上都在新的创新领域变成未来的BAT。
你去看一下如果排前三个的公司,它的市值如果能上市的话,会超过BAT当中的一家。BAT的结构今天只是一个传说,已经是过去的时代,BAT的时代变成了过去,新的独角兽崛起,整个中国互联网的格局在未来三年五年会发生重大的变化。我们可以想像在这个过程当中,不管是购物、服务、跨境、农村电子商务的发展都会有巨大的机会,巨大的空间,所有的实体经济跟在线的交易结合起来会创造更大发展的空间。
今天全球的市值最高的公司已经变成了DT、ET、IT公司,已经不是传统企业。我们已经能看到Google、亚马逊、Face book累计超过3万亿美元,2011年你看到基本上都是工业经济的企业,实体的企业,但是2016年8月份开始,整个的能源也好线下传统也好,全部出局,全部换成了ET和IT的公司,所以互联网企业已经是一个时代变革的标志。接下来的几个变化,就是刚才讲到的基础设施、新的分工体系、新的组织方式、新的生产方式的变化,在这个变化的背后,新的技术在不断的推波助澜。
▌从这里了解未来、创造未来
科幻 白宫 OKR 物理 大脑 生命 NASA 火星 开源 MIT
·氧分子网(http://www.yangfenzi.com)延伸阅读:
➤ 毛向辉:我们何时才能生活在未来 那些来自过去的,对未来的描述
人工智能带给人类生活更多的是积极影响。第一,人工智能可以把人类从繁重的劳动中解放出来,提高人类生产生活的效率和质量。(如果只侧重生活,这一点可以展开为 提高生产效率 使人类免受高风险工作 提高生活质量等)第二,人工智能的进步会极大地革新人类的思维方式,看待世界的角度,深化人类对自身所处宇宙地位等问题的思考。第三,人工智能本身是人类最杰出的作品,它在某种程度上可以实现人类文化思想等一切文明结晶的永生。
负面影响也要提,人工智能的过度发展会使人类越来越依赖科技,甚至成为科技的奴隶,同时人的各种能力也会在惰性中退化,人的价值和尊严会逐渐被更高效更智能的机器取代。
但是在可预见的短期,人工智能会极大的造福人类。同时从长远来看,无论人工智能是否最终会取代人类,它始终是人类在浩瀚宇宙中孤独探索所造出最像我们自己的东西,人类所经受的消极影响从来不在于人工智能的进化程度,而在于人类对自我的认知和把握.人工智能和机器学习的发展可能会导致程序员失业,不过肯定是最后一批被淘汰的职业,最早被淘汰的肯定是操作性强,脑力劳动不多的岗位。比程序员还不容易被淘汰的职业是什么?
艺术家。我预测未来艺术家就像现在程序猿一样普及。为什么说发达国家的第三产业在经济中所占的比重会比不发达国家要大?因为他们可以用很少的人、很少的投入完成农业和工业,剩下的人怎么办?只有去第三产业,服务人或者被服务。而精神消费又是一个比较高级,很难自动化的一种业务。所以未来的娱乐业一定超级发达。——纯属个人猜测。。。
那时候机器代替人类完成绝大部分的苦活脏活累活,人们没有加班没有没有压力,工作是为了实现自我价值,每天都是诗和远方,探索宇宙和生命的边界。想想都令人向往。。。人工智能与智能硬件:人工与智能两个方面
熵增:不断形成的新的领域与科学技术
异类心智:生物的多样式与自创造性、
服务与实体化:服务于人类的具体实现形式、仿生学
人工智能与人类?人类终将臣服于自己使用的工具,利用与被利用是相互的首先简单科普下:人工智能(Artificial Intelligence)作为交叉自然学科与社会学科的边缘学科,可简单解释为模拟人的思维的信息过程,是被研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统。从“人工”、“智能”两个方面进一步阐述说明。“人工”即人工制造的信息系统。存在争议的是人力所能及制造的,或者人自身的智能程度能高到可以创造人工智能吗?使得这种人工智能可以脱离人类而实现自我存在与管理吗?
“智能”则分为弱智能与强智能。普遍来说现行市场中智能硬件,从穿戴智能到物联网的家电、google glass、特斯拉、pad手机、移动医疗器械等均属于弱智能化产物,仅仅在硬件基础上覆盖操作系统,连接开放的互联网资源,实现传统硬件的功能拓展或多功能化
“强智能”才是我们今天要讨论的真正人工智能
在人工智能的实现过程中,首先要明确的是我们需要的是人类智慧还是高阶进化的超人类智能。作为万灵之首,人类除了生存之外,还有着尊重、道德文明、政治敏感、自我实现等高等生物的高级复杂情感系统,擅长制造工具以延伸拓展肉体的限制,比如开发具有数据统计与分析能力的计算机、制造精确计算与精准操作的机械、对时间与空间的定格纪录的摄像机、甚至于现在物联网联系起所有日常硬件、生物与机器的互动操作都是在延伸人类的处理事物能力。
从农耕社会时代,人们只是狩猎加简单改造自然,到蒸汽时代、工业文明、互联网变革、智能硬件时代,从开发自然谋以生存、到构建新的生存环境、改造社居、到引入规模教育、政治、商业、新的管理体系等,一切都遵循熵增定律(熵,即无序性、混乱度),即热力学第二定律。世界万物从有序走向无序,再在无序中构建有序,即:在熵中酝酿出“负熵”,在混沌中孕育出反混沌,生命与进化也在此相互交替。在重构的过程中,世界趋向于复杂,已有事物重新排列或者再利用,新事物诞生并与已存事物“重混”、“联系”,支撑起新的秩序,人们也会不断有新的欲望,也会有新的规则去管理与运营维系。旧产业不断消失,新行业不算演变涌现着,就像18世纪的大农村插秧的一定想不到今天农业机械化代生产,反而听都没听过的计算机、金融行业需要大量劳动力。所有的一切,我们都活在世界重构的过程中,在一个漫长累积或者喷薄而出的变化中,新事物的“形成”一定是某一时代的结局,无关乎中间的具体方式方法是什么,发展大趋势下,不管有没有IBM、谷歌、苹果,互联网+、物联网总将出现,或早或晚,也会有其他引领人们的时代先驱,同时这些也是下一个新时代的开始,以此交替。所以,首先,摆正菜鸟心态,接受并跟上时代环境的变化,迎接新事物,日新月异。人工智能的实现:
与生物工程、基因工程的源动因一样,研究人工智能除了服务人类生活,还有因为我们有充分控制有机体,改进物种的欲望。把人类当作万灵的最高智慧体,仿生是最容易被想到的方向。人工智能经常被一些学者要求具有全面的智商情商、人类情感、政治敏感度、道德判断、文明感知等人类群居系统的产物。但是,人工智能真的有必要一定是类人机器吗?我们可以允许和人类不一样的心智存在吗?比人类心智更加高阶,甚至不需要类人的进阶过程?
凯文凯利提出过一些新的心智包括:
1、与人类的心智相像,只是反应更快(我们最容易想到的人工智能)。
2、主要基于大容量存贮和记忆,有些愚钝但是信息面广博。
3、全球化超级心智,由数百万做着单调工作的智能体组成。
4、蜂巢型心智,由许多十分聪明的心智组成,但是自己却意识不到。
5、博格型(borg)的心智,组成它的许多聪明心智意识到它们构成了一个整体。
6、被专门训练用来加强指定的人类个体的心智,但是对其他人完全无效。
7、能够设想但不能制造比自身更强大的心智。
8、能够制造比自身更强大的心智,由于自我意识不足,无法设想自己制造的心智。
9、很缓慢的心智,覆盖了很长的物理距离,因而在快速的心智看来是“隐形”的。
10、能够多次克隆自己,或者与克隆体组成整体。
11、可以从一个平台迁移到另一个平台,从而保持永生。
12、一种快速的、动态的心智,能够改变自己的认知过程。
13、专门提出设想并作预测的心智。
14、半动物半机器的共生心智。
15、使用量子计算的心智,我们无法理解其逻辑。
16、一种心智能解决普遍问题,但没有自我意识。
这张预测清单的重点在于所有的认知功能都是专门化的。我们所期待制造的人工智能都将专注于为专门任务而设计,通常是超越我们能力的任务,例如机械产品不是某样事情做的比人类好,而是能做人类完成不了的事,思维产品不是比人类想的更快、更好,而是能思考人类无法思考的事情。 人工智能(AI)也可以表示成异类智能(Alien Intelligence),想要真的解决量子引力、暗能量以及暗物质等高深复杂的谜团,可能还需要人类以外的其他智能,现在的科学研究大多要靠上百个人类的心智共同完成,而人工智能时代,更加艰深的问题,必须借助于百种不同类型的心智解决,科研从人类视角出发,以不同心智的认知方式去认识和解答。考虑到其他心智的存在性与异质性,人工智能在将来若能真的强大、无处不在的出现在日常生活,让一切传统事物变得更加聪明,事务变的更有效率,便不太可能出现在超级电脑上,实体化受诸方局限,带来的维护、生产、空间移动、管理成本便不会让它拥有“改变一起”的力量。反而是网络,作为唯一有能力无偏见地发展或无引导地学习的组织形式,分布式,去中心化可以使得用户从任何一点进入,不受其他的拓扑结构边界的限制。人工智能更应该表现为数十亿电脑芯片组成的超级组织,轻巧的、嵌入式的、没有固定形态的,并且内部联系松散。它连接70亿人的大脑、数万兆联网的晶体管、现实硬件载体收集的全部生活数据、甚至整个人类文明的自我修正与反馈循环,任何与这个网络人工智能的接触都是对其职能的分享和贡献。比起专注的、专门化的、任务化的心智,这种新型的人工智能遵循集体主义原则,可以各部分进行分享、合作、协作、修复、完善、形成自循环,容错力强大。
在人工智能普及化进程中,必须在云端化的基础上做到:按需使用的及时性、平台协同。
1、按需使用的及时性:
人工智能系统作为一种超级分配系统,最根本层面需要将它的一切行为、一切特征、一切想法、一切知识换算成信息系统的语言表达形式,把自然逻辑输入带入机器,再把技术逻辑输出带回现实。
从几千年的纸质传播、硬盘、屏显时代,人类一直致力于尽可能减少复制品流动的阻力,数字通讯网络经过设计,视频、音乐、文字的平台间传递传播都如此自由,以至于我们可以把这互联网想象成一个超导体,进入该系统的复制品可以通过网络无休止的流动下去。如今,计算机时代的信息复制已然进入流媒体时代,我们观看流媒体视频、收听流媒体音乐,电视屏幕下不断流动的滚动条,订阅视频流。信息的获取向“实时”发展,我们不再花大把时间、大硬盘去存储资源,甚至不会去打包下载,当所有的资源在云端以信息流的方式可被轻易复制传递,我们要做的只剩下找到资源,存储地址。于是,未来需要的不是完整的收存,而是信息的获取源,“使用权”比“拥有权”更加重要。
人类一方面受肉体消亡局限,另一方面还有更大的求知欲与活动需求,必然要求一切事务处理要更加有效率。于是,我们充分利用了我们的眼睛、耳朵、手指、身体去更加精准有效的参与感知世界,用灵活的手指代替敲代码来操作机器、用电子屏或全息投影代替纸质书画制造直观界面、用播放器配合声音制造气氛,用整个身体模拟进入虚拟世界。好像光速、声速对人类来说已经很效率了,但是如前文所述,一切实体都存在局限性,可表现在移动成本,或管理运营、或操作速度上。
抛开硬件载体的局限,如果不用计算机的数字脉冲表示信息,而是将互联网仿生为人类大脑,无数个神经元相连,受到刺激产生神经脉冲并传递,这里不仅仅是指神经冲动在神经纤维产生电流,还有信息;将这种电生理活动作信息化、可感知化处理(并非局限于可视化)。我们可以在脑子里想象一个情景:黄梨木的长方形桌角,上面摆放的蓝绿色陶瓷花瓶,从桌子一角掉落,打碎成大小不一碎片散了一地,于是你拿出扫帚簸箕清理干净。视频常速大概两分钟,但是我们再在脑子里回顾此情景,两秒钟演全过程完全不费力,然而视频要在两秒钟播放完可就真的不知道在说什么了。再认真区分开花瓶碎掉、打扫碎片的声音,配合想象肌肉的运动、拿着扫帚弯曲的手指,移动的小臂,一一清晰可见。在脑海里,再用两秒钟想刚才花瓶碎掉被打扫的情景,大脑皮质、丘脑、下丘脑、边缘系统和小脑各个部分相互协作实现快速的生命体的流视频功能。因此,智能网络可不可以与生命体之间实现重叠,让脑电波承载信息流,更加效率的实现信息的高阶传递与处理?
2、多型平台协同:
在智能时代,若某一设备或平台不能与其他设备、平台进行交互,其实跟坏了的传统硬件便也没了区别。即使是现在的弱智能化时代,穿戴设备、家居、电子产品都在物联网下紧密相连,今后,人类与机器、人类与其他生物、机器之间势必也都将被超级智能网络相连。除了远程操控、设备间的交互、人机交互更加彻底便捷,虚拟现实设备也逐渐涌现,现实世界与技术虚拟空间不断被拓宽、交融、深入;与此同时,管理与运营智能硬件、虚拟现实的成本往往比研发、采购设备更加昂贵,管理运营工具也将成倍应运而生,社会新生出许多进一步细化的行业以容纳那些滞后的传统行业下岗人员。
为了更加效率的生活工作,用户通常被提供多平台地进行事务处理,某些事务处理需要同时使用多平台各心智功能,或者平台间协作完成,因此,跨平台的信息流传递,甚至可以跳入到技术本身,在一个技术塑造的世界,用户间的互动在虚拟现实中,可能是以跳脱感官限制的方式展开,而用户与物质世界的互动即增强现实,以更加便捷效率的方式展开。
人工智能化过程中,机器设备与生命在逐渐会实现融合,彼此有着相互发展的趋势,人造物越来越像生命体,生命体越来越工程化,那么最后争议的一点:可以自维持、自升级、自进化,甚至可自制造新的后代的机器可不可以被看作是有生命的?人工智能会像人类一样有意识吗?非人类智能不是一个程序错误,而是一项功能。人工智能会思考,但最重要的特征就是它们思考的方式与人类有差别,人类应该容忍并接受与自己不一样的意识、心智的存在,这些可能与人类自身意识心智互补、冲突、或者高于人类。在一个联系超密集的世界中,不一样的思维方式才是创新和财富的来源。
2. 可以做出有情感的机器人吗?比如会恐惧死亡
机械零件会老化、技术落后被淘汰都有可能,但是人工智能时代,所有硬件设备接入超级智能网络中,自我更新、修复,找到能量源这些最起码的机器行为,只要程序设定其努力让自己继续存续下去,恐惧死亡变成机器语言肯定能实现。如果说机器人拥有生命体的情感,是不是代表无机材料可以制造有机生命体?自从Wohler用氰铵酸合成尿素以后,科学理论和实验技术不断提高,人们对无机和有机化学的机械分类已变得模糊,两者相互渗透、相互促进成为必然趋势,但是终究目的还是为了物种改进,都时候更应该探索思考的是人类存在的目的、信仰与意义。
3. 智能网络会不会出现超级病毒,对人类不利?
任何事物都有相对的两面性,智能网络作为战争渠道方式之一被恶意使用也不可避免,就像人类现在仍然无法完全掌控核武器,仍不妨碍我们继续研究了解去进步。文明发展的应对对策一向在发明变革之后产生,熵增完成之后必然也会出现有序的“负熵”,社会群体将自发产生新的规则去管控事情不向最糟糕最不利的地方发展。
4. 人工智能会不会奴役人类?
最后,关于人工智能会不会奴役人类呢?引一段凯文凯利的“软奇点”观点,他认为人工智能不会像聪明的坏人一样,试图奴役人类。人工智能、机器人、过滤技术、追踪技术、以及其他各种一切技术终将会融合在一起,并且和人类形成一种复杂的依存关系。在这个层级中,许多现象发生的等级将高于现存的生命以及我们的感知水平,即“奇点”出现的标志。在新的系统中,我们创造的东西让自己成为更好的人,同时,我们也离不开自己的发明。人工智能体、类机器人、人类、弱智能硬件等存在体在复杂的冲突、利用与被利用中,与新型超级网络无形的捆绑在一起,所有的这一切都将成为新的相态。
1.替代简单重复劳动,创造商业价值!(人的创造力目前是无法替代的,但简单的可以)。
2.要聪明的找到容错的用户界面(这句最经典)。
3.让用户提供自然的大数据(通过娱乐app收集更多原始数据)。
4.关注局限领域(找到合适的垂直领域)。人工智能现在已经能实现很多功能了,比如
语音识别——李开复博士当年做的工作奠定了很多当今识别系统的基础。这里忍不住说一下,Siri本身的技术并没有特别大的亮点,真正nb的是它的模式(语音识别直接与搜索引擎结合在一起,产品体验做得好。而且关键是这样的模式能采集到更多数据,使得系统的精度越来越高)
自然语言理解——目前看到的最强的结果应该是IBM Watson。但其实我们现在用的搜索引擎、中文输入法、机器翻译(虽然其实还不怎么work)都和自然语言理解相关。这块儿不是我的专业,请 @段维斯 同学补充。
数据挖掘——随着近年数据量的疯狂增长,数据挖掘也有了长足进步。最具有代表性的是前几年著名的Netflix challenge(Netflix公司公开了自己的用户评分数据,让研究者根据这些数据对用户没看过的电影预测评分,谁先比现有系统好10%,谁就能赢100万美元)最后这一比赛成绩较好的队伍,并非是单一的某个特别nb的算法能给出精确的结果,而是把大量刻画了不同方面的模型混合在一起,进行最终的预测。
计算机视觉——目前越来越多的领域跟视觉有关。大家可能一开始想到的都是自动驾驶。虽然大家都在说googleX的无人车, 但实际上现在无论是商业上,还是技术整合上最成功的算法是Mobile Eye的辅助驾驶系统。这个公司也是目前computer vision领域最挣钱的公司。
从实现新功能方面说,视觉的发展的趋势主要有两方面,A) 集成更多的模块,从问题的各种不同方面,解决同一个问题(比如Mobile Eye,就同时使用了数十种方法,放到一起最终作出决策) B) 使用新的信息,解决一个原来很难的问题。这方面最好的例子是M$的Kinect,这个产品最让人拍案叫绝的就是那个红外pattern投影仪。2. ===理论基础===
这里说的是数学理论,是为实现功能解决问题而存在的。与人类的智能的联系在下一节说。从这个角度,我们已经有了很多强有力的数学工具,从高斯时代的最小二乘法,到现在比较火的凸优化,其实我们解决绝大多数智能问题的套路,都可以从某种意义上转换成一个优化问题。真正限制我们解这个优化问题的困难有以下三个:
计算复杂度——能保证完美解的算法大都是NP-hard的。如何能让一个系统在当前的硬件下“跑起来”,就需要在很多细节取巧,这是很多learning paper的核心冲突。
模型假设——所有模型都要基于一些假设,比如说,无人车会假设周围的汽车加速度有一个上限(至少不会瞬间移动吧,否则怎么闪避)绝大多数假设都不能保证绝对正确,我们只是制定那些在大多数时候合理的假设,然后基于这些假设建模(比如,在语音识别里,我们是否要假设存在背景噪声呢?如果有背景噪声,这个噪声应该符合什么特点呢?这时候无论你怎么定标准,总能找出“反例”)
数据基础——任何学习过程都需要数据的支持,无论是人类学说话学写字,还是计算机学习汽车驾驶。但是就数据采集本身来说,成功的案例并不多。大概这个世界上最强的数据采集就是google了吧。每次你搜索一个关键词,然后点进去,google就自动记录了你的行为,然后以此数据来训练自己的算法。计算机的计算性能发展到今天,常规的商业应用,比如财务报表,字处理,网页服务等已经完全够用了。那么必然需要新的增长点。说的直白一点就是旧的程序已经足够快了。如果没有新程序和新功能,就没有人愿意升级软件和硬件系统了。那么下一步的新功能只能往智能化的方向发展。IBM花了很多钱,开发了一个电视节目里玩游戏的Watson。当然不是因为IBM老板特别爱看这个节目。主要原因是展示他们的技术,从而推动新一代智能产品的销售。这一系列的产品主要面向大医院,相当于一套自动回答问题的医学百科全书。Google花大力气开发了自动驾驶汽车。Apple推出了一个相当不完善的Siri。他们都看到了智能机器蕴含的巨大商业潜力,而此类机器的大规模应用将会带来革命性的效果。
1.未来电商与社交必须结合,这是大趋势,其中包括评论晒单,也包括兴趣交流等等等等;
2.推送消息的方法、内容和手段有多种多样,而精确性的高低必须依赖大数据挖掘能力的强弱;
3.搜索的关键词,以及精确的浏览记录,是非常真实非常精确到位的,用户喜好的反应;
4.给用户把好脉,捏准了用户的喜好,可以使推送更加精确,也可以使社交爱好更加一致。
现在比较火的陌生人因兴趣而建立社交关系的软件或网站,例如微信陌陌的手机摇一摇,两个陌生人建立社交的基础是相距XXX米之内,这样仅仅基于位置展示相近而形成的社交关系是非常弱的,称之为弱关系;例如各大贴吧和豆瓣电影的圈子,其中交流的用户因为都对某个影星,某个影片,或者某类电影进行交流,那么甲的兴趣和乙的兴趣依然会有出入,而且不可避免圈子中有黑有粉,观点对立的,这个社交关系虽然比前文的弱关系强力一些,但依旧黏性不大;当 我想了解“大圣归来”,那我会在搜索框中打“大圣归来”,假如我想持续获得“大圣归来”持续的消息,并且我可以主动关注关键词“大圣归来”的话,等于我非 常精确的把我的爱好告诉了大家,当然也告诉了数据挖掘工程师,当我和你关注的十个关键词中,有八个是一致的,那么我和你兴趣相投的概率将是非常高的,对不 对?这样建立起的社交圈子是不是关系非常近,黏性非常大?假如阿里借用已有的搜索入口,比如淘宝,天猫,一淘等等可以了解到用户真切期望获得的信息的方向,在此基础上建立强关系的网友社交圈子,是不是不仅可以增加黏性留住用户,并以此吸引更多感兴趣的人?是不是可以通过这些圈子行进无比精准的电商推送?稍微总结一下:
1.借用深厚的电商,从搜索和浏览记录下手,打造高度黏性的社交圈;
2.吃准用户圈子的喜好,不断吸引留住吸引留住吸引留住用户;
3.如果说微信是基于生活的社交霸主,那么阿里应该有成为基于电商的社交霸主梦;
4.通过搜索和社交圈把握的大数据资源,进一步巩固电商老大地位,一统江湖。
这里YY几个未来可能会热门的NLP的应用:
语法纠错
目前文档编辑器(比如Word)只能做单词拼写错误识别,语法级别的错误还无能为力。现在学术领域最好的语法纠错系统的正确率已经可以接近50%了,部分细分错误可以做到80%以上,转化成产品的话很有吸引力吧~无论是增强文档编辑器的功能还是作为教学软件更正英语学习者的写作错误。
结构化信息抽取
输入一篇文章,输出的是产品名、售价,或者活动名、时间、地点等结构化的信息。NLP相关的研究很多,不过产品目前看并不多,我也不是研究这个的,不知瓶颈在哪儿。不过想象未来互联网信息大量的结构化、语义化,那时的搜索效率绝对比现在翻番啊~
语义理解
这个目前做的并不好,但已经有siri等一票语音助手了,也有watson这种逆天的专家系统了。继续研究下去,虽然离人工智能还相去甚远,但是离真正好用的智能助手估计也不远了。那时生活方式会再次改变。即使做不到这么玄乎,大大改进搜索体验是肯定能做到的~搜索引擎公司在这方面的投入肯定会是巨大的。
机器翻译
这个不多说了,目前一直在缓慢进步中~我们已经能从中获益,看越南网页,看阿拉伯网页,猜个大概意思没问题了。此外,口语级别的简单句的翻译目前的效果已经很好了,潜在的商业价值也是巨大的。
不过……在可预见的近几年,对于各大公司发展更有帮助的估计还是机器学习与数据挖掘,以上我YY的那些目前大都还在实验室里……目前能给公司带来实际价值的更多还是推荐系统、顾客喜好分析、股票走势预测等机器学习与数据挖掘应用~在BAT三者里,都非常重视大数据的研究。但是所谓大数据研究,首先你得有数据让你研究,并且这个数据量要很大。不然怎么叫大数据呢??显然,阿里和百度都符合。但是,两者所拥有的数据来自的领域不同,阿里是电商开始,因此在电子商务(购物行为,浏览行为,甚至个人信息)上的数据量很大,百度是搜索引擎起价起家,自然在搜索上获得的数据量(网页,搜索行为之类)很大。所以,阿里拼不过百度的搜索引擎数据,百度也拼不过阿里的电商数据。
此外,有了数据,就得看研发平台和技术团队了。大数据既然大了,就不能几台电脑就能搞定,必须是一个大的集群来分析,好的数据仓库来存储。两者都有云,很难说哪个好吧。
技术团队也一样,很难比较。百度有Andrew Ng,但是不是加个科学家它家就一定是好一点的。关键还是看有哪个领域的数据,数据量有多大,公司烧多少钱支持搞大数据研究~~
阿里云在云栖大会上海站的主题是DT World,这是一场规模宏大的大数据产品的发布会。发布的近20款产品, 几乎都出自阿里巴巴一个存在已久的团队:数据平台事业部,从2015年初开始变成了阿里云数据事业部。这个团队存在有多久?可以说比阿里云本身还要久。这个团队最早和DBA在一起,负责人是淘宝的第一位DBA七公,后来DBA归属运维,数据平台则在七公的带领下迅猛发展,底层的平台历经多次升级,集群规模也从最初的4个节点Oracle RAC到20个节点Oracle RAC,再从数百名到数千台Hadoop,直到目前的数万台ODPS,并且在CDO时期整合了当时集团各个BU最强的一帮大数据人才,成为了承载集团大数据梦想的数据公司。这中间的故事,几个团队的纠缠不休,几个项目的惊心动魄,估计讲个几天几夜都毫无尿点。
还是略过历史,回到数加吧。前面说到数据平台事业部是承载集团梦想的数据公司,这个梦想是很远大的,就像某年年会的口号说的,是星辰大海。下要做好大规模计算的分布式平台,中要做好集团数据人的开发平台,上要挖掘集团数据的商业价值,三路大军浩浩荡荡,场面颇为壮观。但细看之下,却好比段誉同学通过北冥神功吸收了好几股真气,在没有融为己用之前,真气乱串导致偶尔是神功盖世,偶尔是武功尽失。
直到2015年初,独立山头的数据平台事业部,变成阿里云旗下数据事业部,名字相差不多,但其实角色发生了很大的变化。阿里云总裁孙权同学对新的数据事业部提出了内部创业的想法,希望将过去几年主要为集团内提供服务的大数据平台能够正式全面的对外商用,并通过内部的创业工作室模拟外部客户来打磨平台。这是一个很大胆的想法,对于大部分都是技术人员的数据事业部来说,不啻于一场大革命。从15年4月份开始,数加业务团队、数加技术团队和内部几个创新工作室相继成立,并搬到了当时还没有什么人气的云栖小镇办公。我也是这个时候开始正式负责数加技术团队,有幸和一群饱经磨难的数据同学一起感受了一段内部创业的过程。
从一开始,我就把数加定位成大数据业务平台。在数加之前,集团内部实际上已经有两个大数据的平台,一个是面向集团内部的在云端,另外一个是面向外部电商场景的御膳房。这两个平台的底层技术组件基本是一致的,2014年底的5K+项目也致力于让两者的底层完全统一,内部称之为一个Base,多套部署实例。既然已经有一个对外的实例了,那么数加做为业务平台,是基于已有的御膳房实例来构建,还是单独再部署一个实例呢?这是要做的第一个决定。从技术上来说,当然应该选择基于已有实例来做,这样可以轻装上阵。但实际情况是御膳房针对电商场景做了比较多的业务逻辑封装,有点类似于聚石塔在电商场景下对阿里云的封装。这种封装在电商场景下是合理的设计,但要面向通用的云计算和大数据场景,就有很多不尽合理的限制,甚至在最底层的租户模型上,当时也有一些设计冲突。
所以我们做的第一件事情是重新梳理租户模型,在此基础上部署了一套新的Base实例。现在回头来看,这一年能够快速的把数加平台搭起来,能够在这次DT World上顺利发布,最初的决定是对的,省去了很多的依赖和扯皮,并且从一开始就把租户这个最核心的依赖做对了。但数加是颗尚未发芽的种子,面对已经有一颗树开始抽枝散叶的情况下,这是非常不容易的,这中间至少给两位CXO级别的老板写过邮件才得到最终的资源和授权。所以我一开始跟团队强调,现在不要提什么平台,没有足够多的客户也不要想什么平台,先踏踏实实的做好工具产品。2015年4月还发生了另外一件事情,我开始跑步了。没多久数加在产品方向上基本确定了要做新的计费模型、服务商模型和数据服务市场等主要的事情。老张和我讨论团队的口号的时候,我们达成了三点,就是前面数加的PD王峰说的:成全他人、莫向外求、跑马拉松。其中跑马拉松是我提出的,一方面是让团队做好持久战的心理准备,另外一方面我也给自己定下跑马拉松的目标。到数加发布为止,我一共跑完了三个半马一个全马,想想当年在学校跑1500米都要死要活的,只要有目标,没有什么不可能。简单的八卦故事到这里应该告一段落了。我在2015年11月从阿里云离职,和几个前同事一起创立了袋鼠云。很多人问为什么离职?数加当时虽然做得辛苦,需要从法务到财务到底层的Base/ODPS技术,到计费团队,要做一点事情都需要从最上面的业务一直贯通到最下面的技术运维,但总体上目标是清晰的,前景是光明的,数加这个小团队自身相处得也很融洽。但也正是在做数加的过程中,我看到了云的趋势、计算的趋势和数据的趋势,也坚信面向企业的云服务和大数据有一波新的机会。我已经在阿里八年多,历经淘宝DBA、手机淘宝数据产品和数据事业部数加团队,收获很多,也错过了很多。如果再多待几年,还是会有不错的收入,头顶着平台的光环也可以吹吹牛B,但可能会失去从头开始的勇气。错过这波机会,未来回头来看的时候,我想我会后悔的。当然,创业维艰,失败的概率很大,但至少我经历过的选择都从不后悔。那么,说了这么多,到底数加是什么鬼?当天发布的底层计算引擎有类似Hadoop/EMR的ODPS(发布会上宣布改名为MaxCompute)、有类似Storm的StreamCompute、有做实时多维计算的Analytic DB、有机器学习的PAI。计算引擎之上,有数据开发者友好的Web IDE、有业务任务的调度系统、有元数据管理等一整套操作界面。对于大部分做大数据开发的同学来说,底层的计算引擎大部分情况是不可见的,日常需要操作的主要就是这层界面,也就是首页 – 数加平台这个网站。这两层产品相互依赖,可以说是数加的平台产品。基于这个平台,不管是阿里内部,还是外部的数据开发者,都可以来做大数据的开发和应用。大会上发布的其他产品,包括移动数据分析、DataV可视化、规则引擎、推荐引擎、BI报表、应用托管、郡县图治等,虽然看起来名目繁多,实际上只是平台之上进行补充和丰富的工具、服务以及典型的大数据应用案例。阿里云的主要目标应该是做好下面两层平台,并将平台的能力更多更快更好的开放出来,这两层才是阿里云大数据的核心竞争力,上层开放则可以形成丰富的生态,未来应该有更多的第三方基于数加平台来开发和提供丰富的大数据服务和应用,这是我对这个事情的理解。袋鼠云的定位是阿里云的合作伙伴,而不是再到IaaS层面去和巨头竞争。在平台和企业客户之间需要有更灵活而多样化的服务。现在中国互联网界,无论大家是否愿意,阿里巴巴已经成为了某些领域的技术旗帜,特别是云计算大数据领域。在阿里云稳定运作的情况下,推出数加这样的大数据服务,无疑让国内很多相关企业有了更明确的思考方向和技术参考,知道,原来大数据是可以这样,我觉得这对国内的相关领域的技术推动作用是巨大的:不会做,没足够的技术实力,没足够的行业积累,又想自己弄,那你先抄啊,抄着抄着,又不是傻抄,总归会根据自己的实际情况做一些针对性的改变的,也许就有了不起的发现呢。
再者,很多所谓的媒体和评论员连云计算和大数据是不是一回事都没彻底弄明白就天天在那炒作在那吹,搞得普通非技术领域的人云里雾里,然后趁机获利。数加的推出,这叫大数据落地,叫实践。它告诉你,用大数据的确对你的业务有帮助,然后告诉你你只需要这样这样操作,step by step,达到我告诉你的效果,而不再是西装领带所谓大数据专家唾沫横飞跟你吹几个月,拿完咨询费拍屁股走人实际屁事没干。至于收费,东西做出来本来就是赚钱的,阿里云不是政府机构没有能力强制用户用或者不用,如果觉得不合理,那么可以选择自己喜欢的其他服务商;如果发现没的选,那恭喜你你发现一个好的创业点了,祝你成功,有空瞎炮轰不如去考虑实践吧。综上,要问厉害在哪?我们不谈技术,就一个理由足以证明:你们不是要大数据么,喏,这就是大数据,看得见摸得着的…这就是数加做的事情。
大数据在没有证明自己改变世界之前,无法说明人工智能的正确方向是大数据。简单来说即便现在的Google 走的方向也很有可能完全错到底了。你看狗粉再瞧不起Apple ,也没法否认Google 的市值被Apple 狠狠踩在脚下。这从侧面反映了Google 现在在人工智能和机器学习领域的成就。我是侯世达理论的支持者。如果是对人工智能方向感兴趣,可以看看GEB《哥德尔、艾舍尔、巴赫:集异璧之大成》 侯世达【摘要 书评 试读】图书,如果百度的大数据能准确预言下一个改变世界的方向、技术、公司,它现在的市值绝对不止700亿,保守估计至少是Apple 的几倍。我也是侯世达理论的支持者,我觉得他的理论真正道出了意识的本质,改成 数据、挖掘机器学习、自然语言处理就好学了。列几个数字:
1、全球那个很知名的排序竞赛,在一项比赛中,阿里云的成绩是100TB数据377秒。打破了四项世界纪录。
2、阿里云官方披露的:自建Hadoop集群的成本是数加的3倍多,国外计算厂商AWS 的EMR成本更是数加的5倍。
3、大麦网通过采用“数加”的推荐引擎,研发成本从900人天降低到了30人天,效率提升了30倍。最起码,从速度、成本、开发效率上, 有很大提升。做数加项目之前,我们作为集团的数据事业部,已经摸爬滚打了多年,像大家耳熟能详的ODPS、在云端、数据魔方、淘宝时光机、淘宝指数、TCIF、阿里妈妈DMP、全景洞察、以及无数个大大小小的定向、推荐、算法类服务等都是这个号称坐在金山上挖矿的筒子们干的,这个部门很屌都是牛人。数加绝不是从开始就做所谓的平台,而是从客户具体问题开始,必然换位思考客户的问题在哪?我们能帮助到他什么。开始很多用云的客户提出有大数据的支持,我们跑了很多行业的客户,累计了不少。就拿医疗行业来讲,从原来的HIS、电子病历、化验单识别切入时碰得头破血流,到逐渐找到远程诊疗在模式识别、算法分析、调度上的痛点,并从最需要的底层社区医院进行公益推行。
中间过程需要很多的努力,但客户给了我们信心,他们说会感觉到我们的专业与诚意,他们甚至愿意以我们为中介,为其他客户提供数据服务。
当下的大数据业务,我个人感觉知道做什么比有数据更重要。前者意味着至少了解某些行业下数据的应用价值,后者只是单纯的有数据而已。
我们的数据工程师、算法工程师会冲到客户的门口,冲到客户现场,买行业书籍、去接触之前压根不懂的硬件设备、去看客户看起来很接地气的官网去找业务痛点的蛛丝马迹,有的放矢,不YY,只为说人话,说客户懂的话,谨慎拿出我们的解决方案。
做大数据最动人的风景,是看到自己的方案被客户认可,因为这个领域,没有专家,有的只是行者。凡所有相,皆为虚妄。就这么一点一点,我们沉淀了除了一些核心通用的产品,如规则引擎(从营销、安全场景沉淀)、推荐引擎(精准化运营沉淀)、智能语音交互(智能客服解决方案沉淀)、整合分析(客户洞察解决方案)、DataV(可视化大屏解决方案)…再往下走,为了让数据在各引擎间流动,我们又向下沉淀标签管理、标签数据同步、数据采集如MAN等底层组件…
做平台就是搭台子,串,从客户视角来看要达到的目的如下:
1. 体验上:是一站式的。
2. 功能上:产品之间打通。对数据从业者的帮助主要体现在:
1. 工具提供的功能,极大降低数据相关工作如建仓、ETL、BI、建模、应用开发等的工作量。
2. 工具与引擎的结合,以及数据工作端到端产品线配置上的完备性。
总而言之就是方便。
以前大家都是谈论大数据,实际上有大数据的企业不多,当然,大家能使得上的工具也不多。那现在阿里云实际上是把之前在阿里巴巴集团内部用的一些产品给开放出来。
从这个角度来看,应该成熟度是非常高的。跟单纯做产品的公司相比,阿里胜出在于自己有场景,有需求。。在阿里云做数据方面的研究,把数加平台建起来的攻城狮之一。
阿里云大数据平台数加发布,看到很多人关注,有同行来询问,也有不做技术的朋友关心大数据能给生活带来什么改变。作为参与者,想写写我的理解。仅代表个人。
先说说大数据:大数据说了好多年,其实需要解决的核心问题,和“小数据”没有本质的区别,都是为了解决信息的缺失和不对称。信息的不对称带来了决策的错误,导致了整个经济系统的运营低效,浪费了社会的资源。今天有了大数据的技术,和应用场景,这种不对称就会被大大的改善。每一个个体都可以作出一个相对优的决策,整个系统的运转,也自然就变的高效了。例如,我要从上海虹桥机场到浦东,而且要在三点钟之前赶到。大家如果开车,第一个动作可能是打开高德地图或者百度地图看一下,哪些地方是拥堵的,我就避开。这个流程我们每天都在重复。但大家仔细一想,这里有一个时间差——我出发时候看的交通状况,和到达那里时候是不一样的,没有人告诉我三十分钟后那里是不是堵的。
但是因为我们有阿里云的平台,我们有数加背后所沉淀出来的数据体系和加工的能力,能够告诉你30分钟后的路况是怎么样的。这是浙江省交通运输厅最近刚刚做的一件事,他们用数加平台来预测高速路况。在浙江省1300公里的高速上面,告诉你的不是当前的路况,而是未来60分钟每一个地区未来的路况是什么样的,当前的情况你可以实时查询到,同时还可以告诉你5分钟之后、10分钟之后、60分钟之后是什么样的。再讲一个应用,刚刚讲的这个应用是面向C端的信息服务,帮助咱们的司机朋友,有更好的出行。下面讲一个面向交通管理者的服务,如果真正的发生了拥堵我要怎么办?交通管理机构们可以用数加平台,来扫描它周边的所有的控制节点,每一个控制节点都有一个排列因子,这个因子是算法算出来的,算出来之后给你一个结果,实时的告诉你说,你应该在哪些地方,在什么时间范围内,按照多大的力度进行限流和放行,能够尽快的缓解大桥的拥堵。实际的运行是秒级之内产生的,因为所有的数据都在这个平台上,算法的启动,当我们接到警报,大桥严重拥堵的时候就实时起动,自动产生了这个结果。这个结果的落地是怎么回事,大家可以想象一下,如果上海的匝道上有信号灯,建议在某一个匝道口限行20%,就可以达到这个效果。所以从数据驱动的角度来讲,最后的行动点就是落实在了调红绿灯的绿信比。现在调整是凭经验的。我不是说人工经验不对,我们的方法,或者这一套理念可以让人的工作更加的轻松或者精准。
还有订单派送的场景,在最开始,一般的订单推送,就是暴力的方法,沿着乘客的中心,1.5公里的半径,圈所司机进行群发,分批的发。司机端承接了非常多的定单,那么小的屏幕上面目不暇给,而乘客也要等待很久,司机才会去抢单。最后算法可以做到精准的,圈选某些司机去推,他抢单的概率更高。这个算法就是基与数加平台上的东西,那一套数据加工、建算法的模型。最后专门说说数加,用“大炮”打“蚊子”是我们团队自己聊到一个比喻。因为在数加累计的技术和平台,之前是服务于阿里巴巴内部的,有足够的场景和足够的量,所以造出来的东西都是“核武器”。有的人会说,外面实际上不需要这样的“核武器”,觉得这个东西太重了。“核武器”真的太重了吗?但我们刚刚说的这几个案例,都是我们阿里自己的人用阿里的平台,给大家演示用这个大炮怎么打蚊子,和打大型的飞机。现在讲的这几个问题都是行业非常大的痛点。同样的道理,希望大家能够从这些实践当中看到,阿里云的这个平台,或者说数加的这个平台的魅力。这不仅仅是一个简单的加工平台,当它植入到垂直行业当中去的时候,所产生的颠覆性是难以想象的,可能不久的将来你可能看到它在更多领域的实践,并且会让每一个人感受到实际的改变。最后我想举一个例子给大家讲一下,如果你对云平台,或者对阿里云还有迟疑的时候,十八世纪汽车刚刚出来的时候,在英国伦敦,当时居民们有非常大的抱怨,因为这个车又慢,噪音又大,而且有很大污染,还经常的跟马车抢道,后来英国的议会出了一个法律,规定这个车,就是当时最原始的汽车,行驶速度不能超过多少,有个今天看来匪夷所思的法律。在那个时刻,这是个非常合理的决定,因为居民都反对。但是今天大家都知道,这个决定是多么的违背历史的潮流。所以如果你对数据上云,或者对公共云这种服务模式还有迟疑的时候,我觉得这个例子可以给大家非常好的借鉴。如果不去拥抱变化,最终被颠覆的就是自己。的数据上云和个人隐私其实不在一个层面。因为这里的云计算是对B端的(企业级),和那些所谓的apple的cloud或者百度云,不是同一个东西,也不直接面向消费者。阿里这个官方纰漏的太邪乎,aws比它高5倍的成本的数据怎么来的?用数加就要关联阿里的odps,最低1500元每月起,而且流氓的只有包月和包年,尼玛谁家的大数据批量任务需要7*24小时跑,不跑的时候还收钱,然后跟人家能按小时收费的去pk,太流氓了吧?
阿里这个官方纰漏的太邪乎,aws比它高5倍的成本的数据怎么来的?用数加就要关联阿里的odps,最低1500元每月起,而且流氓的只有包月和包年,尼玛谁家的大数据批量任务需要7*24小时跑,不跑的时候还收钱,然后跟人家能按小时收费的去pk,太流氓了吧?重点是能按量付费,而不是后付费,坦率的讲我最看不惯的是没做到先嚷嚷出来,自己还一堆bug呢还混淆概念搅混水,自己做的牛就说自己的,跟其他友商pk啥,数加为了差异化按量付费模式也与aws有很大差别,怎么就能算出来差5倍?还在再加上性价比算性能,那算不算稳定性呢?这也是性价比的一部分吧?数加咋不算呢?阿里VR实验室成立后的第一个项目就是“造物神”计划,也就是联合商家建立世界上最大的3D商品库,实现虚拟世界的购物体验,这只是第一步,而终极体验可能像阿里实验室核心成员之一赵海平所说:“VR技术能为用户创造沉浸式购物体验,也许在不久的将来,坐在家里就能去纽约第五大道逛街。”这句话透露的,才是VR购物平台的未来。
未来的阿里可能是一个开元的虚拟商业帝国。以前说“商业帝国”一般说是指“商业”做得很大,但是到了vr时代,这个词的意思是,商业做得很大,其平台看上去可能是无数的海市蜃楼组合成的虚拟现实帝国。在这个虚拟的帝国里,所有你看得见摸的着的东西,都按照一比一的比例复制出来。
也就是说,通过VR设备,进入阿里的“造物神”帝国,那可真是一个帝国啊,首先显示在你眼前的,可能是一个虚拟世界入口程序,你如果想逛法国的香榭丽舍大街,只要在门口的程序里选择“法国·香榭丽舍”,虚拟大门就会打开,你便进入跟法国香榭丽舍大街一比一复制一模一样的实景里,开启自己的购物之旅。
高度虚拟现实化的店铺体验与线下实体几乎一模一样,你在香榭丽舍大街看到的建筑物、店铺、商品,你在阿里“造物神”帝国里的虚拟香榭丽舍大街同样能看得到,当然随着VR手套的技术发展,你将也能摸得着。抢购LV包的土豪,终于不用跑去法国排队了,你只需要在家里带上一台VR一体机。
这个“造物神”帝国,一定是开元的,因为单靠阿里巴巴,肯定造不出来,因为这个虚拟世界,是一个改良版的地球。他可以大到你无法想想。在这个帝国里,不能只有一条香榭丽舍大街,还得有纽约第五大道,北京王府井,深圳华侨城等等,几乎世界上有名的大街都会囊括,不有名的大街,你也可以加入开发出来。
因为他是开元的,阿里完成几条有名的大街后,剩下可能就是制定相关规则,让外部公司和技术通过几十年乃至上百年来打造一条条集购物、社交和娱乐的大街。同时有些技术大牛也可以脑洞大开,打造一条某个朝代的主题大街,比如《清明上河图》里的东京,还有人如果喜欢逛自己家乡的小镇,也可以接入来开发一个,这样即使你身在北京,也可以随时逛自己家乡的小镇了,购物体验秒杀线下实体。
阿里巴巴的盈利模式将可能改为收税模式
现在的淘宝天猫只能说是一个购物平台,等到完全VR化之后,淘宝和天猫可能只是“造物神”帝国里某条虚拟街里面的两个超市而已,相对于整个帝国而言,不过是九牛一毛。所以一旦该帝国搭建起来,里面的想象空间有多大我们不知道,但覆盖的面积和店铺将超出你的想象。阿里的商业模式将从广告等模式变为帝国收税模式,没错,那时候的阿里,可能就是一个国家,不对,帝国!靠广告来收入太LOW了,因为他们旗下有成千上万条大街,大街上有成千上万的虚拟建筑,建筑里有成千上万的店铺。阿里会在每条虚拟街里设一个“虚拟街道办”,针对虚拟街里的店铺每个月收一点点税,同时负责技术治安管理就行了。
虚拟帝国上线后,线下实体将可能彻底灰飞烟灭
当线下看得见摸得着的东西,在线上能完全体会到的时候,现在的实体就没有存在的必要了。当然,餐饮这些现做现卖的可能还用得上,但大多数,比如购物类和娱乐类的商业体,最后可能只剩下几个样品了。
首当其冲的很可能就是王思聪他爹的万达城,万达城的主要构成是娱乐+购物,看完电影顺便买件衣服或者逛逛街。阿里可以模仿万达城,在线上打造一个超级万达虚拟城,我们姑且叫它“亿达城”,阿里把优酷的资源整合,在“亿达城”里搞一个“亿达影院”,想看电影的人到虚拟前台去买了票,便能进入“亿达影院”里面的影房看指定的电影,体验跟线下一模一样。看完电影出来,逛逛亿达街,里面的虚拟店铺也会跟现在万达线下一模一样。那现实中的万达,可能就没有存在的必要了。
当然,阿里全面入局VR,离我们理想化的虚拟帝国可能还很远,但VR技术的革命性画面,我们已经很清晰,各大巨头也在争夺。能否真正实现上面所说,得有一系列的配套完善,才可能达到理想化水平。万事开头难,推动VR世界的未来,还需要各行各业加入来共同努力。
大数据的终极核心价值在于“资源优化配置”。但无论是大数据在农业的应用也好,工业的应用也好,抑或是在金融行业的应用也好,最终都是通过大数据技术来获知事情发展的真相,最终利用这个“真相”来更加合理的配置资源。具体来说,要实现大数据的核心价值,还需要前两个重要的步骤,第一步是通过“众包”的形式收集海量数据,第二步是通过大数据的技术途径进行“全量数据挖掘”,最后利用分析结果进行“资源优化配置”。只说概念大家肯定没法直观的理解上面的观点,那就将几个咱们都接触过的例子讲一讲大数据是怎么通过这三步发挥核心价值的?第一步、通过“众包”产生和收集数据,高德地图、百度地图都有实时路况的功能,但大家有没有想过实时路况的数据是怎么收集的?实际上经过了三个阶段,开始是跟交通口的一些公司合作,获取交通流量监测设备的数据,这个方法缺陷很明显,一个是受制于人,一个是想扩大监测范围就要部署大量设备,费时费力,而且还受法律制约。于是一些专门做路况的公司开始用出租车当浮动车收集数据。但这种办法还是无法覆盖大量的大小路段,随着移动互联网的普及,高德地图的APP能够实时上传大量机动车的速度和位置信息,经过去噪和综合分析,就形成了覆盖率极高的实时路况信息。这就是一个典型的“众包”过程。严谨一点来说,众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。大数据的“海量数据”就是由“众包”产生的。广义上,用户的行为数据,各种传感器的数据,也都是“众包”的形式,只要是由过去集中式的产生模式扩散到分布式的模式,都是众包的形式。第二步、通过“全量数据挖掘”获知“真相”讲第二个特点之前希望大家能看一下上面的视频,通过分析阿里巴巴全年的数据得到的阿里巴巴的世界贸易与全国贸易的趋势。视频中体现的不仅是阿里巴巴集团的运营情况,其实也部分反映了整个中国的经济运行情况。而且这些数据不是通过采样得来的,就是真真切切的“全量数据”。我们再也不用通过“管中窥豹”的形式来推测全局,而是直接通过“上帝视角”来窥视真相。这就是大数据的魅力,我们获得了前所未有的获取真相的能力,而且对于大型互联网公司来说,即使是PB级别的数据分析也是准实时的,我们下一个小时就能够得知上一个小时的全量数据分析结果,这样的能力是前所未有的。第三步 大数据的核心价值——“资源优化配置”前段时间,滴滴打车曾通过投票和订单分析的方式得出了北上广深四地的加班大楼排行榜,敝司不幸排名第三,但事实真的是即使加班很晚也很难打到车啊啊!所以滴滴打车更名为“滴滴出行”之后,也抛出了他们伟大的愿景,那就是利用大数据分析实时综合调度“快车”、“专车”、“出租车”、“顺风车”甚至是滴滴巴士的资源,实现全局的交通资源优化。事实也是如此,滴滴的司机们越来越多的需要完成“指派任务”,而不是集中去抢高净值客户。也许对于个别单体来说他们的利益降低了,但全局的资源配置却避免了全局的资源浪费和过度竞争,无疑大大提高了交通资源的使用效率。所以我们说,基于大数据分析的结果,进行资源优化配置,才是大数据应用的落地点和真正价值。
而“资源优化配置”的价值,又远远超出我们能够想象的层面,在资本寒冬即将来临的大背景下,利用大数据实现资源的高效利用,显得更加重要。广告行业利用DMP、DSP进行广告的精准投放,房地产行业利用大数据分析价值洼地,宜信利用大数据建设征信系统降低坏账率,券商陆续推出大数据基金,全部都是广义的“资源优化配置”的体现。大数据也远远不再停留在学术和“分析现象”的阶段,而是在各行各业实现了落地并发挥着非常非常重要的价值。我是在互联网广告行业从事程序化购买系统建设的,而这个行业也是大数据最先发挥价值的地方。举个最简单的例子来说明大数据在广告资源优化配置上的作用。宝洁集团是我们的客户,而宝洁的产品有非常强的用户性别倾向性,护舒宝的广告就应该投给女性,投给男性就是赤裸裸的浪费。而吉列的目标用户就只是男性。之前保洁集团是怎么做广告的?就是海投品牌广告,不分性别的海投,那这个做法在投放之前就已经确切无疑的知道有一半广告费用时浪费的。但没有办法,因为我们没有大数据技术来发掘用户的性别。
而随着DMP(Data Management Platform)技术的不断成熟,越来越多的广告主建立起自己的用户数据中心,可以不断积累客户的各种用户行为,进而判断出用户的性别,再通过DSP(Demand Side Platform)系统定向投放,最终可以为宝洁节省一半的广告预算。
上面的例子正是广告资源的优化配置,事实上DMP系统对用户画像的构建精确程度远超人们的想象,精准投放的各类筛选条件也越来越精细。现在微信支持精确到设备的精准投放,也就是未来完全可能实现精确到每个人终端的精准投放,这都依赖于大数据对于用户行为的挖掘,最终实现整个广告行业的效果提升。很多同学可能会说大数据的核心是数据挖掘,是分布式存储,是NLP,是深度学习,但这一切其实只是大数据的技术途径,大数据的终极核心价值就在于“资源优化配置”。
大数据的核心价值理解为核心商业价值。
“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”——马云卸任演讲
本文尝试从三大产业的角度将大数据的核心商业价值分类讨论。
首先例举一些大数据的典型应用,然后解释大数据的定义,最后总结大数据的价值。
我们知道:
第一次工业革命以煤炭为基础,蒸汽机和印刷术为标志,
第二次工业革命以石油为基础,内燃机和电信技术为标志,
第三次工业革命以核能基础,互联网技术为标志,
第四次工业革命以可再生能源为基础,_________为标志。
空白处你会填上什么?欢迎大家讨论。但是目前可以预测的是,数据和内容作为互联网的核心,不论是传统行业还是新型行业,谁率先与互联网融合成功,能够从大数据的金矿中发现暗藏的规律,就能够抢占先机,成为技术改革的标志。
一、大数据的应大数据挖掘商业价值的方法主要分为四种:
客户群体细分,然后为每个群体量定制特别的服务。
模拟现实环境,发掘新的需求同时提高投资的回报率。
加强部门联系,提高整条管理链条和产业链条的效率。
降低服务成本,发现隐藏线索进行产品和服务的创新。
Mckinsey列出了各个行业利用大数据价值的难易度以及发展潜力。《Big data: The next frontier for innovation, competition, and productivity》
各种Data之间的关系图,注意Open Data是完全包含了Open government data(政府开放数据)Mckinsey也列出了Open Data时代里七大行业潜在的经济价值,自上而下分别是教育,运输,消费品、电力、石油与天然气、医疗护理、消费金融。(感谢知友安阳提供的补充链接资料)大数据的类型大致可分为三类:
传统企业数据(Traditional enterprise data):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。
机器和传感器数据(Machine-generated /sensor data):包括呼叫记录(Call Detail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。
社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。
从理论上来看:所有产业都会从大数据的发展中受益。但由于数据缺乏以及从业人员本身的原因,第一、第二产业的发展速度相对于第三产业来说会迟缓一些。
985年,我国国家统计局明确地把我国产业划分为三大产业:
农业(包括林业、牧业、渔业等)定为第一产业。
工业(包括采掘业、制造业、自来水、电力、蒸汽、煤气)和建筑业定为第二产业。
把第一、二产业以外的各行业定为第三产业。
第三产业即除第一、第二产业以外的向全社会提供各种各样劳务的服务性行业,主要是服务业。其中第三产业可具体分为两大部门:一是流通部门;二是服务部门。再细分又可分为四个层次:
第一层次,流通部门。包括交通运输行业、邮电通讯行业、物资供销和仓储行业。
第二层次,为生产和生活服务的部门。包括金融业、商业饮食业、保险业、地质普查业、房地产业、公用事业、技术服务业和生活服务修理业务;
第三层次,为提高科学文化水平和居民素质服务的部门。包括教育文化、广播电视事业、科学研究事业、卫生、体育和社会福利事业;
第四层次,为社会公共需要服务的部门。包括国家机关、党政机关、社会团体、以及军队和警察公安司法机关等。
我们可以看出,由于某些客观原因,相对于第一产业和第二产业来说,第三产业凭借自身的优势,大多汇聚了当前最海量的数据以及大批的科研中坚力量。接下来让我们看一些典型例子,当前新形势下与三大产业密切相关的大数据应用。
(1).第一产业
孟山都(Monsanto | A Sustainable Agriculture Company),农业
孟山都是一家美国的跨国农业生物技术公司,其生产的旗舰产品抗农达,即年年春(Roundup)是全球知名的嘉磷塞除草剂,长期占据市场第一个位置。该公司目前也是基因改造(GE)种子的领先生产商,占据了多种农作物种子70%–100%的市场份额,而在美国本土,更占有整个市场的90%。已经统治了生物工程种子业务超过十年。
孟山都首先发起“Green Data Revolution”运动,建立农业数据联盟(Open Ag Data Alliance)来统一数据标准,让农民不用懂“高科技”也能享受大数据的成果。典型的应用如农场设备制造商John Deere与DuPont Pioneer当前联合提供“决策服务(Decision Services)”,农民只需在驾驶室里拿出平板电脑,收集种子监视器传来的数据,然后将其上传给服务器,最终服务器返回化肥的配方到农场拖拉机上。
天气意外保险公司(The Climate Corporation),农业
The Climate Corporation为农民提供Total Weather Insurance (TWI)——涵盖全年各季节的天气保险项目。利用公司特有的数据采集与分析平台,每天从250万个采集点获取天气数据,并结合大量的天气模拟、海量的植物根部构造和土质分析等信息对意外天气风险做出综合判断,然后向农民提供农作物保险。前不久从Google Ventures、Founders Fund等多家公司获得超过5000万美元的风险投资。 2013年被孟山都收购。
土壤抽样分析服务商(Solum, Inc),农业
Solum目标是实现高效、精准的土壤抽样分析,以帮助种植者在正确的时间、正确的地点进行精确施肥。农户既可以通过公司开发的No Wait Nitrate系统在田间进行分析即时获取数据;也可以把土壤样本寄给该公司的实验室进行分析。2012年获得Andreessen Horowitz 领投的1700万美元投资后,已累计融资近2000万美元。
了解更多:
大数据对于农业的发展会带来什么影响?或具体到对农场经营会有什么启示或者带来什么样的变化?
(2).第二产业
2013年9月,工业和信息化部发布了《关于印发信息化和工业化深度融合专项行动计划(2013-2018年)》的通知。明确提出推动物联网在工业领域的集成创新和应用:
实施物联网发展专项,在重点行业组织开展试点示范,以传感器和传感器网络、RFID、工业大数据的应用为切入点,重点支持生产过程控制、生产环境检测、制造供应链跟踪、远程诊断管理等物联网应用,促进经济效益提升、安全生产和节能减排。
大数据的业务多是数据驱动型,具有数据量大、种类多、实时性高的特点。工业企业对数据的记录以往看来主要分为两种方法:传统的纸笔和Excel电子表格记录。这些操作起来看似简单的数据管理方式为企业生产及质量监控埋下了巨大的隐患,也让数据挖掘无从谈起。
随着信息化与工业化的融合发展,信息技术渗透到了工业企业产业链的各个环节。例如Sensor、RFID、Barcode、物联网等技术已经在企业中得到初步应用,工业大数据也开始逐渐得到积累。企业中生产线高速运转时机器所产生的数据量不亚于计算机数据,而且数据类型多是非结构化数据,对数据的实时性要求也更高。因此工业大数据所面临的问题和挑战很多,所以通用电气公司(General Electric)的副总裁兼全球技术总监William Ruh认为相对于工业大数据来说,工业互联网(Industrial Internet)才是当前急需的,因为大数据本身并没有让信息的提取更加智能,业务比数据本身更加重要。他举了一个核磁共振成像扫描的例子:
Here’s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most.
At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the exam; an MRI technologist operates the scanner; and a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.
又如在工业中,压力、温度等数据的特点是需要语境才能理解的。燃气轮机排气装置上的温度读数与一台机车的内部温度是完全不同的。燃气轮机改善热敷需要使用非常复杂的算法运行模型。在笔记本电脑上,一个典型的查询要获得答案一般需要三个星期。在基于大数据的分布式系统上发布同样的查询执行一种计算只需要不到一秒钟。
第三方认证机构(TÜV NORD GROUP),工业
德国汉德技术监督服务有限公司的前身是德国锅炉检验协会(简称TÜV)早在1869年,德国锅炉检验协会就承担了德国国内所有锅炉运行安全的检验工作,保证了锅炉生产的安全。渐渐的,德国锅炉检验协会取得了德国政府的授权,开展对其他产品的检验工作,从采矿,电力系统开始,到压力容器,机动车辆,医疗设备,环境保护,宇航工业,医疗产品等等,现在的德国汉德技术监督服务有限公司已经成为了许许多多产品的安全代号。主要体系认证包括企业质量管理体系,生产环境体系,生产碳排放方案等。TÜV当前从建筑绿色标准体系方面提出了对于大数据能源管理的探索,以微软新总部,蒂森克虏伯电梯总部为例,在整个项目实施中引入大数据能源管理,在建筑的设计规划阶段、施工阶段、运营阶段等多个阶段通过数据化的能源管理系统,实现建筑的低碳、绿色、智能。
工业自动化软件商(Wonderware ),工业
Wonderware作为系统软件涉及的专业企业,对于大数据的计算和运用是从比较“IT”的角度出发的。Wonderware 的实时数据管理软件能够提供一个工厂所需要的从建立到报废的所有实时数据。目前已经退出移动版本,工程总监在手机上就能够随时随地监控设备的运行状况。目前全球超过三分之一的工厂应用Wonderware公司的软件解决方案。
了解更多:
大数据在电力行业的应用前景有哪些?
(3).第三产业
这一个部分的内容比较多。这里只提出一些典型的应用例子,欢迎补充。
健康与医疗:Fitbit® Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕带可以收集有关我们走路或者慢跑的数据,例如行走步数、卡路里消耗、睡眠时长等数据与健康记录来改善我们的健康状况;Early Detection of Patient Deterioration等公司正在开发床垫监测传感器,自动监测和记录心脏速率、呼吸速率、运动和睡眠活动。该传感器收集的数据以无线方式被发送到智能手机和平板电脑进行进一步分析;美国公共卫生协会(APHA: American Public Health Association)开发Flu Near You用来的症状,通过大数据分析生成报告显示用户所在地区的流感活动。
视频:互联网电视能够追踪你正在看的内容,看了多长时间,甚至能够识别多少人坐在电视机前,来确定这个频道的流行度。Netflix 美国国内规模最大的商业视频流供应商,收集的数据包括用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看等。甚至记录用户在哪视频的哪个时间点后退、快进或者暂停,乃至看到哪里直接将视频关掉等信息。典型的应用是Netflix公司利用数据说服BBC重新翻拍了电视连结剧《纸牌屋》,而且成功的挖掘出演员Kevin Spacey和导演David Fincher的支持者与原剧集粉丝的关联性,确定新剧拍摄的最佳人选。
When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there.
交通:《车来了》通过分析公交车上GPS定位系统每天的位置和时间数据,结合时刻表预测出每一辆公交车的到站时间;WNYC开发的Transit Time NYC通过开源行程平台(Github:OpenTripPlanner和MTA )获取的数据将纽约市划分成2930个六边形,模拟出从每一个六边形中点到边缘的时间(地铁和步行,时间是上午九点),最终建模出4290985条虚拟线路。用户只需点击地图或者输入地址就能知道地铁到达每个位置的时间;实时交通数据采集商INRIX-Traffic的口号是(永不迟到!^^),通过记录每位用户在行驶过程中的实时数据例如行驶车速,所在位置等信息并进行数据汇总分析,而后计算出最佳线路,让用户能够避开拥堵。
电子商务:Decide 是一家预测商品价格并为消费者提出购买时间建议的创业公司,通过抓取亚马逊、百思买、新蛋及全球各大网站上数以十亿计的数据进行分析,最终整合在一个页面中方便消费者对比查看,并且能够预测产品的价格趋势,帮助用户确定商品的最好购买时机。已经于2013年被 eBay收购。
政治:奥巴马在总统竞选中使用大数据分析来收集选民的数据,让他可以专注于对他最感兴趣的选民,谷歌执行董事长Eric Schmidt当时向奥巴马的大数据分析团队投资数百万美元并聚拢核心成员成立了Civis Analytics咨询公司,该公司将会将在奥巴马连任竞选中所获得的经验应用到商业和非营利行业中。(了解更多可以看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term)
金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill创立金融数据分析服务提供商,使用机器学习算法和大数据为放款者提供承保模式,旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。公司使用分析模型对每位信贷申请人的上万条原始信息数据进行分析,只需几秒时间便可以得出超过十万个行为指标。目前违约率比行业平均水平低 60%左右。另外一个不得不提到的是风险管理先驱者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通过大数据分析为银行和信用卡发卡机构、保险、医疗保健、政府和零售行业提供服务。FICO 信用分计算的基本思想是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。FICO 已经为三分之二的世界 100 强银行提供服务,提高了客户忠诚度和盈利率、减少欺诈损失、管理信贷风险、满足监管与竞争要求并快速获取市场份额。想了解更多的企业可以看看附录中《经济学人》的文章《Big data: Crunching the numbers》。
电信: 美国T-mobiles采用Informatica – The Data Integration Company平台开展大数据工作,通过集成数据综合分析客户流失的原因,根据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将流失率减半;韩国 SK telecom新成立一家公司SK Planet,通过大数据分析用户的使用行为,在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国AT&T 公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券。英国BT – Broadband公司发布了新的安全数据分析服务Assure Analytics—BT news releases,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策。
一般来说盈利性质的商业公司和企业都不会轻易泄露自己的数据、建模方法和分析过程,所以还有很多大家不知道的神秘应用潜伏在黑暗里,如同《三体》中的”黑暗森林法则“。
宇宙就是一座黑暗森林,每个文明都是带枪的猎人,像幽灵般潜行于林间,轻轻拨开挡路的树枝,竭力不让脚步发出一点儿声音,连呼吸都必须小心翼翼:他必须小心,因为林中到处都有与他一样潜行的猎人,如果他发现了别的生命,能做的只有一件事:开枪消灭之。在这片森林中,他人就是地狱,就是永恒的威胁,任何暴露自己存在的生命都将很快被消灭,这就是宇宙文明的图景,这就是对费米悖论的解释。
二、大数据的定义
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。
数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
处理速度快(Velocity)。大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。
看看专家们怎么说。
舍恩伯格,大数据时代 (豆瓣)
不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。
埃里克·西格尔,大数据预测 (豆瓣)
大数据时代下的核心,预测分析已在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。
城田真琴,大数据的冲击 (豆瓣)
从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。 它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
三、大数据的价值
了解了大数据的典型应用,理解了大数据的定义。这时相信在每个人的心中,关于大数据的价值都有了自己的答案。
2010年《Science》上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。
Limits of Predictability in Human Mobility
A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.
而大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。
举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种必然。
随着计算机的处理能力的日益强大,你能获得的数据量越大,你能挖掘到的价值就越多。
实验的不断反复、大数据的日渐积累让人类发现规律,预测未来不再是科幻电影里的读心术。如果银行能及时地了解风险,我们的经济将更加强大。
如果政府能够降低欺诈开支,我们的税收将更加合理。
如果医院能够更早发现疾病,我们的身体将更加健康。
如果电信公司能够降低成本,我们的话费将更加便宜。
如果交通动态天气能够掌握,我们的出行将更加方便。
如果商场能够动态调整库存,我们的商品将更加实惠。
最终,我们都将从大数据分析中获益。
四、结束语。
Here’s the thing about the future.关于未来有一个重要的特征
Every time you look at it,每一次你看到了未来
it changes because you looked at it.它会跟着发生改变 因为你看到了它
And that changes everything else.然后其它事也跟着一起改变了
数据本身不产生价值,如何分析和利用大数据对业务产生帮助才是关键。
祝每一个DMer都挖掘到金矿和快乐:)
参考文献:
.什么是大数据时代的思维?《大数据时代》作者维克托迈尔舍恩伯格的演讲
.New movie damns Monsanto’s deadly sins
.American farmers confront ‘big data’ revolution
.The Industrial Internet: Even Bigger Than Big Data
.《信息化和工业化深度融合专项行动计划(2013-2018年)》印发
.Big data: The next frontier for innovation, competition, and productivity
.Big data: Crunching the numbers
.audit.gov.cn
.中国金融行业大数据应用市场研究白皮书
[10].The Secret Sauce Behind Netflix’s Hit, "House Of Cards": Big Data
[11]. Open data: Unlocking innovation and performance with liquid information
2016年是VR(VirtualReality,即虚拟现实)元年。于是布局VR领域,就成了许多企业今年要做的事。阿里是不会落下的。17日,阿里宣布成立VR实验室,并首次透露其VR布局,将同步推动VR内容培育和硬件孵化。它已启动Buy+计划引领未来购物体验,并将协同旗下的影业、音乐、视频网站等,推动优质VR内容产出;还将依托全球最大电商平台,搭建VR商业生态,加速VR设备普及,助力硬件厂商发展。
VR,专业解释是:利用电脑模拟产生一个三维空间的虚拟世界,提供使用者关于视觉、听觉、触觉等感官的模拟,让使用者如同身临其境一般。
阿里VR实验室成立后的第一个项目就是“造物神”计划,将联合商家建立世界上最大的3D商品库。目前阿里工程师已完成数百件高度精细的商品模型,下一步将为商家开发标准化工具,实现快速批量化3D建模,敢于尝新的商家很快就能为用户提供VR购物选择。
因而,未来你可能是这样购物的:坐在家中,随时逛第五大道;看中任何商品,都能全景体验把玩;一件连衣裙,直接在虚拟试衣间看上身效果……
“VR技术能为用户创造沉浸式购物体验。”实验室核心成员之一赵海平表示,“阿里将持续投入搭建VR基础平台和软件工具,让品牌和商家能够轻松建设个性化的VR商店。”赵海平是Facebook的第一位华人工程师,2015年初加入阿里后主攻软件性能和VR技术底层构建.阿里的VR部门大部分必然是为影视内容服务,因为这是VR主要战场之一。至于购物活动,只是个噱头。实景购物体验是个老掉牙的概念。当初Second Life如火如荼的时候,我在北京四家同类公司中第二个跟风者里面做产品负责人。“在虚拟世界中生活”这个概念,当时从原型设计到实现方式一应俱全。各大科技公司也大力跟进,连索尼都做了个PS home尝试。国内很多游戏公司也打着虚拟世界的旗号进行“产品设计”或“跨界理想”,甚至还有不少融到资。最后结果怎样,自然是来的快也去的快。目前的VR技术,短时间内还不会跳出娱乐体验和2B的范围。写故事的就写故事,别扯上VR要改天换地似的好吗?能不能把故作玄虚和愉悦观众分开?指点江山上瘾了吗?作为一名淘宝重度患者+ VR爱好者,感觉自己的夙愿终于要实现了啊!扎克伯格这种科技大佬都是超级VR迷,从VR现在刚起步的状态看,创造的用户体验已经远超目前主流的智能终端,未来一片光辉VR 的体验有多神奇呢?这么说吧,如果我们在 2010 年找到一个诺基亚黑白屏手机用户,给他一台 iPhone4 玩疯狂的小鸟,他肯定要忍不住说「哇塞」;如果我们现在找到一个 iPhone 6s 用户,给他一台 VR 设备,让他体验玩游戏、虚拟约会、观看小黄片… 他估计要忍不住连说二十个「哇塞VR 购物可以综合传统线上购物和线下购物的优点:既有线下shopping 的真实感、体验的满足感;又有线上的便利——足不出户逛遍各商场,还可以实时比价。VR版淘宝推出后,以后我们网上买东西可能都会带个头盔⬇️ 左边是VR设备里看到的视野,比如咱们要买高跟鞋,以前是用鼠标点击进入店铺,以后咱们直接在VR视野中走进鞋店。到时候一日逛遍全球鞋店不是梦——上一分钟咱们还在北京的芳草地商场,下分钟就切换到上海的国金商场。对了,淘宝还有全球购,那逛逛纽约第五大道、巴黎香榭丽舍,理论上也是可以实现的。通过VR设备,我们走进「真实」的鞋店,面对满墙的鞋子,喜欢的可以直接拿起来「试穿」⬇️拿起鞋子后,马上显示价格,实时比价什么的也可以实现⬇️VR 时代的购物步骤应该是这样:走进店铺逛逛挑选商品显示价格、信息即时试用线上支付分享试用视频到社交网络(VR时代炫耀自己买了新奇玩意的方式,也要与时俱进啊)很看好VR。类似网络小说里的网游小说,未来的大趋势将是这样。可以说将改变人类的生活方式。但是也比较大的担忧。
1、对现实实体店的冲击,现在淘宝等网上平台已经害了很大部分的实体经营了。现在再出VR,对于这种科幻新奇的实物,人们会更願意去尝试。
2、虽然说现在VR还不成熟,体验馆较差(没体验过,哈哈,不知有没百分之五十的虚拟)。但是对于现在的人们来说是很大的诱惑了,至少我觉得里面商机很多很大。
3、现在地球人口密度那么大,中国还开放二胎,以后的吃喝住行等得需要多少资源啊?难说过几年几十年已经发展到可以开采地外星球的资源?如果没有,这也是很不错的解决了资源问题,人们少外出,马路宽阔了,环境污染少了,城市人口密度低了(大家都宅着),信息传递快了。大家都利用VR,可以游玩全世界,和远在他方的亲朋好友交流,全球紧密化,全球大一统啊。简直就是第二世界第二人生啊!
一直对VR的发展很关注,也很看好VR结合购物的发展方向。传统的网上购物方式一直以来都有一个固有缺陷,即缺乏现场感和体验感。毫无疑问,若虚拟现实得以实现,其真实性和交互性的优势将填补这一缺陷,给电商购物带来全新的体验。
今天在微博上看到了淘宝buy+宣传视频,里面描述应用了vr技术的淘宝未来展现,感觉很有意思。看完就随手在知乎上搜了一下,就发现了这个问题。
这个问题下的答案有两派,一边是在随意的幻想虚拟现实购物有多爽,幻想程度已经到了远远脱离现实技术水平,领先现有技术至少十来年的地步;另一边行内人士把上一种答案批判一番,说这只是个噱头,以目前的VR技术水平,短期你们想得到的,都不会实现。
那我就淘宝buy+宣传视频来分析一下,淘宝此次大力投入的VR结合网购,到底能碰撞出什么样的火花?
视频中主要提到了3个创新点:100%还原真实场景、批量快速建模和动作捕捉,真实互动。我就一一分析这三点实现的难度和可能性:①100%还原真实场景
Buy+通过vr技术可以100%还原真实场景,也就是说,使用Buy+,距离再也不是问题。身在广州的家中,戴上vr眼镜,进入vr版淘宝,可以选择去逛纽约第五大道,也可以选择英国复古集市。让你身临其境的购物,突破空间界限,全世界去买买买。
这项技术已经有实现的先例了。
国外有一款叫做PresenZ的软件,它是一款创造预先渲染CGI VR场景的解决方案软件,现在它可以渲染逼真的影像,且让图像具有精准的深度和视差,就跟那些在真实世界中的物体一样。PresenZ甚至可以可以精准地渲染这样的影像,且既有深度又有视差,让反射物体更加栩栩如生,尤其是像玻璃、陶瓷和水一类的物品。通过NASA与Microsoft 合力打造的OnSight全息技术,身在地球走上火星的方法化为现实。利用在火星上的漫游车与太空中的卫星传回的数据与图片,研究者可以在虚拟的环境中来到火星表面,共同探索这片区域。
我们可以想象一下这样的情境:你戴上崭新的微软HoloLens全息眼镜,加载来自NASA图片库的火星VR体验。在火星表面四处走动,发现了有趣的东西,标记下来,让科学家随后进行检验。
VR技术探测火星都已经成功了,去个商场还有什么实现不了的吗?渲染技术在不断优化,VR中的场景越来越逼真,100%还原真实场景也是很有可能做到的。
以阿里的投入与技术实力,我相信做到突破空间限制,让消费者去想去的地方虚拟购物是完完全全可以实现的。
②批量快速建模
将vr技术应用于购物领域,最大的挑战是如何快速的把淘宝10亿商品在虚拟环境中1:1复原。为了解决这个问题,造物神计划应运而生。Buy+利用TPMS三维建模技术,帮助数百万商家快速建模,共同构建vr购物生态系统。丰富的vr商品库可以直接降低网络购物的退货率,提高实体店购物的购买效率。从技术实现上看,由产品实物到数字化模型,这个过程我们首先需要对产品的形态结构材质外观一一进行解析,通过测量得到产品实物的各项参数,利用这些参数,在三维建模软件中将实物尽可能的还原为数字模型,并通过贴图渲染等方法在外观上与实物匹配,这样就得到了产品的数字模型。在这个过程中,产品的数字模型的还原质量要根据用户的需求和现实条件进行确定,考虑到大多数用户的设备处理能力和兼容性,建模完成后还要对模型的面的个数进行优化,对贴图的质量也要进行筛选。
从构成上看,由实物到数字化模型,虚拟展示中的产品变成了文字,图像,视频和数字模型的信息。这些信息代表展示中的产品,为了信息的准确度,我们对于数字化模型的精度也有较高的要求,数字模型的比例,材质等外观因素是直接影响到用户的视觉感受,一旦出现误差,就会带给用户错误的信息,影响用户判断。因此,准确和真实是我们对数字化模型过程的最基本要求。
从虚拟展示的信息传递来看,产品的固有属性是产品的基本参数,在表现产品的固有属性时,什么样的方式表达什么样的信息,这是传统展示过程中不曾遇到的问题。在传统展示中,消费者可以直接把衣服穿上身。在虚拟展示的过程中,一方面要分析产品的属性以采用合适的展示方式,另一方面,要发挥虚拟展示的长处,帮助用户摆脱现实的限制,体验虚拟的世界。 还要快速的把淘宝10亿商品在虚拟环境中1:1复原,对此我持怀疑态度。可能可以实现,是要么不能快速实现,要么也暂时只能实现少部分。
③动作捕捉,真实互动
Buy+利用TMC三维动作捕捉技术捕捉消费者的动作并触发虚拟环境的反馈,最终实现虚拟现实中的互动。简单来说,消费者可直接与虚拟世界中的人和物进行交互。甚至将现实生活中的场景虚拟化,成为一个可以互动的商品。
比如,利用带有动作捕捉的vr设备,你眼前的香蕉,书籍在buy+中可以化身为架子鼓,利用这种互动形式,让你在购买商品的过程中拥有更多体验。
从到商场(商场建模),到看商品(商品建模),到体验商品(交互体验)。淘宝buy+是想整合这一整条购买链。虚拟现实结合购物,必然是未来的方向。目前的虚拟现实购物技术虽然不成熟,但也潜力无穷。淘宝Buy+实现难度是很大的,但是带来的效果也是不可估量的。让购物能可以真正突破时间和空间的限制,真正实现各地商场随便逛,各类商品随便试。可以想象,VR购物将彻底改变传统线上购物无法体验真实场景的现状,而不会导致看着是一回事,实际又是另一回事的现象,为用户带来更好的购物体验,也能更加刺激用户的消费欲望。理想是美好的,但目前暂时还不知道buy+什么时候才能推向市场,并且应用这一技术的成本是否符合广大消费者的预期。不论如何,这样的技术还是真的很值得期待的。参考文献:
赵明义.面向网络购物的虚拟展示设计研究 [D].江南大学大学硕士论文.20112
中国这个市场太大了,人口总数比欧洲+美国加起来都多。无论是腾讯还是阿里,在国内市场都有着绝对的优势,也更加了解国内市场。如果能在国内用更轻松的方式赚更多的钱,为什么要到一个自己不熟悉的地方去赚不好赚的钱呢?阿里和腾讯的市值已经证明了,在专注于中国市场的前提下,公司已经可以和那些所谓“国际巨鳄”比肩了。因此,中国这个超大的市场,带给了他们足够的利润空间,但是从某种程度上说也阻碍了他们国际化的脚步。说完了资本来谈谈技术。阿里和腾讯现在的技术水准应该还是很高的,但是他们的发家核心业务都不算是技术导向型的,都根据中国这个市场有着或有意或无意的定制。
最简单的例子,来自于英语国家的产品比较容易“国际化”,因为没有语言障碍。这是再明确不过的事情。而中文作为一个使用人数多,使用范围少的语言,以中文为第一语言开发的产品在走出华人区的时候都会不可避免地受到阻碍。所以我们可以看到,我们的产品(wechat比如)在走到东南亚的时候是相对轻松的,但是往西方走就越来越费劲,就是语言的问题。同样的还有阿里,淘宝这个概念在世界上大部分地方完全不适用。中国的物流太强了,中国充满了大量的每天无所事事需要赚点小钱养家糊口的人,所以无论是送货的,还是开网店的,都是淘宝不可缺失的组成部分。试想在欧洲那些国家,饭店恨不得八点就关门,各种服务业你上班他上班,你下班他也下班,就压根没有土壤来孕育淘宝这样的网站。从另一个角度说,把淘宝的运营模式搬到国外,也是未必走得顺畅的。因此,无论是腾讯还是阿里,都缺乏能跨越文化走出国门的拳头产品。这里比较好的例子大概是大疆,虽然其市值和这两个巨头相去甚远,但是无论你到什么国家,提到无人机,就一定能听到DJI的名头。而无人机,恰恰是一个可以非常容易跨越文化壁垒的产品,无论什么国家的人,玩无人机方法都是一样的。而资本和技术在好的运营下是可以互相促进的,有好多人提到了lol,lol是腾讯的没错,但是“资本”上是腾讯的。你要是和欧美玩家聊lol,他们很可能不知道lol现在已经是腾讯的了,或者并不知道腾讯是干啥的。买固然是好办法,巨头们都买东西,但是能不能想办法消化,或者打造成自己产品线的一部分,可能是腾讯和阿里在资本转换为技术上遇到的难题。毕竟再有钱,光靠买买买也不容易让自己走出国门,只是让国门外的东西变成自己的而已。推及任何企业/产品,现在国内做产品的恨不得大部分都是“中国定制化”,这种运营方式是注定走不出国门的。因为国外的市场早被占领了,中国的市场因为种种原因比较空,就搞一个中国版XX,这或许能积累资本,或者说赚钱,但是国际化是不可能了。你很难想象伦敦忽然空降一个滴滴打车吧?所以要想走出国门,做一个国际化的企业,最重要的就是,做别人还没做的事情,而不是已经被证实行得通的事情。最近VR火了,肯定又一堆公司去做VR,人家G家F家产品都出来了你开始“研发”。前一阵又来什么奢侈电动车,人家Tesla卖得都脱销了。一天不改掉这个“中国定制化”的产品思路,国门就一天出不去。在欧美玩家眼里腾讯大概还是一家闷声发大财的游戏公司,美国现在就是第一大经济体,但它的大多数巨型企业都是跨国的,你的说法很难让人信服,谷歌在中国,俄罗斯,韩国都混不下去。为什么?因为这些国家自己本土的搜索引擎足够强大。至于其他国家,连个像样的本土搜索引擎都没有,靠什么和谷歌竞争?自然是被谷歌轻松侵占。谷歌最高的时候有4成,最后也有2成左右。。其次,现在百度都快不及4成了。看过王思聪一篇采访,大意就是中国很多企业,离开现有这种体制根本就混不开啊Google真的是被墙逼出去的,俄罗斯也有墙,还记得以前那个笑话,俄罗斯一青年因为火影里的鼬死了而自杀,其实那时候日漫已经更到鼬复活了。越强大的国家就越重视自己的网络不被外企垄断。要不是中国政府,他们又如何做到一家独大,当你使用所有的外国同质化工具,遭遇频繁断线时,你就会明白的。不管是msn还是易趣,谷歌。如果有fb,又能有新浪微博鸟事儿?腾讯和阿里并没有充分的证明自己的价值,当然FB也没有,但是谷歌和微软都对社会做出了巨大的贡献。这种排名还是可以尊重的,但是走不出国门的主要原因还是文化和价值,腾讯和阿里的价值并没有大到别人非用不可,而谷歌和微软都做到了你不用就要落后。