拥有大数据的理念,能够掌握数据和运用数据的人,就是下一个时代的魔法师,反之,你就成了麻瓜!
周涛 电子科技大学互联网科学中心主任、《大数据时代》译者
一件印有电子科技大学字样的文化衫,是周涛的标志性穿着。即使是在向李克强总理汇报时,他也依旧穿着文化衫,这让80后的他看起来更像个学生,而不是已经有无数光环和成果的教授。
翻开他的履历,就会发现从小被称为天才神童的他有多么不一般。1岁说话,1岁半识字,2岁学象棋,3岁打麻将,4岁看武侠小说……26岁获得教育部自然科学一等奖,27岁获聘电子科技大学正教授,29岁获得中国青年科技奖。
他是数据少帅,担任电子科技大学大数据研究中心主任。2015年,他当选为“年度科技创新人物”,颁奖辞是:周涛用大数据分析的新视角,重新审视我们所面对的这个世界,他带领一群年轻人,在“大众创业,万众创新”的道路上,迈出了自己坚实的脚步。在大数据挖掘与分析,特别是网络数据的挖掘与分析方面做出了系统性的贡献,其创新成果解决了重大科学问题,突破了关键核心技术,产生了重大社会经济效益,显著改善了百姓生活。
为数据而生的魔法师
三年前,周涛翻译完成畅销书《大数据时代》。三年之后,周涛又出了一本书。在翻译《大数据时代》之前,他就想写一本关于商业案例应用的书,这个理想终于实现。
“在麻瓜和魔法师之间作出选择”,这是周涛在新书《为数据而生》中的自序标题,也是他给读者们的忠告。时代在飞速发展,所有的行业都可能被颠覆。“拥有大数据的理念,能够掌握数据和运用数据的人,就是下一个时代的魔法师,反之,你就成了麻瓜!”
周涛虽然一直在学校任教,从事数据挖掘和复杂性科学研究。但是他认为, 只做研究远远不够,大数据领域必须有魔法师,让大数据和产业结合才能发挥其价值。
“任何一个垂直行业都有说不尽的大数据应用。比如可以用大数据技术帮助银行找到信贷中的违约客户进行提前预警,我们不仅关注企业是什么类型、在什么地域、账户上平均有多少钱等等这些初级特征,还关注企业间社交关系等高级特征,最终可以大幅提高预测的准确度。这给银行带来的是翻天覆地的变化。”
他在很多大数据公司担任首席科学家,在2012年创立数之联集团,帮助政府实施“智慧城市”战略,同时也为企业在金融、营销、人力资源等方面提供大数据服务。目前,他创立、联合创立和投资的大数据企业市值已过百亿。
这些实践让他总结出不少大数据行业应用经验。今年4月,李克强总理参观国家信息中心大数据创新创业基地,周涛就大数据在金融、医疗等重点行业的应用等问题做了专项汇报。
他在汇报中说,国家信息中心与电子科技大学正在筹建一个“用大数据手段辅助政府决策”的智库机构,希望得到总理及相关部门的支持。
总理回答:“要把新经济指数和双创指数做成决策重要参考依据。你们做的这个非常重要,如果发改委没有专项经费,可以用我的总理专项基金支持。”
驱动大数据创新3.0
大数据概念刚进入中国的时候,大家都为之兴奋,但周涛认为:“我们要清楚地分辨出,哪些是真正的大数据创新,哪些只是传统的数据挖掘、商务智能套上了大数据概念。”
从收集应用自身数据的大数据1.0 时代到现在,我们已经进入了数据、技术、需求和人才等大数据创新要素融为一体的大数据3.0时代。“大数据创新用一个词来总结,就是分析,比商务智能时代更深刻的分析,可以用更好的分析代码来分析数据。”
在电子科大,周涛和他的团队做了一件事情——寻找校园中最孤独的人。他们研发出一套“学生画像”大数据系统。仅仅通过校园一卡通追踪学生行为轨迹,就能“算”出每名学生的学习、生活状态,发现学生在学校有多少亲密朋友。
“我们找到了800多个最孤独的人。他们平均在校两年半的时间,一个死党都没有,这是一件很可怕的事情。”周涛分析,数据表现出这些学生存在一定的社交障碍,这些人中17%的人可能产生心理疾病。
通过这套系统,不仅可以及时预测预警学生异常状况,还能总结出优秀学生的行为模式,为学校的决策提供数据支撑。比如,根据学生就业能力情况,学校及时开展个性化引导,提升学生就业水平;根据学生实际消费情况,找出隐性困难学生,实施人文关怀等。
这项针对在校大学生行为的大数据研究,是教育部网络文化建设示范性项目中的亮点。
而这样的行为数据研究,还有着更广阔的应用市场。“中国意识到大数据的价值并不比欧美晚,但目前没有真正很好的大数据应用,其中的一个原因,是拥有大数据的人,拥有大数据分析技术的人,和拥有数据分析需求的人是分离的。我认为大数据10年内的商业模式巅峰将是数据的集成,或者用更性感的词,叫数据运营商或者数据交易平台等等。”
作为中国大数据领域的领军者之一,周涛正不断探索着大数据的商业应用创新和集成,推动数据从开放到应用的生态发展。为此他还创立了数据竞赛平台DataCastle,寻找有潜力的年轻人们。
“我们相信,未来肯定是属于90后、00后的,我们真正要做百亿千亿万亿级别的事情,需要更大的平台把这些集结起来。”
对话周涛
涂子沛频道:关于大数据,您职业生涯中印象最深刻的一件事是什么?
周涛:我印象中最棒的事情,就是看到自己参与的研究成果在真实世界的应用。举个例子,若干年前,我们给中国移动在某城市做服务,选择一部分种子用户做红段子转发,使用的是我们自己设计的LeaderRank算法。当时真的很忐忑,因为理论研究效果好往往只是一种意淫。结果,我们选择的种子用户转发效果远远好于移动公司原来的方法,那种理论研究竟然真的有用的感觉实在非常棒。后来之所以参与了一点点商业化的事务,也是想重温这种乐趣。
涂子沛频道:关于大数据,您正在进行的工作是什么?
周涛:三个方面。第一是比较基础的问题,就是大规模真实数据统计中遇到的一些基本性的问题,包括怎么对特殊的数据集(例如网络)进行抽样,当真实数据集的分布的有限矩发散的时候,怎么计算和评估其他统计量。第二是我自己做了快10年的老问题,就是图的挖掘(Graph Mining),包括链路预测、节点重要性排序、个性化推荐等等。第三就是如何通过真实数据,去刻画真实系统,发现和解释新的现象,包括经济系统的周期、泡沫和风险,例如文化的形成、演进和传播等等。
涂子沛频道:对于大数据的未来,尤其是您正在从事的领域,您有什么样的展望?
周涛:我认为在统计学和算法方面会有非常大的基础性的变化。前者会出现新的抽样理论(譬如对于网络、空间移动轨迹、时间序列等如何抽样)和在放弃稳态假设、正态假设等等前提下的新理论;后者会产生大量流数据的算法(不依赖于数据整体)和相应的算法分析,可能以后很多算法复杂性里面我们看不到大N的影子了,因为计算机都看不到整体的N。
【文/涂子沛频道研究员 卢谊 来源:涂子沛频道微信号:dsjtzp】
·氧分子网(http://www.yangfenzi.com)延伸阅读:
- 用时空大数据量化世界:百度科学家眼中的复杂中国
- 大数据时代中国数据量有多大?
- 百度大数据构建美的模型,“最美小镇”端午出炉
- 百度发布理财大数据:股民信心已跌至坡底
- “百度迁徙”技术揭秘:利用LBS大数据定位功能
- 李瀛寰:大数据战略能不能打造第二个百度?
- 百度与国家统计局深度合作,权威数据在百度搜索直接展示
- 互联网+旅游:百度大数据助力景区个性化运营管理
- 百度宝宝知道携手国家卫计委 母乳喂养大数据权威发布
- 《花千骨》为什么这样热?百度大数据揭秘谁才是人生赢家
- 百度司南户外版上线 席卷线下户外广告的大数据革命即将开启
- 四川师范杀人惨案后,大数据该如何预防犯罪为社会治理服务?
- 贵阳大数据博览会:马云马化腾雷军周鸿祎等大佬都说了什么?
从 2007 年到 2015 年,他为百度效力了整整八年。如果将百度比作 NBA 的一个俱乐部,那么他在这个俱乐部中收获了一个前所未有的自己、一群可以并肩作战的好兄弟们,并开启了人生事业的新起点。他是桑文锋,一个最普通和平凡的百度系创业人,神策数据创始人& CEO。
桑文锋认为:“大数据战略是国家战略,十三五规划也提出要把大数据作为基础性战略资源,来助力产业转型升级。事实上,现在制约大数据发展的主要问题,在两个方面,一是信息化程度还不够,二是我们的数据意识仍需不断提升。而要真正帮助企业实现在各行业的创新应用,就必须首先要解决企业在海量数据采集、存储、清洗、分析挖掘、可视化、安全与隐私保护等领域的关键技术。”
因此从创建的第一天起,神策数据就背上了历史使命:重构中国互联网的数据根基——这也是桑文锋和所有神策人的使命。
这是神策数据的诞生史,也是桑文锋自己的成长史。
图1 神策数据年代大事记
▌ “创业是场持久战,我希望能重构中国互联网的数据根基”
创业的前期颇多磨难,桑文锋先后经历了被人骂到“狗血淋头”、受众听不懂、项目反复推倒,最终才明确了 “为企业提供可以私有化部署的用户行为分析产品”方向,很快一切就顺畅了。神策数据从众多大数据创业公司中脱颖而出,并获得顶尖风投公司和行业领先客户的青睐与认可。
神策数据所耕耘的大数据市场,蛋糕到底有多大?桑文锋把中国互联网分成两个阶段,以 2015 年为界:
2000年 – 2015年,信息化时代。中国企业在这一阶段开始了信息化的基础建设。
2015年 – 2030年,数据化时代。这是一个不断地基于数据进行数据分析、使用数据的自然过程,这个浪潮到目前为止刚刚过了两年,预计还有八年的高速增长期。
第一步,选择正确的方向、并将事情做到极致
百度文化里有一条——做自己感兴趣并且擅长的事情。桑文锋创业的初衷,就是做一个数据起到关键作用的用户产品,这一切都源于对数据领域的热爱和积累。创业过程中他不断摸索,从婚恋网站、到智能硬件、再到传统企业数据平台,通过跟众多有洞见的投资人沟通,不断迭代,他逐步明确:要做一个 To B 的私有化部署的数据分析产品。
2015 年 4 月底,他从百度离职,4 月 25 号公司成立。接下来不到一个月的时间,核心团队就建立起来了,成员包括 1 个设计、10 个研发,桑文锋也是其中的产品研发人员。神策分析的第一版,开始计划做六个功能,在不断迭代的过程中发现,实际情况受限于当时的资源、人力、时间等客观因素,桑文锋决定:要做就做最好的,如果因为资源受限,宁愿第一版只上三个核心功能,以多维分析能力为主导。所以,他忍痛砍掉一半的计划,集中全部精力投入到三个核心功能,要做到不可替代。时至今日,神策分析已有八大核心分析模型,多维分析仍是核心竞争优势。
“刚创业半年的时候,我比较焦虑,因为主要竞争对手的市场宣传做的比较好,尽管他们产品当时也还在研发阶段。他们创始人自带光环——来自硅谷,比我们年龄还要大几岁。他也比较擅长做市场、PR 这一块。”后来经过两个月的时间,桑文锋慢慢想清楚了:
是不是市场?没有竞争就没有市场,做一个事情,如果没有人竞争,这可能根本不是一个市场。
方向对不对?大数据分析一定是一个正确的方向,方向本身没有问题。
速度快不快?是不是在正确的方向上快速奔跑这很重要。虽然方向是对的,但是有更快的兔子在前面跑,也很难成为领头羊。我们的迭代速度、发展节奏已经够快了,这方面也没什么问题。
第二步,要重构中国互联网数据根基,必须建好数据基础
对 AI 来说,本质就是“数据+算法”,算法统一、数据质量就成为关键,所以神策分析对客户的价值和意义也会越来越大。想让 AI 真正发挥最大的价值,第一步就是要把数据基础建好。基础数据要怎么建?
数据采集方式:把基础数据搭建好,需要采集各种数据,不管是前端的、后端的、数据库的日志甚至传感器数据,把数据引入进来,这是第一点。
数据分析:要有分析师,帮助客户梳理业务,都有哪些核心的环节,每个环节都有哪些维度,关心哪些指标,这是第二点。
模型自动化:把上述模型自动化,就是把这些采集的数据自动组合,我们产品中核心的模型是事件模型,这种模型就是把用户在产品里面进行的操作,归结为一系列用户行为事件,按照(How、Where、What 等)维度信息整理好。
第三步,为客户实现数据驱动——驱动决策与驱动产品智能
神策数据的定位,是帮助客户实现数据驱动。神策分析是一款用户行为分析产品,目前,已覆盖了互联网金融、电商、企业服务、在线教育、用户类等 300 多家企业,神策分析有 SaaS 版、私有化部署单机版、私有化部署集群版三个版本。与其他大数据公司的不同在于,神策团队会帮助用户搭建底层数据源,同时还允许用户基于神策分析进行数据的二次开发。
跟众多行业客户和有洞见的投资人讨论和磨合后,文锋进一步明确了私有化部署产品的方向。在当下创业环境下,文锋总结的神策分析的核心理念包括两点:第一,数据源很重要。整个数据平台,如果要做好,最重要的就是数据源头,源头做好了,事情就成功了一半。第二,数据有两方面价值需要充分利用。一方面是驱动决策,帮助企业拍板,就是 BI,用数据说话;另一方面是驱动产品智能,现在都叫 AI。“AI 近一年多比较火,那个时候我去创业,我认为整个平台价值就在这两点,一点是做 BI,一点是 AI,所以在整个思路上,就想如何把这两个理念引入进来。”
所以,神策分析三个最大的特点就是:一、私有化部署,实现客户数据安全和隐私保护;二、基础数据采集与建模;三、支持二次开发,实现行业深度应用。
这正是神策数据,也是桑文锋一直践行的:真正帮助企业实现在各行业的创新应用,解决企业在海量数据采集、存储、清洗、分析挖掘、可视化、安全与隐私保护等领域的关键技术。
▌ 坚持找对的人,严进、严出、培训
这个创业团队也是神策很大的优势。四位创始人都是来自百度,彼此信任感和磨合足够好。团队以技术人员为主,学习型组织导向,氛围、沟通、文化都非常融洽。
神策数据另外三位合伙人刘耀洲、曹犟、付力力是文锋之前在百度干下来的左膀右臂。“我们四个已磨合多年,他们是我的分身;我经常感觉我是在挑一个担子,他们三个在两边挑,我累的时候会松一下,他们还是在往前推;平时他们也不用担心,因为有我在掌舵,实际上我们四个互相支撑。”
“神策数据的团队建设就三件事:严进、严出、培训。”公司进的每一个人都是经过 CEO 面试的,要对大数据分析有兴趣,工作态度要积极主动。他对员工的要求很严,满足不了要求就会被淘汰。
培训也是桑文锋一手抓的工作。亲自培训公司的文化、如何做事、团队建设、发展史、理念等。“这是我认为一个企业 CEO 应该要做的。因为我最清楚创业的前因后果、企业发展的每一段小插曲。整个团队文化要有统一的思路,这才有效率。”
▌ 从未想过可以走到今天这么远,感恩能在百度开启自己的“NBA征战”
在百度八年时间里,桑文锋一直围绕大数据平台展开工作,亲历了百度大数据从零到一的诞生与发展。桑文锋先后给自己定过两个小目标:“第一个目标是 2007 年定的,那就是在百度好好干,三年转管理,再干几年升高管,如果做不到就另谋出路。第二个目标是 2010 年定的,我希望能靠着团队的一起努力,提升大数据平台在李彦宏心中的地位,至少和自然语言处理部门一样重要。”
2014 年的时候,百度的大数据部也成立了,桑文锋负责的是大数据部最核心的部分;桑文锋主导了百度大数据平台的建设,并组建了 30-40 的团队维护。“其实,做到 2014 年,除了还没当上‘高管’,其他的目标我都实现了。”
百度文化对于这名百度系出身的创业者,有着非常深远的影响。神策数据从百度文化里吸纳了最核心的两条:一条是把事情做到极致,一条是问题驱动,遇到问题解决问题。
“任何人工作的原动力,就是回答问题和解决问题。”这句话来自《百度:以问题的名义前行》,2006 年桑文锋看到此文后,坚定自己要加入百度的决心。他说:“百度文化归根结底是教你如何做事的文化。用数据说话是决策的思路,然后迅速迭代,越变越美,用流程解决共性问题,都是在教你如何做事的。”
“我们的价值观就是给客户带来价值,这是底线。”桑文锋告诉笔者,神策数据早期有一个客户叫油联石化,选型几个月后一直没用起来,深入调查发现,他们的业务场景变了,神策坚持退钱给客户;客户回复说后面可能还会用,桑文锋表示如果后面再合作可以重新来,但神策数据不能没给客户解决问题就收钱,这是不符合神策价值观的。
诚信和正直,也是深深根植在文锋心中的价值观。神策采用的是标准定价的模式,童叟无欺;在商业竞争环境下,部分友商报价的时候,“看碟下菜”的作法(如有些客户收全价的、有些收一折),的确会伤害客户的利益和感情。在接触客户的过程中,客户反馈刚开始跟某些服务商接触,服务商报价,一开始是很高的价格,听说神策数据要进来,马上把价格腰斩一半,长此以往就失去客户的信任。
尽管现在外界对百度有各种各样正面或负面的评价,作为老百度人,桑文锋表示:“我觉得否定百度就是否定我们自己,因为我本身在百度干了八年,我如何做事都是百度教出来的,我本身是一个正儿八经百度培养出来的兵。百度有它自己的问题,但是百度这种做事的方式、工程师文化、注于技术,这些东西不是其他公司能够比的。从来没有想过可以走到今天这么远,感恩能在百度开启自己的人生。”
工作到 2013 年的时候,百度内部在不停地找新增长点,桑文锋曾给百度的管理层建议过两个思路:一个是做 Web OS(网络操作系统),另一个是把淘宝模式引入到搜索,让商业搜索直接进入类似淘宝这样的产品页面。在公司战略沟通会上,他直接给李彦宏和 E-Staff 提过这些建议。但是,过了几年再回头思考,当时的思路也不一定能解决百度的问题,因为在那个阶段很难做大的尝试,这些都是受客观因素制约的。所以,按照当年规划的既定路线,他决心开始创业。
神策数据从成立到现在,发展已经两年多的时间。目前收获的比较典型的客户包括以下几类:
图2 神策数据典型客户列表
桑文锋介绍,未来还将继续从业务方向上扩展,主打“互联网+”类客户,重点在银行,零售、物联网等行业。目前,正与微软 Power BI、达观数据等展开合作;未来,神策数据还会选择与前沿的大数据生态服务圈合作,如数据抓取、第三方画像、人工智能等领域服务商。“我们将底层数据和 PaaS 接口做好,让AI、大数据等公司在夯实的数据基础上,能够集中精力于研发与自身服务,免去繁重的数据预处理工作,进而深度挖掘大数据价值。我希望神策可以通过“产品+服务”的双升级,赋能企业核心竞争力构建与产业的进一步转型升级。”