苏宁军,在大数据及商业智能应用领域从业十数年,曾经是中国电信的数据仓库及商业智能领域全国级专家,阿里巴巴数据化运营技术领域带头人。2016年6月,他创立了火剧科技,致力于研发大数据营销工具,协助打造爆款影视项目。一个月后,火剧科技就获得了知名投资机构赛伯乐领投,暾澜资本及著名天使投资人王刚等参投的千万人民币天使轮融资,估值4000万人民币。
苏宁军,曾任阿里巴巴数据化运营技术领域带头人,智能推荐引擎系统创始人,带领的阿里巴巴个性化推荐团队曾是阿里巴巴最优秀的技术团队,该30人团队有国内外著名大学博士10人,专注于人工智能、个性化推荐技术研发三年,在中国及美国专利局申报近30项相关技术专利。
每两年创办一家公司,创业的每一个坑都踩过
苏宁军说他骨子里就是个不安分的人。2003年从浙江大学自动控制专业硕士毕业后,他进入中国电信做大数据,是国家级的技术专家。后来跳槽进了阿里巴巴,担任阿里巴巴的数据产品经理团队与个性化推荐引擎团队主管,也是阿里巴巴智能推荐引擎系统的创建者。
有着创业情结的他,在2012年的时候毅然放弃了阿里P9的晋升机会以及阿里巴巴上市后可能的千万期权,选择了出来创业。他创办的遥指科技,为上交所、中国电信、文化部等企业与政府机构提供大数据与互联网技术服务,年营收达到近千万。
2014年遥指科技转型开始做一个叫“宝贝走天下”亲子户外娱乐教育O2O平台,业务目前已发展到10多个一线城市,已实现盈利并被上市公司收购股份。
尝试过O2O创业后,苏宁军决定还是回到自己最善长的专业领域上:大数据技术。在重点考察了与大数据结合比较紧密的几个方向:互联网金融、互联网医疗、电子商务以及影视文化娱乐方向之后,最后他选择了影视文化娱乐方向。
更多大数据干活:www.yangfenzi.com/tag/dashujv
更多融资信息:www.yangfenzi.com/tag/rongzi
原因是他认为跟大众的消费能力相比,我国影视行业还有着巨大的发展潜力,中国影视行业的发展前景是广阔而充满希望的,同时这个领域对数据需求也非常旺盛,目前虽然有不少公司在做大数据分析服务但是开掘的比较浅,相对于其他行业的大数据运用还处于比较初级的阶段,需要更多拓荒者的加入。
2016年,他创办了火剧科技,火剧科技创始成员来自阿里巴巴、华为等互联网与大数据企业的技术专家以及影视行业的资深业务专家,公司拥有多项自主知识产权与核心技术,在杭州设有技术研发与产品运营中心,在北京设有市场业务中心。正是因为在大数据、商业智能、人工智能、推荐引擎等技术上有领先的优势以及连续的小有成功的创业经历,才使得他创立火剧科技后,短短一个月就顺利的拿到了投资。
做大数据引领娱乐消费的拓荒
目前大数据在影视行业的运用,仍然是处于概念大于应用的阶段,许多人都在提大数据,但是真正看到大数据转化成价值的案例少。但是苏宁军说:“我是从企业中锻炼出来的,公司里的成员大都是从阿里、华为、电信走出来的实战派,相信凭借我们的经验和对技术的实际应用,能够在影视领域的大数据应用上做出实际的东西。”火剧科技的大数据切入影视行业,目前还是从影视的营销入手。如何利用互联网大数据分析为影视行业进行营销服务,提供更加精准的数据支持,是火剧科技面临并一直在思考的问题。
苏宁军认为,消费升级、供给侧改革是当前很多行业创业最大的机会,对影视文化行业也一样,创造高品质的,适合消费人群需求的影视文化产品是成功的关键。而大数据在洞察用户需求、预测文化流行趋势方面,可以发挥出重要的价值,过去在电子商务行业这方面的技术已比较成熟,可以借签到影视文化行业中来。影视项目的投资,具有高投入、高风险的特征,在互联网与金融行业,基于大数据的风控技术已得到广泛的应用,这个显然也是影视文化行业非常需要的。另外,基于大数据的精准营销,将帮助越来越多的瞄准小众人群需求的影视文化产品,找到自己的目标客户,实现好的营销效果,并能通过数据评估每分钱花费的价值。
火剧科技也是率先从大数据营销这个点切入影视营销领域。当前致力于研发大数据营销工具,以互联网与大数据科技帮助优质的影视内容实现火爆大卖。包括为电影、电视剧、综艺节目、网剧等影视项目提供基于大数据分析的网络营销推广,广告精准投放,营销效果实时监控,社交网络互动营销,观众人群定位分析,观众口碑与舆情监控,市场竞争分析等,实现票房、收视率、网络点击率的有效提升。虽然才刚成立一个月,已与电视剧《麻雀》、《生于70年代》、《长江往事》,电影《我把爱情煲成汤》等项目达成了合作。基于团队在互联网与大数据技术的深厚积累,火剧科技目前与影视行业相关的上市公司皇氏集团、汉鼎宇佑、长城影视、华策影视等也都达成了合作意向。
火剧科技还依托在智能推荐技术的领先优势与易直播、天翼阅读等直播与内容平台达成了合作,提供推荐引擎系统的解决方案。与盛世骄阳达成合作,提供影视版权侵权监控的大数据解决方案。与万维文化达成合作,通过大数据分析帮助挑选演员阵容,影片排片档期的分析决策,影片的植入广告分析,影片的宣发策略的决策分析等。下一步火剧科技还打算为影视项目提供投资决策分析与风险评估,影视项目众筹融资,IP定价评估与衍生开发,IP趋势预测等服务。未来火剧科技将立足于影视行业核心需求,来提供从投资、制片、营销、发行、传播、衍生的大数据和互联网技术的全产业链服务方案。
【文/剁椒娱投】
·氧分子网(http://www.yangfenzi.com)延伸阅读:
➤ 康复之家旗下电商黑马德开大药房融资1.7亿,估值达10亿!
➤ 人工智能先驱、LOGO语言创始人西蒙·派珀特(Papert)去世
➤ 为京东和美团立传的李志刚创办新经济100人 获千万Pre-A轮融资
➤ 网易云音乐高级总监王磊离职 加盟太合音乐旗下百度音乐任总经理
注重社交的直播平台“易直播”与影视大数据公司“火剧科技”签署战略合作协议,共同开拓线上影视发布会业务。双方利用优势资源为影视行业各类客户提供高品质的在线直播与全网营销服务。此次强强联合将充分发挥双方优势,提升效率,共同缔造更多行业奇迹! 目前影视行业发布会的需求非常旺盛,项目启动会、项目宣介会、首映式、明星见面会等等,通常的做法是在高档宾馆酒店包下会议厅来进行发布会的落地,成本很高却并不能达到期望的影响力与传播效果。而通过直播平台把这些发布会放到网络上在线举行,不仅能节省大量成本,而且能达到更好的宣传传播效果,更容易与海量粉丝用户达成实时互动
记得我们这届电影学院的开学典礼上,院长还是哪位教授通过一张数据图分析18-25岁是目前最大的影视市场消费群体,鼓励我们将来去拍年轻人爱看的电影。同时我身边的这一代人,已经很少有人去守着电视等剧集了,大家都是在电脑上联网看,方便截图分享或吐槽。先不论内容如何,以电视机作为媒介的的电视剧已经对我们失去了吸引力。还有,在国内电影和电视剧制作是两个截然不同的圈子,对于今后想拍电影的毕业生来说一般是不碰电视剧的,很多师哥师姐选择拍网络剧入行。因此,我比较看好网络剧。
《匆匆那年》电影和网络剧的线下线上双布局,倒是不会对市场造成什么分流。看了电影海报预告片和搜狐的发布会视频,觉得张一白执导的电影,走的是一群大牌明星的大银幕大票房的套路;而搜狐的网络长剧版,颠覆了网络视频界,乃至中国影视圈,一是4K,二是45分钟每集,三是超百万每集的制作成本。一部网剧选择这样的场地,看得出搜狐视频野心不小。网络剧粗制滥造的黑历史看来要刷新了,预计用大银幕做预告发布,即将成为视频网站“军备竞赛”的最新组成部分。视频网站的步子迈得有点太快了,中国电视剧的首映礼也没这么干的
电视剧还是比网络剧有生命力。因为电视台挣了广告费就买电视剧,而视频网站挣了广告费要去买流量,给电信打工,这是关键。电视剧可以同时卖给电视台和网站,网站愿意花钱买电视剧却不愿花钱买网络剧(非业内人士不知道这一点,网站一般只以别的方式跟网络剧合作,不直接出钱买。主要是因为电视剧整体素质高于网络剧,次要是因为网络剧只有网络播放一条路,得求着网站合作,而电视剧无所谓,卖给你是给你面子)。没有买卖就没有生命力。网络剧的制作者现在基本在不盈利或微盈利状态(靠广告植入或跟视频网站广告分成)。之所以这么多人往上冲主要是为了赌未来。个案不能代表整体,更何况你看到的个案还是有宣传炒作的。顺便说一句,等网络剧真正侵占到电视剧的利润和空间时,XX总局的各种规定就会来了,光是一条“不能低俗”就能让很多剧没法拍了。不好意思,说了点让大家泄气的话。
大数据入门,我们做个思考,以前有个国王很高兴想奖赏他的宠臣,然后说让他来提任何奖励,这个大臣给国王看下面这个棋盘,是个8*8的方格,如果我在每个标号的格子内放米粒,第一个格子放1粒米,后面的格子总是前面格子的两倍。那么问题来了,如果我把整个棋盘放满,需要多少米粒?我们学过级数的话,可以快速做个演算,它的推演是 1 + 2 + 4 … + 2^63 = 2^64 – 1 这个数字多大很多人没印象,反正如果真的要兑现的话,这个国家肯定是破产了。其实我把这个棋盘分成上下两半,在上一半总共需要的米粒是2^32, 这并不是个很大的数,其实前几年计算机的32位就是那么大,但下半场就完全不一样了,这是个平方级别的scale,宇宙中所有沙砾都标号也不需要这么大的数字。现在大家也经常听到什么手机64位处理器,其实并无实际意义。
大数据的用途,所谓学以致用,大数据领域在各个行业都可以应用,这里举出几个有趣的例子,在Linkedin的时候,CEO提出经济图谱的概念,希望整合用户,公司,工作机会,技能,学校,帖子变成一个复杂而有蕴含无限可能的数字化社会。找对象,有个国外的极客,他抓取了dating网站的数据,根据有些指标如地理,年龄,兴趣,建立下面的3D模型找到真爱;例如阿里巴巴通过数据魔方(它们的大数据产品),提炼出消费跟女生胸部成正比的结论。在移动App上,今日头条通过你的个人社会化信息,建立起兴趣图谱推荐文章并且随着你的使用会越来越聪明;在线教育领域:MOOC中的M就是大规模的意思;其他如互联网金融人人贷,通过大数据积累信用,释放一些传统金融体系下未被满足而又广泛存在的巨大需求,最近也是拿到1.3亿美金的融资。硅谷有家Wealthfront做大数据理财,23andMe提供个人基因组的“大数据“。等等
对于迅速成长的中国市场,大公司也意味着大数据,BAT三家都是对大数据的投入也是不惜余力,我4年前在Baidu的的时候,就提出框计算的东东,最近两年成立了硅谷研究院,挖来Andrew Ng作为首席科学家,研究项目就是百度大脑,在语音,图片识别大幅提高精确度和召回率,最近还做了个无人自行车非常有趣。腾讯作为最大的社交应用对大数据也是情有独钟,自己研发了C++平台的海量存储系统。淘宝去年双十一主战场,2分钟突破10亿,交易额突破571亿,背后是有很多故事,当年在百度做Pyramid(按Google三辆马车打造的金字塔三层分布式系统)有志之士,继续在OceanBase创造神话。而阿里云当年备受争议,马云也怀疑是不是被王坚忽悠,最后经历了双十一的洗礼证明了OceanBase和阿里云的靠谱。小米的雷军对大数据也是寄托厚望,一方面这么多数据几何级数增长,另一方面存储带宽都是巨大成本,没价值就真破产。
大数据的应用价值很大,但现在的应用普遍错位,在这个‘大数据‘概念刚开始被鼓吹、技术刚兴起的年代,这样的错位在现实中一再发生,这一点也不荒唐。一方面,一些大数据技术公司正在千方百计地鼓动农民和织布厂购买大数据(大数据时代的电子政务、大数据时代的品牌战略)。不是说更准确的数据对电子政务完全没价值,但是投入产出比肯定不高,因为这些数据用抽样一样可以保证精度,数据再多,热机功率也无法突破极限。是更可笑的方面,是一些拥有大数据的企业,正在千方百计地把他们的数据换算成’更精确的温度‘——手握大量数据,也有微观干预的技术可行性,但是他们只想用热机的方式利用这些数据(例如某浪总想把微博定位成媒体)。
大数据时代已经到来,根据IDC和Mckinsey的大数据研究报告。大数据挖掘商业价值的方法主要分为四种:顾客群体细分,然后对每个群体量体裁衣般地采取独特的行动。模拟实际环境,发掘新的需求同时提高投入的回报率。加强各部门联系,提高整个管理链条和产业链条的投入回报率。发现隐藏线索,进行产品和服务的创新。孟山都首先发起“Green Data Revolution”运动,建立农业数据联盟(Open Ag Data Alliance)来统一数据标准,让农民不用懂“高科技”也能享受大数据的成果。典型的应用如农场设备制造商John Deere与DuPont Pioneer当前联合提供“决策服务(Decision Services)”,农民只需在驾驶室里拿出平板电脑,收集种子监视器传来的数据,然后将其上传给服务器,最终服务器返回化肥的配方到农场拖拉机上。
大数据的业务多是数据驱动型,具有数据量大、种类多、实时性高的特点。工业企业对数据的记录以往看来主要分为两种方法:传统的纸笔和Excel电子表格记录。这些操作起来看似简单的数据管理方式为企业生产及质量监控埋下了巨大的隐患,也让数据挖掘无从谈起。
随着信息化与工业化的融合发展,信息技术渗透到了工业企业产业链的各个环节。例如Sensor、RFID、Barcode、物联网等技术已经在企业中得到初步应用,工业大数据也开始逐渐得到积累。企业中生产线高速运转时机器所产生的数据量不亚于计算机数据,而且数据类型多是非结构化数据,对数据的实时性要求也更高。因此工业大数据所面临的问题和挑战很多,所以通用电气公司(General Electric)的副总裁兼全球技术总监William Ruh认为相对于工业大数据来说,工业互联网(Industrial Internet)才是当前急需的,因为大数据本身并没有让信息的提取更加智能,业务比数据本身更加重要。他举了一个核磁共振成像扫描的例子。
美国T-mobiles采用Informatica – The Data Integration Company平台开展大数据工作,通过集成数据综合分析客户流失的原因,根据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将流失率减半;韩国 SK telecom新成立一家公司SK Planet,通过大数据分析用户的使用行为,在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国AT&T – 4G LTE, 公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券。英国BT – Broadband公司发布了新的安全数据分析服务Assure Analytics—BT news releases,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策。
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
凡有人拿出一张Excel 表格告诉你他做的是大数据,此人百分之两百都不懂大数据。大数据说到底就是一个大字。到底有多大?拿维基百科上的例子来说,CERN做的LHC(大型強子對撞機)周长27公里,里面一共有1.5亿个传感器,每秒钟读数达四千万次。每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据,每秒钟也有100次碰撞需要记录。如果在这些数据里面仅仅使用十万分之一,那么一年也要积累25 petabytes的数据,相当于25000个1TB的硬盘。在这些数据里寻找希格斯玻色子的证据,是真正的大海捞针。这么大的数据你给我用Excel算算看?不要说计算,根本连载入内存都不可能。
Facebook据说拥有500亿以上的用户照片。前些日子美国波士顿发生了爆炸案。这些照片里可能就有爆炸案的线索。那你给我找找看那张照片上面有嫌犯?波士顿马拉松仅运动员就有两三万人,围观群众近五十万。在同一时间同一地点拍摄的照片可能有几十万张,录像可能有几千小时。用人工一张一张看过来是不切实际的。如果要考察爆炸案前后几天的照片那就更不现实了。还有的照片根本就没有时间和地点信息。去年3月腾讯推出的,按共同好友的连锁反应摊开你的人际关系网,把你的前女友推荐给未婚妻,同学同事朋友圈子分门别类,这个数据处理能力给人带来的震撼程度完全超过你可能认识的朋友的程度了,潜伏在人际关系深处的暗网都被铺开;大数据与乔布斯癌症治疗。不要抽样数据,要全部数据。乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人,他得到的不是样本,而是包括整个基因的数据文档。由于医生可以按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
对于大数据,一直来说,数据规模本导致的存储,运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够给力了,后来类似海杜普这样的东西彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。从数据钻取,大规模分析的技术手段,以及算法执行上来说,大规模数据是和小规模数据在技术上是有很大差异,但是一则,这对于大众认知来说,并不是需要关注和了解的重点(例如本题目的目的那样),另外来说,我也不认为这是重点和难点。面对大数据的技术处理差异绝非大数据概念的精髓和瓶颈,只是商家们热衷宣传的热点,因为大数据领域只有在这个环节上,有大规模的产品市场存在的可能。
对于大数据,一直来说,数据规模本导致的存储,运算等技术问题从来不是最重要的瓶颈。瓶颈只在于前端数据的收集途径,以及后端商业思想引领的模型和算法问题。早期的各类OLAP工具已经足够给力了,后来类似海杜普这样的东西彻底降低了分布式数据的架构成本和门槛,就彻底将大数据带入了一个普及的领域。从数据钻取,大规模分析的技术手段,以及算法执行上来说,大规模数据是和小规模数据在技术上是有很大差异,但是一则,这对于大众认知来说,并不是需要关注和了解的重点(例如本题目的目的那样),另外来说,我也不认为这是重点和难点。面对大数据的技术处理差异绝非大数据概念的精髓和瓶颈,只是商家们热衷宣传的热点,因为大数据领域只有在这个环节上,有大规模的产品市场存在的可能。
Netflix 的高层一年前告诉 Salon,他们通过分析数据,才决定翻拍广受大众(包括他们的用户)欢迎和评论家赞赏的 1990 年 BBC 迷你剧 House of Cards,而且他们还发现,喜欢这个剧集的人也非常喜欢有 Kevin Spacey 参演,或者 David Fincher 导演的作品。也因此,他们才有了结论,决定断然投资一亿美元翻拍一部两季共计 26 季有 Spacey 和 Fincher 参加的同名剧。《纸牌屋》的受欢迎正是大数据时代的一个经典案例。Netflix通过对于大量电影/电视剧的数据挖掘,真正了解到观众的喜好,也从影视租赁商逐渐转化为影视提供商。这种转换就可以类比是,由于京东极度了解用户的喜欢信息,而转化开始自己产家电,并且大受欢迎。这种大数据的方式正是互联网公司相比较传统公司的一大优势。
Netflix 的高层一年前告诉 Salon,他们通过分析数据,才决定翻拍广受大众(包括他们的用户)欢迎和评论家赞赏的 1990 年 BBC 迷你剧 House of Cards,而且他们还发现,喜欢这个剧集的人也非常喜欢有 Kevin Spacey 参演,或者 David Fincher 导演的作品。也因此,他们才有了结论,决定断然投资一亿美元翻拍一部两季共计 26 季有 Spacey 和 Fincher 参加的同名剧。《纸牌屋》的受欢迎正是大数据时代的一个经典案例。Netflix通过对于大量电影/电视剧的数据挖掘,真正了解到观众的喜好,也从影视租赁商逐渐转化为影视提供商。这种转换就可以类比是,由于京东极度了解用户的喜欢信息,而转化开始自己产家电,并且大受欢迎。这种大数据的方式正是互联网公司相比较传统公司的一大优势。