互联网公司是如何在世界杯预测领域完胜华尔街的?

互联网公司是如何在世界杯预测领域完胜华尔街的?

凌晨1点钟写这篇东西的时候,我还专门看了一眼,百度预测德国51%,巴西49%,我跟一个朋友说,巴西铁定进决赛好么,以我对国际足联的操行的理解绝不会有出入好么,结果今早就被各种打脸了。

本届世界杯最大的看点,除了比赛本身,就是场外如火如荼的各种预测了。一边是各种动物争当“章鱼保罗第二”,纷纷对比赛评头论足,一边是各色民间科学家粉墨登场,为比赛预测抛出各种理论。这就好像那个“猴子炒股总是超过分析师”的例子一样,看看也就算了。

今年世界杯预测真正的最大看点,是有一大批科技公司,利用大数据技术,准确预测了截至目前的世界杯赛果。值得一提的是准确预测的不仅是16强,甚至还有八强、四强!更值得赞叹的是,9日凌晨进行的第一场半决赛——巴德之战前,当几乎所有的民间预测都一边倒地倾向于巴西队获胜,但百度仍预测德国队具有51%的得胜概率,事实证明日耳曼战车以7:1血洗巴桑军团,这也使得百度在淘汰赛以来的赛果预测准确率维持在100%。而这些预测绝不是“蒙”的!

从靠谱到非常靠谱

这些公司包括互联网行业的谷歌、百度、微软、雅虎,以及看起来和科技并无关联的投资银行公司高盛和德意志银行,以及新闻业的彭博社。在这里把他们一概归入科技公司的理由是他们的预测都基于自己的(或持有股份的)云计算平台,并利用这些平台的计算能力提供预测的结果。

以百度为例,这家公司的资深数据科学家团队,搜索了过去5年内全世界987支球队(含国家队和俱乐部队)的3.7万场比赛数据,同时与中国彩票网站乐彩网、欧洲必发指数数据供应商Spdex进行数据合作,导入博彩市场的预测数据,建立了一个囊括199972名球员和1.12亿条数据的预测模型,并在此基础上进行结果预测。

其他几家公司的预测原理,也与此类似,但在细微之处却又有所不同,这导致了不同的侧重,以及非常不同的预测结果。

先来说三家传统的华尔街公司,高盛、德银和彭博,他们的共同之处是靠谱的地方很靠谱,但是离谱的地方非常离谱。

今年高盛世界杯报告的出品人,是大名鼎鼎高盛经济学家凯文·戴利(Kevin Daly),他带领高盛的量化分析师建立了自1960年以来正式国际足球比赛数据的模型,对其进行回归分析,通过一个叫“elo”的动态模拟系统“掷骰子”分析赛果,同时根据泊松模型(一种概率模型,用于预测进球而非预测胜负)预测小组赛的比分。

高盛的八强预测错了三个(哥斯达黎加、比利时和哥伦比亚),四强错了一个(西班牙),小组赛的赛果正确率只有37.5%,尽管这已经算是不错的结果,但仍是差强人意。至于具体的比分,就离靠谱比较远了,举个例子,高盛说巴西的每场比赛都会以3个球以上的大比分战胜对手,结果呢?

平心而论,高盛是华尔街里最靠谱的公司。彭博的方法与高盛类似,是在各国国家队FIFA积分的基础上,模拟了1万次比赛结果,结果也与高盛类似,彭博认为西班牙会在和阿根廷打平后点球进入决赛,最终输给巴西(拜托,西班牙两个礼拜前已经回家了)。

德银的模型更离谱,它的模型据说综合了FIFA排名、历史战绩、球员构成和赌球赔率等因素,算出的夺冠概率前四名是巴西、德国、西班牙、法国,但是德银的分析师在建立模型时,综合了一个据说是“历史夺冠轮回”的理论,最终,他们计算出的结果是巴西无缘8强,而英格兰将夺冠(拜托,英格兰也在一个礼拜前就回家了好吗)。

这一点不是偶然,回顾往届世界杯,几大投行的预测跟球迷瞎猜的水平差相仿佛,拿上届来说,大摩说英格兰会夺冠,瑞银说意大利能进四强,结果如何,也就不必说了。有一本书叫《荒谬的经济学家》,讲的就是经济学家数据分析的不靠谱,而且他们自己还不知道。这一点同样应验在比赛预测上,华尔街的预测总的来说“有点用”,但真要拿来赌巴西和德国的胜负,还是算了吧。

再看互联网公司这边,基本可以说是全面大胜,除了雅虎。

先来说说传统的预测大腕雅虎。雅虎的预测手段其实与华尔街类似,但专家云集且经验丰富,向来与专业博彩公司不相上下,经常被作为正式的参考数据列入博彩资料,但是今年雅虎不知搭错了哪根筋,为了推广自己的图片分享社区Tumblr,他们决定使用该社区的数据来预测世界杯:从831亿篇Tumblr博客中筛选出1.889亿篇文章,再“将注意力集中于2730万篇与世界杯相关的博文”,此后根据“与世界杯有关的帖子里被提及的国家队”,以及“在与足球有关的帖子里被提及的国家队”,导入泊松模型来预测每场比赛的结果。预测结果是,16强和8强预测分别错了一半。

如果抛开雅虎这个奇葩,互联网公司阵营的预测结果比华尔街绝对高了不是一点半点,剩下的三家全部预测正确了全部的16强(谷歌只预测了八强),以及全部的八强,微软、百度和高盛猜对了全部的四强,谷歌在四强的预测中惜败,在半决赛中,百度和微软甚至还准确预测了巴西对德国的赛果。

剩下这三家中,谷歌的预测数据主要来自Opta Sports的海量赛事数据,通过球队实力的排序模型,以及基于“各个国家球迷到巴西的数量和热情度”的主场优势模型,来构建其最终的预测模型。而微软则与百度类似,是在历史和球队状态数据基础上,通过对必发博彩交易市场数据来分析构建预测模型。总的来说,就本届世界杯的预测而言,它们都“非常靠谱”。

当预测不再是预测

最后一场半决赛和决赛开战在即,回头看预测大战的胜负,有一条脉络基本上是很清楚的,那就是数据从哪里来,使用哪些数据,和怎样使用数据,是决定预测结果的关键。

受云计算能力的局限,高盛、德银、彭博为代表的华尔街公司采用的数据,大多并不是特别庞大,比如,只选取一部分时间的比赛数据,和选取一部分球员的数据,代入一个固定的数学模型,用“掷骰子”来代替“运气”所带来的不确定性,看起来非常合理,但忽略了一个大数据时代最常犯的错误,即数据量有限导致无法保证采样的“随机性”,这一点是“掷骰子”无法解决的——这也被称作“数据独裁”,你怎能仅靠主力球员在一级比赛上的表现,来锚定整支球队的状态?

雅虎作为大数据顶级开源平台Hadoop的孕育者,在计算能力上并没有受到类似华尔街一方那样的局限。从采集的样本来看,雅虎的数据量堪称有史以来最大型的预测模型之一。但在“数据独裁”这一点上,雅虎犯的错误与华尔街相同——Tumblr并非拥有足够多样本数的社交平台,而即便是顶级的社交平台Facebook,在数据预测的价值上也有侧重,例如,预测离婚率比较准,而预测奥运金牌就没那么准。

谷歌的问题则在于漫不经心,说白了就是在选取和使用数据的方法上不专业。一个典型的例子是,法德大战次日,谷歌发言人通过博客发表了一篇文章《为什么我们的德法大战预测错了?》,在文章中解释说,在世界杯前四场比赛中,法国比德国有更多的射门和射中球门概率,“必进”位置的射门也更多,这增加了模型中的“预期进球”,而德国则相反。他还说,从实际比赛来看,法国的射门次数和质量也确实如前所述,预测不准实在是“运气使然”。

这太扯淡了。真的是“运气使然”的话,那前面的16强、8强战中,十几场比赛,运气都没有发挥作用吗?谷歌的问题,也正是是出在对“运气”,也就是比赛预测的模型的理解上。博彩界有一句名言,“任何企图超越赔率的努力都是徒劳的”,说的是赔率的本质,实际上是几个基本属性概率,价值,实力的综合体现,“运气使然”的成分,已经被计算在内,不同机构的赔率数值虽然不同,但正如商品市场价格在一定范围内波动,绝不会“出圈”。

谷歌拥有英语世界里最庞大的数据,也拥有全球第二的云计算能力(第一名是亚马逊),但在这个预测模型的建立上,犯了一个最严重的错误,那就是对于基础数据的分析,远不如对赔率的分析重要,这一点在博彩界人人皆知,但谷歌却忽略了它。这是专业精神的失败。预测四强失误,正是这一不专业导致的直接结果——这是个足够严重的错误,也正是谷歌在大数据方面最大的问题所在,预测足球无法建立专业的模型,那何以保证在其他领域就能做到专业呢?

只有百度和微软,不仅正确预测了所有八强、四强的国家队,对于9日凌晨进行的一场重量级半决赛——巴西vs德国的预测中,当谷歌、高盛预测大热门巴西将获胜的时候,百度和微软则预测了德国的胜利,继续保持了淘汰赛以来100%的准确率,而百度更是给出了51%的胜率数据。相比之下,微软和百度的预测正确,也正是对“赔率”理解正确的结果。但不同的是,前者的模型主要依据了必发指数这一欧洲市场最具权威性的赔率指数,而后者在此基础上,还综合了欧赔469家公司的赔率数据。这一点的优劣见仁见智,但理论上引入多个数据源能保证更好的健壮性和精确性,在实际预测中,百度在小组赛预测上的准确率,略高于微软(58.33% vs 56.25%)。

就在9日凌晨的巴德大战赛果在朋友圈被刷爆的同时,却很少有人看到,决定预测胜负的,还有一些重要的关键变数。尤其值得一提的是,百度和微软都是人工智能五巨头之一(谷歌、百度、微软、IBM、Facebook),百度还刚刚从谷歌大脑挖来了人工智能三位顶级专家之一吴恩达(另外两位一在谷歌,一在Facebook),并宣布“百度大脑”已经达到2-3岁智力。

这究竟可以帮多大的忙尚未可知,而微软早在多年前也已经涉足人工智能研究,推出的Cortana在市场上受到广泛好评。目前还不知道双方是否在预测中启用了基于深度学习的人工智能组件,如果答案为肯定,那么在“数据从哪里来”这一点上,将增添无穷多的变量。

百度世界杯预测是在做一款互联网产品,而微软、高盛和谷歌是在做一份事件性的报告,双方在态度上首先就是有区别的,因此我个人更看好百度。除了关注德国在血洗巴西之后,能否继续在总决赛中胜出之外,在最后三场比赛中,我们还可以密切关注百度与华尔街和硅谷的预测对决。

还有一点必须指出,至少截至目前,至少在世界杯比赛的预测结果来看,大数据和人工智能的预测结果担当得起“非常靠谱”这个形容词。我相信用不了多少时间,至少在世界杯上,我们也许要准备向“预测”这个词正式说再见了。

您可能还喜欢…

发表评论

邮箱地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>