除了中国官方数据,百度等公司通过网络搜索来编制新指标
教授说,“就像打开灯,突然你就看见了一切”
吴海山在普林斯顿大学(Princeton University)研究鱼群集体行为时被一个更庞大群体所吸引:13.5亿中国同胞。
那是2014年的春节,中国最大搜索引擎运营商百度打造了一部讲述各阶层人群春节回家的微电影。一年一度的春运是世界上规模最大的人类迁徙活动。吴海山很快加入了总部位于北京的百度公司,担任数据科学家。他的工作是通过追踪用户位置信息来测算经济指标,如哪些城区是鬼城,多少人在买车。
“我们像是在到处跑,把手电筒射向各个地方,比如说劳动力和港口、”北京大学光华管理学院的投资学教授杰弗里•陶森(Jeffrey Towson)表示。“这些新信息旨在改善现有信息。就像是打开灯,突然你就看到了一切。”
如今,各种数据源的大爆发让投资者可以从新角度来看待中国这个世界上最大的贸易国。中国最主要的银行卡处理机构中国银联在一周内可以处理数亿次交易。阿里巴巴上个财年的网购交易额为3.1万亿元人民币(约合4850亿美元),几乎相当于瑞典的国内生产总值。
百度每日的搜索量达到60亿次,而且在移动地图服务领域占主导地位,这为百度提供了移动用户的位置数据和使用百度地图服务的应用软件所收集的位置数据。例如,这些数据可以显示有多少人在逛苹果商店,从而能推断出多少人对新iPhone有购买兴趣。
吴海山还用搜索数据和地图数据来定位所谓的鬼城,也就是那些几乎没有移动手机活动的楼盘。他带领一支10人的团队利用该技术编制了多项指标,包括商场客流量、旅游出行人数以及高科技就业情况。
“我们不知道这样做有没有商业价值。”吴海山在位于北京西北的百度办公园区接受采访时表示。但机构投资者看到了商业价值,他们在6月吴海山发布指标后迅速找上门来。
中国的官方数据依然缺乏关键性指标,如定期发布的基于调查的失业率。非官方的民新制造业指数2016年被无限期暂停发布,市场研究机构Markit Economics和财新传媒联合编制的制造业指数初值也在2015年被叫停。更多百度读解读:www.yangfenzi.com/tag/baidu
大数据则提供了另一种可能性。曾在麦肯锡公司(McKinsey & Co.)做分析员、如今加入了阿里巴巴研究部门的程欣正在利用阿里巴巴的贸易数据来编制一个GDP类型的指标。该指标将从淘宝上读取数据,中国最大房地产门户网站搜房网的交易数据等也会被纳入其中。
“问题是,政府会允许这类指标大量涌现吗?”迈德利环球顾问公司(Medley Global Advisors)驻北京的中国研究负责人安德鲁•波尔克(Andrew Polk)表示。“如果这些数据和官方数据明显不符,中国的监管机构会支持这类指标的发布吗?这才是真正的考验。”
电影、K歌
滴滴出行的数据分析师王展伟表示,从用户处收集数据的信息公司对中国政府有益。他的团队计划利用打车数据来测算消费者支出,比如说追踪人们打车前往商场、电影院和KTV娱乐场所的频率。
“我们试图用数据来服务社会,” 王展伟表示,“如果政府能更了解人们的出行习惯,他们或许可以更好地进行城市规划。”
政府官员也在关注这一趋势。中国国家统计局新闻发言人盛来运表示,“我们欢迎大数据,也接受大数据,”统计局在某些指标中也纳入了大数据,如零售额、消费通胀和房价等指标。但他也说,非官方数据编制机构的统计方法应该更透明,这样才能获得可信度。
然而,处理、筛选和理解所有的新数据并不容易,即使是世界最大的对冲基金也难以在强大的干扰下分辨出正确的信号。
彭博行业研究(Bloomberg Intelligence)的经济学家欧乐鹰(Tom Orlik)和贾斯汀•希门尼斯(Justin Jimenez)在一份报告中比较了国家统计局和大数据公司的指标,他们发现,虽然这些新指标为解读中国经济提供了更加完整的另类视角,但这些指标大多还是在验证官方数据。
旧金山SpaceKnow公司编制的中国卫星制造业指数最近触及多年高位,和中国官方及非官方数据一致。
但一些新指标不符合官方数据。加利福尼亚州帕洛阿尔托的Orbital Insight公司在分析卫星图像后指出,中国石油储量可能高过官方预计。
“在我们完全认识其正确性前,在政策决定中使用这些方法是有风险的。”加州大学伯克利分校信息学院的助理教授乔舒亚•布鲁门斯多克(Joshua Blumenstock)表示。新指标不会取代官方数据,“但它们可以作为补充,提供额外的信息和背景,在没有官方数据的时候还能应急。”
对百度的吴海山来说,每天流入百度服务器的数亿数据点能让他通过用户的个人决策信息来更加细致地观测中国的经济趋势。
“我们现在触及的维度是之前难以企及的,”吴海山说,“观察人们作为经济动物的行为,一直都是很有意思的事。”撰文/彭博社 翻译/陶梦萦 编辑/刘馨蔚
总之 如今,各种数据源的大爆发让投资者可以从新角度来看待中国这个世界上最大的贸易国。
·氧分子网(http://www.yangfenzi.com)延伸阅读:
深度神经网络正在重塑了整个科技界。
如果你用手机在 Google 上搜索“世界上时速度最快的鸟是什么?”它会告诉你答案是 “游隼”。“据Youtube上的视频记载,迄今为止游隼最快的飞行速度是389km/h。”
这是正确答案,但是这个答案并不是来自Google的数据库。当你问这个问题的时候,Google搜索引擎准确地找到了YouTube上一个介绍世界上飞得最快的五种鸟的视频,再从中提取出你想要的信息,然而它并不会提及其他四种鸟。同样地,如当你问“光明节有几天?”或者“图腾有多长?”,搜索引擎知道你问的是“太阳马戏团”的表演,表演有两个半小时,包括半小时的休息时间。
谷歌回答这些问题是基于深度神经网络——人工智能的一种形式,它已经快速地重塑了整个科技界,包括其他的科技巨头,从Facebook到微软。深度神经网络是一款模式识别系统,可以通过分析大量数据学习特定的任务。在这里,深度神经网络就学会了从远端转述相关网页上的内容,并提取你想要的信息。
这些“句子压缩算法”使搜索引擎在桌面上有生命地呈现了出来。他们所处理的是对于人类来说很简单但是传统意义上对机器很难的问题。这展现了在自然语言解读,理解并回答人类语言的领域,深层学习是多么领先。关于Google的句子压缩算法,其搜索产品经理David Orr说”你必须使用神经网络,至少这是我们能够发现的唯一一种实现方式。我们必须使用所有已有的科技。”
更不要说有一群有着高学历的人们参与其中。Google所用于训练神经网络的数据都是由一大群有着博士学位的语言学家人工收集而来的。这群语言学家被称为Pygmalion。实际上,Google机器是通过一遍又一遍地学习人类如何从一大段文字中提取有用信息来实现其功能的。这样艰苦的努力学习显示出了深层学习的强大之处,也显现出其限制性。要训练一个这样的人工智能系统,你需要非常多的依靠人类智能筛选出的数据。而要获得这样的数据并不轻松或廉价。而这种需要并不会随着时间的推移而减少。
为了训练 Google 的问答大脑,Orr 和Google还使用了以前的新闻故事,这样机器就可以学习到题目是如何总结其文章的。但是现在,Google仍然需要这群语言学家的工作。他们不仅仅是示范句子压缩,实际上更多地是标记文章的各个部分以帮助神经网更好的理解人类语言。 Pygmalion团队的将近100名语言学家从全球招募而来,他们的产出被 Orr称为“金数据”,以前的新闻故事被称为“银数据”。银数据仍然有用,因为其数据量很大。但是金数据是必须的。Pygmalion的负责人Linne Ha表示该团队在未来几年还会不断扩大。
这样的人工辅助式AI被称为“监管学习”。它展现了神经网络是如何运作的。所有公司都可以做这样的东西——或者它会自发形成。全世界的网络用户已经在无数张有猫的照片中标记出了无数只猫,因此这就使神经网络学习识别猫更容易。但是在其他情况下,研究人员没有办法,只有依靠人类标记数据。
训练这样一个系统需要大量的人工筛选数据。
深层学习初创公司Skymind的创始人Chris Nicholson说从长远看来,这种人类手工标记的方式不可取。“这不是未来,”他评论道:“这是一项极其枯燥的工作。我有着博士学位,我想不出还有什么事情比这个枯燥了。”除非Google的语言学家们的工作涵盖了所有语言为止,这个系统都不算真正意义上的有用,考虑到这点,人类手工标记方式的局限性尤其明显。Orr说,该团队涵盖了20至30种语言。但是有希望的是像Google这样一个公司最终会走向更加自主的“无监管学习”AI。
“无监管学习”意味着机器可以从未标记数据中学习,这些未标记的数据包括大量从互联网和其他渠道获得的数字信息。这样的研究已经在Google、Facebook和OpenAI(Elon Musk创立的机器学习初创公司)这些公司展开了。但是,仍任重而道远,如今,AI仍然需要人类的辅助。
翻译来自:虫洞翻翻
美国时间2月22日,《麻省理工科技评论》官方网站发布2017全球十大突破性技术,百度入选“刷脸支付”技术“关键玩家”,继2016年语音技术入选后,成为首个二度入选的中国公司。
作为MIT十大突破技术评选的“老玩家”,百度这次也创造了中国公司上榜的新纪录:连续两年入选“关键玩家”,成为该评选设立16年以来首度获此殊荣的中国公司。另外,2016年的语音技术突破和今年的人脸识别技术突破,恰恰也是百度在前不久称霸国内卫视节目《最强大脑》中,击败人类选手的两类比赛项目。
《麻省理工科技评论》也注意到这一点,记者Will Knight在年度榜单“刷脸支付”这一条目的评语中指出,百度发表的论文显示,该公司软件识别人脸能力早已超过多数普通人。今年早些时候,百度在《最强大脑》中击败识别能力超强的人类选手,充分证明了这一点。
“百度现在正在开发一个人脸验证取火车票的系统。他们已经和乌镇合作,上线了无需门票出入景区的人脸识别系统,这需要从数万张人脸照片中瞬间找到一张匹配的人脸,而匹配的准确度是99%。”
乌镇人脸闸机
正如百度公司董事长兼首席执行官李彦宏对人工智能行业的判断,中国互联网正处于“分水岭式”的变革之中,人工智能将让全球格局发生变化,中国已经进入人工智能时代。
李彦宏
百度集团总裁兼首席运营官陆奇,也曾在接受采访时强调,图像识别、语音识别等感知认识领域是人工智能的重要突破点,百度将不断推进这些技术的应用产生新的产品的种类,加速创新。
陆奇
不仅如此,在21日《麻省理工科技评论》中国合作伙伴“DeepTech深科技”举办的“MIT2017全球十大突破性技术”发布会上,百度获得强化学习、自动驾驶货车、刷脸支付三大人工智能技术“关键玩家”提名,包揽国内人工智能类别所有奖项,成为提名次数最多的中国企业。
会后,针对百度人脸识别技术的最新进展,百度深度学习实验室主任林元庆接受了媒体采访,详细解读了百度人脸识别的技术优势以及发展方向。他表示,人脸识别技术在2017年将非常有突破性,百度首创的1:N高精度人脸识别技术已经在门禁、闸机上应用,百度人脸识别技术未来还将大规模应用于金融、车站、手机等场景,并将于2017年实现100家top级景区的人脸闸机覆盖。
百度深度学习实验室主任林元庆
目前百度人脸识别准确度已达99.7%,截至《最强大脑》人机对抗节目录制,百度人脸测试集有2百万人的2亿张图片作为训练样本数据。除人脸识别闸机外,百度人脸识别技术还应用于百度金融的远程预授信功能等金融领域。
去年,百度深度语音识别系统Deep Speech 2入选MIT 2016十大突破技术后(点击蓝字查看相关内容),语音技术获得迅猛发展。截至目前,百度语音识别准确率达97%,包括语音技术在内的百度大脑入选2016第三届乌镇世界互联网大会15大领先科技成果,成为国内唯一入选的综合型人工智能技术。语音交互也成为人机交互的主流趋势。
2017年开年之际,百度在CES上推出了对话式人工智能操作系统——DuerOS,开启“对话机器”元年。
在《快公司》评选的2017全球最具创新力公司榜单中,百度位列“人工智能/机器学习”门类前三甲。近日,发改委批复,深度学习技术及应用国家工程实验室筹建花落百度(点击蓝字查看相关内容)。百度将以“领头雁”的身份角色,推动中国人工智能技术创新。
CES上搭载了DuerOS的小鱼在家
百度在人工智能的投入已经看到了一些成果:过去一年语音交互技术带来全球人机交互的新趋势,而未来旅游交通等行业升级将由人脸识别推动。
作为第一个连续两年入选MIT年度十大突破性技术“关键玩家”的中国公司,包揽国内人工智能类别所有奖项的百度将在人工智能等领域继续进步,为推动中国科技创新进步出力!