向海龙指出,一万亿张网页相当于5000个国家图书馆的信息量总和。
氧分子网科技讯(乐天)5月29日消息,百度副总裁向海龙今日在2014年百度联盟峰会上表示,
全球信息量呈几何式跃升,从2005年的130EB(1EB=10亿GB)到2015年的8000+EB,10年增长66倍。来自可穿戴设备、LBS、语音、网络图片、视频等数据类型越来越丰富。
向海龙指出,百度已收录全世界超过一万亿张网页,这相当于5000个国家图书馆的信息量总和。百度还承担着每天百亿次的访问请求,可离线完成1000亿网页的处理与分析。并且,时效性网页从更新到索引只需要几十秒,真正做到在大数据量级下的低延迟和秒级响应。
创新产品的背后是百度的计算能力。其中,超大规模的存储技术和分布式计算技术是重要的基础。百度拥有数十万台服务器、EB级别的超大数据存储和管理规模,数据处理达到100GB/s的毫秒级响应速度,并达到100PB/天的数据计算能力。
向海龙介绍说,百度对广告特征的挖掘达到千亿级别。如以银河系的恒星来计数,这相当于两个银河系的行星数量。百度每天有PB级的样本量来训练模型,相当于10万个地球总人口的样本。最后达到分钟级的数据时效,以及上千倍高纬度特征的搜寻效率。
向海龙还介绍了极速搜索的特点,称就是“快”比普通搜索减少80%处理时间。“人眨一次眼睛时间是0.2秒,博尔特的起跑时间是0.16秒,子弹穿过木板的时间是0.05秒,而百度极速搜索的响应时间仅仅为0.04秒。”
今日百度副总裁向龙海在百度联盟大会上发表演讲,以下是百度副总裁向海龙演讲实录:
各位合作伙伴,朋友们,还有各位媒体朋友们,大家上午好。
再次欢迎大家参加我们2014百度联盟峰会的活动,今天我演讲的主题是技术是搜索的核心竞争力。在我开始演讲这个话题之前,我想先和嘉宾共同分享我们几个数据。
在互联网时代,全球的数据增长速度是非常快的,刚才Robin也提到,从这个图上大家可以看到,在05年的时候,全球的信息量是130EB,EB是一个非常大的计量单位,1EB相当于10的GB,到了明年,我们做了一个预测,全球的信息量增长会达到8000多EB。我们看了这十年的增长,将近是66倍的速度。而且这个速度还会持续更快的增长。
这个增长有很多原因,有一方面原因,数据类型变得非常多样化。互联网刚发展起来的时候,在互联网上呈现的数据更多是文本的数据,文字的数据。但是随着技术的发展,现在我们的数据呈现出多元化,现在有图片数据,大家发现这两年图片数据的增长更加迅猛。比如现在我们在看微信的朋友圈时,大家会发现,朋友圈里其实大量的朋友发了各种各样的照片。还有语音数据,随着无线互联网的发展,设备越来越智能,语音的数据积累越来越快。
还有一些是什么呢?视频的数据,但是,现在视频的数据我感觉分享的还不够多,这可能主要的原因还是在于整个网络速度的原因。比如我们在朋友圈里面,我们很少看到有人发简单录下来的视频。但是我相信,随着未来设备的增加,还有一个是我们网络宽带的增加,这种视频数据的产生也会越来越多。
还有一个是基于地理位置数据,LBS的数据,这个是根据无线互联网时代发展,有定位技术以后,我们很多的数据都有了地理数据,这类的数据也获得非常快发展。基于这些数据类型的变化,还有是我们途径的增长,十年的增长是66倍,未来会更快。
我在这里给大家举个例子,我参加了上个月的北京车展,那个车展刚刚结束,2010年的时候,百度索引的数据量大概是600多万条,到2014年北京车展的时候,我们看一下这个数据,百度上我们看到北京车展的索引增加到2100万条,这里面增长最多的是图片数据。
我们分析了一下原因,我当时去参加了车展,我记得几年前参加的时候,我看到大量的人都是拿着单反照,几年前单反还比较贵,更多是一些专业人士拍,通过一些媒体网站就发出来,但今年我看的时候,发现了一个巨大的变化,就是大量的举着手机拍照,我们现在手机有了很好的拍照功能,而且拍的也非常清晰,带起来也非常方便,这就使得我们图片的搜集者和创造者是来自广大的网民,这是我们可以看到图片数字增长非常快的一个很重要的原因。
另外一个,视频,也增长非常快,我们现在每个人的手机里面,除了有拍照的功能,还有录视频的功能。这个视频,在传播视频的过程中,可能是因为网速的原因,流量的原因,使得受到了一定的抑制,我相信未来速度还会增加。
这是我们前面看到的两个问题,一个是信息迅猛增长,另外一个是信息的表现形式多种多样,这样对我们信息的处理提出了更大的要求,其实我们在生活中经常会遇到这样的问题,我不知道在座各位有没有这样的感受,我们经常会听到一首歌的时候,突然忘了这个歌叫什么名字了,其实很想知道,甚至想知道这个歌是谁唱的,很着急。
另外一个是我相信有孩子的家长,经常会有这种困惑,你带着孩子去动物园,去植物园玩的时候,突然孩子会问,爸爸,这个植物叫什么名字,可能有人就傻了,回答不出来,他很想知道这个到底是什么东西。这就是我说的,我们在生活中经常会遇到这些问题。
今天我们各个合作伙伴来到了黄山,我这里说一个黄山的例子,这个图片是不是很像一个枇杷,我不知道他是什么,我可以通过百度的识图来拍一下,通过这个识图,我们很快就知道这个植物的名字叫做香榧,这是黄山的特产,树龄特别长,有千年香榧之称,明天我们组织大家旅游的时候,大家可以看一下。传统的搜索框主要是满足用户文本的搜索,这里面有一个很大的局限性。很多东西其实我们只用文字输入是非常不方便的,比如我举这个例子,白毛掌,你用文字输入形容是很难的事情,最简单的是拍照进行搜索,反而变得更加容易。
百度有这个图象识别的技术,可以帮助大家以图搜图,同时我还可以对这个图做各种解释和说明,可以看这个图背后的一些故事。除了图片搜索技术以外,我们还给大家看一个语音搜索和交互搜索的例子。这是一个通过去哪儿的APP购买机票和订酒店的例子。去哪儿使用的是百度语音搜索的技术,其实这个APP是已经做到里面去了,就是去哪儿订酒店的APP,大家可以试一下,你直接说就行了,不需要进行文字的输入,他可以很智能的知道你订什么酒店和机票,他会给你进行一些推荐。
除了满足用户在多媒体输入方面的需求以外,我们也在尝试让百度变得更加的智能,可能有的合作伙伴第一次来黄山,对黄山不是特别了解,不过这个没关系,你可能总知道这里面一两个信息,比如说黄山松,这个大家知道,没来过黄山的人也听朋友讲过,这是非常有名的。你可以在百度上搜索黄山松这个词,百度就会很智能的推荐给你和黄山相关的一些名胜古迹,或者相应的一些植物。他其实是一个联想的功能,你在搜这个词的时候,我可以给你一些和这个相关的信息,便于你学习和理解。
在数据挖掘和智能的推荐的维度上,百度也做了很多的探索,大家喜欢娱乐的,可以搜索一下黄海波,通过这个事件纵深的挖掘,可以帮助大家理解黄海波事件的来龙去脉,有人突然听到这个词,搞不懂什么意思,你搜索一下,我们可以告诉你这个事情怎么发生的,大家怎么议论的,全部给你梳理一下。还有一个例子,大家也可以查一下马航,当时马航事件的时候,大家找飞机找了将近一个月,还在不停的找。你搜索这个词的时候,我们也给你进行一个时间脉络的梳理,在这一个月当中,马航事件到底发生了多少事情。
喜欢历史的朋友,可以搜一下建文帝,历史学的不好,没太大关系,他是明朝的第二个皇帝,但知识图谱可以告诉大家明朝的相关皇帝和大臣,全部的整理在一起,你可以一个个点着看,慢慢就明白这里面这些人的关系,或者是这些人的故事。喜欢旅行的朋友,比如说有人说,我搜一下颐和园,就可以实时性的推荐,让大家了解这个经典的人群分布,到底这个景点挤不挤,拥不拥堵,我今天要不要去,或者说搜索一下后海,今天晚上这个地方热不热闹。这是我们一个实时推荐的技术。刚才我也提到了,喜欢动植物的朋友,你搜索一个植物,就可以有一个引导搜索,帮助大家进行分类了解。
前面我们讲了一些产品创新的例子,其实产品创新的同时,对于百度的基础设施也是提出了非常高的要求,首先,要求百度具有强大的数据处理能力,这个里面有三个要点,第一个是大数据,百度收录了全世界超过一万亿张网页,百度要有搜集大数据的能力,这一万亿张网页是什么概念呢,我打一个比喻,相当于5000个国家图书馆的信息量的总和。
第二个是高吞吐,百度每天有百亿次的访问请求,还有一点是非常重要的,就是低延迟,网页从更新到索引,只需要几十秒,更新的速度要快,这是非常有技术含量的。我们真正的做到了在大数据量下的秒级的索引。同时,百度还有非常强大的计算能力,超大规模存储和分布式计算的能力。这是非常重要的。
从商业的角度来看,百度做了十年的精准营销的服务,一直保持着对相关性预测模型的持续优化,在投入资源、算法以及最终的效果上,应该都是国内顶尖的水平。比如我们对于广告特征的挖掘,我们达到了千亿级别,如果以银河系恒星计算,就相当于把两个银河系的恒星。我们每天有超大规模的样本来计算,建立这样一个模型。如果地球上每个人都是一个样本,我们这个量就相当于十万个地球那么多的人口。在这里面,我们看到样本的数据量是非常大的。
还有一些基础架构,我们也在尝试新的搜索体验,比如最近刚刚推出的极速搜索,特征就是快,比普通的搜索减少了80%的处理速度。具体有多快,我在这里做一个比喻,眨一次眼睛时间是0.2秒,博尔特起跑是0.16秒,子弹穿过木板的时间是0.05秒,极速搜索响应的速度是0.04秒。比打一枪子弹穿过木板的速度还要快,天下武功唯快不破。
我们的技术是提升用户极致搜索体验,我们把搜索的速度做的非常快。这是我们最近推出的一个新的技术。
百度在不断提高基础技术能力的同时,也在构建大数据的开放平台,百度有非常多自有的数据,我们搜索的数据,地图的数据,基于LBS的地图数据,以及基于地图上的商业数据,还有音乐的数据,我们知道的数据,百科的数据,包括去哪儿这些订酒店的数据,爱奇艺看视频这些数据。我们的数据量是非常庞大的。另外我们还有几十万家联盟合作伙伴,一起合作的行业数据,我们把这些行业数据进行整合。这些技术进行整合以后,通过百度的技术,更好的反过来服务于我们整个行业和合作伙伴。所以我们就说,我们在构建大数据平台,我们会是一个开放的大数据平台。
接下来马上要举行巴西世界杯,我在这里说一下我们大数据的应用。我们利用百度大数据这样的优势,我们这次也做了一个世界杯预测的尝试,通过大数据来预测世界杯冠军和本届比赛的黑马。当然我们也预测每场比赛谁赢谁输。
世界杯预测,我们不是瞎预测,我们是通过大数据的技术来预测的。这个大数据后面有哪些数据呢?我们综合了一千支球队,最近五年37000场的比赛,还有29610名的球员,还结合了252万条Query,以及全球1亿1千万条的基础数据,整合到一起做这样的预测。
五岳归来不看山,黄山归来不看岳,这是徐霞客对黄山美景的赞叹,黄山以美景服人,百度是以技术立本,我们始终认为技术是搜索的核心竞争力,在百度峰会第12个年头,我们希望百度通过技术和在座各位合作伙伴,在一起,盟承未来,让我们做的更好。