智能推荐引擎的基本逻辑是什么?热门、兴趣、地域、探索四大策略逻辑,预测群体的行为。
智能推荐爆红于资讯产业是因为啥?海量信息带动海量反馈数据推导出精准算法。
智能推荐会干掉媒体人么?永远不会,但鸿沟已定,玩法必改。
智能推荐的未来是什么?除了以社交为衍生的信息入口外,以获取资讯为目的的第二个信息入口。
前几天,我和老蔡做了一番极度严肃与技术型的对话,被360度全面科普了一番。
老蔡是谁?蔡明军,技术极客一枚。
工程师出身,搞过航天921项目、开发过大型网站、参与过搜狗搜索引擎的设计研发、做过在线教育,十多年的互联网技术研发经验,目前是搜狐内容推荐引擎的负责人,该引擎已经在搜狐新闻客户端上落地,取得了不错的效果。
作为半只脚踩在媒体里的技术达人,他对媒体的判断,少了点情怀和虚伪,多了点逻辑和算法——也许,未来一个这样的技术人员抵得过二十个报业集团的影响力,或者说,现在已经有这样的苗头。
和老蔡的对话,是我近日最有收获的一次。
我写的照样很长,我照样建议你,先保存下来,看不懂没事,再读上三遍,绝对有价值!定有当头棒喝的效果!媒体从业者可以看到技术的颠覆浪潮,技术人员可以看到资讯产业的潜在作用。
——以下为正文,第一人称口述体——
一问老蔡:为什么智能推荐的市场突然爆发,上有过亿级用户的追捧,中有巨头的不断占位,下有巨量资本投入?这件事真的那么重大,那么靠近大势么?
智能推荐,很多人看的这个说法的第一反应是,这玩意靠谱么?
要回答这个问题,回顾一下智能推荐的诞生和发展就知道为什么会这样了。
1,需求驱动产生了智能推荐
互联网早期的资讯门户是第一个成功的产品。它其实就是由编辑人工整理PUSH出来的一堆链接堆叠在网页上。在资讯匮乏的时代,这已经可以满足绝大部分用户的心智需求。
时间往后推,十几年的时间里,互联网信息不断爆发,人们获取资讯的深度、广度和频度都获得极大提升。简单堆砌的门户资讯已经不能满足需求。这时候出现了RSS订阅,号称资讯阅读的革命,代表产品是google reader。由于每个人订阅的信息源不一样,最终看到资讯列表也全然不同,用户在这里体会到了个性化的资讯服务。
但是RSS订阅最终还是死掉了,为什么?因为你要会使用订阅工具,还要能找到订阅源,两道门槛把小白人群挡在了门外,只适合精英人群玩耍。用户量起不来,市场不认可,自然就废掉了。
RSS死掉了,但却让用户体验到个性化资讯服务是多么的美妙。让用户自主订阅有门槛,那由机器主动推荐就顺其自然诞生了。
亚马逊网站出现的购物推荐,开启了机器智能推荐的时代。由此衍生出了现在新闻、音乐、书籍、社交等各种类型的智能推荐引擎。
2,技术积累给智能推荐效果提供了保障
有需求在,但如果技术上达不到可用性要求,那也是白搭。
早期计算机计算能力有限,可获取的用户数据也有限,推荐算法大都是在实验室环境下做学术研究,真正商用还有比较大的风险。随着互联网的高速发展,特别是搜索引擎相关技术的发展,计算能力已经不是问题,而且大规模的用户数据收集也已经不是难事。这样基于大样本数据的实时分析处理系统(大数据)可以快速分析出群体行为的概率分布,再将这些概率分析应用到个体用户上,就产生了智能推荐的体验。例如搜狗的云输入法,基本原理很简单,就是通过概率计算你要输入的下一个字可能是什么。但这在后台需要一个庞大而复杂的实时分析处理系统。
另外对人类语言及语义的计算机识别处理,有一门专门的学科叫自然语言处理,也有的叫计算语言学。之前主要研究的领域是自然语言的机器翻译,它的基本逻辑就是通过机器学习和训练,通过统计分析大量人类已有的文章、句子、词汇和词汇之间的概率分布情况是什么,根据语义来配对。中科院、微软、谷歌等大机构都投入大量资源在做研究,发了大量的paper,取得了非常不错的效果。
学术研究在前,商业应用在后,给智能推荐的效果提供了坚实的技术基础。
3,移动互联网成为智能推荐大爆发的导火索
自从亚马逊推出商品推荐之后,各种类型的网站都在跟进和不断完善各自的推荐引擎。典型的如Hulu和淘宝都大量应用了智能推荐。但不管怎么用,他们的智能推荐仍然处于辅助路径上。
但进入移动互联网时代,智能推荐已经开始从辅助路径转变到主路径上。比如手机淘宝,其首页的商品推荐已经是个性化的,极大提升了首页的分发能力。还有最近官司不断的今日头条,其主打特色也是将资讯的智能推荐放入产品的主路径上。为什么会有这样的变化呢?因为它是在移动端。
PC由于屏幕足够大,一屏可以显示密密麻麻的内容和链接让用户去选择,这种版式阅读来自于报纸阅读习惯的延伸,小白用户们挺习惯的。信息量给少了,他们还不习惯,认为你亏待他们了。可到了移动端手机屏幕上,如果照搬版式阅读的页面布局,用户一定会疯掉的。而且在Twitter和Facebook的教育下,不断滑动的Feed流形式已经被绝大多数用户接受和认可,流式阅读已经成为标准的移动端阅读习惯。在移动场景下,如果不能尽快给到用户感兴趣的内容,那这个产品离死也就不远了。面对海量资讯和碎片化的流式阅读,编辑人工排版已经力所不及,智能推荐自然就担当起主路径的角色。
另外,移动端设备被叫做“人的自然衍生”,一部手机默认就是一个自然用户。它相比PC,系统可以获得更多更大量的用户行为信息,这样让智能推荐的效果更加有保障。
在移动端的产品中,如果没有基于大数据分析的智能推荐逻辑,都不好意思说自己是移动产品。你说智能推荐靠不靠谱?现在做产品的早就不讨论智能推荐靠不靠谱的事儿,而是琢磨怎么让它更靠谱。
二问老蔡:为什么用户会看到智能推荐出来的东西,往往热门但是三俗内容一大堆?甚至有人总结了一首打油诗:“低俗段子传播广,中华酷联争议忙,小米锤子对骂爽,苹果水军非常强,汽车评测话凄凉,奇葩趣闻撸管王,何为头条新热点,还得要看党中央。”
三俗的东西最热门,这个基本不用数据挖掘,就知道结果肯定会是这样。
道理很简单,按照马斯洛的说法,人的需求有五个层次,三俗是低层次的需求,却也最普世。就像收视率被称作万恶之源,点击率绝对不能成为智能推荐引擎的唯一标准。比如你如果用娱乐新闻和科技新闻的点击量和点击率做直接对比,那根本就是不公平的。
(潘越飞:阳淼在采访腾讯网副主编的《整合微博后,腾讯门户怎么走》中提到,腾讯门户当年也做个性化,结果最后基于个性化匹配出来的内容都是新闻中的垃圾食品,猎奇新闻、黄赌毒,然后是美女图片、八卦、奇闻、谣言等,“垃圾食品大家都知道不好,但很多人都爱吃”。)
当你能找到用户区别于三俗内容的兴趣点时,就不会唯点击率论了。
回到用户觉得推荐效果不够好这件事上,我觉得主要有两个原因:
1,每个人对推荐的理解不一样,会产生以偏概全,武断地认为推荐效果很差。
2,由于技术的局限性,产品的过度宣传导致用户的过度期望。
之前看有人写过一篇看衰智能推荐的文章,很有代表性。正好我也总结一些大家对智能推荐普遍的疑问或误解,简单做下回答。
1,智能推荐会不会越推越窄,让你成为井底之蛙?
答案当然是肯定不会。但经常会有朋友给我举一些例子(行内称之为“BadCase”),比如:我看了几篇马航MH17的文章后就一个劲的被推荐马航MH17的资讯,而我其实更关心乌克兰局势对美俄欧三者关系的影响。这个BadCase试图想说明智能推荐引擎的“弱智”。其实,这个Case到底是不是BadCase还需要看推荐场景。如果是在某篇马航事件的“相关推荐”中出现那属于正常的。而如果是在推荐主路径上过于频繁,那就确实不应该了。
但这样的推荐引擎应该不是合格的推荐引擎。因为如果仅仅简单依靠直接反馈来做推荐,那根本不能称之为智能引擎。推荐引擎的多样性是很重要的指标,越推越窄是设计之初就要力图避免的。
在此顺便介绍我们推荐引擎的四种类别的推荐策略:热门引擎,即寻找和你相关的近期的热门资讯,它比较注重新闻性;兴趣引擎,即寻找你兴趣点范围内的资讯内容,他比较注重内容和兴趣的长尾特性,力图捕捉到你特别个性的一面;地域引擎,即根据用户经常停留的位置做本地化区域资讯的推荐,它比较偏重日常生活类资讯;探索引擎,即基于用户行为的深度挖掘及人际关系,依据一些内在的隐形关联关系做推荐,挖掘用户未知的兴趣点,适度扩散性的推荐资讯,并根据用户的实时反馈不断修正,正确的就迁移到其他推荐策略上去。
对每个人来说,这四种策略引擎都同时存在。只是根据算法模型做个性化的权重配比。如果你觉得很多内容不适合你,那应该就是配比的比例出现了问题。
2,人心难测,机器怎么可能理解我?
这个质疑属于偷换概念。推荐引擎不是心电图也不是测谎仪,更不是贴身心理分析师或保姆,顺着你的脾气,看看你今天高兴了,明天失恋了,分别都需要看点什么。
推荐引擎的逻辑,还是通过挖掘群体用户的行为规律和个体历史行为的数据做行为分析和预测。这其实和我们人类观察理解事物是一致的,就是我们常说的“听其言观其行”。如果你都不参与推荐引擎的交互,仅仅以个人的某一单一感受去判定智能推荐引擎的好坏,这是不公平的。
平常会有很多人跟我们团队反馈问题,说这个推荐的不好,那个推荐的怪异。我们首先会积极把问题收集上来,作为我们的BadCase,然后逐条去做分析,找到问题的缘由,再回归到数据模型上去做调整测试。
再说了,人心本就难测,千古难题,机器怎么可能做到,绝对的捧杀。
3,智能推荐的内容质量无法保障,控制不了垃圾内容?
不管是编辑还是机器,高质量内容的辨识能力一直是个长期命题。
智能推荐引擎的底子是搜索引擎,所以搜索引擎拥有的反垃圾能力它也都具备。但推荐引擎是在和编辑人工列表做对比的,用户对垃圾的敏感度远高于搜索引擎。
但世界就是这么奇妙,由于推荐引擎的强交互性,可以通过用户的选择进行动态筛选,把垃圾内容快速洗出去。所以,智能推荐有自己一整套自己的内容质量控制体系。
当然漏网之鱼不是没有,但更多的情况是推荐策略不合理导致的不匹配。同样的内容,对你来说是垃圾,对别人来说是宝贝,彼之砒霜他之蜂蜜。推荐引擎的策略优化是个长期而且持续的过程。
4,智能推荐是人与机器的交互,没有人与人的交互,冰冷可怕?
其实恰恰相反。在具体实践中,推荐引擎在反复使用人与人之间的关系属性。
但它是个隐形的功能,不容易体现出来。例如,当你看了两篇文章,推荐引擎就找到同时看过这两篇文章的用户又看了哪些文章,并将阅读几率最高的文章推荐给你。有可能前面两篇文章一篇讲马航MH17空难,一篇在讲俄罗斯与欧盟的博弈,而推荐出来的是美国的亚太再平衡战略。
还比如,你去九寨沟旅游,而推荐引擎会把在九寨沟的人普遍都看那篇文章推荐给你。
这种推荐充分利用了人与人之间的兴趣属性或地域属性之间的关系,我们也叫做协同推荐。
从效果来看,基于人与人之间的关系推荐的内容,要比纯粹通过语义分析进行推荐更好。你在推荐引擎上只看到了结果,但千万不要武断地说,推荐引擎就是靠机器在瞎猜,因为幂幂之中必有缘由。
5,人是一个变化的动物,历史并不能代表将来?
“狗改不了吃屎”这句话说得俗了点,但是点破了推荐引擎的一个重要逻辑:人的确会变,但有一些长期规律性的东西很难改变。
推荐引擎在设计时,会按照长期和短期进行标识,有一定梯度,来适应人的变化。我们有秒级的算法模型更新,也有按天、按月的长期算法模型更新。
比如:你刚看了一眼马航,引擎会再次推荐马航相关的新闻。但引擎并不认为马航代表你的长期兴趣,而只是当下的热门,所以才会适当的给一些,这是短期行为的捕捉。短期行为的兴趣会随着时间流逝而慢慢消退掉。推荐引擎不怕变,而怕不变。
三问老蔡:智能推荐引擎会干掉媒体人么?会出现那些加工厂里面的情况一样,工人在流水线上的位置被一排排的机械臂代替,导致大批量失业么?算法和工程师干掉了整个编辑部,这是科(JI)幻(SHU)故(REN)事(YUAN)和恐(MEI)怖(TI)小(REN)说(YUAN)中都说会出现的场景。
我很坚定的说,肯定不可能出现,至少在有生之年,哈哈。
由于近代科技的发达,人和机器的关系,一直存在某种微妙的关系。电影故事里,经常出现人机大战,但机器最后都打不过人,因为人会产生很多变量。机器再智能,也只是接近人,人的价值是无可替代的。
我们必须要学会去发现每个事物的特点。
机器对于规律性的行为挖掘兴趣挖掘有优势,但对于价值观的辨识、社会发展局势的判断、大事件的捕捉则鞭长莫及;而人工对于长尾兴趣人群的识别和内容匹配则是不可完成的任务。在智能推荐这件事上,本因是人力不可及,同时需求越来越强烈,才有机器去补位。
以上说的是背后的大逻辑,那么,在智能推荐主路径化的时代,传统媒体人又应该怎么办呢?我有五个大概的建议。:
1.媒体人必须正视这种变化。不要躲避,不要盲目悲观,也不要仇恨(潘越飞:印刷机诞生之初,有传教士写了洋洋洒洒一本书,大谈誊写者才能感受到智慧与文字的灵性,机器破坏了神圣性,为了让自己的观点被更多人看到,这个传教士选择用印刷机来出版这本反对印刷机的书。这个黑色幽默,是很多保守派面对创新设备时典型的纠结状态。)。
2.媒体人必须强化原创的能力,生产和发现独特内容。从无到有的过程,人能做,机器做不了。到目前为止,的确有通讯社在尝试机器写作,那些内容都是快讯类,有深度的、原创的、独家的内容,一百年之内都生产不了。
3.媒体要学会使用新的内容运营工具。 在使用智能推荐引擎来做分发的环境下,新的内容运营工具肯定不是现在CMS后台这样了,但具体是什么样,我们也在试验和尝试(我准备写一个,以后传统意义上的编辑没有存在价值了,系统内的运营人员才是核心,这是我一年多来的实践心
得。)从产品角度来说,这一套全新的内容运营工具的出现则标志着变革,其重要性不亚于用户端产品的变化。
4.媒体本身是需要品牌的,机器很难有独立的品牌内涵。品牌认可度上,用户对媒体的判断与定位,影响到他接受到资讯后的接受度。
5.媒体与用户之间的互动交流,建立粉丝群体,这也是机器做不到的。
总之,是媒体要回归到人的属性上去,放大人和机器的区别。
另外,在具体实践过程中,我也经常对研发人员讲:千万别轴,别想当然。对于自认为精妙的算法别认为天然就是完美的,必须需要通过原型验证、小样本集测试、大样本集试用这样的严谨流程才能广泛推广。而对于编辑人工排布的资讯,你可能认为他们在自我YY,但实际上有你不了解的特殊考量。
对于用户来说,他根本不在意是编辑推荐还是机器智能推荐,体验爽就够了。目前在搜狐新闻客户端的实践过程中,已经主动开始越来越弱化“推荐”的标签,尽量让用户感知不到谁做的推荐。
让编辑做好精华的头部资讯,即大热门、大事件;让机器做好长尾资讯、大流量的内容分发。人工和机器互相取长补短,共同为用户维护一个完整的资讯流,既有价值观的属性,也有长尾的分发能力。不要过于偏激的去迷信什么,不要认为这是被迫妥协了,实际上,这样的混合模式才更符合社会现实和用户需求。
往后,人在发行上耗费的精力更少,精力集中在发现、原创、品牌、互动等更偏向于人的属性。如果,你非要去抢发行的事,那就是以肉身去抵抗钢铁洪流,必败。
凯撒的终归凯撒,上帝的终归上帝。
四问老蔡:媒体的未来,会在智能推荐引擎的影响下,变成什么样?
1:智能推荐引擎卡位在门户和搜索中间
智能推荐引擎是搜索引擎的同胞兄弟,他们的底层逻辑基本一致。区别在于,搜索引擎需要用户主动输入关键字,推荐引擎不需要输入关键词,输入的是用户的行为。
当年互联网刚起来的时候,新闻资讯是刚需,门户迅速崛起,百度那时候是给门户打工的,他们都是用户获取资讯的工具,搜索靠用户输入关键字,门户靠用户眼睛扫,一个用户拉一个编辑推,这是两个逻辑干了一件事——资讯的获取。推荐引擎也是在做同一个事。
我个人会把推荐引擎放在门户和搜索引擎中间的位置。智能推荐引擎比搜索引擎更媒体化,比门户更技术化。
2:智能推荐引擎利好于用户、广告主和自媒体
媒体一般会有两个大的环节,内容生产和内容发行。
而推荐引擎是内容发行的一次变革,极大的提高了发行效率,原本的门户模式时,一天生产十万条消息,真正能被看到的没几条,推荐引擎把热门和长尾内容都送到了用户面前。用户因为推荐引擎主动为自己做个性化适配而更有效率地获得资讯,因此而得利。
另外一个获利的对象是广告主。推荐引擎用海量细分的内容帮广告主细分了用户,让广告投放更精准;而且在信息流里的原生态广告投放效果更好。
在内容生产层面,由于智能推荐引擎能够比编辑有更强的内容细分的发行能力,这样让内容生产者的内容更容易呈现在合适的用户面前,特别是自主原创者。这对自媒体是个好事。人人都是自媒体不是一句口号而已。
3:未来的资讯内容会有两个入口
一个是以社交关系衍生的资讯入口,一个是以获取资讯为目的的资讯入口。
资讯内容的含义很广泛,做好资讯入口会有很大的想象空间。
另外,对于火爆一时的微博,我非常不看好。它是基于关注的浅层次订阅逻辑,做的不伦不类,有些四不像,既不是基于社交关系的内容聚合,也不是基于内容关系的聚合,垃圾内容泛滥,Feed流越来越杂,越看越难看了。
4:智能推荐引擎的终极目标,不是帮助用户kill time消磨时间,而是save time节省时间。
推荐引擎的筛选做的越精准,用户的阅读时间更有效。当用户觉得推荐引擎的确能够帮他节省时间,入口的效应也就出来了。
5:推荐引擎在移动互联网时代渐渐进入主流,但也还算新生事物,需要不断演变成长。
目前其核心还是占住主路径,适配规模化用户群,创造规模化收入,形成特有的产品生态和商业生态。推荐引擎一定会成为新一轮的互联网标配。