戴文渊,大学时带领三人团队夺得ACM世界冠军和三个亚洲冠军;曾是百度最年轻的高级科学家,三年从T8升到T10。现在,作为人工智能领域的代表,他和他创立的第四范式正在成为整个行业的标杆。
文/汤倩 百老汇 (微信号:exbaiduer)
机器学习领域的技术天才
2005年,在上海举行的ACM中,戴文渊所在的上海交通大学代表中国队参赛。作为历史最悠久、规模最大、级别最高的的国际大学生程序设计竞赛,ACM素来被冠以”程序设计的奥林匹克”之称。在那年的比赛中,戴文渊和他的三人小组在五个小时内完成了十道题中的八道,以高出第二名整整一道题的成绩获得世界冠军。
随后,戴文渊在交大继续硕士和博士连读的学生生涯,并指导学弟学妹多次拿到ACM的亚洲冠军。同时,他在人工智能的研究领域也是颇有建树,学术论文多次被NIPS, ICML, AAAI, KDD等国际顶级学术会议收录。
随着互联网的飞速发展和数据量的增加,戴文渊认为人工智能落地的时机正在慢慢来到,AI有可能从实验室实现产业落地,于是他决定找些企业聊聊自己的想法。在机缘巧合之下,戴文渊接触到了当时百度凤巢的负责人,因为相同的理想和情怀,2009年5月,戴文渊决定正式加入百度凤巢。入职时,他的title以是高级工程师,而在试用期过后,就破例升至T8级别。对于年轻的戴文渊而言,T8级别不仅体现了百度对于戴文渊在AI领域的发现和创新的肯定,也意味着百度对其未来所能创造价值的深切厚望。
三年升到T10的技术大神
2009年,百度凤巢已经推出了一段时间,虽然整个凤巢的收入还在稳步增长,但在技术上却遭遇了瓶颈,效率很难得到提高。为了寻找和开拓新的收入增长点,凤巢组建了数个小团队,包括博弈论小组,大数据小组,以及戴文渊的AI小组等。最终,由戴文渊与几位实习生组成的AI小组取得了巨大的成绩,并最终把其他几组人才吸引过来。
对百度来说,过去的广告投放流程是专家制定策略,形成规则。尽管当时百度已经有约一万条规则,但这个数量对百度的搜索数据而言还是很小的。戴文渊利用机器学习技术,让机器在很短的时间里轻松写到一千万条策略,在制定更精细广告投放规则的同时,相对人工的效率提升了一千倍,带来的收入较以往平均水平提升了40%。更多人工智能AI解读:www.yangfenzi.com/tag/rengongzhineng
在随后几年时间内,戴文渊一直专注于通过开发机器制定规则。到2013年,百度凤巢已经拥有一千亿条规则,而他也已经是一位带领数百名研发人员的T10科学家,在百度内部被称为“戴神”。但是,在入职百度满四年时,他选择了离开。因为戴文渊认为自己身上的标签应该是人工智能,而非广告。当时在百度,他只能把人工智能落地化到广告这一个场景,而他想把人工智能的福利带给更多人。
AI for everyone,提供人工智能服务
从百度离职后,戴文渊去了香港,加盟华为,担任诺亚方舟实验室主任科学家,做TOB的企业服务,尝试用企业服务的方式做AI,把华为大数据产品提供给客户。“我当时的工作性质有点类似于售前工程师,把产品的价值传递给客户,在专业人士和普通人士之间建立一座桥梁,将产品转变成普通人可以理解的模式。
2014年,戴文渊离开华为,次年便和机器学习领域的顶尖科学家、资深工程师、金融和咨询专家一起,创立了行业领先的人工智能技术与服务提供企业——第四范式,并担任CEO。
戴文渊说道,“第四范式这个词最早是在2005年提出来的,即用机器和数据写规则。在“第四范式”之前还有:第一范式原始人记录自然现象,钻木取火下次重复;第二范式理论科学,总结出规律,后人知道规律就可以,比如牛顿物理学等;第三范式计算机推演,做的更复杂,比如核试验,天气预报等。所以,我们第四范式就是致力于要让机器干牛顿的事,看到数据总结规律”。
第四范式秉持“AI for everyone”的理念,基于应用场景开发出显著提升竞争力的行业解决方案。 戴文渊认为这个业务发展将经历三个阶段:第一个阶段将算法作为“屠龙刀”,即打造平台,开发产品和服务;第二个阶段“摘叶飞花皆可伤人”,即应用阶段,不拘泥某种具体算法,即使很low的算法也能玩出很棒的花样,比如帮助企业进行决策,是否投放一条广告、要不要向市场推出一种产品;第三个阶段“无招胜有招”,平台会分层,找最合适的技术,自行造出一把新的“屠龙刀”。
“我们正在尝试用AI改变很多行业的传统工作方法”,戴文渊说,“以金融行业为例,AI可以成为最好的风控专家,银行现有的反欺诈专家系统无法与AI媲美。近期,我们为一家大型银行设计和上线了反欺诈模型。我们的工程师通过快速理解客户的需求,依靠机器设计和实现目标模型,帮助该行的反欺诈工作效率较以往提升了四倍之多”。
在第四范式现在的员工中,研发人员占比70%,除了算法科学家之外,还有大量开发工程师在负责产品落地化。为了实现“AI for everyone”,第四范式自主研发出国内首个面向应用者的人工智能开发平台——“先知”,该平台为企业提供快速完成AI转型的便捷方式。基于“先知”,企业工程师甚至是业务人员,能够在1人月内开发出适用于本行业的人工智能应用。“我们就是这样一家很酷的企业”,戴文渊笑道,“我们的愿景是让人工智能触手可及”。
人工智能行业还不到冰山一角
在戴文渊看来,现在人工智能的应用场景还是冰山一角,距离多领域、多场景的广泛爆发和商业化落地则还有很长的路要走。用他的话说:“按照现在的趋势来看,在软件、互联网层面,人工智能的影响会发展地非常快,但就机器人、无人驾驶等涉及实体产品的领域,发展速度则会相对较慢,因为产业链长而复杂”。
同时,现在有越来越多的科学家和学者开始人工智能领域的创业,对整个人工智能的产学结合会产生很大影响。戴文渊认为,最后创业成功的跨界科学家,他们不仅能够及时紧跟科学理论的前沿发展,而且还能靠近当代商业,具备敏锐洞察力,推动AI技术高速发展。
百老汇最大的价值在于情感维系
对于百老汇,戴文渊直言,虽然离开百度很久,但一直注重与同为百度出身的各界人士的交往和沟通,之后也加入了百老汇创业群,参加过百老汇2016年年会。戴文渊说道:“百老汇的价值是,它是一种情感维系。大家在一起聊起以前做过的事情,是一件很好玩,很开心的事情。”
——————— 氧分子网(www.yangfenzi.com)延伸阅读 ———————
第四范式热招职位
高级大数据研发工程师
职位描述:
设计、开发、优化机器学习场景下的工作流引擎、通用数据处理框架和通用计算组件;
探索、设计、开发机器学习场景下高效稳定的大数据并行处理算法 ;
探索、调研、开发人工智能应用中的相关数据技术,丰富产品功能;
任职要求:
3+年的大数据系统或后端研发经验;扎实的算法和数据结构功底,熟练掌握Java、Scala、C++中至少一门编程语言;
掌握分布式系统原理,掌握Hadoop相关技术,熟悉主流框架(如MapReduce,Spark),并有2年+的Hadoop开发经验;
具备一定的系统设计能力,主持或参与设计过大数据业务系统架构,并成功发布/上线;
参与过系统底层优化项目或编译器后端优化项目者优先;
具有开源项目贡献者,尤其是Hadoop或编译器相关项目优先;
具有ACM-ICPC等程序设计竞赛参赛、获奖经历者优先。
自然语言处理研究员
工作地点:北京
职位描述:
负责大规模非结构化的文本信息挖掘、语义理解相关的研发工作
负责领域知识图谱的构建
负责团队基础NLP工具开发和维护
探索、使用业界最前沿的方法提升现有NLP能力
任职要求:
计算机相关专业本科及以上学历
自然语言处理、机器学习、数据挖掘或相关专业
基础扎实,编码过关,熟悉常用的算法和数据结构
熟悉Linux操作系统开发环境,熟悉数据分析
具有海量数据处理经验者优先
加分项:
在自然语言领域国际顶级会议等发表过论文
熟悉中文NLP不同子领域问题及解决方案技术
熟悉End-to-End中文NLP解决方案优先
有过中文NLP、QA、知识图谱方向项目、实践经验者优先
在自然语言领域国际顶级会议等发表过论文
熟悉中文NLP不同子领域问题及解决方案技术
熟悉End-to-End中文NLP解决方案优先
有过中文NLP、QA、知识图谱方向项目、实践经验
·氧分子网(http://www.yangfenzi.com)延伸阅读:
➤ 甜菜金融联合创始人蔡沁宇:见证了网盘大战和百度网盘的成功
➤ 百英访谈薪人薪事常兴龙:人生的创业信条永远是是Now Or Never
➤ 高红冰:BAT时代终将过去,人工智能、大数据正催生新独角兽
➤ 百老汇“百英”访谈——诸葛找房张文战:一切在自己掌控之中
➤ 百老汇“百英”人物访谈-企业盒子CEO范宇:我想花好这一块钱
·氧分子网(http://www.yangfenzi.com)综合整理
编者按:正如一颗苹果砸出了万有引力,自然界所有存在的事物和现象都有其科学合理的一面,小小的鸟儿也能够给科学带来丰富的灵感和启示。
最近,微软研究人员从自然出发,研究鸟类能够自由停留在空中的科学原理,并以此为基础创建了一套系统,借助人工智能让滑翔机像鸟类一样在无须马达的情况下实现空中停留。和目前大多数AI系统不同的是,这套系统更加复杂,但结果却非常令人惊喜,理论上可以实现无限翱翔。
欢迎来到人工智能课堂之走进自然,为大家揭开这款无限滑翔机的神秘面纱。本文译自“Science mimics nature: Microsoft researchers test AI-controlled soaring machine”,点击阅读原文可查看英文。
近日,微软研究团队的两名成员Jim Piavis和Rick Rogahn在内华达州霍桑的小型机场内进行了一项“无限滑翔机”的飞行试验,他们希望能够创建一个系统,借助人工智能,让滑翔机像鸟类一样,自主发现和捕捉自然产生的热气流,在无须马达的情况下停留在空中。
微软首席研究员Ashish Kapoor表示:“鸟类之所以能够在空中实现飞行和停留的无缝衔接,最重要的就是借助自然的力量。他们仅凭花生米那么小的大脑就做到了这一点。”
鸟类能够本能地做到在空中停留,但对于一台机器而言,则需要一套复杂的AI算法,以识别气温、风向和禁飞区域等要素。同时,系统必须使用其他AI手段来分析这些信息,并实时预测下一个可以利用的热气流。总而言之,这比人们目前所使用的照片人脸识别和语句单词识别等大多数面向单一任务的AI系统要复杂得多,它可能是少数在现实世界中运行的不仅要进行预测而且还要根据预测结果采取行动的AI系统之一。
目前,无限滑翔机仍在开发当中,但最终它可以用于执行各种实用任务,例如监测农村地区的农作物生长,或者在条件艰苦地区提供移动互联网服务等。Kapoor说:“有朝一日,它可能成为你的移动通信信号塔,你不再需要任何地面基础设施。”滑翔机最终甚至可以使用太阳能或风力发电获得能源,理论上可以无限期地在空中停留。
现实世界中的AI:零错容忍
自主滑翔机本身就已经大有用武之地,但负责项目研究及工程开发工作的微软研究员Andrey Kolobov表示,他们希望这项研究还可以应用于大量其它依赖人工智能且日益复杂的系统,并将能够在真实而不可预测的环境中运行。“对于我们而言,这架滑翔机是一个技术测试平台,用于测试未来十年内任何智能系统的核心技术。”
对于那些依靠AI来帮助驾驶汽车、保护住宅安全或管理繁忙日程的人而言,这些系统必须根据交通流量、噪音、天气等变量,甚至包括人类情感等其它条件,能够当场做出可靠的复杂决策。更重要的是,它们决不能犯那些会引发重大损失和潜在危险的错误。在研究领域中,这种能力被称为在不确定性条件下进行序贯决策。
Kolobov说:“现实世界中的AI不允许有犯错误的余地——就像我们的滑翔机一样。真正的问题在于‘你如何提前几步规划未来?’从计算科学的角度上看,这是一个非常困难的问题。”
理论付诸行动:有效模型+有效手段
本次实验中测试的滑翔机依靠电池来运行机载计算设备和方向舵以及与地面联络的无线电台等控制系统。它还备有一台马达,以便飞手可以在必要时接管,进行手动操作。但是在设计上,一旦升空后,它就应该自主运行,发现和利用热气流飞行,不需要马达或人工帮助。Kolobov说:“我们要做的是确保滑翔机完全自主运行,而且足够聪明,能够改变飞行方向。”
为了设计这套系统,研究团队从一个框架入手,来解决一个被称为“部分可见马尔可夫决策过程”的问题。Kolobov曾与他人共同撰写了一本关于马尔可夫决策过程的书,他说,这是一个旨在无法了解所有信息的情况下做出规划决策的模型。通过滑翔机实验,团队将这个模型与另一种AI手段(贝叶斯强化学习)相结合,开创了一种新方法,能够让系统尽快掌握其所处环境所需的信息,以便做出正确的决策。团队还使用了“蒙特卡罗树型搜索”的方法来寻求最优方案。
从左至右:Debadeepta Dey、Andrey Kolobov、Rick Rogahn、Ashish Kapoor、Jim Piavis
滑翔机的AI系统可分为两部分:高级规划器和低级规划器。高级规划器将所有的环境因素纳入考虑,并尝试制定一项策略,以便让滑翔机知道应该去哪里寻找热气流。随着时间推移,飞行器将能够根据每次升空所收集的信息,做出更好的预测。Kolobov说:“对于高级规划器而言,经验十分重要。系统今天的表现会比昨天更好,因为它(在决策中)纳入了既往飞行的信息。”
低级规划器部分可以说是“在实干中学习”,它使用贝叶斯强化学习方法,根据滑翔机传感器发回的数据实时侦测和锁定热气流。
实测:与模拟截然不同的全新体验
团队在微软位于华盛顿州雷德蒙的园区办公室内花了好几个月时间创建这些AI算法。随着天气转暖、热气流状况越来越好,该团队在公司总部附近的农场进行了受限飞行测试。然而,直至8月中旬他们来到内华达州霍桑的那座小型机场,才真正有机会见证他们的各项理论在现实世界中的表现如何。
在滑翔机飞行过程中,研究员们开着一辆敞篷吉普和一辆加长SUV在地面实时跟踪。坐在吉普车上的同事们用肉眼观察滑翔机的位置。而研究实习生Iain Guilliard和Sangwoo Moon(两人都参与编写了驱动系统的核心算法)则在SUV里使用四台笔记本电脑跟踪滑翔机动向,并监测它如何利用包括热气流在内的各项条件,每隔几秒钟,Guilliard就会大声报出滑翔机的飞行参数。而编写了滑翔机热气流预测模块的微软研究员Debadeepta Dey,和Kolobov轮流驾驶着这辆SUV,作为移动办公室,紧跟在吉普车和滑翔机之后。
从左至右:Kolobov、Iain Guilliard 、Sangwoo Moon
除了捕捉热气流之外,系统还需要规划自身飞行路线,以躲避某些障碍,例如附近的山脉、大型湖泊以及美国陆军在试飞地点附近地区的数十个弹药存放点。现实世界环境的复杂,以及在办公室里无法预测的各种障碍,为这个系统提供了完美的测试场所。
事实上,他们遭遇的许多问题与AI并没有任何关系。例如,接受测试的最大的一台滑翔机就遇到了通信系统故障,研究团队怀疑是因为道路灰尘中的磁性颗粒导致了电子部件损坏。在一次测试中,滑翔机马达出现了故障,他们试图用弹力绳将滑翔机拴在汽车上进行发射时,弹力绳又断了。
每遇到一次挫折,团队都会耐心地设法找到解决方案:修理马达、连结弹力绳、寻找新电池组、当一架滑翔机无法继续服役时就拉出另外一架……Kolobov说,正是现实世界中的这些问题才吸引了如此众多的人来参与这个项目。这也是为什么他们不会因为遇到每一个意想不到的挫折而气馁的原因。
“现实与模拟不同,”Kolobov说:“这是我们到这里来的原因。我们来到这里学习,尽管现在学到的并不一定符合我们最初的期望,但仍然非常值得。”
“算法比我还厉害”
8月11日,团队在霍桑机场进行了最后一次汇报。在大约一小时前的最后一次试飞中,刚开始,算法完全按照预期方式完成了预定任务,将滑翔机送上了蓝天,但随后电池组意外失效,滑翔机以惊人的速度俯冲向地面。作为人类飞手的Rogahn在最后时刻重新获得滑翔机的操控,在飞行器距离地面只有几英寸的时候避免了坠毁。
“在室内戴牛仔帽并不礼貌,但刚才的经历让我觉得自己已经驯服了几头公牛,”Rogahn在作汇报时说道。尽管如此,他还是摘下帽子,认真地表示:“今年夏天,我们还是达到了这样一个境界——AI算法已经比作为滑翔机飞手的我更厉害了。”