本文选自音频《卫哲·百亿 CEO 密谈实录》第 4 季第 1 期,由初橙独家整理。
小橙子邀您,先思考:
什么才算真人工智能?
做人工智能,最重要的是什么?
今年 7、8 月份,我在美国花了比较多的时间,跟美国投资人、美国创业者和领域的专家交流沟通。重点关注了在中国最热的人工智能。
我和我们华人「人工智能第一人」——原来是斯坦福的教授,现在 Google 人工智能负责人之一——李飞飞教授,做了长时间的沟通。
第一个观点,我们两个达到非常高的一致, 就是今天的人工智能项目当中,存在大量的「伪人工智能」。伪人工智能比例可能高达 90%,或者 99%。
为什么说有伪人工智能存在?
第一,我们看一下人工智能的人才储备。
人工智能人才不是一夜之间冒出来的。无论在学校还是工作中,他必须、确实从事过人工智能的工作。其实这样的人才全世界不过几百个。但全世界有几万家人工智能公司,怎么突然冒出这么多人才?
从人才角度来说,无论是创建还是参与公司,怎么可能具备真正人工智能的优势呢?所以我们觉得存在大量的人才泡沫。全球青年大会|杨静对话人工智能领袖:抗衡国际巨头要看中小企业?
第二,我们看到很多项目真的是穿了个「马甲」又回来了。
我一直在跟创业者说,千万不要给自己的项目穿马甲,贴上很多流行的标签,流行什么贴什么,流行人工智能很多项目贴着标签来的。人工智能专家李飞飞、李佳加盟Google,领导谷歌云机器学习部门
贴标签之前这些项目挺简单的,早在阿里巴巴我们就看到过,什么叫机器学习,什么是算法。很多只是有一定算法的,或者还是基于机器学习的公司,今天摇身一变都给自己贴上了人工智能的标签。更多人工智能AI解读:www.yangfenzi.com/tag/rengongzhineng
如何识别「真人工智能」?
我跟李教授说,我不是技术专家,我也不懂技术,请问有没有比较简单的方法来识别真的人工智能和伪人工智能?李飞飞专访:斯坦福人工智能实验室主任谈人生起点与AI梦想
高手就是高手,用了一个非常简单的方法。我们先讲一个历史上的故事。
我们看到计算机和人类进行国际象棋的比赛,是在很多年前发生的,互有胜负。但是从教会计算机下国际象棋,到干掉世界冠军,不低于 10 年的时间。
Google 下面的「阿尔法狗」、这个人工智能的机器,从学会,到下赢一个围棋的入门级的初段选手,到干掉世界冠军,据报道只用了 1 年时间。
所以真正人工智能判定方法非常简单,看他算法的进步速度。机器学习也会进步,那么人工智能的算法进步是几何级的。六大院长:人工智能技术与趋势报告(干货大放送)
也就是说一个人工智能领域的项目,如果你隔 3 个月去看,它在算法上比如说人脸识别也好、语音识别也好,它的进步是代数级,而不是几何级的——那么它更像互联网时代早已有之的普通算法。或者叫机器学习而已,都是伪人工智能。
所以,如果我们不太了解过程的话,就从结果来看。人工智能一定是像这次下围棋一样,「进步神速」。
这是我们第一个结论。存在大量的伪人工智能,和如何去识别伪人工智能,不仅要识别伪人工智能的项目,还要可以判断伪人工智能的团队。人工智能AI产生创造力之前:人类创造力的认知心理基础
做人工智能最重要的,不是技术?
第二个结论,人工智能的技术,如果把它比喻一把刀的话,那么 massive refreshing data(大量海量且实时更新的数据),就是那把刀的磨刀石。
也就意味着,人工智能技术重要但不是最重要。这把刀一开始有多锋利,不是决定性的。一把锋利的刀不一直不磨,而一把不太锋利的刀一直在磨,那很快那把不锋利的刀就会超过那把锋利的刀。【nature】深度学习巨头看人工智能界人才迁徙
Deepmind 团队中,就是阿尔法狗的团队中,高级的华人工程师挺多的。见到他们,我问了个问题:你们怎么不立志搞一次中国象棋?
他说,David,这个不是说我们愿做不愿意做的问题。我们的围棋项目,还不得不感谢感谢日本人。日本人过去几百年几乎所有的棋谱都在,而且保留围棋的棋谱也特简单。只要一张纸,黑的白的,上面标好号码就行了:这是第 1 手,这是第 200 手。
所以它其实一张图就记录了整个围棋下的阶段,所以复盘也特别容易。围棋几百年来的棋谱都存在,也就意味着围棋的数据特别齐全。
咱中国象棋老祖宗留下了什么?叫残局。它怎么走到残局呢?不知道,没有数据。
如果你把残局喂给机器,它怎么学习?他要学习的是我如何走到残局,以及如何从残局走到终局。由于中国象棋的历史数据缺失,造成这么生猛的阿尔法狗机器在中国象棋领域就 go 不下去了。
这就是意味着数据对人工智能有多重要。离开数据,谈人工智能是没有意义的。
下一位人工智能新独角兽在哪?
在哪些领域,人工智能可以跑出来独立的公司、独立的平台?
如果在美国你要用的数据,大部分或者全部由 Google、Facebook、亚马逊所掌握,那磨刀石在别人手上。今天你的技术再领先,也维持不了多久。第四范式CEO戴文渊:让人工智能服务所有人 曾是百度最年轻科学家
我们看到很多这样的技术公司,唯一出路就是卖给美国 Facebook、Google、亚马逊。
同样在中国,如果你要做人工智能,所能用到的数据,都是为 BAT 所掌握。那最终这个磨刀石也不在你手里,你也没有太大机会。你就是一个技术还不错的团队。
最后的出路可能是把这个团队,以并不太高的估值,卖给这些有数据的大互联网公司。
那么在哪些领域,美国的 Facebook、Google、亚马逊也没有数据,中国 BAT 也没有数据呢?这种领域有没有?答案是有。「玉河夜话」第六期 ——「人工智能:不朽还是终结?」
比如说医疗数据,BAT 也没有;很多金融相关的数据目前还是银行、保险公司的内部数据,互联网公司也没有;可能还有一些其他的领域。
那么就以这两个领域来说,和人工智能结合,至少不管这把刀是不是很锋利,找数据源或者找磨刀石的起步,你和大公司是平等的。那就有可能在医疗、金融等领域,你和人工智能的结合跑出大公司来。
我们就拿医疗说,美国 FDA 已经批准人工智能读很多片子。我们觉得一个医生一辈子读 10 万张 X 光片或者 CT 片子就很厉害了,但这个片子拍完以后,他完全基于自己的经验和知识来判断。他判断得先有积累。更多卫哲观点:www.yangfenzi.com/tag/weizhe
但这个事对机器来说,对人工智能来说太简单了。就是图像和打完标签的图像,同时要结合这个标签打完的图像和最终诊断的病例,做一个闭环的学习过程。
所以机器 1 个小时可以学 10 万张片子;人类最有经验的医生,从业 30 年,一万多天,一天看 10 张片子,一辈子 10 万张片子。但机器可以 1 小时读 10 万张片子。
但同是,由于美国对隐私的很多保护,很多医院的数据,在美国并不能轻易开放给这些人工智能公司。
我们看到一个趋势,很多从事医疗行业的公司开始寻找中国的合作伙伴,因为中国人口同样众多,隐私的保护却没有那么严格,有机会让医疗数据迅速地集中起来。微软全球执行副总裁沈向洋:以华山论剑之心,共创人工智能未来
同样的今天很多人脸识别的公司,估值很高。我无法评价他们技术多牛。但我突然发现不是从事这个领域的公司,只要有大量的数据,迅速可以追上或者赶超,有在 A 股上市的。
比如海康威视,这么多摄像头,它采集到很多真实的人脸。由于这个数据的存在,我觉得他们人脸识别的技术不仅目前达到,未来一定在中国这方面最优秀的公司,没有之一。
数据,无论说到人脸还是医疗都非常重要。
·氧分子网(http://www.yangfenzi.com)延伸阅读:
➤ 阿里前CEO,嘉御基金卫哲:B2B的春天已到 关注这10大核心问题
➤ 初橙资本盘点阿里校友投资人TOP10:吴泳铭 谢世煌 卫哲 李治国…
➤ 从概念提出到走向繁荣:人工智能AI、机器学习和深度学习的区别
➤ 雷鸣对话吴恩达:超级大咖深度解析人工智能的发展现状与未来
➤ 没有任何行业可以忽视人工智能——MIT EmTech Digital 峰会干货
➤ 人工智能历史十大里程碑:神经网络 人机对话 奇点理论 自动驾驶…
·氧分子网(http://www.yangfenzi.com)原创报道
近两年来,人工智能的发展势头越加猛烈,但在正式进入人工智能各领域全面开花的阶段之前,它的发展路径并非一帆风顺。要想在未来实现人工智能这项“新”技术的最大化利用,必须清楚认识到人工智能到底是什么,过去我们做了什么,今天能做什么,未来又能有什么新的发展可能。
9月27日,微软亚洲研究院院长洪小文倾情授课由清华大学发起的《脑科学与人工智能对话:基础与前沿》系列课程第一讲,以科学的方式赤裸裸地剖析人工智能的“前世今生”,展现给大家以一个形象更加明晰的人工智能。本文是洪小文院长演讲整理稿的第一篇,后续会有更多内容,敬请期待!文章转载自公众号“知识分子”。
今天我的题目是“智能简史”(The Brief History of Intelligence),我想谈一下什么是人工智能,什么是人的智能。我想把AI赤裸裸地剖析在大家面前。
可能大家也听过不少关于AI的演讲,每个演讲人背后可能都有某些目的。我今天是抱着科学的目的,谈一下AI到底能做什么、今天能做什么、未来能做什么,没有保留地剖析给大家。
AI的诞生
今天AI已经红到不能再红,包括美国政府、中国政府都非常重视,甚至都要制定政策和策略。过去这两三年可以说是AI的一个爆发点。当然也有不少关于AI的担忧。1950年,《时代》杂志就已经提出了AI的某种威胁:“现代人已经适应了拥有超人肌肉的机器,不过拥有超人大脑的机器还是挺吓人的。设计这些机器的人试图否认他们正创造像他们自己一样拥有智慧的竞争者。”( Time, January 23rd, 1950)
埃隆·马斯克和霍金
今天埃隆·马斯克说AI要毁灭人类,但是1950年这种议论就有了。1950年的时候,二战结束才五年。当年做计算机是二战时为了造原子弹,每台计算机都要比一个房间大,全世界也不超过十台。这时就已经有人担忧,以后造的计算机比人类聪明怎么办?我们人类一直就对智能充满了期待,而且非常怕受到伤害。
返回来说,为什么AI会这么热?第一个理由很简单,没有人愿意天生愚蠢(Natural Stupidity),那就只能做人工智能(Artificial Intelligence)。这个略带玩笑,真正的理由其实是人类有智能(Human Intelligence)。人类之所以可以主宰万物、主宰地球甚至宇宙,靠的就是脑子。如果你看《人类简史》或者《未来简史》,尤其是《未来简史》提到的都是AI、大数据。
那么,什么是AI?AI严格说起来是61年前的1956年发生的,但是这个定义今天已经被打破了。因为我们学AI的人非常清楚,在学术界AI是有严格的定义的,但在今天,我可以说任何好的而且可以用计算机实现的事情都变成了AI。比如,只要你发明一个新的网络协议或者算法,大家觉得你的想法非常好,最终由计算机实现了,不就是人工智能么?所以,今天从公众角度,只要是一个好东西,能被机器实现,就是人工智能。
但我觉得,我们人有时也会被洗脑。今天AI领域炒得很热的一个东西是无人驾驶。大家觉得非常难。无人驾驶还被分成了一到五个水平,最高的一级就是没有司机。但是1912年,辛亥革命那一年,就有了人类的第一个飞机的自动驾驶(Autopilot)。我想,自动开飞机,不敢说一定比开车难,但是也不见得会比自动驾车简单。那为什么大家不说飞机的自动驾驶是AI呢?
AI早期的英雄们
讲AI的历史,我们可以先从电脑的历史谈起。电脑是从哪里来的呢?今年是图灵奖60周年,前几年是图灵100年的诞辰。图灵当然是非常了不起。他提出一个假设(Church–Turing thesis),任何可以被计算的东西(用算法描述)就可以用图灵机去算。这个是很了不起的,虽然无法证明。所以图灵在那时就觉得,电脑应该可以模拟我们大脑里所有的想法(Computers can simulate any process of formal reasoning),也就是为什么在那个时候就有了图灵测试(Turing Test)。
AI的开山鼻祖们
但是真正AI这个字眼,要等到1956年,是在达特茅斯(在波士顿附近的一个很偏僻的小镇上,也是常青藤的学校之一)举行的一个夏季会议上提出的。当时有五个人参加,MIT的John McCarthy和Marvin Minsky,CMU的Allen Newell和Herbert Simon以及IBM的Arthur Samuel,这五个人就是AI的开山鼻祖。这五个人除了Arthur Samuel以外,全部拿了图灵奖。其中,Herbert Simon 在中国也很有名,他同时拿了图灵奖和诺贝尔经济学奖。他和Allen Newell 两个人创立了卡内基梅隆大学(CMU)。其实CMU计算机科学系就是这两个人为了做AI而成立的。当时,他们从美国军方的国防高等研究计划署(DARPA, The defense Advanced Research)拿到了一些资助。
John McCarthy是我的师祖,我的老师Raj Reddy是他的学生。John McCarthy是真正把人工智能取名叫做AI的人。现在公认的AI之父有两种说法,大部分的说法是John McCarthy;也有人说是图灵。John McCarthy那时是在MIT,后来到了斯坦福。所以为什么说MIT、斯坦福、CMU到今天都是AI的重镇,更别说当年了,因为当时就只有这三家,都和这些人有关。Marvin Minsky1956年时还在一个小公司做事,并不在MIT,直到1956年开了达特茅斯会议之后,他才被John McCarthy邀请到了MIT。结果,John McCarthy后来自己去了斯坦福成立了AI实验室。
达特茅斯会议以及当时的参会者
我自己是在1984年开始学习AI,我到CMU也是因为AI。当时我读AI的论文的时候,基本上都读不懂,有几个原因。第一个,自己的英文不好,尤其是在当年的条件下;然后AI的论文里面通常没有数学公式,都是文字;然后这些文字里很多是认知心理学,我当时根本读不懂。后来才觉得读不懂是因为一些很简单的东西故意用很复杂的文字写出来。第二点是,这些文章里面很多是讲脑,我也读不懂。正是因为读不懂,也就觉得这个东西非常高深,所以一定要好好学习。
到目前为止,AI总共有八个人,Marvin Minsky (1969)、John McCarthy (1971)、Allen Newell (1975)、Herb Simon (1975)、Edward Feigenbaum (1994)、Raj Reddy (1994)、Leslie Valiant(2010)、Judea Pearl(2011)得了图灵奖,比例还是蛮高的。前四个人在1975年以前就得了图灵奖,1975年以后图灵奖就不颁给AI了。一直到1994年,几乎20年以后,我老板和Edward Feigenbaum又得了图灵奖。最近的Leslie Valiant,Judea Pearl也得了图灵奖,所以AI又解冻了。所以从得图灵奖,也能看得出AI研究的冷热。
1990年前的AI
我当年学习的AI,和今天是很不一样的。早期的AI都是在学习如何模拟人的智能行为,可以叫仿脑,这是它的主轴。我特地翻阅了下我大学的教科书,上面还有我的笔记。这些书在当年的1980年代是非常经典的,总共三本,分别由MIT、CMU,斯坦福出的。这些书都已绝版,连亚马逊也找不到,非常珍贵。当年教的AI的这些东西,现在很多人都已经没有人能谈了。但其实最近AI的复兴,包括未来AI要如何往前走,都必须要回去研究这些东西,否则是绝对做不到人的智能的这个地步的。
当时研究什么呢?其一是知识表示(Knowledge Representation)。我们说隔行如隔山,比如学药学的、学医学的、学计算机的、学化学的,每一个行业都是不一样的,知识表示了之后还要满足约束条件求一个解(Constraint satisfaction),人很多时候是在做这个事情。当年,搜索也是非常大的一支(包括State-space representation、pruning strategy、深度搜索、 广度搜索、A* 搜索、beam search、Game tree search、Alpha-beta搜索等),今天的互联网因此受益很多。虽然当时做这个时他们并没有想到互联网,当时想的是如何用搜索来实现智能。特别是包括Game Tree Search,做计算机下棋这件事情,一直以来都是AI研究的。早期最早叫Checkers,计算机很快打败了人;后来做象棋,后来做围棋,如今所有棋手都下不过机器人。
当时甚至有专门的编程语言,是为AI而设计的,做AI的人就要学这些语言。有一个叫Lisp,还有一个叫Prolog。我想今天已经没有人听过这些东西了,但是在当年是不得了的,做AI都要学这些。
然后还研究什么呢?认知心理学,非常重要。我们讲AI,很多都是认知。有一个词叫Heruristics,今天已经没有人用这个词,其实还真是AI。因为Heruristics是在你没有数据的时候,或者是很少数据的时候,要用你的直觉来解决问题。
GPS的创造者Herbert Simon和Allen Newell
还有的研究是做认知的模型(Cognition Modeling),比如GPS。当然不是指GPS定位,而是一般求解器(General Problem Solver)。难道是什么问题都能解么?Allen Newell和Herbert Simon得图灵奖就是因为GPS。而且你真的去读论文的话,很厚。它甚至一语两思,把这个东西转一下,去研究行为经济学也可以,所以Herbert Simon又拿到诺贝尔经济学奖。
还有一种模式叫产生并测试(Generate and Test),大概的意思就是我们所谓的大胆假设、小心求证。这些认知的模型看起来很神,基本上它就是把难的东西用数据来表示。但是人的确是这样做的,尤其是到后来,特别是语义、认知,真的很多时候都是在做产生并测试,这个模型本身是没错的。
接下来的一项研究要讲讲我老板。他拿图灵奖,一方面是因为他是语音大师(这个可能也有我的一点贡献);另外一个导致他得图灵奖的叫做黑板理论。当年搞这些认知的模型的是非常重要的,甚至可以得图灵奖。
另外有研究涉及Semantic (Frame) 我们今天还在用。今天做Siri,微软做小冰、小娜,或者做Google助手、百度度秘,用的是这个技术。
还有一个东西在当年非常红,叫做专家系统。而且最早期的专家系统很多东西应用在医疗,很有名的叫MYCIN (medical diagnosis),就是传染疾病了,靠一些规则去诊断。
当然还有专门研究感知的,比如,我就是做语音和自然语言处理。那语言怎么做呢?就是有点像大家学英文的文法。但是文法都有例外,一有例外就搞不定,所以这些东西进展都不是那么好。
还有就是计算机视觉,今天也红得不得了,比如刷脸。可是在当年的计算机视觉和所谓的机器人,在当时是非常可怜的一个项目。当年都是只能研究玩具样的问题(toy domain),做的东西都是方块世界的理解(Block-world understanding):就是有一堆砖块,砖块是这样的状态,怎么样变成那样的状态,来回搬砖块。最多了不起了研究一个桌子。一辈子做计算机视觉,就研究椅子、研究桌子——还不是两个都研究,只研究一个。当年能做的只有这些东西。
然后是机器学习。机器学习大概是在1980年代开始,但是当时的学习也是研究人怎么学习,而且有一大堆机器学习。今天的机器学习变得很单一,就是深度神经网络一个,当年有很多种:比如有被告知和指令学习(Learning by being Told & from Instruction);有通过改正学习(Learning by Correcting Mistakes);有基于训练神经网络的学习(感知器)等等。1990年以前的AI,和今天有很大的不一样。