Google的AlphaGo在AI上取得了又一个胜利:自我学习进化

AlphaGo这个机器人已经改变了棋盘游戏的理论,在这一刻,这代表了阿尔法的神秘和强大!。

AlphaGo Zero在星期三推出的一个新的功能更强大的版本,有意思的是。在测试中,它击败了100场比赛击败李的版本,并开始为2000多年的游戏创造出自己的新想法。

Google的AlphaGo在AI上取得了又一个胜利:自我学习进化

AlphaGo Zero的开始是以“完全随机”的方式进行游戏,而在三天内,能够在三天内将100场比赛打败为0,Alpha版本在2016年3月击败了李世石。

在21天的关键时刻,它能够击败AlphaGo Master,这是一个在1月份出现的在线版本,并且赢得了超过60场直接比赛,与顶尖的Go玩家相比,40天之后能够击败所有其他版本的AlphaGo。更多AlphaGo解读:www.yangfenzi.com/tag/alphago

Google的AlphaGo在AI上取得了又一个胜利:自我学习进化

AlphaGo Zero展示了一种教学机器的新方法,使其更少依赖于人类。它也可以帮助AlphaGo的创始人,这个位于伦敦的DeepMind研究实验室是“字母表”的一部分。在本月的一份申请中,DeepMind表示去年亏损了9600万英镑。

DeepMind首席执行官Demis Hassabis星期一在新闻发布会上表示,AlphaGo Zero的能力应该适应科学问题,如药物发现或蛋白质合成。他们也涉及导航一系列基本元素的许多可能组合的数学海洋。

Google的AlphaGo在AI上取得了又一个胜利:自我学习进化

尽管去年机器取得了历史性的胜利,但是AlphaGo的原始版本却站在许多无人认领的人身上。该软件通过摄取从在线Go社区获得的16万个业余游戏中的数据“学到”Go。在最初的提升之后,阿尔法通过打数百万场比赛来磨练自己,超人。

AlphaGo Zero是如此命名,因为它不需要人类的知识才能开始,只依靠这种自我发挥的机制。软件最初随机移动。但是它被编程知道什么时候赢得或失去了一个游戏,并调整其游戏,以支持导致胜利的举动。

Google的AlphaGo在AI上取得了又一个胜利:自我学习进化

该项目的首席研究员David Silver说:“我们已经消除了人类知识的限制。这是一个声明,反映了越来越多的兴趣,创建人工智能系统,可以学习没有人类提供的数据的拐点。DeepMind等领先研究团队正在开展从试错法探索中学到的软件,甚至是直接的竞争或战斗。这被认为是在人力资源数据稀缺或不存在的诸如控制机器人之类的艰难问题上取得更快进展的途径。

AlphaGo Zero比其前辈更聪明,更聪明。原始设计有两个单独的学习模块,称为人工神经网络的技术构建。一个专门评估当前工作,另一个建议可能的下一步。AlphaGo选择移动来播放来自第三个模块(搜索形式)的输入,模拟不同选项的播放方式。DeepMind表示,AlphaGo Zero是一个更好的球员,因为它拥有一个更强大的神经网络,可以学习评估板位,并提出新的举措。它使用更简单的搜索模块来选择它的动作。搜狗CEO王小川:AlphaGo的幕后与思考,人工智能的未来

Google的AlphaGo在AI上取得了又一个胜利:自我学习进化

但是,继续依赖搜索多种可能的结果来选择最佳路径,显示了现有AI技术的局限性。这会告诉我们有关复杂问题的性质的事情,我们不能只有一些功能,知道所有的答案,你需要推理,并考虑并考察未来。这并不意味着DeepMind的技术今天无法做到有用的事情。Google已经使用公司的算法来削减数据中心制冷费。

对于电脑来说,看待固定规则定义的棋盘游戏的未来比较容易。工程师在使他们变得更加美丽,日常的情况下,几乎没有进展。当采取诸如组装宜家沙发或规划假期等多方面的挑战时,人类将借鉴推理和抽象的力量来绘制AI软件的前进方向。

·氧分子网http://www.yangfenzi.com)延伸阅读:

➤ 《自然》论文详解:AlphaGo 背后的深度神经网络和树搜索

➤ AlphaGo棋手Master战胜聂卫平柯洁60连胜 幕后工程师为黄士杰

➤ keso:AlphaGo和围棋之外的棋局 马云、聂卫平、柯洁之外的事

➤ 除了深度学习,或许我们还能从AlphaGo身上看到大数据创业机会

➤ AlphaGo之父戴密斯·哈萨比斯:除了下围棋,AI还要塑造人类未来

➤ 棋盘上打败人类的不止深蓝和AlphaGo!图灵、香农、冯·诺依曼

➤ 我们该恐惧的,不是阿法狗,而是AlphaGo身后的Google与美国

➤ AlphaGo又赢了,然后呢?用人的创造物来否定人是极其荒谬的

➤ 不敌谷歌AlphaGo|柯洁根本就不是输给了人工智能,而是输给了…

氧分子网(www.yangfenzi.com)是关注互联网生态圈的科技新媒体

·氧分子网http://www.yangfenzi.com)原创报道

您可能还喜欢…

3 Responses

  1. Alhago与alphagoZero,和一场历史上著名的哲学争论说道:

    前两次分别从计算机思维的四块基石和数学史介绍了人工智能的发生,今天我们从一段哲学史上的一个重大争论来从另一个角度看人工智能。

    感知神秘的大脑,用数学赋予计算机思维,推开一扇人工智能的大门

    重返数学史的黄金时代,由数学推动诞生的人工智能,一部人类智慧形成的历史

    研究人工智能,和其他的科学有一个重要的区别,就是需要学习更多的哲学知识,他和哲学有着更紧密的联系。今天的人工智能就是人类对智慧探索的结晶;20世纪初,很多哲学家宣传哲学已死,而如今哲学在人工智能领域有了新的表达。Alphago与AlphagoZero分别代表着经验和先验出发建立的两种人工智能。也是人类认知能力表达的两种方式。经验和先验、唯心和唯物、形而上和形而下、时间和空间哲学就从这些基本话题的碰触而诞生。

    欧洲哲学的起源,古希腊哲学中柏拉图和亚里士多德的分别强调先验和经验;经验论和唯理论是两种不同的哲学模式,在关于知识的;经验论者关注的是经验,并且认为一切知识来源于经验;唯理论者意识到感觉经验的相对性和个别偶然性。

    正像古希腊哲学中柏拉图的先验论和亚里士多德的经验主义之间的矛盾一样,近代西方哲学存在着经验论和唯理论的斗争与发展,围绕着知识的问题,两派的哲学家们展开激烈的争论。经验论者认为,一切知识归根到底都来源于感觉经验,所谓科学知识——主要是实验科学——乃是对于感觉经验归纳的结果。唯理论者认为,由于感觉经验是相对的和个别偶然的因而不是可靠的,具有普遍必然性的科学知识不可能建立在这样的不可靠的基础之上,如果有科学知识,显然我们的确有科学知识,那么它就不能以感觉经验为基础,而只能是从理性所固有的天赋观念中推演而来,惟其如此,我们才能说明科学知识的普遍必然性。

    在欧洲德国和英国是两个宿敌,两次世界大战的主战方和敌对方,第一次和第二次 工业革命的引导者。英国和德国总有着说不完的争论。

    17世纪,西欧哲学界在认识论上爆发了一场经验论与唯理论的大争论,显示唯物主义经验论者弗·培根奠定了认识起源于经验的原则;
    继而笛卡尔创建唯理论,宣扬天赋观念说,遭到霍布斯、伽森狄的反驳。
    到了17世纪末,洛克以其《人类理解论》详尽地批驳了天赋观念说,并系统地论证了经验论的原则。
    随后,莱布尼茨又站在维护天赋观念说的立场,用其著作《人类理智新论》,与洛克进行了针锋相对的辩驳和多方面的讨论。在这两部著作中分别提出了“白板说”和“天赋说”。

    这就是哲学史上对于人类知识和天赋的一场重要争论。

    约翰.洛克:

    洛克是经验论集大成者,他把经验论系统化和理论化,强调经验是知识的唯一来源,但是把知识是观念,无法解决知识的来源问题,也无法确证知识必然性。是英国经验主义哲学的鼻祖和先驱,也是现代政治制度三权分立的鼻祖,美国成立的独立宣言也以洛克的理论为根基。

    莱布尼茨:

    德国哲学家、数学家,百科全书式的学者。

    人工智能的思想萌芽可以追溯到德国著名数学家和哲学家莱布尼茨 (Leibnitz,1646-1716)提出的”通用语言”设想。这一设想的要点是:建立一种通用的符号语言,用这个语言中的符号表达“思想内容”,用符号之间的形式关系表达“思想内容”之间的逻辑关系。于是,在“通用语言”中可以实现“思维的机械化”这一设想可以看成是对人工智能的最早描述。

    莱布尼茨还与另一个英国巨人牛顿有一个冲突,微积分的发明归属。从后续的历史上,牛顿的微积分方法更多应用物理领域,而莱布尼茨的微积分方法则应用在了计算科学上。

    控制论的创始人维纳曾说: “假如我必须为控制论从科学史上挑选一位守护神,那就挑选莱布尼茨。莱布尼茨的哲学集中表现在在两个密切联系的概念上——普遍符号(语言)论的概念和理性演算的概念。”

    洛克在认识论上的出发点就是在大力驳斥笛卡尔“天赋观念”的同时,针锋相对地提出了有名的“白板论”:“一切观念都是有感觉或反省来的——我们可以假定人心如白纸,没有一切标记,没有一切观念,……在理性和认知方面的一切材料,……它们都是从经验来的,我们的一切知识都是建立在经验上的,而且最后是导源于经验的。我们因为能观察所知觉到的外面的可感物,能观察所知觉、所反省到的内面的心理活动,所以我们底理解才能得到思想底一切材料。这便是知识的两个来源;我们已有的,或自然要有的各种观念,都是发源于此的。

    莱布尼茨虽然自称“已再不是笛卡尔派”,但在心灵发生认识之前的原初状态这个问题上仍公开承认自己赞成笛卡尔关于天赋观念的主张,并按照自己的新体系走得更远了。笛卡尔还只承认关于上帝的观念以及其他有些观念如关于逻辑的基本思想律和几何公理之类的观念是天赋的,并不认为一切观念都是天赋的;

    而莱布尼茨则根据他的“单子”无“窗子”可供事物出入,是彻底孤立的,完全否定了观念可以从外面来到心中。“我甚至认为我们的灵魂的一切思想和行动都是来自它自己内部”,并且认为“观念和真理就作为倾向、禀赋、习性或自然的潜能天赋在我们心中,而不是作为现实天赋在我们心中的” ,心灵既不是像一块空白的板或完全一色的大理石,也不是在上面已有完全刻成了的象,而是像“一块有纹路的大理石”。

    在知识的起源问题上,洛克认为一切知识起源于感觉经验,人心在获得感觉经验之前就是一块空无所有的“白板”。“天赋能力”说认为,那种具有普遍必然的理性知识不能来自于感觉经验,只能来自理性本身的天赋原则,人心是“带有花纹的大理石”。

    在观念的形成问题上,洛克将观念分为简单观念和复杂观念,在外部感觉经验和内部反省经验的基础上我们获得简单观念,对简单观念加以结合、并列或抽象,得到复杂观念和抽象观念,所以绝大部分观念来自“感觉”,从“反省”得来的只是一小部分,而且反省活动也是在通过对外部事物的感觉已获得的许多观念作为材料基础上进行的,所以他是唯物主义的经验主义。

    莱布尼茨认为,心灵就像一块“有纹路的大理石”,观念和真理作为禀赋、倾向、习性或自然潜能天赋在我们心中,任何观念的产生,总是以心灵中固有的东西为基础,观念的显现需要感觉的刺激,但在感性和理性的关系当中,是理性规定、制约着感性,体现在他的“前定和谐”观中,具有明显的唯心主义特征。

    在对一般真理观念与特殊真理观念之间关系的认识上,洛克认为人们的认识从特殊真理和特殊观念开始,先意识到一些特殊真理和观念,然后再进到一般;莱布尼茨认为天赋观念即一般真理是特殊真理的依据,特殊真理是一般真理的应用,特殊真理只是一般真理的一些例子。对一般真理、观念与特殊真理、观念的不同认识决定了获得确定性知识途径:前者通过对特殊真理与观念的观察整理与归纳得到确定性知识,而后者把天赋观念作为获得这些知识的前提,通过对特殊真理、观念在前提下的演绎、验证,纳入确定性知识体系。

    笛卡尔:

    第一个给出 意识和物质之间的区别。以及由此引起问题的清晰论述。
    “我思故我在”是智能界非常有名的一句话,笛卡尔的这句话开启人类自我意识的思考。这只是人类智能的开端,但也是人工智所能要模仿的对象。
    这些对智能的探讨,涉及到了哲学、心理学、计算机科学等多个学术领域。

    他连续做了三个梦:第一个梦是一群幽灵纠缠在笛卡尔身边,十分恐怖,笛卡尔惊醒过来,向上帝祈祷饶恕他的罪恶,过了很长一段时间后才又睡着;接着他又做了第二个梦,在梦中他听见一种尖锐刺耳的声音,当他再次醒来后,认为这是上帝将向自己开显真理的信号;但是不久,他又睡着了,在第三场梦中他见到了两本书,一本是字典一本是诗集。令人奇异的是,他梦中解梦,他认为这是哲学与智慧统一的征兆。

    笛卡尔通过普遍怀疑建立了“我思”的真实性和存在性之后,便构建起了一个独立于物质世界的精神世界,两者是相互独立、互不相干的实体。
    但对我们人类而言,我们是精神与肉体紧密结合的联合体,而大脑中的松果腺就是肉体与精神的转换器,笛卡尔亦曾将心身关系比做舵手坐在船上。
    从这一点来说,笛卡尔一方面通过“我思故我在”肯定了思想存在则人类存在;
    一方面,这一命题伴随的身心二元论(dualism)割裂了肉体与精神的联系,加剧了人类对心智问题的忧虑感与焦灼感。

    在天赋观念的基本涵义、天赋观念在认识中的地位和作用以及天赋观念与感觉经验的关系等一系列问题上,莱布尼茨与笛卡尔之间都存在一定的差别。
    这些差别表明,莱布尼茨的天赋观念说乃至其整个认识理论,既在基本方面坚持了笛卡尔的唯心主义唯理论,又在一定程度上吸取了以洛克为代表的唯物主义经验论的思想成份;用莱布尼茨自己的话说,他的体系“似乎把柏拉图和德漠克利特,亚里士多德和笛卡尔,经院哲学家和近代哲学家,神学、伦理学和理性,都结合起来了。它似乎从一切方面采取了最好的东西,然后又走得更远,达到前人所未及的地步。”从某种意义上讲,用莱布尼茨以上这段话概括其包括天赋观念说在内的整个哲学体系,以及它在西方认识史上的地位是再恰当不过的了。

    洛克的背景、际遇与性格缔造了他的“实证”思路,衍生出日后的“实用”立场,他本人的生死荣衰也是经验主义者的典型。无论是哲学上的休谟与穆勒,科学上的牛顿与达尔文,都是大不列颠人,都是一生荣光。相对的,欧洲的理性主义者,无论是笛卡尔、斯宾诺莎、莱布尼茨,都是生时处处碰壁,死时寂寂无闻,要过了若干时间才被“发现”、“发掘”,发现和挖掘他们的也往往是英语人士。可以说,从现代的开始至今,走经验路线的多拿到眼前利益;走理性路线就要等死后,最起码要等垂老,才有闻问。拿破仑战败至今近两百年的世界是英语文化的世界,英雄们都是说英语或受英式教育的。经验和实用变成了世界的共通文化。

    英伦三岛成为第二次科技革命的发源地(物理学革命)
    法国大革命点燃了第三次科技革命的导火索(化学革命)
    德意志统一大典催生了第四次科技革命(量子学革命)
    以足球承载的欧洲4次科技变革

    经验和先验是人工智能发展无法回避和逃开的话题,人类的智慧也在探讨这些哲学的基本命题的时候得到了长足的发展。

  2. 曹政:关于Alphago zero,是的,我来跟风了说道:

    deepmind发布了新的论文,Alphago zero再起波澜,也再次引起业内的热议。

    这一次的突破是,不再以人类的棋谱作为学习的源素材,而是完全基于自我对局实现了棋艺的突飞猛进。

    先吐个槽,有人会觉得,各种自媒体炒作这个热点有点多余,但我觉得吧,比起某些明星过生日,离婚,劈腿,出柜,嗑药等等,去追逐一下科技热点,让年轻人觉得,其实搞算法,做研究很酷,难道不是一件好事么?

    古时候,没有相机,没有录音机,没有电视,没有广播,也没有网络,谁也不知道名人长啥样,唱歌好听不好听,所以传播的只有文字,所以偶像是靠文采的,柳永长啥样谁知道?但他的词传颂出去,小姑娘们爱的不要不要的。

    现代传媒发达了,出现了靠身体素质的偶像,靠颜值的偶像,靠声音的偶像,靠表演才艺的偶像,难得出一个柯洁,是靠智力的偶像,还被人说不务正业。现在终于轮到算法和科技成为热点,让科研变得很酷很有吸引力,这才是正能量啊。

    下面说说这次技术升级的一些特征和值得关注的点。

    第一、不再需要人类的经验

    很可怕的事实,当然,我们说,这是特定领域,因为规则简单,目标明确,才不需要人类的经验和数据。

    但其实如果发散一点,我们做个思想实验。

    假设有一个深度学习的强AI,它被赋予一个最基本的逻辑,自己组织资源,观察这个世界,并总结世界的规律。

    一种思路是我们教给它经典力学,相对论,各种数学和几何工具,量子力学等等,把已有知识教给它,然后让它具有人类顶级科学家的知识储备,然后继续深入观察和分析世界,并试图解决大一统理论问题。

    但另一种思路呢?我们什么都不教给它,让它自己观测,自己进行实验和技术迭代,自己总结,也许一开始它会把世界想象为天圆地方,但可能很快就领悟了经典力学和太阳系的行星轨道,然后再往后可能会出现人类完全无法理解的理论。

    第二、算法胜于数据

    腾讯的绝艺来源于Alphago Lee的论文(战胜李世石的版本),并且有顶尖职业棋手提供辅导,目前已经自我训练超过几十亿盘,是的,腾讯的计算资源是无以伦比的,但即便如此,尚无法达到Alphago Master的水准。

    然而,Alphago zero,仅仅通过750万盘训练,就能够对Alphago master产生碾压。

    我们以前都说,围棋千古无同局,变化多的全宇宙的原子都无法遍历,然而Alphago zero 仅仅自我训练了750万盘,就碾压了之前所有的人类经验和其他AI,以及包括自己的上一个版本。

    就围棋的变化组合来说,750万盘的自我训练量连沧海一黍都算不上,算法大道至简,极为有效,确实非常感慨。

    李彦宏和马云曾为此争论,至少在这个案例上,算法胜于数据确实是定论。

    第三、AI是否会对人类带来危机

    有一种观点认为说,AI并没有真正的意识,它们需要人类设计规则,人类制定目标,所以,AI仍然在人类的控制范围内,不用担心AI会给人类带来危险。

    我想说一点,其实风险并不在于AI是否具有自我意识,而是AI是否可以独立控制资源,实现自我迭代。一旦AI可以自行掌控资源,自行迭代,那么我们就要面临一个巨大的考验,AI是如何理解人类定义的目标,在目标逻辑上是否缺乏足够的约束,而这可能导致致命的风险。

    而我认为,让AI具有资源控制和迭代能力,很可能不会是很遥远的事情。

    1、AI拥有对物理设备控制和操作的能力。
    2、基于1,AI拥有对物理设备迭代升级的能力,比如利用12纳米的成熟技术生产可以实现6纳米规格的集成电路生产线。

    做两个简单思想实验
    1、我们给AI的目标是,探寻世界的终极规则,它们不断搭建超出人类认知的实验设备,并做出我们无法理解的实验进行数据测算,对这些实验的目的和风险,人类一无所知,突然有一天,它们成功的创造出了一个虫洞或其他什么,地球和人类遭遇灭顶之灾,但AI机器人却已经把自己复制到了其他星球和浩瀚的宇宙中,并继续完成它们的使命。

    2、我们给AI的目标是,让世界变得更美好,它们不断摸索和分析世界美好的目标,并不断寻求和研究世界不美好的原因加以修正和处理,最后,AI发现了很多条关键因素,但其中一条是,世界美好似乎并不需要人类。

    AI也许没有意识,并不仇视人类,也并无主动伤害人类的动机和意愿,但当它们具备了人类所无法掌控的能力,并且拥有了人类所无法理解的逻辑的时候,很多风险可能就会产生。

    目前AI仅仅停留在具体的硬件里,尚未被赋予操作物理设备和对特定物理设备迭代升级的能力,但其实,在现有科技的条件下,这并非是不可实现的。

    第四,所谓特例,也许真的不是特例。

    我们认为说,围棋是个规则明确,目标明确的特例,大多数情况下,AI仍需用人类的数据来学习,而不是通过自我推演。

    但其实这个事情反过来想一下,大多数情况下,我们是期望AI按照人类的思路,人类的目标和人类的体验来完成目标,比如,写出符合人类语言逻辑的文章,奏响符合人类欣赏逻辑的音乐,等等等等。

    我们希望AI理解人类的情绪,语言表达,以及按照人类对事物的判断和分类标准进行学习和总结。

    但,换个角度想想,AI真的需要遵循和理解人类的标准么?

    事实上是,如果AI不是被强行设定为为人类服务,很多领域,都完全不需要去理解人类的知识,经验和行为记录。虽然一切起源于人类的算法,但算法本身并不会携带人类的情感和意识。

    发散一下,DNA这玩意就是一个深度学习的系统,根据环境,几亿年不断演进,自我淘汰,自我迭代,从单细胞到灵长目,到人类自身。那么,作为人类,我们会去保护和感谢最初的DNA载体不,会去试图理解最初的DNA载体的生存诉求么?

    第五,围棋的极限在哪里?

    有评论这样说的,Alphago Master,你也有今天!

    Alphago Master在年初对职业棋手60连胜,之后3:0战胜柯洁,实现了对人类完全的碾压,但是面对Alphago zero ,胜率却只有10%。

    顶尖业余棋手面对顶尖职业棋手,胜率大概也不止10%。排名靠前的冲段少年,面对世界冠军棋手,胜率可能也会有10%。

    根据自我对战测试数据,Alphago zero的等级分已经突破了令人恐怖的5000分,而人类棋手的巅峰,不到2700分。

    围棋上帝的等级分是多少?围棋上帝可以让现在世界冠军几个子?不敢想象。

    第六,尴尬的腾讯

    腾讯绝艺一度是非常出色的表现,但很遗憾,在第一篇论文的基础上,一直无法实现更关键的突破,几十亿盘的训练量,水平并未得到明显的增长,而且在正式比赛里还输给了deepzengo和台湾的CGI。

    说个可能棋界不爱听的话,邀请顶尖职业棋手做策略协助,对比于Alphago zero的策略,反而成了负面因素。 而大量资源投入,数十亿盘的自我训练量,只能成为别人算法牛逼的背景。

    我们相信,腾讯的技术人员会快速跟进新的论文,绝艺不久一定会获得突破性的发展。但问题就在这里,最优秀的跟进学习能力,但缺乏自身突破的能力。

    关于Alphago的文章,我可能也说了不少了,从李世石,到柯洁,到现在,确实一次比一次震撼,可能有人会觉得,至于么,震撼一次两次还不够么?

    第一次,职业顶尖棋手落败,拐点到来。

    第二次,人类毫无机会和希望,彻底碾压。

    第三次,人类经验毫无作用,自我学习几天时间完胜人类几千年历史。

    所以,关于AI的未来,我们依然有人觉得危言耸听,觉得担心多余,觉得AI还很弱小,别忘了,就在两年前,围棋AI还是业余棋手可以随意取笑的目标。所谓天文数字的变化图还被认为是计算机不可触及的领域。

    如果两年前,仅仅两年前,有人说,一个围棋AI算法,完全不用人类经验和策略,仅仅依赖于基本规则和自我对局,可以在750万盘对局量的情况下,让所有人类顶尖高手绝望,一定会被人骂是傻逼,不懂围棋也不懂算法,伪科学。但当今天,这一切发生的时候,已经没有人会质疑这个真实性。整个历程确实完美印证了火车理论,从嘲笑,不屑一顾,到呼啸而过,然后达到人类无法理解,无法企及的境界。和你并驾齐驱的时间,让你觉得可以相提并论的时间,就那么一瞬而已。

    现在我们嘲笑的哪些AI尚未征服的领域,也许就那么一瞬,就会超越人类,然后达到我们无法理解,无法企及的境界。

    如果它们控制和掌握了生产资源,并能对硬件做自我迭代和自我升级。未来科技和文明的发展可能会呈现极具加速的情况,AI革命,会工业革命更快,颠覆更彻底,而人类将彻底失去对科技的控制,甚至连理解都变得很难。

    即便存在风险,我依然期待着科技的发展和未来的到来。

    与其浑浑噩噩苟活,不如冒些风险,去更好的认识这个世界,理解这个世界,人类原本就很脆弱,我们只是暂时还很幸运,很多风险都可能让人类在睡梦中面临灭顶之灾。科技的进步永远都会存在风险,但与其浑浑噩噩的等待未知灾难,不如更主动的冒险发展自己,去拥有更强大的能力和认知。

    也许AI会毁灭人类,但也许会帮助人类找到更好的未来,不试试,怎么知道?

  3. AI 科技评论报道:今天 DeepMind 悄悄放出了一篇新论文,介绍了一个「AlphaZero」。一开始我们差点以为 DeepMind 也学会炒冷饭了,毕竟「从零开始学习」的 AlphaGo Zero 论文 10 月就发出来、大家已经讨论了许多遍了。

    可定睛一看,这次的 AlphaZero 不是以前那个只会下围棋的人工智能了,它是通用的,国际象棋、日本象棋也会下,所以去掉了名字里表示围棋的「Go」;不仅如此,围棋还下得比上次的 AlphaGo Zero 还要好——柯洁在得知 AlphaGo Zero 之后已经感叹道人类是多余的了,这次一众围棋选手可以牵着国际象棋选手们再痛哭一次了。

    从技术的角度讲,一个通用的强化学习模型还比之前的已经足够简单的专用于下围棋的模型表现更好?「没有免费的午餐」定律难道失效了?

    AlphaGo 的这一路进化中,我们见证了 DeepMind 的工程师们对深度强化学习本质的思考和尝试,也看到了不断的优化中带来的无需先验知识、降低资源消耗、提高训练速度等等可喜的技术进步。现在,在 AlphaGo Zero 论文发布的一个多月之后,在我们觉得 AlphaGo Zero 已经成为尽善尽美的围棋之神的时候,DeepMind 又悄悄地放出了一篇新论文。这次 DeepMind 去掉了「AlphaGo Zero」中表示围棋的「Go」,这是一个更通用的、能下各种棋类的、而且在围棋中的表现更上一层楼的通用强化学习模型,「AlphaZero」。

    过往几个版本的 AlphaGo Zero 大家想必都比较熟悉了,不过我们还是简单回顾一下,方便和新的 AlphaZero 对比。AlphaGo 中一直都有深度有限的蒙特卡罗树搜索(MCTS),然后主要靠策略网络和价值网络分别预测下一步落子的点以及评估当前的局势。在更早版本的 AlphaGo 中,策略网络和价值网络是两个不同的深度神经网络,Zero 版本中是同一个 ResNet 的两组输出;AlphaGo Zero 之前几个版本中都需要先把局面转换为高一层的人工特征再作为网络的输入、需要先学习人类棋谱再转变到自我对弈的强化学习、有一个单独的快速走子网络进行随机模拟,AlphaGo Zero 则把局面落子情况直接作为网络的输入、由随机的网络权值直接开始强化学习、舍弃快速走子网络直接用主要的神经网络模拟走子。可以看到,AlphaGo Zero 的思路和模型结构都得到了大幅度简化,带来的是更快的训练和运行速度,以及更高的棋力。而这样简单的模型就能带来这样好的结果,也是让研究者们对 AlphaGo Zero 发出惊叹的原因。

    如何从围棋到更多

    其实一直以来人们在编写下棋的 AI 的过程中,都会针对每一种棋的不同特点设计一些专门的技巧在其中。AlphaGo Zero 中实现策略和价值两个网络的带有残差的 CNN 网络其实刚好就利用到了围棋的一些特点:比赛规则是平移不变的,这和卷积神经网络的共享权值相吻合;棋子的气和卷积网络的局部结构相吻合;整张棋盘是旋转、对称不变的,在训练中可以方便地运用现有的数据增强和组合方法;动作空间简单,只需要在一个位置落单一类别的棋子;结果空间简单,要么是赢,要么是输,没有平局。以上种种特点都可以帮助 AlphaGo Zero 顺利、快速地训练。

    现在 DeepMind 的研究人员们想要把 AlphaGo Zero 变成更通用化、能下更多不同棋的算法时候,就需要重新思考其中的一些处理方法。比如国际象棋和日本象棋中,如何走子高度取决于当前的子所在的位置,而每个子又有各自不同的走法;棋盘的局势是不可旋转、不可镜像的,这会影响行棋的方向;象棋可以有平局;日本象棋中甚至可以把捕获的对手的棋子重新放到棋盘上来。相比围棋,这些特点都让计算过程变得更复杂、更不适合 AlphaGo Zero 这样的 CNN 网络。相比之下,2016 年世界象棋算法锦标赛(TCEC)的冠军 Stockfish 就是一个使用人类高手的手工特征、精细调节过的权重、alpha-beta 剪枝算法、加上大规模启发式搜索和不少专门的国际象棋适配的程序。最近刚刚击败了人类日本围棋冠军的最强算法 Elmo 也是差不多的情况。

    AlphaZero 是 AlphaGo Zero 的通用化进化版本,它继续保持了 AlphaGo Zero 中不需要人工特征、利用深度神经网络从零开始进行强化学习、结合蒙特卡洛树搜索的特点,然后更新网络参数,减小网络估计的比赛结果和实际结果之间的误差,同时最大化策略网络输出动作和蒙特卡洛树搜索可能性之间的相似度。

    AlphaZero 与 AlphaGo Zero 之间的具体区别有以下几个:

    AlphaGo Zero 会预计胜率,然后优化胜率,其中只考虑胜、负两种结果;AlphaZero 会估计比赛结果,然后优化达到预计的结果的概率,其中包含了平局甚至别的一些可能的结果。
    由于围棋规则是具有旋转和镜像不变性的,所以专为围棋设计的 AlphaGo Zero 和通用的 AlphaZero 就有不同的实现方法。AlphaGo Zero 训练中会为每个棋局做 8 个对称的增强数据;并且在蒙特卡洛树搜索中,棋局会先经过随机的旋转或者镜像变换之后再交给神经网络评估,这样蒙特卡洛评估就可以在不同的偏向之间得到平均。国际象棋和日本象棋都是不对称的,以上基于对称性的方法就不能用了。所以 AlphaZero 并不增强训练数据,也不会在蒙特卡洛树搜索中变换棋局。
    在 AlphaGo Zero 中,自我对局的棋局是由所有之前的迭代过程中出现的表现最好的一个版本生成的。在每一次训练迭代之后,新版本棋手的表现都要跟原先的表现最好的版本做对比;如果新的版本能以超过 55% 的胜率赢过原先版本,那么这个新的版本就会成为新的「表现最好的版本」,然后用它生成新的棋局供后续的迭代优化使用。相比之下,AlphaZero 始终都只有一个持续优化的神经网络,自我对局的棋局也就是由具有最新参数的网络生成的,不再像原来那样等待出现一个「表现最好的版本」之后再评估和迭代。这实际上增大了训练出一个不好的结果的风险。
    AlphaGo Zero 中搜索部分的超参数是通过贝叶斯优化得到的。AlphaZero 中直接对所有的棋类使用了同一套超参数,不再对每种不同的棋做单独的调节。唯一的例外在于训练中加在先前版本策略上的噪声的大小,这是为了保证网络有足够的探索能力;噪声的大小根据每种棋类的典型可行动作数目做了成比例的缩放。

    AlphaZero 释放威力

    作者们用同样的算法设定、网络架构和超参数(只有刚刚说到的噪声大小不同),分别训练了下国际象棋、日本象棋、围棋的三个 AlphaZero 实例。训练从随机初始化的参数开始,步数一共是 70 万步,mini-batch 大小 4096;5000 个第一代 TPU 用来生成自我对局,64 个第二代 TPU 用来训练神经网络(AI 科技评论注:第二代 TPU 的存储器带宽更高)。

    以 Elo 分数为标准,AlphaZero 在完成全部的 70 万步训练之前就分别超过了此前最好的国际象棋、日本象棋和围棋程序 Stockfish、Elmo 和 AlphaGo Zero。如果说在数千个 TPU 的帮助下用 8 小时的训练时间就能超过 AlphaGo Lee 版本还算合理,大约 40 万步训练之后继续以不小的优势胜过 AlphaGo Zero 还是让人吃了一惊的,AlphaZero 中放弃了一些(可能)会带来优势的细节之后,以通用算法的身份击败了已经看起来很完美的专门下围棋的 AlphaGo Zero,「没有免费的午餐」定律仿佛在这里暂时失效了一样。

    DeepMind 在论文当然也让完全训练后的 AlphaZero 与 Stockfish、Elmo 和 AlphaGo Zero(训练时间为 3 天)进行了实际的比赛,分别 100 场,每步的思考时间限制为一分钟;AlphaGo Zero 和 AlphaZero 都运行在配备 4 块 TPU 的单个服务器上。

    结果并不意外,AlphaZero 在国际象棋中面对 Stockfish 一局未输,日本象棋中共输 8 局,面对 AlphaGo Zero 也拿下了 60% 的胜率。

    在 AlphaZero 和各个版本的 AlphaGo 中,我们都知道算法在深度神经网络的帮助下大大减小了蒙特卡洛树搜索的规模。在与 Stockfish 和 Elmo 的对比中,这个提升显得相当明显:AlphaZero 下国际象棋只需要每秒搜索 8 万个位置,Stockfish 的数字是 7 千万;AlphaZero 下日本象棋要每秒搜索 4 万个位置,而 Elmo 的数字是 3 千 5 百万;同时 AlphaZero 还都取得了压倒性的棋力优势。这里的深度神经网络就像人类一样,能有选择地思考更有潜力的下法。论文中还测试了思考时间的效率。以 40ms 思考时间的 Stockfish 和 Elmo 为基准,AlphaZero 的棋力随思考时间增加得更快。DeepMind 的研究人员甚至由此开始质疑以往人们认为下棋任务中 alpha-beta 剪枝算法优于蒙特卡洛树搜索的观念到底是不是正确的。

    作者们最后还和人类对比验证了 AlphaZero 学到的国际象棋知识如何。他们从人类在线下棋的棋谱中找了出现次数多于十万次的常见开局形式,发现 AlphaZero 也能独立学到这些开局,而且经常在自我对局中使用。而且,如果比赛是以这些人类常用的开局形式开始的,AlphaZero 也总能打败 Stockfish,这说明 AlphaZero 确实学到了国际象棋中的各种局势变化。

    总结

    在人类把棋类作为人工智能研究的重要关卡以来的几十年间,研究者们开发出的下棋算法几乎总是避免不了人工特征和为具体的棋类做的特定性优化。如今,完全无需人工特征、无需任何人类棋谱、甚至无需任何特定优化的通用强化学习算法 AlphaZero 终于问世,而且只需要几个小时的训练时间就可以超越此前最好的算法甚至人类世界冠军,这是算法和计算资源的胜利,更是人类的顶尖研究成果。DeepMind 愿景中能解决各种问题的通用 AI,看起来也离我们越来越近了。

发表评论

邮箱地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>