在判断实验对象是否在装疼的测试中,计算机的准确率高达85%,远高普通人的50%。
BI中文站 3月22日报道
科学家已经研制出具有复杂模式识别(pattern recognition)能力的计算机系统。与人类的判断相比,这种复杂模式识别能力可以更准确地区分人们是真的感受到了疼痛还是在无病呻吟。
根据本周出版的美国《当代生物学》(Current Biology) 刊登的一篇研究文章显示,在观看完一段有关人们经历疼痛后表现的视频后,只有不到50%的受试者能够准确地判断出视频中的人物是否在装疼。
而在相同的实验中,计算机判断的准确率则高达85%。研究人员表示,计算机所具有的复杂模式识别能力能够有效地发现人类面部表情的细微特征,尤其是人们经常忽视的嘴部动作。
美国加州大学圣地亚哥分校(University of California, San Diego) 神经计算研究所的研究员玛丽安•巴尔特莱特(Marian Bartlett)指出:“众所周知的是,计算机很擅长逻辑运算,它们在很多领域都比人类要强,比如国际象棋。但在感性识别方面,计算机却远不及人类。人类具有很强的语言和图像识别能力,而计算机却很难实现这些功能。不过,上述实验表明,计算机有能力在感性识别方面超越人类。”
在这次实验中,25位志愿者分别参与录制了两端视频。
在第一段视频中,研究人员让每位志愿者把一支胳膊放进温水中停留片刻,同时假装做出痛苦的面部表情迷惑观察者。而在第二段视频中,研究人员则让每位志愿者将一支胳膊伸进寒冷的冰水中停留片刻,并且不给志愿者任何指示,让他们用面部表情自由表达自己的感受。
然后,研究人员让另外170位志愿者来观看这两段视频,并对其中谁是真疼、谁是在装疼进行判断。实验结果显示,志愿者判断的成功率不到50%。然后,研究人员又向这170位志愿者详细解释了人们在装疼时所表现出来的面部特征。即便如此,再次进行实验后的识别成功率依然只有55%。
而借助于摄像头的计算机视觉系统可以拍摄人类的面部表情,然后再对这些图像进行解码。借助编程技术,计算机可以识别出一类面部表情组合表达的是真正的痛苦,而另一类面部表情组合显示的是装疼。
巴尔特莱特指出:“在视频中,计算机观察的是人类20组面部肌肉每一帧的运动轨迹。”
那研究人员又为何对发现伪装者如此痴迷呢?人类的面部表情能够表达出非常丰富的信息,其中就包括感情和痛苦的表达。但人类也非常擅于伪装感情,有些人甚至可以非常轻松地骗过其他人。
多伦多大学研究儿童和成人撒谎行为的李刚(Kang Lee)教授指出:“人类的面部表情有时候表达的是真正的情感,但有时候也会表达出周围社交环境所需要人们表达的感情,比如在收到糟糕礼物后的感激之情或者出席葬礼时的悲痛之情。”李刚教授也是参与此次实验研究的科学家之一。
研究人员表示,在对主动还是被动表达诚意的面部活动进行细微识别的过程中,计算机系统表现得要比人类强。李刚在一封电子邮件中指出:“我们完全有理由相信,在不远的将来,能够识别细微感情变化的计算机视觉识别系统将会得到更加广泛的应用,而且成本也会迅速降低。此类系统不仅可以被用来察觉欺骗行为,从而有助于避免医疗欺诈行为或改善国土安全,而且还能够识别出由于自身残疾或其他原因而可能无法进行有效沟通的患者的感情状态。”
研究人员还表示,这套计算机系统在法律执行和工作面试中拥有潜在的应用价值。
巴尔特莱特与他人联合在圣迭戈创立了一家名为Emotient的创业公司,并希望借此找到计算机面部表情识别系统的商业应用渠道,其主要针对的是零售和医疗市场客户。
编者按:在计算机科学领域中,计算机视觉研究人员担任着一项基础性的任务——他们让机器学会“看”世界。这正是微软首席研究员华刚博士和他的团队所做的事。随着私人机器人、自动驾驶汽车和无人机等设备我们在日常生活越来越常见,让机器拥有视觉能力是非常重要的。在这个访谈中,华刚博士将为我们介绍计算机视觉研究在图像识别、视频理解和计算机艺术方面的最新进展。本文是访谈内容的文字精简版,了解完整内容,请收听文中采访音频。
微软首席研究员华刚
采访音频
采访研究员华刚
来自微软研究院AI头条
00:0029:36
计算机视觉是一个相对年轻的研究领域。通俗地说,计算机视觉研究的目的是让计算机能像人类一样观察和理解世界。从技术的角度看,研究人员要从输入计算机的图像、视频之类的数字信号中提取出某种结构,或是语义信息。这对于人类来说似乎很简单,但对于机器来说却并非易事。在教会计算机“看”世界的道路上,我们在过去十年间确实取得了许多进步,但是作为一个已经存在了50年的研究领域,它仍然有很多问题需要我们去解决。
回顾计算机视觉研究一路走来所取得的进展,可以说是成果颇丰。但初期的研究大多是在严格控制的环境中进行,研究者在拍摄人脸图像时,会小心翼翼地控制灯光、摄像头等几乎所有的变量。五年前,当我们将人脸识别研究迁移到更真实的应用场景中时,我们的识别技术在精度方面还存在很大差距。而在过去的五年间,深度学习等前沿研究技术的应用让计算机视觉研究迈上了一个崭新的台阶,让许多商业应用变得切实可行。
深度学习能够为计算机视觉带来巨大改变,要归功于它的两个能力:一是“端到端”的学习方式,能够学习到特定语义模式的正确表达。例如,我们想让计算机识别“狗”,就要给计算机输入很多狗的图片,即使每张图片只有64×64像素、每个像素只有256个取值,它们的所有组合也将占据大量的空间。但是当我们将“狗”作为一种模式时,就会考虑每个像素之间的关联,这个模式占用的空间就会少得多。因此,深度学习就能够以端到端的方式学习,学会“狗”的数字表达,基于深层结构真正消化大量的训练数据,创建出非常复杂的模型。这就意味着,如果训练数据非常全面,比如涵盖了被摄物体的不同视角,最终计算机就能在更广泛的场景中识别物体;二是深度学习的构建能力,当信息或图像嵌入深度网络时,模型会从提取一些低级别的图像模式开始,逐渐将提取的模式组合在一起,由小到大,形成越来越高级别的语义结构,直到形成最终的复杂模式。所以对视觉识别来说,深度学习真的非常强大。
在众多计算机视觉的领域中,目前我主要关注三个领域:视频理解、人脸分析和识别、视觉艺术创作。今天我想依次谈谈这三大领域以及我们在其中的一些研究进展。
首先是视频理解。与做图像识别时的单张图片输入方式不同,要让计算机理解视频,我们要考察视频中的像素以及它们的移动方式。如果我们将理解单幅图像看作空间推理问题,那么视频理解就是结合空域、时域的推理问题,因为视频中随着一帧帧画面不断输入,其中的对象也不断移动。所以视频理解的根本任务就是提取、分析持续视频流中的信息并作更进一步的时空推理。
视频理解能在许多应用场景中便利我们的生活。基于视频理解技术,我们的团队正在孵化一个改进城市交通状况的项目。试想一座城市,无数交通摄像头在其中运行,但其实它们所产生的大部分视频资源都被浪费了。事实上,摄像头完全可以比现在更聪明,它们可以帮助人们更加智能地控制交通信号灯。在一个十字路口,如果某一个方向上的交通流量特别大,我们就可以通过摄像头自动识别人车流量,让这个方向的绿灯亮更长的时间,使得交通更顺畅。
在人脸识别和分析领域,我们也做了一些非常有趣的探索和应用。微软在人脸识别技术上一直在进步。以前在微软Live Labs工作时,我们建立了第一个人脸识别软件库,开放给不同的产品团队来使用。第一个使用我们软件库的团队是Xbox,他们用人脸识别技术让用户能够自动登录。后来,微软亚洲研究院一直在持续地推动人脸识别技术的发展。我加入微软亚洲研究院后,和其他研究员一起继续推动相关项目的研究,现在它已经演变成了一个由研究团队和工程团队共同合作的项目,由工程团队收集更多的数据,并和研究团队紧密合作,利用数据训练出更好的模型。
深度网络也被我们应用到人脸识别和分析的研究中。我们在生成模型中加入深度网络,对图像的分布进行建模,从分布中抽取信息,合成基础图像。最近我们进行的一个研究是“身份保持的人脸合成”(identity-preserving face synthesis),我们想要利用深度神经网络合成包含语义信息的特定的面孔,比如合成一张神似布拉德·皮特的脸。“身份保持”事实上面临着一个很大的挑战:人们从出生到长大,面部的变化会很大,由于颅骨的发育,头部的形状和皮肤也会改变很多,但是到了成人阶段变化就会比较缓慢。就目前的技术而言,我们确实需要不断地更新训练数据中的面部图像,来使合成的面部图像也随着年龄的增长而变化。但我们也在进行一些研究,让训练模型学会自己推演人脸“老化”的过程,建立更好的跨年龄面部识别系统。如果这一点能够很好地实现,这个系统将在现实社会中发挥很大的作用,比如可以推广到执法领域,对那些早年失踪的、被绑架的孩子,跨年龄人脸识别系统可以推测他们现在的脸,通过图像匹配找到或解救他们。
我当前关注的第三个领域是计算机视觉与艺术的结合,人类有着强烈的艺术创作愿望,我们也希望计算机视觉能带给人们美好的艺术享受。过去的两年,我们一直在做一个“风格迁移”的项目,只要提供图片范例,我们的算法可以把图像渲染成你能想象到的任何艺术风格,比如把你的照片变成梵高的油画风格。通过这种数字技术,我们想将原先未必每个人都能享用的艺术品带到更多用户的身边,使他们在交互中享受这些艺术品带来的乐趣。由于我们的算法可以为每一种艺术风格构建一个特定的表达,所以接下来我们还可以让计算机进行艺术创作,比如,可以将不同的艺术风格混合起来,或者在中间地带探索,看看这些视觉效果在两个画家之间是如何演变的,甚至可以更深入地了解艺术家们如何构建他们的艺术风格,等等。
另外,我们也在关注机器智能和人的智能的结合问题。例如我们最近一项工作是采用一种新的分布式集成方法来让机器进行主动学习(active learning)。主动学习需要人工的参与,在传统的主动学习里,机器智能挑选出样本,然后由人工进行标注。我们试图将主动学习与众包结合,来实现两个目标:一是希望能够智能地挑选数据,使标注成本效益最大化,二是希望机器能够评估众包标注员的水平,将数据发送给标注质量最高的标注员进行标注,提高标注质量。
我一直在思考智能系统中人与机器之间的角色问题。因为在真实的世界中,就像现在基于机器学习的智能系统一样,它们未必能够很好地处理各种复杂的状况,因为现实生活中总是存在训练过程中机器没有见过的个例。所以我一直在思考如何让人类不仅帮助智能系统优化它们的缺陷,同时也教这些智能系统自主处理将来可能出现的类似情况。
在计算机视觉领域,我认为人们最大的担忧在于隐私问题。在公共领域、建筑物内和其它地方,到处都有数以亿计的摄像头。随着技术的进步,通过摄像头追踪人类已经不再是科幻片中的场景。这样的技术可以帮助我们更好地对付罪犯,但对于普通公民来说,隐私问题确实引人担忧。
针对这个问题,微软其实已经付出了巨大努力确保产品和服务符合欧盟一般数据保护条例(GDPR)的要求。我认为这是一种很好的机制,它能够确保人们生产的产品和服务都符合某些特定的规则。但另一方面,我也认为应该在可用性和隐私性之间取得某种平衡,而这两者的边界并不是非黑即白的,我们需要谨慎地在其中找到平衡点,获取适量的信息来更好地服务客户,而不能无限制地获取信息,或者获取用户不愿提供或不能放心提供的信息。
最后我想谈一谈计算机视觉的未来。目前,大部分计算机视觉研究都采用了统计机器学习方法,通过训练识别模型,我们确实取得了很好的效果。但是这个过程在很大程度上仍然是基于表观的。在未来,我们需要更好地将一些基础元素引入计算机视觉中,比如将3D几何图形引入到感知过程中,对于视频理解这样整合空间与时间进行推理的整体性问题,还需要将因果关系推断等更多的认知概念纳入研究过程。还有一些基本的问题,比如怎样从小数据中学习,甚至通过语言学习,这些问题都是我们未来要研究和解决的。
目前,我们的计算机视觉研究大多将精力集中在深度学习上,但是如果回顾十年或十五年前的研究,你会发现当时的研究方法远比现在更多样化。你可以看到各种机器学习方法,看到从物理学、光学等不同学科借鉴而来的知识,计算机科学家们将多个领域的知识加以融合,试图从多角度去解决问题。所以,正如我们在其它领域强调多样性一样,如果我们也能从多个角度来研究问题,我相信计算机视觉作为科学一定会更健康地发展。