一位捣鼓了Google Glass近20年的天才Geek

作者:王曦

王曦毕业于清华大学建筑技术系,目前生活在美国。她非常喜欢科技互联网,还热衷分享她在美国采访到的人和事,大家可以关注她的微信公众帐号“王曦访谈”。这次她专访的是Google Glass技术负责人Thad Starner博士。

有关Google Glass的起源

Thad 在 MIT 读大学的时候遇到了一个难题:如果上课认真记笔记,他就无法很好地理解教授的意思,因为记录占去了他所有的脑力;而如果不记笔记,只是认真听课,他虽然能够很好地跟上教授的思路,但是课后很容易就忘记了。Thad 尝试过使用电脑记笔记,但是眼睛从黑板和电脑屏幕之间的不停的转换让他很快选择了放弃。也就是在那个时候,Thad 开始琢磨是否可以有这样一个交互界面:既不影响面对面的交流,又可以随时随地记录,那一年是 1989 年。

1993 年,Thad 终于戴上了自己设计的第一代智能眼镜:左眼如常,但是右眼看到的却是显示器,左手握着单手键盘输入,然后还要斜背一个用于装主机的包。自那以后, Thad 每一天无论去哪里,无论干什么,他都会戴着智能眼镜。据 Thad 介绍,这个单手键盘输入是他的一个好朋友发明的,并因此创立了一个叫 Hand Key 的公司。Thad 说单手键盘输入比通常的电脑键盘输入更容易学会,且熟练以后单手打字的速度与电脑键盘打字速度是一样的。

当我问起这是否意味着今后人们的打字习惯需要改变时,Thad 说:“手机已经改变了我们打字的习惯。人们总是觉得改变一个习惯很难,事实上并非如此。我们现在使用的智能手机是手势控制加屏幕键盘。因此,只要可以得到方便,人们是愿意改变的。目前的问题在于,真正使用移动智能设备的人太少了。几乎所有的智能设备都是你需要停下来看着屏幕去使用(比如手机,你总是需要中断谈话,拿出手机来操作),而如果将来越来越多的人使用起真正的移动智能设备,即你可以边走路边写邮件,那么这个单手键盘输入很有可能会成为大家的选择。”

在 1998 年旧金山的一个会议上,Thad 依旧戴着这套行头,自然是享受着超高的回头率。有两个学生走过来和他打招呼:“Hey,我是Larry Page,他是Sergey Brin,我们是斯坦福大学的学生,你戴的是什么东西?”是的,你没有听错,这两位斯坦福大学的学生在不久之后创立了 Google,Sergey 目前担任 Google CEO。在那次会议上,Sergey 给 Thad 留下了联系方式。

时间一晃到了 2010 年,Google 正在大力推广其 Android 系统,尽管 Thad 不知道 Sergey 当年的邮箱是否还在使用,他还是给 Sergey 写了封邮件。在邮件里 Thad 说:“你们现在正在做 Android 系统和智能手机,你真的应该看看我们在学术领域做的可穿戴式计算技术。你为什么不来一趟亚特兰大,我给你看看我的眼镜。”Sergey 回复说,“不,请你来加州,来 Google 做讲座。”Thad 后来才知道,他发邮件前的两个月,Google 刚刚开始筹备智能眼镜这个项目,因此这真是天赐的缘分。

我问 Thad 为什么当时选择了 Google 而不是苹果,毕竟 2010 年应该是苹果最牛的时候。Thad 说事实上,他在苹果的朋友听说 Thad 给 Google 做了一个讲座,便也邀请他去苹果做了讲座,准确的说是做了两次讲座,一次是关于智能手表,一次是关于计算机手势控制。所以 Google 和苹果在相同的时间是得到了相同的信息的(乔布斯是 2011 年去世的,至于为什么苹果没有对智能眼睛感兴趣,请大家自行消化理解)。

我又问起 Thad 为什么当初不自己创业生产智能眼镜,Thad 说:“我有自己的公司啊,我现在就给你展示我们公司的产品。”这应该算是第二代智能眼镜吧,专为研究人员生产的,当时大概卖几千美元,图中的眼镜是 Thad 在 ebay 上花 500 美元买回来的。其实从这个智能眼镜上,我们应该已经可以看出 Google Glass 的一些原型,比如左眼镜片前的成像玻璃屏幕。Thad 说这个智能眼镜的性能堪比一台计算机,当年他所有的笔记、会议记录和邮件都是用这个眼镜完成的。

目前的 Google Glass 是没有键盘输入的,所有的指令都是通过语音下达。Thad 为自己的 Google Glass 配备了蓝牙连接的单手键盘,不知道这个会不会是今后 Google Glass 改良的一个方向。

Thad 介绍说智能眼镜的想法最早可以追溯到 60 年代。其实在 1945 年时,Vannevar Bush(二战时期美国接触的科学家,“曼哈顿计划”的提出者和执行人)就已经有了一个想法:在你的头上放一个小的相机,它可以拍下你做的事情,然后它会将所有关于你的信息储存起来供你将来使用。

“要知道,那是在 1945 年,甚至还没有硬件呢,Vannevar Bush 只是大概知道电脑即将诞生了。而当我在 90 年代开始做这个事情的时候,我希望可以给它赢得一个更加令人尊敬的名字,所以我加入了增强现实技术(Augment Reality),我让你可以看到更多的东西,而不是替代你的视觉。93 年到 99 年,我在 MIT 做这个,后来在乔治亚理工继续做这个。我们实验室里的人每天会花上好几个小时戴智能眼镜,所以我们可以非常了解这项技术。”

Thad 说他不是第一个产生智能眼镜想法的人,但却是第一个每天都戴着,一整天都戴着的人,他是最坚持的那个人。这让我想起访谈前,专门负责 Thad 的媒体邀约的 Jason 给我讲的一个小故事:Thad 每天都戴着各种奇怪的眼镜,所以大家都习以为常了,以至于没有注意到其实他戴着第一代的 Google Glass 很久了,而那个时候,所有的媒体都在各种谍报谷歌眼镜到底长啥样。

Thad眼中的可穿戴式设备

王曦:对今年的CES大会上展示的可穿戴式设备有什么评价吗?

没有什么让人感到特别惊喜的。其实我们最早就预测到第一个可穿戴式计算设备是电子音乐播放器。我还记得那个时候我们向索尼音乐介绍说“我们可以将音乐压缩到文件里,这样的可穿戴式设备会比 Sony Discman 小很多,却和 Sony Discman 拥有一样棒的音质。而且存储量每 18 个月会翻一番,这样用不了几年,人们就可以拥有一个移动音乐馆了,而且这个设备会越来越小。你们真的应该做这个东西。”

而当年的索尼回答道“我们刚刚买下哥伦比亚唱片,我们考虑过做一个闪存的(flash-based)音乐播放器,但是这会导致盗版,所以我们不打算这样做。”(后来的 iPod 证明,索尼当年做了多么错误的决定!)电子音乐播放器是第一代可穿戴式计算设备,因为你不需要停下手头的事情,所以它大大的增强了你的环境。接下来的就是蓝牙测试集(Bluetooth Test Sets)。我们在 1997 年的第一届可穿戴式计算大会上展示了导航地图,如何做导航。这些东西现在都应用在了智能手机上,事实上,智能手机花了这么长时间才出来,这真的是最让人感到尴尬的。

(这个时候,Thad的手机响了,他拿起手机看了半天,等重新回到我们的对话时,他忘记了刚刚说了什么,于是他说“你看,如果在对话过程中拿出手机来看,这真的是一个非常大的干扰。而如果我使用智能眼镜的话,我就可以随时处理信息,同时又不会影响我们之间的交流。”)

王曦:你对可穿戴式设备的未来有什么远见?

事实上和是什么设备无关,重要的是它能做什么。如果它能够很聪明,那将很吸引人。比如说,它知道你在哪里,正在做什么,它会在你需要的时候提供正确的信息。像 Google Now,它现在就可以根据 GPS 的信息知道你在哪里,然后它会根据交通状况提醒你下一个会议的时间,所以应该像一个聪明的助手一样。

它将观察你每天都做了什么,并且把你经常去的地方进行分类,很快它将能够识别出哪里是家,哪里是商店,哪里是办公室。它会发现你每天都是从家去工作、然后再去超市、然后回家,你从来不会从家去超市、再去办公室、然后再回家。所以,它就会在你离开办公室、上车之前提醒你去超市,以避免你开车上了高速错过了超市。

我觉得智能手机最大的问题在于,你要把它放在口袋里,所以它相当于聋的,半瞎的。而如果把设备放在你的头顶上,它就可以观察你,然后得到很多有上下文的对话信息,这样它才能帮助你更多。像我这样,在帽子上有一个相机。我们发现,其实人类的很多行为活动都是和手有关。举个例子,如果我想识别出什么是一本书,如果仅仅靠书的封皮是很难的,因为这也可能是一幅画,相机怎么会知道呢?但是,如果相机能够看到你翻开书,并且一页一页在浏览,那么它就可以识别出这是一本书。

同理,它将识别出什么是杯子,什么是刀和叉子,慢慢的,它将识别出什么是吃饭,因为你会在每天差不多的时间做一系列一样的动作,因此逐渐的,它将学会人类社会是什么样。然后,它将会更好地为你服务,它会明白如何服务于你,什么事情对你来说是重要的。我们做过一个非常酷的实验,我们给这个帽子做同样的手势 500 次,它自动学会了这个手势是什么意思。所以,你不需要教它,它会自己理解的,这真的太酷了,这个趋势非常有意思。

王曦:这是一个智能帽子?!

它现在有点破了,原来这有一个大大的激光。这个帽子更好看一些。瞧,这个更时尚些,我喜欢这个!这个手势是黄色的意思。很酷的是,这个相机很高,所以它能够看到我足够多的手部活动,从而自行掌握每个手势的意思。

王曦:所以,你认为将来每个人都会有一个助理喽?

当然!举个例子,日本公司的 CEO 的助理都是很高级别的人,他们通过当助理来学习如何成为一个 CEO,当然,这个助理薪水很高。所以,如果计算机成为我们的助理,这不是很棒嘛!

王曦:你觉得这个在未来5年或者10年会实现吗?如果计算机可以做这么多的事情,那我们人类还干嘛呢?

这个很难估计,我认为可能会是很久以后。计算机的聪明和人类的聪明是不一样的。计算机擅长回忆信息,而人类擅长识别哪些信息是好的。举个例子,我要做一个报告,于是我让计算机帮我提供相关的信息,它会搜索我所有的笔记、邮件和代码,然后在我眼前的屏幕上提供所有相关的信息,但却无法很好地将这些信息组织起来。但是,我只需要看一眼这些信息,就可以马上识别出哪些是有用的。

如果我问你,谁是你二年级的英文老师,你也许不记得了,但是你会记得你在二年级受过伤。所以,如果你问计算机这些信息意味着什么,它将不会回答。因此,人们需要的是智能的助手,你通过符号与他们连接,然后它们就可以成为你延伸的一部分。就像你戴着眼镜一样,你从来不会想着说我戴着眼镜。或者,你骑自行车时,遇到红灯会自然地刹车。我想要做的就是通过可穿戴式计算来延伸你的大脑。我们现在不需要背书,因为用谷歌就可以搜到书的内容。我们要让智能设备更加强大、更加独立、更加聪明。

王曦:为了实现这些,目前最大的困难是什么?

首先是电源,如何给设备里的芯片充电。另外就是我们说的路径识别(Pattern Discovery)。如何识别你是怎么移动的,怎么交流的。人类最基本的行为单元非常不同,现在没有人花时间来好好研究我们每一天最基本的行为单元。到底吃饭或者握手最基本的行为单元是什么,手势实际上和语言同等重要。我们正在做的就是建立发现人类基本行为组成单元的算法,然后你又是每天如何将这些行为单元组合起来行动的。这是一个长远的计划,因为我们需要算法明白什么构成了你,它又是如何让你和这个世界交流的。

王曦:这就是你说的Symbolic Intelligence对吗?

是的。

如何成为一名天才

我一直以来都对“你是如何发现自己喜欢做什么的”和“是什么成就了现在的你”这两个问题感兴趣,也是我在访谈中一定会问到的问题。当我问到 Thad 是如何这么有创造力,如何成为天才时,他说了一个我从来没有听过的词“filarious”。访谈后,我在 Google 上查了半天才知道这是一个俚语,即 fun(有趣)+hilarious(欢闹)的意思。

“你不怕别人认为你是一个傻子,很显然,我不怕别人认为我是一个傻子(Thad 戴了 20 年形状各异的眼镜!)。有一句名言,我认为是 Linux Pauling(诺贝尔化学奖获得者)的话,‘有一个伟大的想法的最好的办法,就是有很多想法。’你所需要做的就是不停的有想法,迅速地弄清楚它是否会失败。真正的本事并非是想法,而是能够评估想法,想出验证它的方式,执行想法,这是最难的事情。这个东西,我弄了 20 年(Thad 指着自己戴的 Google Glass)。”

“把东西弄乱没有关系,破坏了什么东西也没有关系,因为你会从中学到东西。探索这个世界没有关系,变得 filarious 也没有关系。有玩的意识非常重要。很多时候,你都是在几十年之后才知道有些事情是非常重要的。让你周围充满聪明的人,充满同样爱搞恶作剧的伙伴。真的,爱搞恶作剧就是你所需要的。我们很多的科研项目都是为了好玩,因为它听起来酷极了。”

“12 岁的时候,我对计算机产生了兴趣。14 岁的时候,我决定要成为 MIT 的教授。29 岁的时候,我拿到了 MIT 职位,但是我决定留在乔治亚理工大学,因为这里更好玩。”

您可能还喜欢…

发表评论

邮箱地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>