空间增强现实掀起人机交互新革命?英特尔研究院专家这样说

来源:机器人创新生态 | 发布时间:2017-06-13 14:30:27

在人机交互发展的初始阶段,大家的关注点仅仅停留在和我们交互的设备上;直至Ipone的出现,它用指纹这种独一无二的个人特征,来让设备给人提供私人订制的交互方式;2013年,谷歌眼镜面市,引发市场对增强现实(AR)技术的关注。人们认为,随着光学、图像引擎等产业技术的快速发展, VR/AR 产业爆发拐点临近,人机交互即将迎来新一轮显示革命。

然而基于VR/AR技术的人机交互面临着用户体验、技术局限、内容和应用的开发以及价格是等障碍 。显然,我们需要一个杆杠点去破局,帮助行业形成正反馈。而空间增强现实(Spatial Augmented Reality)技术或许会成为一个突破点。

在过去的两年里,英特尔研究院进行了一些列针对机器人的研究,期望利用英特尔的技术加速机器人生态的创新,实现更加自然的人机交互。本期机器人大家说,我们就邀请到了英特尔研究院专家——刘章林,为我们深度解读基于空间增强现实(以下简称SAR)的人机交互。

以下为刘章林演讲实录

一、SAR技术简介以及应用介绍

首先,从这几年很流行的VR/AR技术谈起。

AR(Augmented Reality)指通过电脑技术,将虚拟的信息应用到真实世界,真实的环境和虚拟的物体实时地叠加到同一个画面或空间同时存在。但在这个过程中,用户必须佩戴See Through的设备,比如手机、AR头盔等。谷歌推出的Google Glass和微软推出的HoloLens等都是非常成功AR的产品。

除了曝光度很高的VR+游戏和VR+电商,VR在很多领域,包括旅游、Live、社交以及教育等都有广阔的应用空间。但VR本身就有一个极需解决的问题——怎么克服眩晕。

我们知道人的脑垂体是掌管着运动的,当我们用VR眼镜看虚拟内容的时候,可能视频在动,可能图像在动,但人并没有移动,这个时候运动的物体和人本身的感知可能会出现错觉,那么人就会产生眩晕的感觉。

因此,大家发现AR比起VR来可能更具优势。AR(Augmented Reality)简单地说就是虚拟的内容和真实世界可以叠加在一起。这样的话,人对运动的感知和对虚拟物体的感知可以同步进行,这样就会大大地减少眩晕的问题。

VR/AR技术和我今天要讨论的SAR还不太一样,SAR讲的是我们人可以不佩戴任何设备,只用裸眼就可以看到虚拟的世界和物理世界的叠加,通常我们会采用投影仪的办法把虚拟的内容叠加在现实的世界中。

请看上图中最左边,它可以说是SAR最早的一个原型系统,名字叫CAVE。很让人惊讶的是,这个工作是1991年做的,距今也有16年的历史了,所以说对于AR/VR/SAR等的研究已经有很悠久的历史,只是在近年来随着技术的发展,被大家广泛接受了而已。

在CAVE的这个过程中你可以看到,其实是在一个屋子中,把屋子的四面都用投影仪投射上内容,让人感觉到是在一个虚拟的洞穴中一样。后来爱立信也做了类似的工作,也是用投影仪把这个整个世界投射在房间中的各个墙上,让人身临其境。在宝马的实验室中,也有一套类似的系统,在这套系统中,屋子的四面都会用投影仪投射上内容,模拟一个街道的场景,然后中间会放一个驾驶模拟器,这样的话,人在屋子中间驾驶一个模拟器,就感觉是在大街上,这是一个最传统或者最直接的SAR的应用。

再请看上图的中间部分,它是非常有名的迪士尼的夜晚奇幻灯光秀,我在上海迪士尼看过一次,非常地好看,小孩非常喜欢。它是用像一个大型的投影仪或者是电影机,将视频、图像叠加在迪士尼的城堡上,从而在城堡上呈现出各种各样奇幻的特效。因此,如果把SAR技术应用在建筑物的外墙,就能赋予建筑物虚拟的特性,这是SAR技术一个非常广泛的应用。

还有一些应用,请看上图的最右边。如果大家去798这样的地方,就可以看到用投影仪来辅助一些艺术创作。比如798有这样一个作品,艺术家用模型做了一个城市的立体模型,然后用投影仪投射上各种各样的人,在这个城市中走来走去。

类似上图这些,如果大家感兴趣,可以直接在优酷、土豆或者YouTube上,搜索SAR这个关键词,就可以发现一些很好玩,很奇幻的特效。 在这里给大家贡献一个非常有意思的免费软件,叫VPT7,使用这个软件就可以实现用投影仪投在墙上或者投柜子旁边,从而呈现一些艺术特效。

二、基于投影仪和英特尔RealSense实感摄像头的sar系统介绍

讲完SAR以后,我们回到今天的主题——怎么把SAR技术放在我们的机器人中,赋予机器人一些更有趣的能力?

在这几年,AR是非常火的,尤其是它在娱乐、看直播等方面能带给大家一些非常不一样的体验。但是我们也可以看到AR它有一个非常大的局限性,就是必须使用第三方的设备,比如说叫手机,或者是说像Google Glass这种增强现实的眼镜。在AR的文献中,它常用的词叫HME(Head Mounted Equipment)Head mounted equipment,就是头戴式设备,通过这种设备去看虚拟世界和物理世界的叠加。

AR确实也有它的局限性,比如说,我想再进行一些比较激烈的运动,就不想戴这种设备行不行?再比如,我和其他人共享一些虚拟内容时,我们不都同时佩戴头戴式显示器,这个时候该怎样去分享内容?我们研究的出发点就是怎样去提升用户的体验。

基于这个出发点,我们做了这么一套系统:SARP(Spatial Augumented Reality Projector)

一般而言,SAR通常都是通过投影仪来做,我们这套系统的投影仪,我们希望做到以下几点:

1、我们希望我们这套系统,就是一个很普通的投影仪,然后用普通的2D或者3D摄像头来工作;

2、我们希望这套方案是很便宜的,它不需要定制的摄像头或定制的投影仪,你只要从市场上去买就可以;

3、我们希望,通过这套系统,用自动标定代替手动标定(对比VPT7的手动标定);

4、我们希望通过算法,借助深度摄像头的深度信息,进行多次标定,或者标定一些关键点,在使用的时候,根据深度信息可以自动调整;

一句话总结:我们做了一个工作,让虚拟世界和物理世界的坐标变换能够自动化。

比如上图,在右边这个视频中看到的是我们摄像头的内容,视频中有一个盒子,我在盒子的一面画上一个红色的笑脸,通过我们这套系统,投影仪就会把同样的笑脸投射在盒子的上,而这个笑脸的位置和大小,和我在平板上画的是一致的。

上面的视频,是我们系统的一个介绍,大家可以看到,当我不管怎样移动纸上画的这个黑框,我都能把内容投射到这个黑框里面。甚至在平面中有好几个黑框的时候,我都可以把内容投射在这个里面。

刚才的视频,只是对系统进行简单介绍,大家可以看到,在演示过程中,我那张纸只是在同一个平面中移动,并没有改变距离或者改变倾斜的角度。而在这个视频中,大家可以看见,我们投射的平面,我进行了旋转,一近一远,倾斜等等操作,内容投射在这个方框中。

在这个视频中我们可以任意改变投射目标的角度距离等等,是因为我们借助了英特尔的Realsense3D摄像头,我们有了深度信息可以进行动态的调整。

我们在设计系统的时候,目标当然是投影越准越好,但实际上,因为确实算法还做不到这么精确,因此,我们现在的测量的结果是,如果在固定投影的情况下,它的误差在一厘米以内。同时我们会提供基于c++和cscript的接口,方便大家进行使用和编程。

这张图是我们的编程框架,大家可以看到,我们提供了各种画图的API,简单地说,只要你会用OpenCV在窗口中绘制各种图形和添加文本,你就可以很方便地使用我们这套API。

以上便是我们这套系统的介绍,简单地说,它是一个很简单的,并不需要任何特殊摄像头系统,而且它提供自动校准和简单易用的API。

三、SAR投影系统应用场景讨论

1 远程医疗的应用

在上图最左边是传统的远程医疗,一个医生坐在电脑前面,通过视频和医生或者是病患进行交流。上图中间,是我们这套系统在医疗上的应用。正如我以上的视频中所显示的,假设你买了一个血压计回家,却不知道怎样使用,那么使用我们这套系统,医生可以远程在你的手上进行绘画,标示出这个血压计应该佩戴的范围。在上图最右边,也可以看到投影仪在衣服上的投影也是很清晰的,完全可以用来增强用户的交互。

2 远程教育的应用

如视频中所示,当学生在平板上做数学题的时候,老师可以通过这套系统在平板上进行批改,而学生就可以直接在黑板上看到批改结果。换个层面来说,这个技术可以大大地外延传统的视频聊天的功能。

3 娱乐领域的应用

一个几块钱的塑料小老虎,通过使用我们这套系统,只要把它往桌子上一放,它就会变成一个智能的小老虎,它的旁边就会出现虚拟的内容解说,例如产地在哪,一共多少只等。简单进行一下外延,两个人正在打桌游,如果有我们这套系统,两个人把桌游的纸牌往桌子上一放,旁边马上就会出现特效,这也是很炫酷的。

这个应用领域是我非常喜欢的——攀岩。怎么能让这个游戏变得有竞技性或者更有乐趣性?如上图demo所示,在攀岩时,攀岩的人会看到墙上有个红点,当他摸到这个红点的时候,就意味着他已经check过这个点了,这个时候我们就会继续给他投摄新的点,最后,可以通过计算谁用最短的时间内把所有的点都给摸一遍来判定胜负。

这个应用,我们在通州的一个攀岩馆去实地部署过,当时是这个攀岩馆的周年庆,参加的人都觉得非常有意思,从来没想过攀岩原来可以这么玩过。

四、SAR投影在机器人交互中的应用讨论

看完SAR在上述领域的应用以后,回归到我们今天的主题——这项技术在机器人中能够怎样应用。

我们知道,机器人是可以用摄像头来“看”,可以用麦克风来“听”,可以用扬声器来“说”,那么,机器人能不能指东西呢?注意,我这里提到的“指”的概念和用机械臂来做交互是不一样的。举一个很简单的例子,假如用户前面有一排门,其中有一个门是通向会议室的,他问机器人哪个门通向会议室,机器人怎么告诉人呢?左起第七个或者右起第五个,机器人如果这样告诉用户的话,其实并不是非常友好、明确的方式,机器人完全可以通过投影仪,在正确的门上投上内容,比如说打开这扇门就是在这扇门。进行一下简单的延伸,假如在墙上有很多按钮或开关,我们问机器人哪个按钮可以打开墙上的灯,机器人完全可以在按钮的底下,用我们的投影仪套系统在正确的按钮下面投一个小小的箭头。

我们也把投影的系统放在我们自己的机器人中了,如上图所示,大家可以看到在机器人胸口有一个亮点,这就是投影仪的镜头,在机器人的额头上有英特尔RealSense的摄像头,它们一起构成了我们这套系统。

我们也做了一个蜘蛛机器人,在蜘蛛机器人的身上,我们也放上了我们这套投影系统。蜘蛛机器人头上顶的是一个华硕的普通的投影仪,在投影仪的上面,黑色的小块其实是英特尔的欧几里得系统。欧几里得系统其实是基于英特尔RealSense平台,再加上Curie,大家可以简单地把它理解为在这个小小的盒子里面,放了一个凌动系列的小PC,再加上RealSense摄像头。这个设计其实是相当的简洁和紧凑,所以放在蜘蛛上面会非常地好玩。

在最后我想和大家分享下我们的一个设想。我们把我们的机器人带到过养老院,在养老院进行实景的测试。后来我们发现,其实好多功能,只是我们在实验室中的一个想象,并不是他们实际上最需求的。

在养老院中,老人他们其实非常地寂寞,他们最想做的事就是和自己的家人进行交互,比如他画画的时候,如果我们能让他的家人和他一起画画,那将是非常有意义的。我们完全可以通过我们这套系统,让小孩在远程用一个平板或者一个手机和老人一起画画。例如老人画了一只猫,小孩可以在平板上给猫画一个红色的小胡子,这个时候通过投影仪就会投在老人前面的这个画纸上,老人就会感觉到原来有人和他在一起画,他会感到很开心。而我们把这套系统可以放在机器人身上,机器人带着这个投影系统,就像带着一个虚拟的助手,来为老人进行服务。

最后,我希望通过今天的分享,能让大家看到借助增强现实投影仪这套系统,能够为我们的机器人添加一双虚拟的手,添加一支虚拟的画笔,从而增强我们机器人和人的交互方式。

下面是本次分享的精彩问答:

Q1:室外强光下,能够投射多远?

刘章林:投影这套系统,在室外效果不太好。在室外的应用,受限于现在投影的技术,这个也是我无法解决的,也希望投影的技术出现大的变化或大的革新,可能在室外的应用能更好吧。目前,这套系统建议尽量还是在室内应用。

我再进行一下补充,我也试过很多投影仪,现在投影仪从小型的到大型的不等,大型的大家都知道,比如剧院里面那种大型的投影仪,可以投射非常大,几层楼高,当然这个放在机器人上也是不太现实的,我觉得在机器人上可能比较合适的就是小型投影仪,流明度大概在400左右,根据我们的使用情况来看,三米以内,投射的效果都是可以接受的。

Q2:室外天黑能够使用吗?

刘章林:室外天黑没有问题,只要没有太阳光直射都没有问题。在分享中,大家可以回顾一下这个系统在攀岩馆中应用,那个攀岩馆有一面墙全是窗户,在下午的时候,其实只要没有阳光直射在攀岩平面上,投射都还是可以接受。

Q3:室内普通光线能够投影多远?

刘章林:如果装在机器人上的话,在3米以内是比较靠谱的。当然如果你的机器人可以装一个更好的投影仪的话,那三米以外还是可以。因为我们的系统是基于英特尔RealSense,RealSense在三米以内深度信息是比较好的,超过三米的话,我们的深度信息就不行了。总之,如果有能看到更远的深度摄像头和更强的投影仪的话,在更远的距离也可以工作,只是我试验过的平台,三米以内是比较靠谱,最好的话应该在两米左右。

Q4:投影上能否结合手势互动?

刘章林:你是指的手势操作吗?手续操作并不是我现在关注的重点,我现在关注的是内容的输出,手势操作我把它认为是内容的输入,你完全可以在网上找一些开源的手势,捕捉一些库就可以。

最近,索尼出了一套桌面的交互式投影系统,他的办法就是能够捕捉到一些手指操作,而这一块确实是我没做的。我的关注点还是在放在机器人上,通过各种角度,各种距离也能投得准。

Q5:英特尔的深度摄像头正在开发10米的吗?

刘章林:就我所知好像没有能做到十米的,不过,未来RealSense有能支持10米的计划。

Q6:是否能够与其他较远摄像头结合?

如果能,与机器人结合的话,能否产生巨大用途?

如果使用双目摄像头,投射的更远吗?

刘章林:首先,如果大家有兴趣想在机器人中试验一下这套系统,也欢迎大家和我联系,我也非常期待大家能用这套系统在机器人上能开发出新的应用。

其次,如果有更好的双目摄像头,当然可以,大家但是不要忘了,因为所有的摄像头都存在分辨率的问题,在十米外,分辨率可能一个点或一个像素了,这个时候你是不是还能准确的标识出来,找到要投的范围,这也是一个很大的挑战。如果只是对一些大物体,比如说一扇门、一面墙进行投影的话,那十米的距离,我觉得还是没有问题的。