阿里巴巴达摩院XR实验室负责人 谭平:AR/VR技术将促使信息世界和物理世界合二为一
AR/VR技术将会促使信息世界和物理世界合二为一。
2021年12月10日,由广东省游戏产业协会、广东省虚拟现实产业技术创新联盟、深圳市科学技术协会、深圳市互联网文化市场协会指导,陀螺科技主办,深圳市科技开发交流中心、恒悦创客魔方协办,行业头部媒体游戏陀螺、VR陀螺、陀螺电竞、陀螺财经、陀螺传媒联合主办的2021未来商业生态链接大会暨第六届金陀螺奖颁奖典礼(简称“FBEC2021”)在深圳大中华喜来登酒店6楼宴会厅盛大开幕!
在中国力量·2021 5G XR产业峰会现场,阿里巴巴达摩院XR实验室负责人 谭平:以“XR技术漫谈”为主题发表了演讲。
以下为演讲实录:
我是阿里巴巴的谭平,现在负责的是XR实验室这一块的工作。今天非常荣幸能有这样的机会来和行业里面的各位朋友,来分享一下我们对于XR这一块的思考。
今天先从始作俑者ROBLOX讲起。ROBLOX是今年在美国上市的游戏公司,它的招股书中把“元宇宙”这个词写了进去,引来了非常多的讨论。这个公司是什么样的一个情况?
Roblox是一个游戏公司,在美国有非常大量的用户,特别是青少年用户。据统计,美国16岁以下的青少年可能一半都玩过他们的游戏。
这个游戏的特点是什么?它是一个开放的游戏平台,用户可以在平台上创建自己的游戏,比如说你可以创建一个赛车游戏,或者创建一个射击类的游戏,这个游戏被创建出来之后再把它分发出去,让大家在上面来玩。用户创造的游戏里面,最火的游戏日活已经到了千万级。Roblox是一个可以创造游戏的游戏平台,因此可以被称为是“元游戏”。他们公司在招股书里修饰了一下,把游戏世界说成是宇宙,于是就成了“元宇宙”。
但从我们的角度来看,这件事情之所以引起社会对于AR、VR如此的关注,如此多互联网巨头都投身于这个领域中,是因为它远远不止游戏。
最近著名科学家钱学森的几封信件在网上流传得非常广泛。我们大家一起看一下。我特别想强调中间的这封信件。钱学森老先生在90年代的时候就断言,虚拟现实技术是计算机技术革命之后的又一项技术革命,它将引发一系列全世界的变革,一定会是人类历史中的大事情。他把虚拟现实技术提到一个如此的高度,它当然不会仅仅只是游戏。
在我看来,AR/VR技术将会促使信息世界和物理世界合二为一。所谓的信息世界,是过去在PC、手机上构建出来的互联网世界,而物理世界是我们今天生活的、活生生的三维世界。随着技术的进一步发展,三维建模和数字孪生这样的技术会将真实世界逐步地数字化、虚拟化,使得整个真实世界有一个数字化的版本。AR和VR技术将进一步融合虚拟和现实,使得人从感官上可以不用再去区分什么是真实,什么是虚拟,两个世界会达到高度的融合。未来机器人的进一步发展可能让我们在虚拟世界里面做一些改变以后,直接改造或者改变真实的物理世界,通过机器人把虚拟世界的变化闭环到真实世界当中去,这是一个非常重大的事件。
AR/VR眼镜的工作基础是对于空间的感知和空间的理解。
左边有一幅AR眼镜,用户戴着它,从左边可以看到汽车的后部,当用户走到前面,从侧面观察的时候可以看到汽车的侧面,这样会给用户造成一个错觉,似乎这个地方有一辆汽车在这里摆着,实际上这里什么都没有。这一系列都是视觉的错误效果,本质上这是基于空间位置的一项显示技术。在绝大多数的AR/VR眼镜上会有传感器,比如用相机和陀螺仪来做空间位置的追踪,会有微投影仪来显示画面,把画面呈现出来给用户就可以实现虚实融合的效果。
我们团队过去在这些方向上有一些积累。在空间内容的获取方面,我们设计了一款专属设备,配有激光雷达和彩色相机,通过设备可以对于真实的物理空间进行扫描,构建出VR模型,然后可以应用到VR看房、VR看店中。我们曾与一个品牌的店铺合作,将他们的店铺虚拟化,用户可以在里面漫游,可以查看商品的详情,甚至直接下单。
之前设备是要用激光雷达的,随着技术的进一步发展,最新的技术成果是可以逐步摆脱激光雷达的依赖,可以用纯视觉方案来构建三维的VR模型。这里给大家展示了一个从单张图像直接通过机器学习的方法,通过人工智能的方法来获得三维信息。
最左边是一张输入的图,中间是一个深入的图,不同颜色代表不同的距离,再右边是深度图转换成为三维点云来渲染的形式。这样的技术使得未来VR内容的生产能够摆脱对于专业设备的依赖,使得这件事情能够更加普惠,让普通人用一般的全景相机甚至未来用手机可以大量、低成本来生产VR的内容,加速内容的制造。
刚才所讲的VR内容,更多还停留在可视化的层面。在非常多的应用里面还需要模型的语义和结构。如果是一个建筑物的话,它的承重墙在哪里,它的门和窗户在哪个地方。这块我们研究了BIM建模,通过对CDA图纸的分析和处理来构建BIM模型,可以应用于智慧园区和安防运维的项目上。
最左边是去年结合疫情的需求,以这样的技术来做的VR展会。右边是用这个技术来做VR看楼,可以让用户看到自己的房型里面采光、视线,实现更加精细化的户型选择。在这个方向,我们也一直在持续做技术方面的探索。去年我们发布了世界上第一个大规模真实CAD图纸的数据集,并且提供了大量的标注数据。在CAD数据集上有详细地标注出来什么是门、什么是窗、什么是家具、什么是承重墙这样的结构,电线和水管等等分别在什么地方。
基于这样的数据可以做一些最新人工智能的图纸识别来帮助整个BIM建模的过程提效。当然这一块的技术可提升的空间依然非常大,即便是在一些相对简单的结构上,今天的识别率依然只有80%。在这方面希望未来有更多的同行加入其中,与我们一起推动技术的进步,我们把数据集开源出来了,希望能够促进数据的进步。
另外一个就是刚才讲的空间。空间构建出来以后,一个很重要的事情就是如何进行空间定位。左边是跟宝马汽车的合作的案例,例如车开到商场以后,回来以后找不到了。这个案例是什么呢?车现在很智能的,车有传感器,开到地库去,它知道自己停在哪个位置,车把位置推送到用户的手机,用户的手机做AR导航就可以把你带回去。当然,先要对车库进行三维的建图,建图完成之后还要定位。
右边是一个概念视频。设想AR的技术普惠以后,戴上眼镜参观阿里巴巴的西溪园区,可以进行打卡、合影和应用。
下面是和北京的一家美术馆进行合作的AR观展体验。我自己读理工科出身,看到艺术家的作品经常很困惑,借助AR/VR的技术,戴上AR眼镜以后可以看到更丰富的艺术解释,可以帮助我们这些人来理解艺术家的理念。
在视觉定位方向,我们也在探索前沿在技术。最新的工作是大幅度压缩模型的尺寸。比如说刚才讲到要在车库里面找车,AR导航需要构建车库的地图。这里放了一个例子,左边单栋楼宇的模型,在过去传统方法来讲要有一个2G的内存才能把楼宇的模型放下来,这对于端上的体验来讲是不太友好的,即便做云端的串流,用户从这栋楼跑到另外一栋楼就要下载2G的内容,很痛苦。我们做了一个方法把模型压缩到10M大小的情况下依然能保持一个良好的体验,希望对我们产品的进一步应用能有帮助。
我们在虚拟人上面也有一些工作。这是一个虚拟人的案例,这个案例是阿里巴巴的一个公益项目,数字人小莫。小莫非常多才多艺,可以把我们说话的语音和文本变成手语的表达,这对于听障碍人士是非常有帮助的事情。因为我们可以通过听广播和看电视来获得大量的信息,但对于听障人士是非常困难的,虚拟人能把文字信息变成手语来方便听力障碍人士获得信息。
我们还有一个工作:把手语的视频转化成为文字或者语言,方便我们理解听障人士想表达什么,促进大家更方便地交流。在这个方向上,我们也有一些前沿学术的进展。最左边这里是用了非常少的RGB相机做动态人物的三维案例,这里用了四个相机,从四个相机的画面里面可以把人物细节的三维模型构建出来,未来可以用到通讯场景当中。右边是用真人来驱动高写实的虚拟人的表情案例,我们可以用一个真人来驱动这样虚拟的形象,并且将这样的虚拟形象应用于各种各样的场景。比如一些客服等等应用。
AR/VR技术正在加速普及。各种应用不断出现,相关技术也快速迭代。相信一个更加美好的互联网时代即将到来。我今天的分享就讲到这里,谢谢大家!
最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!
硬科技产业媒体
关注技术驱动创新