iPhone X带起的深度摄像头热,移动端的路到底怎么走?
最近一段时间,我们也采访了不少做深度传感器的厂商,聊来聊去,绕不开的一个话题就是:曾经小众的深度摄像头市场,正在慢慢走向大众化。
我们大脑皮层有50%的区域是用于视觉,在经过几亿年的进化以后,我们的眼睛可以在150毫秒内将看到的场景识别理解出来。但是,现在要让机器只凭简单的摄像头做到这些是不可能的。
所以出现了可以捕捉三维深度信息的深度传感器,虽然听名字这是一颗传感器,其实它的最终形态和我们的眼睛一样,需要去观察、认识以及理解这个世界。
尤其是在苹果推出Face ID之后,相关的智能手机厂商都想跟风,虽然这股风现在还没起来,但是大多已经开始蠢蠢欲动。最近,华为在某场手机发布会上,也公布了点云深度摄像头Jupiter X,和Phone X的“齐刘海”系统十分相似……
从小众走向大众的深度传感器市场
最近一段时间,我们也采访了不少做深度传感器的厂商,聊来聊去,绕不开的一个话题就是:曾经小众的深度摄像头市场,正在慢慢走向大众化,而iPhone X在其中发挥了关键性的作用。
数据显示,深度摄像头市场规模将从2015年的12.5亿美元增长到2021年的78.9 亿美元,年均增长率达35%。
来自Markets and Markets的一份报告也显示,预计到2020年全球机器视觉市场规模将达到125亿美元。麦姆斯咨询也显示,预计2016~2022年间3D传感器市场规模的复合年增长率为26.5%,2022年将达到54.6亿美元。
这也是为什么苹果、微软、英特尔这样的大公司会在五年时间内,纷纷投资或者收购深度传感器、手势识别算法以及上下游相关解决方案公司:
比如苹果在2013年花费3.6亿美元收购的PrimeSense,其前身是微软Kinect的技术提供商,被苹果收入麾下后,他们的结构光方案也就成功的运用到iPhone X上。
而苹果的带头作用也已经对整个智能手机市场产生影响,很多手机厂商正着手寻求和国内外3D传感器供应商合作。
另外一方面,随着AI和智能制造时代的到来,机器人市场对于深度传感器的需求也随之增加。
毫不夸张的说,深度摄像头所代表的三维视觉技术是一项非常基础的技术,早早的进行技术或者专利的布局,就是为之后的大规模应用夯实基础。
深度摄像头的“三驾马车”
深度摄像头虽然也叫作摄像头,但是它和我们日常见到的还是有很大区别,以我们日常使用的手机相机为例,无论像素有多高,它也只能捕捉到一些简单的二维信息,而深度摄像头如其名所示,它能够测量视野内空间每个点的深度数据,从而获得完整三维坐标信息。
而一旦获得这种三维信息,就能为机器感知和智能分析提供最基础的数据信息。
目前,市面上比较成熟的深度信息捕捉方案主要就三种:结构光、双目视觉以及TOF(飞行时间)。
第一种是结构光方案,通过发射特定图形的散斑或者点阵的激光红外图案,摄像头捕捉到被测物体反射回来的图案,计算上面散斑或者点的大小,然后跟原始的尺寸做对比,从而测算出被测物体到摄像头之间的距离。
第二个叫双目,主要通过两个普通的摄像头获得深度信息,简而言之它就是模仿人眼的结构,通过两个摄像头的视差来确定距离信息。
第三种是TOF,它是通过发出的激光反射回来的时间算距离,TOF的方案在第二代Kinect上有使用过,传感器发出调制的脉冲红外光,然后遇到物体反射后,它会计算出光线发射和反射时间差或者相位差,实现距离的测量,最终产生深度信息。
可以说,既有的三种方案各有所长,TOF的响应速度快、精度高,不易受环境光线干扰,但是功耗和成本都比较大;结构光的工业化应用较多;双目立体成像更适合室外强光条件和高分辨率应用,目前主要应用在机器人视觉、自动驾驶等方面。
但是,现在很多技术厂商在尽可能的取长补短,弥补既有技术的短板。
深度摄像头的产业链分解
无论是哪种方案,追根溯源其产业链的话,如下图所示:
从产业链来看,相比较传统的摄像头,比较突出的就是红外相关的元件。其实,如果对比两者的结构,也能很明显发现深度摄像头增加了不少新的硬件组件。
2D 摄像头模组结构
典型的3D 摄像头模组结构
发射端上新增了红外激光发射器和辅助元件,包括衍射光栅和光学棱镜部件(如准直镜头);在接收端,新增红外接收部分,包括镜头、红外传感器和窄带红外滤光片;在图像处理器芯片上,由于算法上的复杂性,也比简单的2D成像芯片成本更高。
还是以苹果iPhone X为例,它的黑刘海就引入了红外光学发射器VCSEL(垂直共振腔表面放射激光)。
相比较传统的LED,VCSEL的精度、体积以及低功耗更适合移动端,现在大多数深度摄像头都会采用VCSEL作为红外光源,像苹果的VCSEL供应商之一是IQE,另一供应商则是Lumentum。
市场研究机构预测,2015年VCSEL市场规模为9.546亿美元,至2022年预计将增长至31.241亿美元,2016~2022年期间的复合年增长率可达17.3%。
VCSEL凭借其紧凑的尺寸、高可靠性、低功耗以及较低的制造成本而应用广泛。而汽车产业电气系统对VCSEL的应用增长,正推动整个VCSEL的市场增长。
随着这块市场的逐渐打开,提供综合技术方案的厂商也开始崭露头角,比如我们此前采访过的图漾和华捷艾米,都是以提供最终的软硬件产品,甚至是算法为主。
另外,现在一大趋势就是三维视觉在算法端上和人工智能的结合,从而进一步提高识别的精确度。
以人脸识别为例,像我们熟悉的商汤、旷视都接二连三获得数亿美元的融资,这块市场的容量可想而知,商汤、旷视都是算法段的高手,但是3D摄像头可以减少对这部分算法的依赖,通过采集人脸图像的深度信息,直接在终端上提高人脸识别技术的准确率。
机器人、无人驾驶、安防、VR/AR,深度摄像头就像万金油
在一项智研咨询的数据调查中,2016-2022年3D成像会在消费电子领域迎来爆发,其平均年复合增速达到了160%,如下图所示,
为此镁客君也整理一份深度传感器的应用市场情况,从宏观上来看,基本上囊括了移动智能手机、机器人、自动驾驶、安防等领域,也难怪为什么大公司十分热衷于收购这些技术公司。
如果简单梳理一下深度摄像头的应用方向,如下图所示,主要集中在消费端和工业领域:
说到安防中的行为识别和生物特征识别。传统的安防摄像头只能记录下海量的视频信息,而无法对视频里面人的行为做分析和预警,有了深度摄像头,就有了对人的动作获取的硬件基础,配合深度学习算法,就可以对人的行为做识别和预警,安防的设备能够真正能够体现出它的价值。
在智能制造方面,包括流水化生产线上的工业机器人,无人仓储内的送货机器人都需要及时获取深度信息,比如送货机器自动将不同大小、体重的包裹运送到规定的位置,仅仅是二维平面信息完全不够,它必须要配备深度摄像头去获取包括深度在内的三维信息。
同样是我们日常常见的扫地机器人,它在室内的避障也需要深度摄像头去以捕获周围的环境信息,然后再规划出合适的路径。
就像图漾的联合创始人徐韬所说,“三维视觉在整个人工智能领域的基础性地位,深度摄像头的应用范围其实是在不断拓展,将来有望成为所有机器的标配传感器。”
在娱乐消费端,大家就比较熟悉它的几个应用场景,比如类似于微软Kinect的体感游戏机。要实现体感交互,很重要的就是手势、身体骨骼动作的识别等,以华捷艾米的3D体感芯片为例,其中就包含了骨骼跟踪技术以及slam算法(定位、跟踪以及路径规划技术的核心)等。
消费端的另一个切入口就是我们一直提到的基于智能手机的面部识别,这也是现阶段不少手机厂商攻克的难点。用华捷艾米联合创始人沈瑄的话来说,“安卓手机要到明年9、10月份才能逐渐拥有类似于iPhone X的Face ID功能。”
结构光、TOF各有各的难点,移动端正在成为兵家必争之地
当然,技术的应用也要追求小而美,苹果在2013年收购结构光方案的鼻祖PrimeSense,但是直到四年后的现在,才成功将其小型化到可以应用到智能手机上。
可以说,在深度摄像头的发展历程中,如何去缩减传感器的体积以及降低功耗一直是各大公司努力的方向。同样是英特尔的RealSense技术,它的设备体积就非常大,而且需要借助PC电脑来完成识别,不适用于现在的移动端需求。
相比较行业应用,移动端在深度传感器上的需求差别会非常大,徐韬曾经向镁客君提到,“移动端深度传感器的体积更小、功耗更低,很多东西都要重新研发,需要投入大量的人才和资源去做这个事情。”
对于消费端来说,只有低功耗、小体积才能实现真正的商业化,这也是为什么很多厂商在做嵌入式方案、或者以“曲线救国”的形式去降低功耗等。
此前,公认的是TOF比结构光更加适合应用到智能手机上,因为采用TOF原理来实现动作追踪和深度感知已经出现在谷歌的Project Tango方案中,Project Tango主要用于空间三维数据的采集。去年联想推出了一款Project Tango技术方案的手机,但是时间证明,外形过大、重量过度的Tango手机并没有打开市场,现在关于这款手机的量产和销量也不得而知,不得不说,TOF的方案还需要“斟酌”。
深圳一家做深度摄像头方案的繁维科技创始人程斯特则表示,“确切来说,TOF确实是比较适合移动端,但目前也不能说相比之下,结构光就不适合于移动端,很多人都断章取义了。”
确实,从iPhone X的趋势来看,结构光正在成功攻陷移动端。
但值得注意的是,Face ID并不是普通的结构光技术,它实际上叫做激光散斑,是PrimeSense的专利技术,而苹果收购了他们,目前这个技术也只能是苹果使用。
也就是说,Face ID的激光散斑技术比较封闭,而且对处理器要求高,相对来说对接受器要求比较低;但是,TOF技术对于接收器要求比较高,而对于处理器要求很低。所以TOF的方案一定要把芯片做小,减少接收端的压力。
一旦能实现这点,深度传感器会快速打开消费端应用的市场。
“所有的技术在某个时间点都有最优的性价比选择,只能说在当前这个阶段,结构光是最佳的选择,这也是为什么苹果会选择结构光。其实从苹果的角度,它的实力、现金流,做任何技术都可以,但是它为什么选了结构光,也说明其他技术在一些问题上没法在当前阶段做一些消费级的产品。”沈瑄表示。
虽然移动消费端的市场诱惑很大,但是这也意味着更激烈的竞争。像高通已经和奇景光电共同推出完整的解决方案,以高通在移动芯片市场的垄断地位,其他厂商很难和它进行直面的竞争。
但是这也并不妨碍一些综合方案解决商“快马加鞭”地优化自己的算法和技术,去尽可能的进入到这块红海市场中。
结语:
此前,镁客君在采访北航教授李波的时候,他提到,将来计算机的感知系统应该是用综合型的视觉来完成,而不是现在被动式的采图。比如我们会用激光、红外、雷达、GPS等结合起来的摄像设备。
“客观世界远远不止深度,还有很多像温度、湿度、速度、方向等等,所以未来的深度相机应该要把更多的信息整合到一起。”
最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!
硬科技产业媒体
关注技术驱动创新