3D深度视觉作为一个崭新的技术,已经出现在微软Kinect、英特尔RealSense等消费级产品中,随着硬件端技术的不断进步,算法与软件层面的不断优化,3D深度视觉的精度和实用性得到大幅提升,尤其是TOF方案与VCSEL的快速成熟,使得“深度相机 手势/人脸识别”具备了大规模进入移动智能终端的基础。
我们通过本报告,详细地梳理了3D深度视觉不同技术方案与硬件结构的差异,分析了国外公司在相关技术领域的布局。我们相信3D深度视觉进入消费级智能终端将是大势所趋,这将为VCSEL、红外CIS摄像头(含红外窄带滤色片)、模组封装带来新的市场增量。移动端手势/人脸识别带来颠覆性全新的用户体验,预计将实现快速的渗透与普及,由于消费级智能终端庞大的用户数量,这将创造一个庞大的新市场。
相关产业链受益公司:
综合技术方案提供商——海外:微软、英特尔等科技巨头,德州仪器、意法、英飞凌、AMS(收购Heptagon)等芯片巨头,SoftKinetic(索尼)、PrimeSense(苹果)、LeapMotion等明星公司;国内:舜宇光学。
系统模组封装——海外:LG Innotek、Sharp等;国内:舜宇光学、欧菲光等。
VCSEL设计——Finsar、Lumentum、Princeton Optronics、Heptagon、ⅡⅥ等公司。国内相关标的:光迅科技等
VCSEL代工与封测——海外:全新、联亚光电(外延片),宏捷科、稳懋(代工),联钧、矽品、同欣(封测)。国内相关标的:三安光电等。
红外与可见光摄像头——海外:大立光、玉晶光电、奇景光电、索尼、三星等;国内相关标的:北京君正(拟并购豪威)、舜宇光学、欧菲光、丘钛科技等。
红外滤色片——海外:VIAVI等;国内:水晶光电等。
图像处理芯片——海外:德州仪器、意法半导体、英飞凌、恩智浦等;国内:全志科技、北京君正、瑞芯微(国内相关主题标的)。
DOE与LENS——海外:奇景光电、精材、采钰、台积电等;
投资要点:
移动端3D深度视觉技术加速,有望创造一个全新的大市场。我们通过本报告,详细地梳理了3D深度视觉不同技术方案与硬件结构的差异,分析了国外公司在相关技术领域的布局。
我们相信3D深度视觉进入消费级智能终端将是大势所趋,随着硬件端技术的不断进步,算法与软件层面的不断优化,3D深度视觉的精度和实用性得到大幅提升,这将为VCSEL、红外CIS带来新的市场增量。
移动端手势/人脸识别带来颠覆性全新的用户体验,预计将实现快速的渗透与普及,由于消费级智能终端庞大的用户数量,这将创造一个庞大的新市场。
移动端3D深度相机助力智能人机交互进入新时代。从键盘、鼠标,到手写笔,再到触控显示屏,人机交互的大幅进步引领了消费电子的成功。但触控显示有着明显的局限性,限制了用户的使用灵活性。
基于3D视觉的手势/人脸识别将对现有的消费电子产品产生颠覆性的变化,带来全新的用户体验,打开更加广阔的空间,在体感交互、运动控制、身份认证等方面大幅提升用户体验。
巨头持续发力,提前布局移动端3D视觉。一旦手势识别进入大规模普及,将对现有的消费电子产品产生颠覆性的影响,人机交互将进入全新的时代。
因此,包括苹果、谷歌、微软、英特尔、索尼、三星等科技巨头,均在深度相机、体感交互、动作捕捉等领域展开了深度的布局,或内部成立专门的研发团队,或并购创业型公司,快速获得先进的技术,在技术方面实现储备。
TOF方案技术水平大幅提升,移动端3D视觉已具备大规模普及的基础。目前在3D深度视觉领域,主流的方案为结构光、TOF和双目立体成像。TOF方案响应速度快、深度信息精度高、识别距离范围大、不易受环境光线干扰,因此是移动端3D视觉比较可行的方案。
近年来,在德州仪器、意法半导体、英飞凌、微软等巨头公司的推动之下,TOF方案已经越来越成熟,尤其是VCSEL技术的进步,使得TOF方案已经具备了在移动端大规模普及的基础。
移动端3D视觉为VCSEL和红外CIS摄像头带来市场新增量。如果3D深度视觉进入移动端应用的话,VCSEL将是重要的部件,原因就在于VCSEL可以提供高频的调制、更快的响应速度、高质量的光束,同时功耗低,工艺兼容性好。
由于目前绝大多数智能终端已经具备可见光前置和后置摄像头,因此,3D视觉进入消费级智能终端之后,会增加红外摄像头的需求。同时3D视觉也将使红外窄带滤色片受益。
台湾公司在VCSEL代工和摄像头方面比较领先,VCSEL由全新、联亚光电等提供外延片,然后由宏捷科、稳懋等进行晶圆制造,再经过联钧、矽品、同欣(基板)等的封测,摄像头方面有大立光、玉晶光电、奇景光电等。DOE与LENS光学器件——Heptagon、奇景光电、精材科技、台积电等。
国内方面:综合技术方案与模组封装提供商——舜宇光学;VCSEL发射器——光迅科技、三安光电;红外与可见摄像头——北京君正(拟收购豪威)、舜宇光学、欧菲光、丘钛科技;红外窄带滤色片——水晶光电;图像处理芯片——全志科技、北京君正等。
风险提示:3D视觉技术移动端进程过慢;国内相关公司缺乏竞争力。
1.3D深度相机助力智能人机交互进入新时代
1)从按键、触控笔到触摸屏,智能交互的进步助力智能手机的辉煌
人机交互(简写HCI),是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。
在上世纪计算机高速发展的过程中,除了硬件芯片技术和软件系统技术的突飞猛进之外,键盘和鼠标这两大交互设备的出现,极大地推动了计算机在普通消费市场的应用,普通用户可以通过键盘和鼠标,来实现与计算机和网络的交互。
手机可以说是最近二十年里最成功的消费电子产品,而手机的发展史也伴随着人机交互方式的变迁,可以说人机交互的变革在一定程度上促进了手机的辉煌。
2002年左右,大尺寸显示技术更加成熟,手机正面的按键由于太占面积,而被大尺寸的屏幕所取代,为实现更加方便的交互,触控笔开始出现,并且得到了普及。随着无线通讯和手机性能的提升,手机可以像电脑一样工作,2005年出现的黑莓手机,采用全键盘设计,实现快速办公。
2007年苹果手机的横空出世,宣告了智能手机新时代的到来,苹果手机凭借其突破性的大尺寸触控显示、丰富的APP内容资源、优质的拍照和音乐体验以及出色的产品质量,成为了全球智能手机皇冠上的明珠。
尤其是第一代苹果手机配有的大尺寸触控显示屏幕,具有划时代的意义,为消费者带来了前所未有的用户体验,引领越来越多消费者选择智能手机。
根据IDC的统计数据,2008年全球智能手机出货量为1.5亿部,到2015年提升到14.3亿部,复合年均增速38.0%,尤其是2010-2013年间,增速在60%左右。如果与PC电脑相比的话,智能手机在2007到2011年的5年时间内,出货量就超过了已经发展30多年的个人电脑(从1980年到2011年)。
2)3D深度相机将进一步解放双手,打开新的智能人机交互空间
现如今,大尺寸触控显示屏已经是大多数智能终端的标配,无论是智能手机、平板电脑,还是笔记本电脑,甚至于汽车中控台、智能家电等。
尽管触控显示屏的识别精度和清晰度越来越高,但是,触控显示屏的局限性非常明显:手指必须接触于屏幕表面,无法离开屏幕工作,这极大地限制了用户的使用空间和灵活性,为了解决这一问题,语音控制与体感控制开始出现,并被广泛看好。
苹果公司于2011年推出的iPhone4S配备了语音识别助手Siri,利用人工智能技术,通过与消费者的语言对话,实现信息的交互。随后,语音交互越来越多地出现在智能终端上,尤其是随着人工智能语义识别技术的进步,语音交互的准确性和实用性大幅提升。亚马逊于2015年推出的ECHO智能音箱便是典型成功例子。
语音识别可以完全解放双手,但是在人机互动方面的应用场景有一定的局限性,对于游戏娱乐、互动体验、拍照等领域,这些必须有用户肢体参与的场景,语音交互无法满足需求。因此,比现今触控屏更高层次的体感交互成为了广大厂商追求的目标。
要实现体感交互,最重要的就是手势识别,因为手部动作是人体最丰富也是最常用的体感动作。对于智能手机而言,如果手势识别可以得到应用,那么包括手机自拍、游戏、浏览网页、购物等众多应用场景,在用户体验上均可以实现大幅提升,手机也将从触控屏时代走向手势识别时代。
同时,人脸识别与追踪也是体感交互最具前景的方向之一。我们认为,人脸识别在移动端具有更加广阔的应用空间。例如目前指纹识别已经成为智能手机的标配,通过指纹识别来实现开机、支付、登陆确认等功能已经被大众所认可,并且创造了巨大的市场价值,但是指纹识别的局限性在于必须通过手指完成,手指放置的位置、手指表面的洁净度等因素都会极大地影响使用体验,而人脸识别可以完全解放双手,只需要借助摄像头对人脸信息的采集便可以完成识别与交互。
3)手势识别被广泛看好,前景广阔
无论是消费级市场的游戏、娱乐、交互,还是商业领域的医疗、工业、军事等,都需要丰富的手部动作来参与,因此手势识别具有非常广泛的应用场景。
当然,智能手机市场才是最吸引人的市场,因为智能手机可以说已经成为全球几十亿用户的生活必需品,智能手机庞大的用户数量以及用户每日超长的使用时间,都将带来巨大的市场价值。
手机中集成手势识别将带来众多的益处,包括:全新的用户界面实现了超越触摸屏的更深层次的控制功能,并将引领游戏和智能手机控制进入全新时代;新的控制感知更为灵活,戴着手套或是手不干净时也可进行控制;带来更丰富的用户体验,它无需机械开关、无需触摸屏或按钮就可实现家居自动化。
受益于游戏机、PC电脑以及平板等移动装置的技术整合,市场研究机构ABI Research预估,全球眼球追踪、手势以及距离传感器技术领域在2016年创造近50亿美元的收入。
根据IHS的数据,2014 年全球手势识别与传感器市场达到了31.2亿美元的规模,过去几年的复合年增长率为32.78%,预计到2022年该市场规模预计将达321.6亿美元。技术进步使硬件精度大幅提升,从而进一步拉升了对手势识别与传感器市场的需求。在智能手机与汽车领域,手势识别与传感器市场呈现指数增长,其中的关键因素为硬件成本低廉,同时可大幅改善用户体验。
4)人脸识别从专业市场走向消费市场,应用领域大幅扩宽
早期的人脸识别主要用于身份认证与安全检测,主要针对专业市场。例如在金融、政府、军事、海关、监狱等机密单位,通过人脸识别完成用户身份的验证与权限的检测等。随着人脸识别算法的不断优化,人脸识别技术不再局限于简单的单体身份认证,而是扩展至群体的安防监控领域。
正如我们前文所述,人脸识别更大的机会在于消费级市场,人脸识别在移动端具有更加广阔的应用空间,而目前人脸识别向消费市场渗透的趋势越发明显,尤其是在人脸识别技术逐步提升的背景之下。
例如,人脸识别可以替代手势识别完成移动端的身份认证、支付交易确认、权限登录等功能;人脸识别直接获取消费者面部表情、生理年龄或精神状态;人脸识别用于移动端自拍的快速对焦,用户自拍美颜等功能……
2.主要巨头在移动端3D视觉领域的布局
1)苹果——整合行业先驱PrimeSense,发力3D手势与人脸识别
2013年11月,苹果收购以色列3D传感器生产商PrimeSense,收购费用为3.45亿美元。PrimeSense曾以给微软Kinect体感控制器提供3D技术著称,它将玩家的动作作为Xbox游戏的一部分,这些传感器允许玩家无需使用控制器就可跟游戏系统相连。
2010年年底,PrimeSense与华硕合作开发了Xtion Pro,和Kinect采用了同样的3D传感器,在PC上使用。2012年,PrimeSense推出了当时世界上体积最小的3D传感器Capri,它的分辨率是前代产品的3倍,而体型是前代的十分之一,环境光的检测性能是前代的50倍。自2013年收购PrimeSense之后,苹果推动PrimeSense的3D体感控制器向小型化发展,希望可以将其装配到电视、PC上,最终可以用在未来的iPhone上。
2016年7月,苹果再次公布新型3D手势控制专利,是一个图形投影仪,内嵌在一个诸如如iPhone手机这样的iOS设备上,可以识别出用户的手势操作,由此可以作为把手势作为游戏的控制杆或者控制器。
2017年1月15日,美国权威咨询机构Cowen and Company发布报告称,苹果的下一代iPhone可能会包含某种面部识别或手势识别功能,由安装在前置摄像头附近的一款新的激光发射器和红外感应器支持,新款iPhone可能会配备一种新的深度感应器,可以为未来的iPhone增添手势识别、人脸识别,甚至增强现实AR功能。
2)英特尔——持续强化升级RealSense,“结构光 双目立体光”
早在2012年左右,英特尔便着重研发实感技术,当时叫Perceptual Computing,即感知计算,并开放英特尔感知计算软件开发套件2013版。2013年1月,英特尔联合Nuance等多家公司推出了“感知计算”,类似于微软的Kinect,可进行手势与人脸识别,缺点是设备体积大,必须借助PC电脑完成。
前置实感3D摄像头和Kinect原理一样,它的工作原理是“结构光”,需要一颗红外传感器。远距离的3D摄像头,使用“双目主动立体成像原理”,需要两颗红外传感器。后文我们会详细拆解与分析。
经过多年的努力,英特尔目前可以提供包括SR300独立摄像头、R200远距离后置摄像头(3-4米,室内室外使用,640*480分辨率)、F200近距离前置摄像头(0.2-1.2米,室内使用,640*480分辨率)等硬件产品。
3)微软——从Kinect到Handpose,3D识别精度大幅提升
微软是最早涉足3D视觉的公司之一,公司在游戏领域推出XBOX游戏机,志在与索尼和任天堂的游戏机一较高下,为了形成自己的竞争优势,微软在2010年与PrimeSense合作,推出了XBOX360体感周边外设——Kinect1代。
但是,当时采用结构光原理的Kinect1代的游戏体验并不好,产品的准确度、图像的分辨率和响应速度一直不理想。最大的问题是精度很难提高,因为计算斑点位移需要用图像在一个小范围区域内的来做块匹配,导致牺牲了像素级别的细节,凸凹不平的表面、物体边缘、很细的物体很难检测准确的深度。
2012年微软先后收购了TOF(时间光)相机公司canesta和3dv,2013年微软终止与PrimeSense的合作,自行开发了Kinect2代(成为Kinect one),采用的是TOF(时间光)原理,无论精度、分辨率还是响应时间都得到了很大的提升。
TOF原理发射一个强度随时间周期变化的正弦信号,通过获得发射、接受信号的相位差来计算深度,精度高很多。关于Kinect2代的原理分析我们将在后文详细阐述。
4)谷歌——Tango项目野心勃勃,提前布局移动端3D视觉
Project Tango是谷歌公司的明星研究项目,由谷歌先进技术与项目部门和部分研究人员,以及硅谷Movidius(已被英特尔收购)合作研发,后者提供的芯片技术可以分析和表达来自传感器和摄像头的数据。Project Tango项目的目标是希望将人类的视觉带入移动设备,为移动设备加入类似人类对空间和运动的感知能力。
Project Tango包含三块技术:运动追踪(MotionTracking),深度感知(Depth Perception)和区域学习(Area Learning)。首先是运动追踪,设备可以通过内置的姿态传感器(加速度计和陀螺仪等)来感知当前的位置;接下来是更深入的3D识别,可以检查出周围世界环境的形状,类似于英特尔的RealSense 3D摄像技术,可以获得更准确的姿态控制以及3D对象渲染;最后就是对周围的环境和区域绘制地图。
5)索尼——收购明星企业SoftKinetic,弥补短板
2015年10月,SONY 宣布收购比利时传感器技术提供商SoftKinetic。SoftKinetic是一家专门从事深度传感摄像头技术的电脑视觉初创型企业,成立于2007年,专注研发体感技术,其传感器技术能够追踪诸如手势等相关的图像。
SoftKinetic技术能够部署到安装在增强现实和虚拟现实硬件上的摄像头之中,从而增加手势与面部追踪的能力。SoftKinetic公司的摄像机采用TOF方案。
6)三星——手势识别助力凌空操作Gear VR
科技公司Gestigon和Pmd在16年6月宣布在三星GearVR上合作研发手势识别,结合Pmd的CamBoard pico flexx深度传感器和Gestigon的Carnival AR/VR Interaction Suite(增强/虚拟现实互动套件),在现有的VR设备上进行无触摸手势交互。
3.移动端3D视觉主要技术背景与原理分析
1)计算机视觉技术主要分类
如同人眼可以对所见到的图像信息进行分析与判断一样,计算机视觉技术的目的就是用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
计算机视觉技术的发展主要经历了:二维图像静态识别、二维图像动态识别、三维图像动态识别三个阶段。
我们以手势识别技术为例,可以粗略分为两个阶段:二维手势识别和三维手势识别,二维手势识别又可以划分为二维手型识别和二维手势识别。
相比较二维手势识别,三维手势识别增加了一个Z轴的信息,它可以识别各种手型、手势和动作。三维手势识别也是现在手势识别发展的主要方向。不过这种包含一定深度信息的手势识别,需要特别的硬件来实现,常见的有通过红外光 光学传感器来完成。
2)三种主流的3D机器视觉技术
根据硬件实现方式的不同,目前行业内所采用的主流3D机器视觉大约有三种:结构光、TOF时间光、双目立体成像。
结构光(Structure Light)
通过激光的折射以及算法计算出物体的位置和深度信息,进而复原整个三维空间。结构光的代表产品有微软的Kinect一代。
通过发射特定图形的散斑或者点阵的激光红外图案,当被测物体反射这些图案,通过摄像头捕捉到这些反射回来的图案,计算上面散斑或者点的大小,跟原始散斑或者点的尺寸做对比,从而测算出被测物体到摄像头之间的距离。
目前是业界比较成熟的深度检测方案,很多的激光雷达和3D扫描技术都是采用的结构光方案。
不过由于以折射光的落点位移来计算位置,这种技术不能计算出精确的深度信息,对识别的距离也有严格的要求。而且容易受到环境光线的干扰,强光下不适合,响应也比较慢。
典型的结构光方案包括:PrimeSense(微软Kinect1代)、英特尔RealSense(前置方案)。
光飞行时间(TIme of Flight)
TOF系统是一种光雷达(LIDAR) 系统,可从发射极向对象发射光脉冲,接收器则可通过计算光脉冲从发射器到对象,再以像素格式返回到接收器的运行时间来确定被测量对象的距离。
TOF系统可同时获得整个场景,确定3D范围影像。利用测量得到的对象坐标可创建3D影像,并可用于机器人、制造、医疗技术以及数码摄影等领域的设备控制。
TOF方案的优点在于响应速度快,深度信息精度高,不容易受环境光线干扰,这些优点使其成为移动端手势识别最被看好的方案。代表厂商有微软(Kinect2代)、意法半导体、英飞凌、德州仪器等。
多角立体成像(MulTI-camera)
现在手势识别领域的佼佼者Leap MoTion使用的就是这种技术。它使用两个或者两个以上的摄像头同时采集图像,通过比对这些不同摄像头在同一时刻获得的图像的差别,使用算法来计算深度信息,从而多角三维成像。
Leap MoTion方案使用2个摄像机获得左右立体影像,该影像有些轻微偏移,与人眼同序。计算机通过比较这两个影像,就可获得对应于影像中物体位移的不同影像。该不同影像或地图可以是彩色的,也可以为灰阶,具体取决于特定系统的需求。
双目多角立体成像方案的优点在于不容易受到环境光线的干扰,适合室外环境,满足7*24小时的长时间工作要求,不易损坏。缺点是昏暗环境、特征不明显时不适合,目前应用在智能安防监控、机器人视觉、物流检测等领域。
3)典型3D视觉硬件拆解与分析
英特尔RealSense(结构光 双目立体成像)
RealSense前置实感 3D 摄像头和 Kinect 1代原理一样,它的工作原理是“结构光”。主动发出特定图案的红外光,红外光遇到环境中的各种障碍物发生折射,然后由设备上的摄像头接收这些折射光,并通过芯片进行实时计算分析,计算出所处的空间位置。
RealSense远距离的3D摄像头,英特尔使用“双目主动立体成像原理”,需要两颗红外传感器。它模仿了人眼的“视差”原理,通过打出一束红外光,以左红外传感器和右红外传感器追踪这束光的位置,然后用三角定位原理来计算出 3D 图像中的“深度”信息。
根据国外科技媒体Chipworks对应用在联想电脑Yoga15上的RealSense前置相机的拆解,采用结构光原理,与微软Kinect1代和苹果PrimeSense原理类似,由红外激光器发射出红外光,经过物体的反射,被红外探测器所接收,反射光图案的位置取决于反射物体的距离,通过分析反射图案的几何形状,重建一个三维(3D)的场景。
微软Kinect 2代(TOF方案)
2013年5月,微软发布了基于TOF原理的Kinect2代(Kinectone)设备,替代了1代的“结构光”的测算方法,使新Kinect2代比原始Kinect1代更快、更准确。
Kinect2代采用了1080p视频传感器,提高了深度传感器所能支持的最大分辨率来允许捕捉更多的细节,如手指动作和肢体定位。Kinect2代每秒数据处理量可达2GB,采用了USB3.0的接口,动作输入延迟仅为66毫秒。
根据chipworks对Kinect One的拆解,主要核心部件为三颗红外激光二极管、一颗红外光图像传感器、一颗可见光图像传感器和一颗图像处理主芯片。
主要工作原理为,红外激光二极管以正弦信号的形式发射近红外激光,光碰到环境中的物体发生反射,红外光图像传感器采集反射光,计算反射信号与发射信号的时间差,从而得知位置距离信息,采用三颗红外激光二极管的原因在于提供空间自由度更大的探测,可见光相机的作用是获取环境实时的XY平面物体信息。
4.移动端3D视觉产业链分析
1)移动端3D视觉硬件与产业链结构
目前在移动端3D视觉方面,三种主流的方案(结构光、TOF时间光、双目立体成像)中,已经比较成熟的是结构光和TOF时间光。
其中结构光方案最为成熟,已经大规模应用于工业3D视觉领域,但是极易受到外界光的干扰、响应速度较慢、识别精度较低,而TOF方案在这几个方面均比结构光方案具有一定的优势,因此TOF成为了目前在移动端被看好的方案。
双目立体成像方案抗环境光干扰强,分辨率高,也是移动端可选方案之一,但是技术较新不够成熟,目前在机器人、自动驾驶领域应用较多。
苹果公司在2017年的iPhone7中使用了意法半导体提供的基于TOF原理的前置距离传感器(proximity sensor)。
而在此之前,苹果的iPhone5和iPhone6s采用的都是Heptagon提供的LED 光探测器的方案,从LED 光探测器到TOF,表明移动端TOF方案在技术方面已经获得了巨大的进步。
通过Chipworks网站的拆解,可以看到意法为iPhone7提供的基于TOF原理的距离传感器,主要包括一个VCSEL发射器和两个SPAD(单光子雪崩二极管)探测器,被整合于一般的CMOS工艺中。
TOF时间光相比于结构光更加适合应用到智能手机上,采用TOF原理来实现动作追踪和深度感知已经出现在谷歌的Project Tango方案中,主要用于空间三维数据的采集,与应用于手势/脸部识别是非常接近的。
在景深传感器方面,采用的是TOF原理,使用的是英飞凌和PMD合作开发的技术方案。
根据日本Nomura公司的分析报告,联想Phab2 Pro在红外发射方面采用的是Princeton Optronics设计的VCSEL(垂直腔面发射器),由台湾宏捷科(AWSC)提供代工;在红外接收方面,英飞凌负责提供红外CIS芯片,PMD提供飞时测距(TOF)形成景深数据部分;整个TOF模块由中国舜宇光学提供封装。
通过详细分析微软Kinect二代(TOF原理),可以看到TOF方案的主要硬件结构为:红外光发射器(IR LD)、红外光图像传感器(IR CIS)、可见光图像传感器(Vis CIS)、图像处理芯片,硬件结构与联想Phab2 Pro相机是非常类似的。
整个三维视觉系统的工作原理为:首先红外激光发射器(IR LD)发射出近红外光(IR Light),经过人手或人脸的反射之后,被红外图像传感器(IR CIS)所接收,这个图像信息用来计算人手所处的位置(Z轴);
同时,可见光图像传感器采集二维平面(X与Y轴)的人手信息(Vis Light);两颗图像传感器的信息汇总至专用的图像处理芯片,从而得到人手或人脸的三维数据,实现空间定位。
TOF与结构光的区别在于对红外光的使用方式不同,TOF通过计算红外光发出光线与返回光线之间的向位移变化换算为位置信息,而结构光依靠向物体投射一系列光线图案组合,然后通过检测光线的边缘来测量距离,二者的硬件结构是类似的。
二者比较明显的区别在于,在红外光发射端,结构光由于需要形成特定的光学图案,所以需要添加特制的DOE(衍射光栅)和Lens(光学棱镜)。
2)硬件层面:VCSEL与红外CIS摄像头成为市场新增量
根据中国台湾科技时报的统计数据,对于移动端3D视觉而言,红外光发射器的成本在2-2.5美元/颗,是占比最高的单颗元器件;图像处理芯片,为1-1.5美元/颗;红外CIS与可见CIS的价格接近,为1-2美元/颗,在红外CIS上还需要添加高质量的红外滤色片(IR Fliter),价格为0.5-1美元/颗。整个系统模组的封装成本为3-4美元/颗。
红外光发射器
红外主要波长是700nm-2500nm。目前的摄像头图像传感器对900nm以上的红外光感应差,需要更强的光才能感测到,这就要求红外发射器有更大的电流,更多的功耗。
而800nm以下的波长,太靠近可见光,极其容易受到太阳光的干扰,所以一般红外的波长在800nm-900nm。目前,可以提供800-900nm波段的光源主要有三种:红外LED、红外LD(激光二极管)和VCSEL(垂直腔面发射激光器)。
三星Note7和富士通ARROWS NXF-04G手机中搭载的虹膜识别功能,采用的就是红外LED作为发光光源,波长为810nm,欧司朗提供。
虹膜识别采用红外LED的重要原因是LED可提供大角度散射光,消费者在使用时位置即使眼睛位置有所偏差,虹膜也可以被照射到。
但是红外LED不适合移动端3D视觉,尤其是集成到手机上的话,因为其光线指向性差、功耗大、响应速度较慢。
红外激光二极管是指可在一个频率上产生相干红外光束的半导体二极管,通常是由砷化镓或掺杂有铟和铝之类其他材料的砷化镓制成。
与LED相比,具有激光的定向性好、高亮度特点,比较常见的是LD-DFB规格(以FP腔为谐振腔,发出多纵模相干光),为边发射模式(简称EEL)。在激光通信、光存储、光陀螺、激光打印、测距以及雷达等方面以及获得了广泛的应用。
VCSEL可以说是红外激光LD的一种,全名为垂直共振腔表面放射激光,顾名思义,它是可以垂直发射模式,与其他红外LD的边发射模式不同。
VCSEL的垂直结构更加适合进行晶圆级制造和封测,规模量产之后的成本相比于边发射LD有优势,可靠性高,没有传统的激光器结构如暗线缺陷的失效模式。相比于LED,VCSEL的光谱质量高,中心波长温漂小,响应速度快,优势明显。
综合分析三种方案,LED虽然成本低,但是发射光角度大,必须输出更多的功率以克服损失。
此外,LED不能快速调制,限制了分辨率,需要增加闪光持续时间;边发射LD也是手势识别的可选方案,但是输出功率固定,边缘发射的模式在制造工艺方面兼容性不好。
VCSEL比LD-EEL的优势在于所需的驱动电压和电流小,功耗低,光源可调变频率更高(可达数GHz),与化合物半导体工艺兼容,适合大规模集成制造。尤其是VCSEL功耗低、可调频率高的优点,使其比LD-EEL更加适合消费电子智能终端。
VCSEL的制造依赖于MBE(分子束外延)或MOCVD(金属有机物气相沉积)工艺,在GaAs(80%左右的份额)或InP(15%左右的份额)晶圆上生长多层反射层与发射层。
典型的VCSEL结构包括:激光腔(laser cavity),顶部和底部分布式布拉格反射器(DBR),电极等部分,其中激光腔的主要部分是量子阱(quantum wells)和光限制层(confinement structure)。
由于VCSEL主要采用三五族化合物半导体材料GaAs或InP(含有In、Al等掺杂),因此移动端VCSEL产业链与化合物半导体产业链结构类似。
目前,全球范围内主要的设计者包括Finsar、Lumentum、Princeton Optronics、Heptagon、ⅡⅥ等公司,它们在移动端VCSEL处于前沿的研发角色。
由IQE、全新、联亚光电等公司提供三五族化合物EPI外延硅片,然后由宏捷科(Princeton Optronics合作方)、稳懋(Heptagon合作方)等公司进行晶圆制造,再经过联钧、矽品等公司的封测,便变成了独立的VCSEL器件。
然后由设计公司提供给意法半导体、德州仪器、英飞凌等综合解决方案商,再提供给下游消费电子厂商。
红外光图像传感器
红外CMOS图像传感器(IR CIS)用来接收被手部或脸部反射的红外光,这是一个比较成熟的器件。
在搭载虹膜识别功能的三星Note7和富士通ARROWS NX F-04G手机中均出现IR CIS,其中三星的红外CIS中传感芯片由三星自家提供,镜头来自于韩国厂商Kolen,模组由韩国厂商Patron制造。
目前来看,红外CIS供应商主要包括意法半导体、奇景光电、三星电子、富士通等公司。
相比于可见光CIS,红外CIS还是一个比较小的市场,但是增速很快,随着热成像、汽车夜视、安防监控、手势识别、虹膜识别等的普及,红外CIS出货量有望快速增长。
对于3D视觉而言,IR红外摄像头与RGB可见光摄像头在滤色片方面存在较大的差异。传统的RGB可见光摄像头,需要采用高通红外滤色片,将不必要的低频近红外光过滤掉,以免红外光线对可见光部分造成影响,产生伪色或波纹,同时可以提高有效分辨率和彩色还原性。
但是红外摄像头,为了不受到环境光线的干扰,需要使用窄带滤色片,只允许特定波段的近红外光通过,目前近红外窄带滤色片主要采用干涉原理,需要几十层光学镀膜构成,相比于RGB吸收型滤色片具有更高的技术难度和产品价格。
目前,近红外窄带滤色片主要厂商包括VIAVI、水晶光电等。
可见光图像传感器
可见光图像传感器(Vis CIS)是非常成熟的商业化产品,随着智能手机拍照功能的不断完善,可见光CIS的分辨率越来越高、功耗越来越小、技术也越来越先进。
图像处理芯片
图像处理芯片需要将红外光CIS采集的位置信息与可见光CIS采集的物体平面信息处理成单像素含有深度信息的三维图像。
该芯片具有一定的技术壁垒,对于算法层面的要求较高,目前全球范围内可以提供该类产品的公司为少数几家芯片巨头,包括意法半导体、德州仪器、英飞凌和恩智浦(已被高通收购)等。
红外光发射端DOE与Lens
对于结构光方案而言,在红外光发射端必须配有DOE(衍射光栅)和Lens(光学棱镜),因为结构光需要以线条等图案的形式发射红外光,这需要特定的光栅和光学棱镜的参与才能够实现。
3)算法与软件层面:AI人工智能将成为提升精度的重要因素
随着AI人工智能技术的大幅进步,人工智能方案已经在语音识别、语义理解、图片识别等领域取得成功,在物体识别、人脸识别方面也取得了长足的进步,3D视觉在算法方面与人工智能结合,将实现识别精度的大幅提升,对于更加复杂的手部动作/面部表情可以进行更加深刻的理解和分析,这将极大促进3D视觉的推广和实用价值。
5.国内外产业链相关公司分析
在主流的三种技术方案中,TOF方案响应速度快,深度信息精度高,识别距离范围大,不易受环境光线干扰,因此是移动端3D视觉比较可行的方案;结构光方案由于技术较为成熟,工业化产品较多,也被部分厂商所采用;双目立体成像是比较新的技术,参与的厂商较少,更适合室外强光条件和高分辨率应用,目前主要应用在机器人视觉、自动驾驶等方面。
1)综合技术方案提供商
目前,在深度相机综合技术方案方面,国外参与的公司众多,既有微软、英特尔等巨头,也有德州仪器、意法半导体、英飞凌、AMS(Heptagon)等芯片巨头,还包括SoftKinetic(索尼收购)、PrimeSense(苹果收购)、LeapMotion等明星创业型公司。
目前,国内从事深度摄像头综合技术方案的主要公司包括:TOF方案——舜宇光学、海康威视、深圳乐行天下,结构光方案——深圳奥比中光、南京华捷艾米,双目立体成像方案——上海图漾科技。
2)系统模组封装与集成供应商
由于3D视觉方案涉及较多的硬件部分,需要红外发射端、红外接收摄像头、可见光摄像头、图像处理芯片四大部分的协同合作,红外光的发射与接收之间的匹配对整个3D视觉方案的准确度和响应速度至关重要,因此整个系统模组的封装和集成是非常关键的。
在联想Phab2 Pro手机中,3D深度相机的模组封装与集成由舜宇光学完成。除了舜宇光学之外,具备移动端3D方案模组封装的厂商还包括欧菲光、LG Innotek、Sharp等。
3)红外光发射器-VCSEL
由于VCSEL在高端短距离光通讯领域应用广泛,因此国内光通讯器件龙头光迅科技在VCSEL方面已经有商业化产品推出。但是,致力于移动端VCSEL设计的公司主要包括Finsar、Lumentum、PrincetonOptronics、Heptagon、ⅡⅥ等国外公司,国内公司涉及较少。
中科院长春光机所在VCSEL科研领域处于世界前沿地位,2014年5月长春光机所在国内首次研制出碱金属原子光学传感技术专用的795nm和894nm 垂直腔面发射激光器(VCSEL)。可作为核心光源用于芯片级原子钟、原子磁力计、原子陀螺仪等碱金属原子传感器。
VCSEL主要基于三五族化合物砷化镓制造而成,目前在VCSEL和制造和封测方面,目前主要是台湾化合物半导体厂商参与,包括外延片提供商IQE(英国)、全新、联亚光电,晶圆代工宏捷科、稳懋,封测厂联钧、矽品等。
国内方面,三安光电在化合物半导体外延生长和晶圆制造领域发展迅速,具备较强的实力,公司在国家大基金的支持下建设年产30万片GaAs和6万片GaN的6寸生产线,建设进程顺利。
4)红外与可见CIS摄像头
红外CMOS图像传感器(IR CIS)用来接收被手部反射的红外光,这是一个比较成熟的芯片。
红外CIS供应商主要包括意法半导体、奇景光电、三星电子、富士通等公司。相比于可见光CIS,红外CIS还是一个比较小的市场,但是增速很快,随着热成像、汽车、监控、手势识别、虹膜识别等的普及,红外CIS出货量有望快速增长。
中国大陆目前已经在摄像头方面形成了完善的产业链结构,在CIS芯片方面有北京君正(OV)、格科微电子、比亚迪电子等公司,在光学透镜方面有舜宇光学、联创电子等,在模组制造方面有欧菲光、舜宇光学、丘钛科技等公司。
根据前文我们的分析,对于3D视觉而言,IR红外摄像头与RGB可见光摄像头在滤色片方面存在较大的差异。红外摄像头为了不受到环境光线的干扰,需要使用窄带滤色片,只允许特定波段的近红外光通过。目前,近红外窄带滤色片主要厂商包括VIAVI、水晶光电等。
5)图像处理芯片
该芯片具有一定的技术壁垒,对于算法层面的要求较高,目前全球范围内可以提供该类产品的公司为少数几家芯片巨头,包括意法半导体、德州仪器、英飞凌、恩智浦、安霸,以及索尼、东芝、富士通等日本芯片巨头。
在图像处理芯片方面,国内公司全志科技、北京君正和瑞芯微具备一定的实力,尤其是在几年前平板电脑爆发时得到了快速成长。
6)国内产业链受益公司汇总
经过我们前文的分析,移动端3D视觉作为一个崭新的技术,已经出现在微软Kinect、英特尔RealSense等产品中,随着硬件端技术的不断进步,算法与软件层面的不断优化,3D视觉的精度和实用性不断得到提升,尤其是TOF方案与VCSEL的快速成熟,使得“深度相机 手势/面部识别”具备了大规模进入移动智能终端的基础。
分析整个产业链的结构,无论是结构光方案、TOF方案,还是双目立体成像方案,主要可以划分为:综合技术方案提供商、算法与软件商、硬件供应商三部分,其中硬件又可以划分为四大元器件(红外发射器、红外CIS摄像头、可见光CIS摄像头、图像处理芯片,另外红外摄像头需要特制的窄带滤色片,结构光方案需要发射端光学棱镜与DOE光栅,双目立体成像方案多一颗红外CIS摄像头)。
综合技术方案提供商
国内从事深度摄像头综合技术方案的主要公司包括:TOF方案——舜宇光学(2382.HK)、深圳乐行天下,结构光方案——深圳奥比中光、南京华捷艾米,双目立体成像方案——上海图漾科技。
系统模组封装与集成供应商
在联想Phab2 Pro手机中,3D深度相机的模组封装与集成由舜宇光学完成。欧菲光、丘钛科技等相机模组制造商,由于在相机模组制造方面积累了丰富的经验,具备发展相应技术的潜力。
算法与软件商
目前,算法方面还没有成为独立的一环,因为大部分综合技术方案供应商已经在算法层面进行优化,目标是为客户提供硬件 算法一体化的方案。
硬件供应商
红外发射器
国内在VCSEL方面起步较晚,在设计方面还不具有有竞争力的公司,长春光机所在VCSEL科研领域处于世界先进水平;光迅科技曾开发出光通信使用的VCSEL芯片。由于VCSEL主要材料为GaAs(掺杂In、Al等),在工艺方面与化合物半导体类似,在化合物晶圆制造方面,三安光电具有较强的实力。
红外与可见光CIS
中国大陆目前已经在摄像头方面形成了完善的产业链结构,在CIS芯片方面有北京君正(拟收购OV和思必科)、格科微电子、比亚迪电子等公司,在光学透镜方面有舜宇光学、联创电子,在模组制造方面有欧菲光、舜宇光学、丘钛科技等公司。
3D视觉方案需要克服环境光线的干扰,因此在红外CIS上需要添加窄带滤色片,国内公司水晶光电具有深厚的技术基础和较高的国际知名度,有望受益。
图像处理芯片
在图像处理芯片方面,国内公司全志科技、北京君正和瑞芯微具备一定的实力,尤其是在几年前平板电脑爆发时得到了快速成长。
结构光DOE与Lens
对于结构光方案而言,需要通过衍射光栅DOE和光学棱镜Lens,获得特定形状的光斑,一般采用MEMS工艺制造加工。