扒一扒Hololens让人惊艳的黑科技

前沿新观察·2016-09-08 16:20

对微软这款AR眼镜是如何工作的却又知之甚少（网上各种鱼龙混杂的介绍也很多），当然3000美金的价格也让大多数人望而却步，更加深了其神秘程度。

作者：腾讯研发部，游戏研究组Starkwang（汪佳逸）

一个Pokemon Go让AR一下子进入了大众视野，仿佛一夜之间AR的民众普及度达到甚至超过了深耕这么多年的VR。然而，pokemon go其实并不是真正意义上的AR，按照严格定义归于MR范畴。那么大家不禁要问，到底什么是AR？

现阶段真正量产的民用AR头显（HMD，Head Mounted Display）就要数微软的Hololens，从它公布发售到现在也过去大半年有余。笔者发现大家对AR的热情很高，但是对微软这款AR眼镜是如何工作的却又知之甚少（网上各种鱼龙混杂的介绍也很多），当然3000美金的价格也让大多数人望而却步，更加深了其神秘程度。

笔者今天就带大家一睹其硬件技术细节，将其扒出来看个透彻，希望大家看完之后对相关技术，优势和发展有个大致的了解。

Hololens硬件指标：

*上述硬件指标总结以及摘录自微软官方网站

通过官网的“简单”介绍（真的是非常简单，而且很多都是概念性的表述，没有具体型号），我们大致可以看出，Hololens其实是一个完完全全的PC：运行着Win10，用着X86架构的CPU，这很不同于现在的很多基于ARM处理器的移动设备。这跟后文会提到的最近另一个比较火的AR眼镜——Meta2相比，Hololens确实很先（牛）进（逼），因为Meta2这货竟然还需要接PC。

但是这可不仅仅就是个小型化的移动PC，为了能够处理全息影像，微软还号称特地定制了一块HPU（全息处理单元），由TSMC 28nm制程，有24 个 DSP 核心，6500 万个逻辑门，8MB 的 SRAM 内存。

那么看起来Hololens已经具备很强的计算/图像处理能力了，但是这对于AR头显来说还是远远不够的。

AR的关键硬件技术难点

AR技术难点有SLAM算法，数据处理，人机交互，显示成像技术，小型化/集成化，音频技术等等，而现阶段主要是SLAM算法，人机交互和显示成像技术。由于SLAM算法不属于硬件范畴，本文就不继续讨论了，而且从Hololens的实际表现来看，其SLAM算法已经足够稳（Niu）定（Bi）了。

人机交互

对于VR来说，沉浸感使得传统的键盘、鼠标输入作古，急需新的交互方式，现阶段的VR则是以千奇百怪的手柄来实现。而AR头显也面临一样的问题，想想坐着用着鼠标、键盘亦或是手柄来体验AR是多么的二。因此，新型的人机交互方式对于VR和AR设备来说都非常有吸引力，各大厂商也在做相关布局。

（1）语音识别

Hololens既然跑的是win10，那微软自带的cortana也是同样具备。巨硬在自然语言识别上的功底大家还是有目共睹的，这里就不赘述了。

硬件上，Hololens具备4个立体声麦克风，佩戴方式较为固定且离人的嘴巴不远，因此语音信号获取上的难度大大降低，其语音识别较（非）为（常）准确，特别是在游戏“Fragments”中的表现非常抢眼。

现在国外的代表公司都有：

Nuance，苹果（包括收购的Siri Inc.，Novauris Technologies，VocallQ和Emotient）
Google（包括收购的SayNow，Phonetic Arts，Wavii，SR Tech Group及出门问问）
Amazon（包括收购的Yap，Evi，Ivona Software）
Facebook（包括收购的MobileTechnologies和Wit.ai）
微软

而国内的语音技术公司则没有国外的巨头那么豪，基本不靠收购以自力更生为主，代表公司有：

科大讯飞（依靠中科大的语音处理技术）
百度（与中科院声学所合作）
思必驰（获Ali投资）
云知声（与中科院自动化所合作）

（2）手势识别

一个背景知识就是，Hololens的总负责人Alex Kipman也是另一个微软的明星产品Kinect的负责人。因此我们通过两者的分解图可以发现，hololens的手势识别的部分基本上就是把kinect2缩小了搬了过去。

对！就是这个巴西裔哥们~

Hololens或者说Kinect2的手势识别采用了TOF（Time of Flight）技术，相比于另外两种比较主流的技术方案：结构光（Structure Light，下图中的Light Coding与其类似，代表作Kinect1代）和多摄像头成像（Muti-camera，代表作Sony PS Eye），就计算上而言，TOF是三维手势识别中最简单的，不需要任何计算机视觉方面的计算，并且TOF技术刷新速率更快，并且有着更好的扫描精度，因此有着非常不错的体验效果。

绿色的部分是红外发射器，蓝色部分是红外捕捉摄像（也就是指标中提到的depth camera），红色部分则是RGB摄像头（也就是指标中提到的2MP photo / HD video camera，恩，只有200w），换句人话就是最普通的了。我们使用Hololens的流媒体播放模式时，看到的画面就是靠它了。

现在国外的代表公司都有：

Intel - Real Sense
PrimeSense/Apple（为微软第一代Kinect提供技术，2013年被苹果3.6亿美金收购）
微软（两代kinect都很成功）
Leap Motion（采用多摄像头成像原理，成本低）
Sony（自家产品PS Eye，采用多摄像头成像原理，2015年又收购Softkinetic 公司）

而国内的体感技术公司则相对较少，主要有：

华捷艾米（在体感界小有名气，主要采用结构光技术，有自主知识产权，而且能给企业定制体感技术解决方案，该公司的体感摄像头性能堪比kinect1代）
奥比中光（技术实现原理与华捷艾米一致）
大疆（其无人机采用双目多摄像头成像原理）
上海图漾（采用双目结构光）
深圳乐行天下（采用TOF方案）

显示/光学单元

前面铺垫了这么多，其实整个Hololens硬件最为重要的部分就是显示/光学单元了，这个也是AR硬件的核心。

（1）竞品分析

在分析Hololens之前我不妨先给大家讲讲另外两个产品，Google Glass（上）和Meta 2（下）。

Google眼镜（Google Glass）是Google开发的，所谓的AR眼镜（然而其实并不是）。开拓者版本售价1500美金（微软相比较而言简直是良心公司）。其采用液晶覆硅（LCoS）技术投射画面（这倒是与Hololens一致，后面会深入解读），并且用一块半透半反镜将图像反射到人眼（原理如下图所示）。

而Meta2则是美国初创公司Meta的最新一款AR头显，预售价949美金。其拥有 2560*1440 (单眼 1280*1440 )的分辨率，以及 90°的视场角（听起来很强大，就问你怕不怕）。其简单粗暴地采用一大块（真的是一大块，所以能把视场做的这么大）眼镜屏幕来显示画面，随后用用一块半透半反镜将图像反射到人眼，这与Google Glass如出一辙。

那么缺点就很明显了：

首先半透半反镜/膜是需要一定的角度的，这就是为什么Meta2或者Google Glass的反射部分这么的大，整体尺寸大，特别是Meta2，前面凸出来一大截，就是为了给半透半反膜提供角度；

其次毕竟半反半透膜的反射效率不是100%，势必会损失一部分的亮度，所以采用这种技术会导致亮度低；

最后其可视视角是与投射画面的大小正相关的，因此如果想把发光部分做小，视角就小（如Google Glass），如果强行做大，那就跟Meta2，使屏幕尽可能大，同理画面越大,半透半反镜/膜的尺寸也要越大。

总结一下就是，亮度低，尺寸大，效果差，当然优势也有，那就是非常便宜。

（2）显示技术——LCoS技术

现在的科技水平决定了，人们想看到一个虚拟的图像，那么一定需要有：图像源。并且由于光线最终是要进入人眼的，因此其显示部分不仅要有显示能力，还需要有光的定向投影能力。所以说仅仅是液晶显示器，其发射光的亮度和效率是远远不够的。在AR头显中，准确的说，实际需求的是微型投影机（Micro-Projector）。

上图就是传统的投影机的结构，这一堆的透镜看起来就离“微型”两个字很远。是的没错，这套系统很难做小，并且功耗很大。

液晶覆硅（又称硅基液晶，英文：Liquid Crystal On Silicon，缩写：LCoS）是小型化AR头显的关键技术之一。

三片式的LCOS成像系统，首先将投影机灯泡发出的白色光线，通过分光系统系统分成红绿蓝三原色的光线，然后，每一个原色光线照射到一块反射式的LCOS芯片上，系统通过控制LCOS面板上液晶分子的状态来改变该块芯片每个像素点反射光线的强弱，最后经过LCOS反射的光线通过必要的光学折射汇聚成一束光线，经过投影机镜头照射到屏幕上，形成彩色的图像。

在Hololens中，靠近鼻梁处的两处发光点就是LCoS微型投影仪所在处。整体看来结构，其实非常小而精巧，而不像Meta2那样直接摆一个那么大的显示屏，简单粗暴。

液晶覆硅具有利用光效率高、体积小、开口率高、制造技术较成熟、低成本等特点，它可以很容易的实现高分辨率和充分的色彩表现。

LCoS代表着最先进的小型投影技术，大部分的专利技术还掌握在国外公司手中。并且这项技术并不是想做就做的，面板的生产工艺和良品率问题最为重要，Intel、Philips、Colorado Microdisplay、Zight、ThreeFive都曾经涉足LCoS领域，可能没有解决好成本和良品率问题，最后退出。那么现在国外的能够真正量产的代表公司有：

Sony
JVC
Syndiant
SpatiaLight
Displaytech
Aurora Systems

而国内（包括台湾）的公司主要有：

台联电UMC（台湾）
奇景光电Himax（台湾）
前锦科技（台湾）
台达电子（台湾）
致伸科技（台湾）
中芯国际（大陆）
长江力伟（大陆）
鸿源数显科技（大陆）
全真光电（大陆）

（3）光学成像技术——全息衍射波导光栅（Holographic Diffraction Waveguide Grating）

当搞定了微型投影仪之后，就需要考虑如何将虚拟的图像投射到人眼中了，总不至于直接对着眼睛照吧？你别说，还真有，至少Magic Leap就是这么弄的，当然这个神秘的公司的神秘产品至今仍未披露任何信息，咱们师母已呆吧！

另一方面，利用半透半反镜/膜的技术，在前面已经说了，成本低，技术老，效果差，那么有没有高大上一点的呢？

答案是肯定的，例如咱们正要说到的Hololens，号称使用了See-through holographic lenses (waveguides)技术，听着好神奇，其实真正的学名叫做：全息衍射波导光栅。

全息衍射波导光栅整体上看原理相同（如下左图所示）。整个系统由微型投影仪，全息光栅和平板波导组成。图像经过透镜到达入射全息光栅（全息光栅1），由于全息光栅的衍射效应使平行光改变传输方向从而满足全反射条件并沿着平板波导方向向前无损传播。当光线到达出射全息光栅（全息光栅2）时，全反射条件被破坏从而使平行光出射，进入人眼。

全息衍射波导光栅其优点为：光线近似于两次90°的转折，使得该系统能够减小光线传播距离，保持光学系统的重心在头部以内（很影响人机效应），同时不需要用半透半反镜，使得系统简洁，小型化，整个系统可以非常扁平。（Hololens这么大是因为处理器，体感设备，PCB板，4个结构扫描摄像头比较大，光学部分是可以跟普通眼镜一样薄）

虽然原理接近，但是实现手段各有不同。现阶段的全息衍射波导光栅有几种主流方案：

基于三色服用相差补偿全息光学技术（MAC-HOE），代表是：美国物理光学公司（Physical Optics Corporation）
基于体全息光栅（Volume Grating）的Q-sight技术，代表是：英国的BAE公司，其为F16，F22，F35以及欧洲“阵风”战斗机提供衍射屏显产品
平板波导光栅技术，代表是：以色列威兹曼科学院
倾斜光栅技术，代表是：诺基亚
Lightguide Optical Element（LOE）器件，代表是：Thales Visionix公司的Scorpion，其使用了以色列的Lumus公司设计生产的LOE器件，为A-10C对地攻击机和F-16C Block 30提供相关技术
全色体全息波导光栅，代表是：Sony（其产品和BAE公司比较接近）2009年发布的Eyeglass（下图，很轻薄）

通过这几家的性能对比，现在军事上的全息波导头盔的视角最好也不过40°左右，所以就不必再吐槽Hololens了，这个已经是现在技术的几乎最优了。

这里看了半天，貌似跟微软没什么关系啊。其实，微软早些年已经买入了诺基亚的相关“倾斜光栅技术”专利。但是，其在2012年前后，密集地申请了一堆关于全息\体光栅\波导相关的专利。（去Google Patent上搜索Microsoft + waveguide + Holographic + Grating有很多）通过查看专利内容以及实际产品，我较为确定，微软的Hololens使用的是类似于Sony的体全息波导光栅技术。

Sony的全色体全息波导技术为了减少相近色光的串扰，G（Green）用单独的一套平板波导和光栅，而R（Red）和B（Blue）公用另一套平板波导和光栅。所以能够实现高饱和度，大视角的彩色图像。而通过观察Hololens实物，可以发现相比Sony，微软应该是将RB进一步分拆开，以降低串扰。整个光学通路就想左下图显示的那样。