Kinect=鼠标3.0,软件的下一代用户界面

作者:本网编辑 发布时间:2011-05-06
分享到

3D自然用户界面为人类展现更为自然的视觉和导航影像。人类的双眼拥有立体视觉,恰似为3D而生。正如从CLI(命令行界面)到GUI(图形用户界面)的变革一样,软件界面从GUI(图形用户界面)到NUI(自然用户界面)的变革将造成市场断层,为最先应变而动的商家创造大好机遇。

Ralph Rio·ARC顾问集团分析师

Xbox360新型体感设备 Kinect当属本季假期的一款热门游戏。针对其核心技术展开的一项调查表明,除在游戏世界外,该设备在其他领域也大有用武之地。Kinect运用了新一代尖端技术NUI(自然用户界面),扫描3D影像和音视频输入。几乎所有的大型商用软件都含有多维数组,像ERP,EAM,GIS和HR等, 拥有3D导航技术的NUI,可满足三个或以上关系数据表的应用。继GUI之后,NUI时代已经到来,这一重大变革将造成市场断层,为最先应变而动的商家创造大好机遇。

3D显示的重要组成部分——输入设备

对于含3D物体或数据的相关应用而言,像CAD/CAM设计创作工具、GIS绘图、石油勘探、矿区规划、3D电影制作等等,3D显示为其使用性能的提升带来了极大希望。而显示器仅仅是输出设备,位于平面上的鼠标作为输入设备却无法很好地转化进3D空间。当我的女儿说服我给她买了一台Kinect作为假日礼物时,我抑制不住内心的好奇,想要探究清楚这设备的工作原理。我相信,这一技术为未来工业和商务软件的用户界面开辟了种种新可能。

用户界面的发展新趋势

人类与软件之间的交互方式一直在发展进步,每一次方式转变都会带来严重的市场间断。20世纪80年代,用户界面由命令行界面(CLI)转型为图形用户界面(GUI)。近年来,随着iPad,color Nook(彩屏电子书)和智能手机等移动设备一路走红,MUI(移动用户界面)已在市场上站稳了脚跟。预计2011年,MUI设备的单位销售额会超过GUI电脑。NUI技术即将融入更多的产品,Kinect的问世为未来开发用于导航3D应用的“鼠标”划出了起点。

关于Kinect

Kinect集成传感器、处理芯片和软件中间件在内。其中,传感器又包括:

红外激光(也有人称之为“结构光”),用于三维点云捕捉,像素为640 ×480,含像素深度;

基于点云的彩色影像(像素为1600×1200),能够显著改善视觉效果;

可进行语音识别的音频麦克风。

这些信号的处理离不开一项核心技术,这包括由PrimeSense公司(总部位于以色列、靠风险投资组建的一家公司)生产的芯片和软件中间件。其中,软件中间件包括:

参考设计(Reference Design),获取三维影像的深度;

NITE中间件,处理深度数据(特征检测和姿势识别)。

Kinect输出的是红外激光视程范围内各表面的三维地图。该视野宽为58,高为40,深度为2.6~11.5ft(0.8~3.5m)。对于远在6.5ft(2m)左右的物体而言,X和Y空间维上的空间精度是1/8in(3mm),Z空间维上的空间精度为0.4in(1cm)。这样的精度对于对象模型和软件程序导航已经绰绰有余。

要让静态麦克风与室内随意走动的人们之间实现完美组合,在语音识别上出现了诸多特殊难题。为解决这些困难,在进行设置时,语音识别功能会根据房间的反射性创制一幅音频分布图。音频处理器则利用这幅图来执行多通道上的回声消除,以提高对声音命令的解读能力。

仅有一台Kinect时,物体背后的情景未能被检测出来。于是有人编写了演示软件,即如何同时使用多台Kinect得到更为完整的点云(可在谷歌搜索“同时使用两台Kinect”查看演示视频)。

规模经济

自20世纪80年代始,音乐CD的盛行催生了规模经济,为媒体和商家降低了成本。1985年,这一技术首先在用于数据存储的只读光盘驱动器(CD-ROM)上获得应用,并迅速取代其他用于管理软件和归档文件的计算机介质。NUI技术在游戏领域的应用也同样产生了规模经济。随着NUI应用范围越来越广,其成本也越来越低,自然而然进入一种自我强化的良性循环。

过去,网络摄像头是独立设备,要依靠USB才能接入电脑。现在,摄像头嵌入在手提电脑和个人电脑的显示器上。我们可以预见,与Kinect相似的三维NUI也会经历这样一个过程。我们也可以预言,这一领域的改进将层出不穷,集成电路元件的芯片数量会日益减少,额外的处理资源促进精确度会日渐提高,凡此种种都将降低设备成本。

自然用户界面的应用领域

当前,传统的电脑游戏限定了Kinect的应用空间。静止不动的传感器为局部环境(如游戏玩家们所在的房间)提供了三维视野。在未来,人们可以期待传感器在其他场所以其他视野享有更广阔的应用机会。

在墨西哥湾发生BP石油泄漏事件期间,深海机器人的作业员曾一度受制于导航困难。他们看到的平面视频无法在深度上提供参考。结果,作业员虽然能看到机器臂上的工具已经放到了应放位置的右边,却无法确定这一工具是在前面、侧面还是后面。期间确实出现了错误,而且有几处错误还导致工作延迟。在深海机器人身上添置像Kinect这样的传感器将能帮助其感知深度,从而使其手臂及其所持工具的运作更为自然。而且,再考虑一下把这一技术应用到作业员的显示器上以进行头部位跟踪的情形,作业员只需移动头部就能看到物体后面的情形,身临其境般获得真实体验。而实际上由于成本太高且过于危险,人类是不会置身于深海的。

即将到来的市场断层为业务带来新机会

我这份报告不过是抛砖引玉,关于如何扩展新的应用,有心之人自然会有无限创意。现在,我们暂且把关注点放在下一代鼠标三维NUI上。对于那些三维CAD设计的物体,其显示和操作我们都可以轻易看清。但是,对于那些数据密集的商务应用,我们使用二维GUI的体验却会限制我们的思维。

假设一位维修调度员正在给一位电工分配一项工作任务。这位调度员还打算在同一地区给这位电工分配一些其他的工作任务以填满其8h一班的工作时间——减少电工在路上穿梭的时间可以增加其有效工作时间。我们设想一下,在工厂的3D模型上置有许多工作任务编号,带有三维NUI的EAM应用系统会将这些编号展示出来,并通过语音命令重点展示那些位于附近区域、需要电工服务的工作任务。调度员会选择合适的工作任务并将其放入存储筒内,存储筒同时会计算一位电工要完成所有这些工作任务所需的时间。8h过后,调度员把存储筒移到这个电工的图像那里,就把他这8h内所完成的工作存放好了。

调度员的显示器包括关于工作任务、资产位置、 HR技术证书和工厂模型的所有资料——其中,每一项的工作表都存在关系数据库里。几乎所有的大型商用系统(ERP、EAM、GIS、HR等)都有多维数据数组。任何应用,只要用到有三个或以上工作表的关系数据库,三维NUI均适用。

结语

将软件从2D推向3D需要两种硬件。3D显示器业已应用多年,但过去缺少3D鼠标。ARC认为,这项基于游戏、用于Kinect的最新技术会填补这个空白。微软若要推出一款3D游戏的话,可能会是拉动3D电视销量的“杀手级应用”。

IT界专家应该逛一逛有演示Xbox和Kinect的电子商店,在那里好好玩一玩——我是当真的。你们得体验一下三维NUI,才能充分领略它的美妙。

软件供应商们则应该买台Kinect,以供其卓有创意的工程师展示之用。Kinect的展示驱动程序(hacks)在所有操作系统上均可使用。

人类拥有双手和手指,非常适于使用滑动手势的MUI(移动用户界面)。我们的双眼也有3D立体视觉,适于NUI(自然用户界面)。可以预见,这两种用户界面的相关应用有交集,并且会朝两个方向发展:一类是移动应用,滑动手势的MUI;另一类是静态的,针对用到3D和NUI技术更为复杂的应用。软件界面从GUI到MUI和NUI的巨变会带来市场断层,这将为最先应变而动的商家成长为新一代的市场领军者创造大好机遇。

收藏
赞一下
0