提到AR/VR设备你会想到什么？赛博朋克风的画面，还是虚拟与现实叠加带来的科幻感？

当大家的目光仍聚焦于视觉交互层面时，业内一场有关听觉层面的变革已经悄然兴起。

国内人机交互产品平台公司Rokid近日发布了一组应用于AR眼镜的6DoF空间声场技术Demo视频。

不同于传统双声道、立体音带来的听觉体验，6DoF空间声场技术可以在混合现实中模拟声源与人耳之间因空间位置变化、有无遮挡物等带来的声音强弱与方向的变化，从而让AR眼镜为用户带来更具临场感的听觉体验。

什么是6DoF空间声场？

6DoF空间声场其实是声音在三维领域的体现。但这不是简单的通过更多声道让声音更有立体感，而是和视频空间化同步的音频空间化过程。因此包含了两个必备要素——3D音频和头部运动的实时反馈。

首先看6DoF空间声场的第一个必备要素——3D音频。传统的5.1声道可以把声音展现在一个水平面上，声音定位因此具备前后、左右两个维度，这被称为2D音频。当一个音频同时还具有上下维度的时候，这个音频就是3D音频了。

△图：3D音频图示（图源自网络）

6DoF空间声场的第二个必备要素——对头部运动的实时反馈。在现实世界中，当我们的头部发生转动或位移，声源本身的绝对位置不会改变，而声源与头部相对方向会产生变化。

举一个例子：在你前方有把吉他正在弹奏音乐，如果你转向右边，音乐声就会相对地变到你的左边；如果你转向左边，音乐声就会相对地变到你的右边。因此，要在混合现实中实现更接近于现实中的听觉体验，就需要准确定位声源与用户头部之间的空间位置，即实现对用户头部运动的实时追踪。

6DoF空间声场的实现需要软硬件高度协同

要满足6DoF空间声场技术的两个必要元素并非易事，在技术层面，这需要空间引擎（Space Engine）和音频引擎（Audio Engine）高度融合，并充分利用硬件资源。

空间引擎的核心工作是虚实空间融合。引擎预先利用三维重建技术构建地图，建立虚拟世界坐标系，并增加虚拟物体，设置位姿、形状、材质等属性。

运行时，通过处理传感器数据得到观察者（如佩戴AR眼镜，观察者就是人的头部位置）的真实空间位姿和本地地图，进而通过地图匹配得到真实空间和虚拟空间的位姿变换，就可以把位姿统一在虚拟世界坐标系里。

根据不同的传感器类型和数量，空间引擎可以获得观察者不同类型的自由度（Degrees of Freedom-DoF）信息，从而为音频引擎提供必要的空间信息。

比如人头的自由度分为：既有位移又有旋转的6DoF、只有旋转的3DoF、人头不动的虚拟空间，那对应的音频也就可以分为6DoF空间声场、3DoF空间声场、环绕声。因此，6DoF空间声场技术就需要获得更复杂的人头自由度。

△图：6DoF自由度（图源自网络）

音频引擎的核心工作是对音频信号和 HRTFs（Head Related Tranfer Functions，头相关传递函数，简称头传函数）做卷积，生成双耳音频。HRTFs是在水平角（azimuth）、俯仰角（elevation）和距离（distance）这三个度量维度做坐标采样测量出的卷积核集合，其准确性是6DoF空间声场呈现效果的主导因素。

但目前可商用的HRTFs数据库能达到的精度还未完全与人耳的听辨能力所媲美，更具挑战的是每个人的人体工学参数和心理声学系统都不同，甚至会随着年龄增加而变化。

准确测量每个人的HRTFs参数显然不现实，如何才能低成本地⽣成个性化HRTFs？已经实现6DoF空间声场技术落地的Rokid技术团队给出了一个解决思路，即在考虑端上NPU/GPU等计算性能的情况下，结合深度学习技术，对更精细化的成分做出更精细的生成。

△图：XR设备应用6DoF空间声场需要软硬件高度协同

此外，为了增加遮挡、反射、混响等效果，让6DoF空间声场更具真实感，还需要用到诸如几何声学（Geometric Acoutstics）的光线追踪和波动声学（Wave Acoustics）的球谐函数（Spherical Harmonics）分解等技术。这对设备的算力有着极高的要求，也会给设备带来更大的功耗负荷，增加设备成本和安全风险。所以在实际应用中，往往需要在球谐函数的阶数、语音质量以及空间精准度之间做相应的妥协与平衡。

除了算法层面，6DoF空间声场技术的应用也要考虑设备的硬件形态。当前的很多音频算法都是基于入耳式或头戴式喇叭，但AR眼镜作为未来用户长期佩戴的可穿戴式设备，如果采用入耳式设计不仅会严重地损伤用户听力，更是违背了AR对物理和数字的融合使命，因此，在保持开放式喇叭设计的同时，如何保障6DoF空间声场的呈现效果和安全性就成为了新的挑战。

目前，Rokid技术团队采取的办法是，通过定向声技术的研究与使用，来解决隐私性问题。同时，为了让6DoF空间声场的音效更丰富饱满，通过音腔结构的设计、声音频率的修复、根据人耳听觉做声音谐波及混响等方式增强音质，减少音频效果的损失，让用户真正感受到“声临其境”。

一场声音革命，正在悄然兴起

6DoF空间声场技术在AR设备上的应用落地，让我们看到了声音在混合现实中的广阔应用空间。通过6DoF空间声场技术，AR眼镜等设备可以摆脱视场角（FOV）限制，让用户通过声音发现画面之外的内容，以此实现360度范围的内容呈现。

同时，除了视觉层面的交互，6DoF空间声场技术的应用让听觉也成为了新的交互维度。结合6DoF空间声场，用户可以在混合现实中快速准确定位发声物体的方向，清晰区分接收到的声音信息，感受声音距离和位置的变化……这将让用户在混合现实中获得更加接近现实世界的体验，从而进一步降低混合现实中数字世界和现实世界的割裂感。

6DoF空间声场带来的全新听觉体验正在冲击统领了大半个世纪的传统立体声音，但任何一项新技术的应用和普及都绝非只靠某一团队、某一公司之力，这需要不断降低准入门槛，吸引更多行业力量的加入。

如Rokid就表示将把6DoF空间声场集成到全新升级版的YodaOS-XR操作系统中，作为YodaOS-XR操作系统的基础能力供行业开发者们进行调用。同时，Rokid还计划推进更多应用于AR眼镜的特殊音效的开发，如环绕与微重低音的高保真音效等，以高效易用的SDK让开发者真正实现即拿即用。

有消息称，Rokid全新升级的YodaOS-XR操作系统或将于今年下半年对外发布，包含诸多自然交互引擎、友好的UI界面、原生XR应用以及应用开发框架等。届时开发者们能够专注于精品内容的打磨，开发出各类富有想象力的应用和内容，比如XR游戏、XR会议、XR社交、XR影院等，和广大用户携手进入真正的AR世界。

XR时代的终极目标是虚拟世界和物理世界的完美融合，这种融合主要是对人类与外界进行信息交换的一些方式，如触觉、听觉、视觉、嗅觉、味觉等进行模拟和增强。

6DoF空间声场等技术的应用拓宽了XR设备的想象边界，也悄然掀起了一场感知交互革命。我们或许可以预见，在视觉和听觉之后，触觉、嗅觉、味觉等“感官体验”也将在XR时代被重新定义。

现在，耳朵也要进入元宇宙了

什么是6DoF空间声场？

△图：3D音频图示（图源自网络）

6DoF空间声场的实现需要软硬件高度协同

△图：6DoF自由度（图源自网络）

△图：XR设备应用6DoF空间声场需要软硬件高度协同

一场声音革命，正在悄然兴起

相关阅读

元宇宙造芯，从AR开始

2499元！Rokid Glasses 发布，AR眼镜跑步进入消费时代

全球首款经 Google 认证的 AR版便携式Android TV™ 设备Rokid Station发售

Rokid消费类AR产品销售突破30,000台

漫步莫奈花园、对话梵高和达·芬奇，366幅真迹零距离

6万台Rokid Air售罄，Rokid“0库存”迎接新品发售

热门文章

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

数学家们仍在追赶天才拉马努金

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

蔚来李斌：一年减少了数十亿英伟达芯片采购