高信噪比麦克风在VUI语音用户接口中的应用价值
VUI支持使用语音作为通信手段的人与设备之间的交互。它更多是以命令和问题的形式将信息传输到具有或不具有云连接的电子系统。VUIs在许多消费者领域应用中得到实现,如智能手机、智能电视和智能家居设备(如Amazon Echo或谷歌Home)。VUI的概念基于使用单个麦克风或数组捕获音频信号——参见图1。
图1 有线性麦克风矩阵的智能音箱内部示意图
录制的语音指令由应用处理器进行处理,通过波束形成、噪声消除等语音增强算法提高信号质量。改进后的信号被发送到云(例如Amazon Web Services/AWS或谷歌云)进行关键字和命令识别。相应的输出信号(例如问题或命令的答案)最终由VUI或辅助集成设备组件播放或执行—请参见图2。
图2 VUI的信号示意框图
大多数VUI接口使用MEMS麦克风阵列进行盲源信号分离和扬声器定位,并在存在背景噪声的情况下检测命令。麦克风阵列的性能由其单个麦克风的性能决定。麦克风性能的特点通常是自噪声和动态范围-见图3。
图3 麦克风的信噪比与自噪声(噪声层)的关系
动态范围的上限由声学过载点(AOP Acoustic Overload Point)定义。下限由信噪比(SNR Signal-to-noise Ratio)定义。信噪比描述了麦克风的自噪声。麦克风只能在其自噪声层以上的声压级(SPL)下接收信号。因此,高信噪比的麦克风可以在比低信噪比的麦克风更低的声压下工作。同时,VUIs使用麦克风阵列提供更高质量的音频原始数据作为处理器的输入。由于原始数据输入包含更多的信息和更少的自感噪音,云中的后续处理(与图2相比)变得更容易和更有效。例如:如果像“Hey Siri”这样的关键字必须被确认用于系统唤醒,那么更好的输入音频数据会导致更高的命中率,更低的错误接受率,从而降低系统唤醒的错误率。
目前的VUI设备的重点是为在1到3米范围内涉及正常语音(60 dBSPL)的用例提供最佳性能。在实验室里,这些理想条件很容易实现。然而,实际情况提供了许多性能级别低于60 dBSPL限制的用例。这样做的原因可能包括用户和VUI之间的距离更大、低声说话或使用不同声压级别的命令。在这样具有挑战性的条件下,低信噪比的麦克风很难准确地捕捉到音频信号。因此,在具有挑战性或简单现实的场景中,在VUI系统中使用高信噪比麦克风可以获得更好的性能,如图4中的示例所示。
图4 VUI用例在语音信号级别和到设备的距离上各不相同
在很多情况下,人们更喜欢用柔和的声音与VUI设备进行通信。例如,有人睡在同一个房间,父母不想吵醒他们睡觉的孩子,或者只是为了避免打扰别人读书。如果捕捉到的声音电平接近VUI麦克风的自噪声电平,那么低SPL的语音会导致错误的命令识别。如果麦克风的原始数据包含太多噪音,即使是最复杂的信号处理也无法成功。然而,低自噪声麦克风留有足够的空间,以确保即使是低声压级的语音信号也能被放大、处理和识别。
用户和VUI设备可能不在同一个房间。在厨房工作时,用户可能希望降低VUI设备(例如智能电视)的声音,或者准备泡澡时提高新闻推送的音量。在两种远场场景(7到10米的距离)中,用户的声音都会被距离和墙壁等物理屏障减弱,因此很容易降低到正常的60 dBSPL的语音水平之下。类似于轻柔或耳语的声音,所使用的麦克风的自噪声层将决定VUI的整体性能。麦克风的自噪声越低,用户和语音识别设备之间的可能距离就越大。
目前,还没有为VUI设备定义特定的测试标准。为了产生有意义和可重复的评价结果,目前有以下测试假设:
1. 该测试衡量的是语音清晰度,而不是语音质量(语音清晰度指的是为了更好地理解发音相似的单词,它能在多大程度上区分这些单词)
2. 该测试适用于所有标准语音带宽(4 kHz、8 kHz或20 kHz)
3.测试不应易受语音编解码器和噪声抑制系统的影响
4. 该测试应适用于现实(嘈杂)环境
5. 测试应该能够评估VUI麦克风以及VUI系统(如扬声器、耳机、手持设备等)的性能。
在研究了PESQ/POLQA、语音传输指数(STI)等不同的测试标准后,选择了基于传统修正音韵测试的Audio Precision的“发音-频带相关修正音韵测试”(ABC-MRT)作为评估工具。ABC-MRT是最接近上述VUI设备性能评估要求的测试。
图5 AP接口概览
图5给出了组件级测试设置的概述。麦克风安装在外接电路板上。PCBs通过PC接口连接到音频精度,PC接口连接到基于音频精度的ABCMRT软件扩展。在评估过程中,外部扬声器通过音频精度硬件播放ABC-MRT数据库中的一组关键字。从麦克风录制的音频被馈送到音频精度硬件,以执行语音清晰度评估。ABC-MRT软件提供了从0到1的可理解度评分(ABC-MRT评分),其中0表示从VUI设备/麦克风接口输入的音频流与实际语音信号不匹配,而1表示100%匹配。
图6 测试环境
测试环境基于欧洲电信标准协会(ETSI)的指南,ETSI EG 202 396-1,和一些定制。用于评估具有挑战性的用例的测试环境的规范如下:
1. 房间治疗:半消声室,尺寸约4.4 m x 3 m
2. 混响时间:非常低
3.吸声系数约为95%的声学阻尼
4. 105. 用于语音信号和噪声源的扬声器
6. 装置距地面高度为1.4米
当然,基于保密原贤二,隐去实际测试数据。
目前,算法供应商专注于制造与硬件无关的算法。当前的算法并没有针对给定的硬件进行优化,而是试图在每种硬件上都提供良好的性能。例如,如果某个VUI设备实现必须分配麦克风阵列,则算法应该根据麦克风的规格进行调整,以便充分利用高级硬件组件的优点。