电子工程专辑
UBM China

适用于智能家庭应用的语音识别系统

上网日期: 2015年10月15日 ?? 作者: Vineet Ganju、Trausti Thormundsson,Conexant公司 ?? 我来评论 字号:放大 | 缩小 分享到:sina weibo tencent weibo tencent weibo


打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

1.扫描左侧二维码
2.点击右上角的分享按钮
3.选择分享给朋友

关键字:语音识别系统? 智能家庭? 语音识别引擎?

用于频谱滤波的方法可以基于不受监视的频谱增益分布学习,而这种分布源自USF的输出信号。然后就能产生语音存在/不存在的概率;这些概率用来控制对每个通道的频谱增强。增强技术可以消除有害的干扰,与此同时消除最近的混响分量,即有效地去除混响。

图6和图7显示了这样一种系统的性能例子。在这个测试中,用户距双麦克风系统3米远。麦克风处的目标语音电平是60dB,麦克风处的干扰语音电平是50dB。图6中的上面通道显示的是没经任何处理的接收信号。下面通道显示的是经过处理后的输出。图7显示了处理之前和之后的干扰频谱内容。在这种条件下,可以达到大约30dB的干扰信号抑制。当未处理信号通过语音识别引擎发送时,可能达到95%的误字率(WER)。经过处理后的WER可下降到15%。

图6:上面通道显示的是未经任何处理的接收信号。下面通道显示的是处理后的输出。《电子工程专辑》
图6:上面通道显示的是未经任何处理的接收信号。下面通道显示的是处理后的输出。

图7:显示的是处理之前和处理之后的干扰频谱内容。《电子工程专辑》
图7:显示的是处理之前和处理之后的干扰频谱内容。

声学回音消除(AEC)已经存在很多年了,是任何免提通信系统的必要部分。声学回音消除器可以从麦克风记录中消除设备本身正在回放的音频。最简单的AEC是半双工的,也就是说,当远端在讲话时,它会马上关闭近端的麦克风,反之亦然,即当近端讲话时则关闭远端的麦克风。在这些系统中,同一时刻只能有一边讲话。

对于语音控制应用来说,真正的全双工回音消除是系统的一个必要部分,也就是要达到语音控制和回放同时进行的效果。声学回音消除器(AEC)要想正常工作,需要能够访问到信号,也就是设备正在播放的回音参考。AEC随即使用这个回音参考对房间内的声学回音路径进行线性建模。然而在实际系统中,回音路径中通常有相当多的非线性因素,它们会显著降低系统性能—比如当设备正在试图从小的扬声器中产生大的回放音量时。另外一个例子发生在回放信号被发送到AEC作为回音参考之后对这个回放信号进行非线性的后置处理之时。语音控制的机顶盒(STB)就是这种情况,此时AEC在工作,机顶盒中也获得了回音参考,但电视机很可能在播放音频之前在音频上叠加一些未知延时和后处理。在这些条件下使用传统的AEC性能会很低。

这个问题可以这样解决:将AEC连接到前文介绍的噪声抑制技术。只要AEC能够区分远端、近端和双边谈话活动,这个信息就能用作USF的活动检测输入。这种方法在具有非线性及受损回音参考的系统中可以提供真正全双工的AEC性能。

另外,这种新的AEC技术应该包含一个延时估计算法,以便通过对齐回音参考和麦克风信号来解决回音路径中的未知延时,就象在机顶盒案例中那样。

图8和图9显示了一个机顶盒系统的性能。用户距电视机3米远,麦克风模块位于电视机顶上,并连接到机顶盒。用户给机顶盒发出自然语言命令。在麦克风模块处目标语音的SPL是60dB,来自电视回放内容的回音SPL是72dB。图8的上部显示的是未经处理的麦克风信号,底部显示的是经过处理的麦克风信号。图9显示的是处理前后残留回音的频谱内容。在这个案例中,处理前的误字率(WER)是100%,处理后则达到了8%。

图8:这张图的上部分显示的是未经处理的麦克风信号,下部分显示的是处理过的麦克风信号。《电子工程专辑》
图8:这张图的上部分显示的是未经处理的麦克风信号,下部分显示的是处理过的麦克风信号。

图9:这张图显示了处理前后残留回音的频谱内容。《电子工程专辑》
图9:这张图显示了处理前后残留回音的频谱内容。

本文小结

传统的波束成形语音增强方法在智能家庭远场应用环境中通常无法提供可接受的解决方案,因此很有必要开发其它的系统来成功地满足和应对这些远场挑战。举例来说,科胜讯(Conexant)公司已经开发出了如同本文所述的极具成本效益且高集成度的解决方案,这些解决方案采用了高动态范围的ADC,在低信噪比、低DDR以及语音和噪声方向未知的条件下具有卓越的远场噪声/干扰抑制性能,而且即使在回音信号不完全确定的情况下也能实现真正全双工的声学回音消除。这些解决方案已被科胜讯公司部署到从智能家庭设备到平板电脑、PC和可穿戴设备的许多产品平台上,并且所有产品都具有优秀的性能结果。

像波束成形等传统方法要求极高的麦克风成本、特殊的平台调谐,并对麦克风位置、匹配以及语音和噪声的方向性有许多约束条件。而上述替代性解决方案的鲁棒性可直接转换为更好的性能,并能在新的智能家庭产品开发和制造过程中显著节省成本。


?第一页?上一页 1???2???3





我来评论 - 适用于智能家庭应用的语音识别系统
评论:
*? 您还能输入[0]字
分享到: 新浪微博 qq空间
验证码:
????????????????
?

关注电子工程专辑微信
扫描以下二维码或添加微信号“eet-china”

访问电子工程专辑手机网站
随时把握电子产业动态,请扫描以下二维码

?

5G网络在提供1Gbps至10Gbps吞吐量方面具有很好的前途, 并且功耗要求比今天的网络和手机都要低,同时还能为关键应用提供严格的延时性能。本期封面故事将会与您分享5G的关键技术发展,以及在4G网络上有怎样的进步。

?
?
有问题请反馈
推荐到论坛,赢取4积分X