电子工程专辑
UBM China

利用MEMS麦克风阵列定位并识别音频或语音信源

上网日期: 2015年05月11日 ?? 作者: M. Malcangi,M. D’aria,R. Sannino,L. Spelgatti ?? 我来评论 字号:放大 | 缩小 分享到:sina weibo tencent weibo tencent weibo


打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

1.扫描左侧二维码
2.点击右上角的分享按钮
3.选择分享给朋友

关键字:MEMS麦克风? 麦克风阵列? MEMS技术? 语音识别?

【摘要】:在过去10年里,以人类语言和音频信号为媒介的人机交互应用在日常生活的作用越来越重要。设备本身必须充分利用不同的功能,才能取得最佳的性能,例如,音频定位、自动语音识别、自动说话人识别等。本文着重探讨取得这些结果所需的算法和完整的嵌入式方案即MEMS麦克风阵列所需的硬件架构


自动语音识别、语音模式识别和说话人识别及确认等应用对噪声十分敏感,信源定位识别是音频和语音信号捕捉处理应用的一个关键的预处理功能。特别是基于微机电系统(MEMS)的麦克风阵列出现后,麦克风阵列音频定位方案引起科研企业和开发人员的广泛关注。

目前业界正在使用MEMS麦克风阵列子系统开发嵌入式音频定位、自动语音识别和自动说话人识别解决方案,声音识别定位是我们识别确认他人身份的基本功能,当我们听到有人讲话时,会将头转向说话人,查看说话人。

音源定位是自动语音识别和自动说话人识别系统的一个重要环节,对于提高语音识别系统的性能至关重要。麦克风阵列可捕捉从不同方向传来的声音,通过算法运算使麦克风指向某一个特定方向,放大从该方向捕捉到的音频信号,同时衰减从其它方向捕捉的音频信号,整个动作就像一个智能麦克风。

利用MEMS麦克风阵列定位并识别音频或语音信源(电子工程专辑)
图1:综合利用麦克风音源互相关性(CC)、相变(PHAT)和最大相似性处理(ML)技术的音源定位

系统框架

整个系统由以下几个子系统组成:音源方向测定、数据融合、自动语音识别和自动说话人确认。其中,音频方向测定子系统基于麦克风阵列,运行三个不同的音频方向估算算法;数据融合子系统负责推断方向,自动语音识别子系统利用传入的音频信号增强主音源信号强度,衰减主音源周围的其它音频信号。最后,自动说话人确认子系统识别某些关键词汇,再利用相关特征与说话人匹配。

利用MEMS麦克风阵列定位并识别音频或语音信源(电子工程专辑)
图2.系统框架(注:Secondary speaker:副扬声器;primary speaker:主扬声器;mic array:麦克风阵列;data fusion:数据融合)

如果语音识别任务没有成功,则反馈给数据融合系统,估算新方向传入的语音,然后驱动麦克风阵列指向该方向。

语音识别和说话人识别

语音特征提取(27 LPC-倒普系数)需要确定语音的端点,将语音分成数个短祯(每祯20 ms),通过一个DTW模式对准算法与一组参考语音(模板)匹配。然后,应用欧氏距离测量法进行相似性评估。

利用MEMS麦克风阵列定位并识别音频或语音信源(电子工程专辑)
图3. 特征提取、模式匹配和评分是说话人语音识别确认任务的主要环节

说话人身份评分采用的是动态时间规整近邻(DTW-KNN)算法的距离测量方法,即动态时间规整测量算法与近邻决策算法的合并算法。这个算法需要使用均方根、过零率、自动相关和倒普线性预测系数。使用欧氏距离算法计算成本函数,使用KNN 算法计算最小距离匹配度 k。

第二页:ME MS 麦克风 阵列和ME MS技术


1???2?下一页?最后一页





我来评论 - 利用MEMS麦克风阵列定位并识别音频或语音信源
评论:
*? 您还能输入[0]字
分享到: 新浪微博 qq空间
验证码:
????????????????
?

关注电子工程专辑微信
扫描以下二维码或添加微信号“eet-china”

访问电子工程专辑手机网站
随时把握电子产业动态,请扫描以下二维码

?

5G网络在提供1Gbps至10Gbps吞吐量方面具有很好的前途, 并且功耗要求比今天的网络和手机都要低,同时还能为关键应用提供严格的延时性能。本期封面故事将会与您分享5G的关键技术发展,以及在4G网络上有怎样的进步。

?
?
有问题请反馈
推荐到论坛,赢取4积分X