科学网

 找回密码
  注册

tag 标签: 麦克风阵列

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

如何成为一名全栈语音识别工程师?
热度 2 brygid 2017-11-19 16:16
11月16号,百度发布了渡鸦智能音箱和DuerOS开发板SoundPi,至此,国内再一名巨头加入智能音箱大战。迄今为止,国内战场上的巨头有阿里、京东、腾讯、百度、小米、科大讯飞等,国外则有苹果、微软、亚马逊、谷歌、脸书、三星等,这些巨头占据了全球市值的排名榜,同时发力争夺未来人工智能时代的语音入口,甚至亚马逊和阿里率先不惜代价开启了补贴大战。这些全球巨头的激烈竞争,将对未来十年产生极其重要的影响,同时,这更是新一波的职业快速发展机会。 语音智能当前的核心关键是声学问题和语义理解,随着市场需求的爆发,能够补齐其中一项技术短板的 全栈语音识别工程师 将会变成职场香饽饽,而且这类人才的培养成本非常高昂,至少会在未来十年内成为各大巨头和创业公司争抢的核心人才。 那么,如何成为一名全栈语音识别工程师呢?原中国科学院声学研究所副研究员,声智科技创始人陈孝良接受了我们的邀约,专门就这个话题撰文。这是一篇将知识纵横连接,并能结合实践深入浅出的文章,对于全面了解语音识别很有帮助。其后,AI科技大本营就几个问题略作追访,希望对你有所帮助。 语音识别基础知识 【数学与统计学】 数学是所有学科的基础,其中的高等数学、数理方程、泛函分析等课程是必要的基础知识,概率论与数理统计也是语音识别的基础学科。 【声学与语言学】 声学基础、理论声学、声学测量等是声学方面的基础课程,有助于了解更多声学领域的知识。语言学概论、语言哲学、语义最小论与语用多元论、语法化与语义图等知识对于理解语言模型和语音交互UI设计非常有帮助。 【计算机学】 信号系统、数字信号处理、语音信号处理、离散数学、数据结构、算法导论、并行计算、C语言概论、Python语言、语音识别、深度学习等课程也是必备的基础知识。 语音识别专业知识 语音识别的知识体系可以划分为三个大的部分:专业基础、支撑技能和应用技能。语音识别的专业基础又包括了算法基础、数据知识和开源平台,其中算法基础是语音识别系统的核心知识,包括了声学机理、信号处理、声学模型、语言模型和解码搜索等。 【专业基础】 算法基础 声学机理 :包括发音机理、听觉机理和语言机理,发音机理主要探讨人类发声器官和这些器官在发声过程中的作用,而听觉机理主要探讨人类听觉器官、听觉神经及其辨别处理声音的方式,语言机理主要探究人类语言的分布和组织方式。这些知识对于理论突破和模型生成具有重要意义。 信号处理: 包括语音增强、噪声抑制、回声抵消、混响抑制、波束形成、声源定位、声源分离、声源追踪等 。具体如下: 语音增强 :这里是狭义定义,指自动增益或者阵列增益,主要是解决拾音距离的问题,自动增益一般会增加所有信号能量,而语音增强只增加有效语音信号的能量。 噪声抑制 :语音识别不需要完全去除噪声,相对来说通话系统中则必须完全去除噪声。这里说的噪声一般指环境噪声,比如空调噪声,这类噪声通常不具有空间指向性,能量也不是特别大,不会掩盖正常的语音,只是影响了语音的清晰度和可懂度。这种方法不适合强噪声环境下的处理,但是足以应付日常场景的语音交互。 混响消除 :混响消除的效果很大程度影响了语音识别的效果。一般来说,当声源停止发声后,声波在房间内要经过多次反射和吸收,似乎若干个声波混合持续一段时间,这种现象叫做混响。混响会严重影响语音信号处理,并且降低测向精度。 回声抵消 :严格来说,这里不应该叫回声,应该叫“自噪声”。回声是混响的延伸概念,这两者的区别就是回声的时延更长。一般来说,超过100毫秒时延的混响,人类能够明显区分出,似乎一个声音同时出现了两次,就叫做回声。实际上,这里所指的是语音交互设备自己发出的声音,比如Echo音箱,当播放歌曲的时候若叫Alexa,这时候麦克风阵列实际上采集了正在播放的音乐和用户所叫的Alexa声音,显然语音识别无法识别这两类声音。回声抵消就是要去掉其中的音乐信息而只保留用户的人声,之所以叫回声抵消,只是延续大家的习惯,其实是不恰当的。 声源测向 :这里没有用声源定位,测向和定位是不太一样的,而消费级麦克风阵列做到测向就可以,定位则需要更多的成本投入。声源测向的主要作用就是侦测到与之对话人类的声音以便后续的波束形成。声源测向可以基于能量方法,也可以基于谱估计,阵列也常用TDOA技术。声源测向一般在语音唤醒阶段实现,VAD技术其实就可以包含到这个范畴,也是未来功耗降低的关键因素。 波束形成 :波束形成是通用的信号处理方法,这里是指将一定几何结构排列的麦克风阵列的各麦克风输出信号经过处理(例如加权、时延、求和等)形成空间指向性的方法。波束形成主要是抑制主瓣以外的声音干扰,这里也包括人声,比如几个人围绕Echo谈话的时候,Echo只会识别其中一个人的声音。 端点检测 :端点检测,英语是Voice ActivityDetection,简称VAD,主要作用是区分一段声音是有效的语音信号还是非语音信号。VAD是语音识别中检测句子之间停顿的主要方法,同时也是低功耗所需要考虑的重要因素。VAD通常都用信号处理的方法来做,之所以这里单独划分,因为现在VAD的作用其实更加重要,而且通常VAD也会基于机器学习的方法来做。 特征提取 :声学模型通常不能直接处理声音的原始数据,这就需要把时域的声音原始信号通过某类方法提取出固定的特征序列,然后将这些序列输入到声学模型。事实上深度学习训练的模型不会脱离物理的规律,只是把幅度、相位、频率以及各个维度的相关性进行了更多的特征提取。 声学模型 :声学模型是语音识别中最为关键的部分,是将声学和计算机学的知识进行整合,以特征提取部分生成的特征作为输入,并为可变长的特征序列生成声学模型分数。声学模型核心要解决特征向量的可变长问题和声音信号的多变性问题。事实上,每次所提到的语音识别进展,基本上都是指声学模型的进展。声学模型迭代这么多年,已经有很多模型,我们把每个阶段应用最为广泛的模型介绍一下,其实现在很多模型都是在混用,这样可以利用各个模型的优势,对于场景的适配更加鲁棒。 GMM ,Gaussian Mixture Model,即高斯混合模型,是基于傅立叶频谱语音特征的统计模型,可以通过不断迭代优化求取GMM中的加权系数及各个高斯函数的均值与方差。GMM模型训练速度较快,声学模型参数量小,适合离线终端应用。深度学习应用到语音识别之前,GMM-HMM混合模型一直都是优秀的语音识别模型。但是GMM不能有效对非线性或近似非线性的数据进行建模,很难利用语境的信息,扩展模型比较困难。 HMM ,Hidden Markov Model,即隐马尔可夫模型,用来描述一个含有隐含未知参数的马尔可夫过程,从可观察的参数中确定该过程的隐含参数,然后利用这些参数来进一步分析。HMM是一种可以估计语音声学序列数据的统计学分布模型,尤其是时间特征,但是这些时间特征依赖于HMM的时间独立性假设,这样对语速、口音等因素与声学特征就很难关联起来。HMM还有很多扩展的模型,但是大部分还只适应于小词汇量的语音识别,大规模语音识别仍然非常困难。 DNN ,Deep Neural Network,即深度神经网络,是较早用于声学模型的神经网络,DNN可以提高基于高斯混合模型的数据表示的效率,特别是DNN-HMM混合模型大幅度地提升了语音识别率。由于DNN-HMM只需要有限的训练成本便可得到较高的语音识别率,目前仍然是语音识别工业领域常用的声学模型。 RNN ,Recurrent Neural Networks,即循环神经网络,CNN,Convolutional NeuralNetworks,即卷积神经网络,这两种神经网络在语音识别领域的应用,主要是解决如何利用可变长度语境信息的问题,CNN/RNN比DNN在语速鲁棒性方面表现的更好一些。其中,RNN模型主要包括LSTM(多隐层长短时记忆网络)、highway LSTM、Residual LSTM、双向LSTM等。CNN模型包括了时延神经网络(TDNN)、CNN-DNN、CNN-LSTM-DNN(CLDNN)、CNN-DNN-LSTM、Deep CNN等。其中有些模型性能相近,但是应用方式不同,比如双向LSTM和Deep CNN性能接近,但是双向LSTM需要等一句话结束才能识别,而Deep CNN则没有时延更适合实时语音识别。 语言模型 :通过训练语料学习词之间的关系来估计词序列的可能性,最常见的语言模型是N-Gram模型。近年,深度神经网络的建模方式也被应用到语言模型中,比如基于CNN及RNN的语言模型。 解码搜索 :解码是决定语音识别速度的关键因素,解码过程通常是将声学模型、词典以及语言模型编译成一个网络,基于最大后验概率的方法,选择一条或多条最优路径作为语音识别结果。解码过程一般可以划分动态编译和静态编译,或者同步与异步的两种模式。目前比较流行的解码方法是基于树拷贝的帧同步解码方法。 语音识别数据知识 数据采集 :主要是将用户与机器对话的声音信息收集起来,一般分为近场和远场两个部分,近场采集一般基于手机就可完成,远场采集一般需要麦克风阵列。数据采集同时还有关注采集环境,针对不同数据用途,语音采集的要求也很不一样,比如人群的年龄分布、性别分布和地域分布等。 数据清洗 :主要是将采集的数据进行预处理,剔除不合要求的语音甚至是失效的语音,为后面的数据标注提供精确的数据。 数据标注 :主要是将声音的信息翻译成对应的文字,训练一个声学模型,通常要标注数万个小时,而语音是时序信号,所以需要的人力工时相对很多,同时由于人员疲惫等因素导致标注的错误率也比较高。如何提高数据标注的成功率也是语音识别的关键问题。 数据管理 :主要是对标注数据的分类管理和整理,这样更利于数据的有效管理和重复利用。 数据安全 :主要是对声音数据进行安全方便的处理,比如加密等,以避免敏感信息泄露。 语音识别开源平台 目前主流的开源平台包括CMU Sphinx、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow等,CMU Sphinx是离线的语音识别工具,支持DSP等低功耗的离线应用场景。由于深度学习对于语音识别WER的下降具有明显的作用,所以Kaldi、CNTK、TensorFlow等支持深度学习的工具目前比较流行,Kaldi的优势就是集成了很多语音识别的工具,包括解码搜索等。具体的开源平台汇总如表1所示。 【支撑技能】 声学器件 传声器,通常称为麦克风,是一种将声音转换成电子信号的换能器,即把声信号转成电信号,其核心参数是灵敏度、指向性、频率响应、阻抗、动态范围、信噪比、最大声压级(或AOP,声学过载点)、一致性等。传声器是语音识别的核心器件,决定了语音数据的基本质量。 扬声器,通常称为喇叭,是一种把电信号转变为声信号的换能器件,扬声器的性能优劣对音质的影响很大,其核心指标是TS参数。语音识别中由于涉及到回声抵消,对扬声器的总谐波失真要求稍高。 激光拾声,这是主动拾声的一种方式,可以通过激光的反射等方法拾取远处的振动信息,从而还原成为声音,这种方法以前主要应用在窃听领域,但是目前来看这种方法应用到语音识别还比较困难。 微波拾声,微波是指波长介于红外线和无线电波之间的电磁波,频率范围大约在 300MHz至300GHz之间,同激光拾声的原理类似,只是微波对于玻璃、塑料和瓷器几乎是穿越而不被吸收。 高速摄像头拾声,这是利用高速摄像机来拾取振动从而还原声音,这种方式需要可视范围和高速摄像机,只在一些特定场景里面应用。 计算芯片 DSP,Digital Signal Processor,数字信号处理器,一般采用哈佛架构,具有低功耗运算快等优点,主要应用在低功耗语音识别领域。 ARM,Acorn RISC Machine,是英国公司设计的一种RISC处理器架构,具有低功耗高性能的特点,在移动互联网领域广泛应用,目前IOT领域,比如智能音箱也是以ARM处理器为主。 FPGA,Field-Programmable Gate Array,现场可编程门阵列,是ASIC领域中的一种半定制电路,既解决了固定定制电路的不足,又克服了可编程器件门电路有限的缺点。FPGA在并行计算领域也非常重要,大规模的深度学习也可以基于FPGA计算实现。 GPU,Graphics Processing Unit,图形处理器,是当前深度学习领域最火的计算架构,事实上深度学习领域用到的是GPGPU,主要是进行大规模计算的加速,GPU通常的问题就是功耗过大,所以一般应用到云端的服务器集群。 另外,还有NPU、TPU等新兴的处理器架构,主要为深度学习算法进行专门的优化,由于还没有大规模使用,这里先不详叙。 声学结构 阵列设计,主要是指麦克风阵列的结构设计,麦克风阵列一般来说有线形、环形和球形之分,严谨的应该说成一字、十字、平面、螺旋、球形及无规则阵列等。至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千不等,因此阵列设计就要解决场景中的麦克风阵列阵型和阵元数量的问题,既保证效果,又控制成本。 声学设计,主要是指扬声器的腔体设计,语音交互系统不仅需要收声,还需要发声,发声的质量也特别重要,比如播放音乐或者视频的时候,音质也是非常重要的参考指标,同时,音质的设计也将影响语音识别的效果,因此声学设计在智能语音交互系统也是关键因素。 【应用技能】 语音识别的应用将是语音交互时代最值得期待的创新,可以类比移动互联时代,最终黏住用户的还是语音应用程序,而当前的人工智能主要是基础建设,AI的应用普及还是需要一段时间。虽然Amazon的Alexa已经有上万个应用,但是从用户反馈来看,目前主要还是以下几个核心技术点的应用。 语音控制,事实上是当前最主要的应用,包括了闹钟、音乐、地图、购物、智能家电控制等等功能,语音控制的难度相对也比较大,因为语音控制要求语音识别更加精准、速度更快。 语音转录,这在比如会议系统、智能法院、智能医疗等领域具有特殊应用,主要是实时将用户说话的声音转录成文字,以便形成会议纪要、审判记录和电子病历等。 语言翻译,主要是在不同语言之间进行切换,这在语音转录的基础上增加了实时翻译,对于语音识别的要求更高。 下面这三种识别,可以归为语音识别的范畴,也可以单独列成一类,这里我们还是广义归纳到语音识别的大体系,作为语音识别的功能点更容易理解。 声纹识别,声纹识别的理论基础是每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有效的区分。声纹的特征主要由两个因素决定,第一个是声腔的尺寸,具体包括咽喉、鼻腔和口腔等,这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。第二个决定声纹特征的因素是发声器官被操纵的方式,发声器官包括唇、齿、舌、软腭及腭肌肉等,他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。声纹识别常用的方法包括模板匹配法、最近邻方法、神经元网络方法、VQ聚类法等。 情感识别,主要是从采集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系。情感识别当前也主要采用深度学习的方法,这就需要建立对情感空间的描述以及形成足够多的情感语料库。情感识别是人机交互中体现智能的应用,但是到目前为止,技术水平还没有达到产品应用的程度。 哼唱识别,主要是通过用户哼唱歌曲的曲调,然后通过其中的旋律同音乐库中的数据进行详细分析和比对,最后将符合这个旋律的歌曲信息提供给用户。目前这项技术在音乐搜索中已经使用,识别率可以达到80%左右。 语音识别现状和趋势 目前来看,语音识别的精度和速度比较取决于实际应用环境,在安静环境、标准口音、常见词汇上的语音识别率已经超过95%,完全达到了可用状态,这也是当前语音识别比较火热的原因。随着技术的发展,现在口音、方言、噪声等场景下的语音识别也达到了可用状态,但是对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升。当然,多人语音识别和离线语音识别也是当前需要重点解决的问题。 学术界探讨了很多语音识别的技术趋势,有两个思路是非常值得关注的, 一个是就是端到端的语音识别系统,另外一个就是G.E. Hinton最近提出的胶囊理论 ,Hinton的胶囊理论学术上争议还比较大,能否在语音识别领域体现出来优势还值得探讨。 端到端的语音识别系统当前也没有大规模应用,从理论上来看,由于语音识别本质上是一个序列识别问题,如果语音识别中的所有模型都能够联合优化,应该会获取更好的语音识别准确度,这也是端到端语音识别系统的优势。但是从语音采集、信号处理、特征提取、声学模型、语音模型、解码搜索整个链条都做到端到端的建模处理,难度非常大,因此现在常说的端到端的模型基本还是局限于声学模型范畴,比如将DNN-HMM或者CNN/RNN-HMM模型进行端到端的优化,比如CTC准则和Attention-based模型等方法。事实上,端到端的训练,可以把真实场景的噪声、混响等也作为新特征来进行学习,这样可以减少对于信号处理的依赖,只是这种方法还存在训练性能、收敛速度、网络带宽等诸多问题,相对于主流的语音识别方法还没有取得明显的优势。 本文以科普为主,非常感谢国内语音识别领域各位伙伴的支持,文中若有不足之处,期待大家的指正! 【参考文献】 1.Deep Learning:Methods andApplications,Li Deng and Dong Yu 2.Automaitic Speechand Speaker Recognition: Large Margin and Kernel Methods, Joseph Keshet andSamy Bengio 3.Xuedong Huang, Alex Acero, Hsiao-wuenHon, Spoken Language Processing 4.Lawrence Rabiner,Biing-Hwang Juang, Fundamentals of Speech Recognition 5.Dan jurafsky andJames H. Martin, Speech and Language Processing 6.Dynamic RoutingBetween Capsules,Sara Sabour,Nicholas Frosst,Geoffrey E. Hinton 7.https://en.wikipedia.org/wiki/Speech_perception 8.http://www.speech.cs.cmu.edu 9.http://htk.eng.cam.ac.uk/ 10.http://kaldi-语音识别.org/ 11.https://www.microsoft.com/en-us/cognitive-toolkit/ 12.http://www.soundpi.org/ 就在陈博士分享“ 如何成为一名全栈语音识别工程师 ”这篇技术干货的同时,AI科技大本营也对其进行了追问和专访。 声智科技在自成立以来,在一年半的时间内进行了三次融资,突破了在复杂环境下的唤醒和识别两个难度颇高的环节。提及语音智能行业,他多次提到了目前非常紧缺的两类人才,一个是AI产品经理,一个是AI架构师。以下,作为补充学习提供给您。 追访问答 : AI科技大本营:用一句话总结您现在的创业,是什么? 陈孝良 :我们一直专注声学前沿技术和人工智能交互,致力于实现“听你所言、知你所想”的人机交互愿景。 AI科技大本营:没想过自己做一个完整的产品? 陈孝良 :我们当前主要提供软硬一体的远场语音交互解决方案,暂时不会考虑C端消费电子产品。我们虽然已经将远场语音交互技术大规模量产应用,但是还有很多技术难点需要突破,例如超远场、局部场和分布场的语音交互问题,解决这些问题仅靠算法和模型不行,需要从器件、芯片、算法、数据、应用等全链条考虑,难度非常大。 AI科技大本营:为什么选择创业呢? 陈孝良 :这有很多理由了,但是有一点非常重要,我们还是希望能将自己所领悟到的知识,能够真正落地到实际产品之中,从而改变我们的生活,哪怕只有一点点,进而可以继续带动已经很长时间没有理论突破的声学等技术发展。 AI科技大本营:最近融资的近亿元,具体怎么花呢? 陈孝良 :我们融资主要目的还是拓展业务规模,同时在新技术研发方面重点投入。 AI科技大本营:语音智能行业,您觉得现在最紧缺的是什么人才? 陈孝良 :我觉得有两类人才非常紧缺: 一类就是AI架构师,可以打通整个语音交互体系的人才。这类人才一般需要全栈的语音智能知识,不仅仅只是声学或者深度学习技术,而且还需要了解诸如材料、器件、芯片等硬件知识,同时对于市场和产品还具有敏锐的洞察力。AI架构师应该站得更高、看得更远,不局限于某一个技术链条,而是关心整体体验好不好。 另外一类是AI产品经理。这类人才需要懂得前端做什么,后端做什么,能够提供哪些技术,每个技术做到什么程度,这都必须了解。另外一方面,这类人才还要懂用户需求,懂得这个需求能给用户带来什么帮助,解决什么问题。此外,这个产品大概定在什么价位,应该用什么IT设计,这都是AI产品经理需要挑战的关键问题。 AI科技大本营:这样的人才该怎么培养呢? 陈孝良 :就目前来说,这两类人才必须靠AI公司烧钱才能培养出来。AI架构师和AI产品经理现在来看还无法仅凭学习达到公司要求,必须要结合理论和实践辛苦耕耘,甚至不得不跳些坑才能成长为合格的人才。 AI科技大本营:如果市场上有好的AI架构师或AI产品经理,你愿意给多高的薪酬? 陈孝良 :真正优秀的这两类人才,目前全球给出的Package超过百万也很正常。这两类人才的需求量未来会非常大,建议技术人员可以多往这两个方向转型,当然有些技术人员转型过程中可能会损失一些当前收益。
13147 次阅读|2 个评论
盘点麦克风技术及市场,远场语音交互如何选型麦克风?
热度 2 brygid 2017-6-29 09:22
智能语音交互市场的火热逐渐辐射到产业链的供应商,其中最直接受益就是作为声音的传感设备——麦克风。特别是麦克风阵列的兴起,未来可以让麦克风厂家的销量翻倍增长。在此之前,由于受制于智能手机和平板电脑的增长速度下滑,楼氏、歌尔和瑞声等麦克风厂商的股票相继在2016年中旬左右创下了低谷。 2017年的语音交互局势趋于明朗,资本市场专注研究智能语音交互的投资机构也明显多了起来。那么,这就有必要深入了解一下麦克风这个行业以及技术的趋势。 什么是麦克风?有哪些种类和指标参考? 麦克风作为业界通俗的一种叫法,是英文Microphone的音译名称,国内的称呼乱一些,有时候也简单称作话筒,香港和台湾地区也会称作微音器、拾音器。麦克风的中文学术名称正式是译作传声器,这是一种将声音转换成电子信号的换能器,即把声信号转成电信号,这其实和光电转换的原理是完全一致的。 消费级市场的麦克风基本都是标量麦克风,也就说只能采集单一的物理量信息——声压。声压是指声波通过媒质时,由振动所产生的压强改变量,也可以理解为声音的幅度或者强度。声压常用字母p表示,单位是帕斯卡(符号Pa)。声压的帕斯卡单位由于不方便记忆(比如20x10-6Pa~20Pa),一般就以对数尺衡量有效声压相对于一个基准值的大小来表示,即声压级,其单位是分贝(符号dB)。 人类对于1KHz的声音的听阈为20 x10-6Pa,通常以此作为声压级的基准值。这样讲可能晦涩难懂,我们来简单的类比一下:人类的呼吸声压是60x10-6Pa左右,声压级大约10dB,火箭发射的声压是4000Pa左右,声压级大约165dB,闪光弹的声压超过1万Pa,声压级大约175dB。 分析上述这些晦涩难懂的数字,自然就引出麦克风的参数指标,其实我们关注的就是麦克风还原真实声音的能力,这是一个很难的挑战,因为声电转换即意味着失真。 为了描述麦克风的性能,有几个性能指标是非常关键的,这包括了灵敏度、指向性、频率响应、阻抗、动态范围、信噪比、最大声压级(或AOP,声学过载点)、一致性等。这几个指标其实都好理解,决定了麦克风的性能,而且每个指标都非常关键,缺一不可。当然这些指标相对于喇叭的T-S参数来说,真的是简单的了许多。 麦克风是典型的传感器产业,其技术迭代非常迅速,外观也发生了不少变化,估计很多人从下面的麦克风阵列中准确找到麦克风就很困难。 现在麦克风阵列主要使用的是数字MEMS麦克风,其最长尺寸仅有3.76MM。MEMS麦克风也是手机中大量使用的传感器件,一般手机至少有2个以上这类麦克风。MEMS麦克风实际上只是工艺上的改进,其原理依然属于电容式麦克风。与MEMS麦克风直接PK的,就是驻极体麦克风。 这两种麦克风是消费电子领域的主力军,比如亚马逊的Echo和声智科技的开发板主要是MEMS麦克风,科大讯飞的开发板则主要是驻极体麦克风。这两种麦克风从性能指标来看,没有实质性差别,驻极体麦克风的性能指标还更高,所以声智科技的单麦系列也是驻极体麦克风,但是,MEMS麦克风的优点是一致性比较好,更适合远场语音交互用的麦克风阵列。 电容式麦克风还有另外一个形状,就是录音棚常用的专业麦克风,这与我们KTV唱歌的麦克风是有本质区别的。KTV的麦克风一般都是动圈式麦克风,这种麦克风的性能不如电容麦克风,优点是适合人声收录,缺点是灵敏度低,这在KTV反而是优点,因为可以有效避免KTV环境的啸叫。 当然,还有带式麦克风和碳精麦克风,这两种麦克风已经不常见了,特别是碳精麦克风,以前主要在老式电话中使用,现在基本被淘汰了。这几种麦克风可以从图中对比一下,有时候就会慨叹,技术总是这样颠覆式发展。 当然,新型的麦克风还包括压电麦克风、光纤麦克风、激光麦克风等等,甚至可以直接把电视屏幕或者扬声器(喇叭)也当作麦克风使用。另外,国防领域也在研究部署矢量麦克风等更复杂的麦克风。事实上,声音的发展轨迹和雷达比较类似,麦克风阵列也是当前技术发展的一个阶段,传感技术的迭代是技术和市场迭代的重要原因。 全球麦克风的技术和市场的格局如何? 毫无疑问,在半导体生态体系中,MEMS正扮演着越来越重要的角色,其应用范围包含了消费电子、汽车工业、工业控制乃至生物医学、航空航天等领域,且仍在迅速扩大。随着消费电子市场的增长,消费类应用已经成为MEMS传感器市场的主要推动力。2014年MEMS传感器市场规模达到130亿美元,最大的消费类应用规模达到59亿美元,到2019年预计将超过250亿美元,年复合增长率约11.2%。 我们比对了最新的行业调研数据,从2013年到现在其市场格局变化并没有想象的变化,反而是这几年MEMS厂商集体进入了低速发展的时期,还好今年的语音交互市场火爆,也给MEMS麦克风市场带来了想象空间。 下面还是以互联网公开的数据来概况介绍下市场,已经公开报道了3年,相信很多质疑的声音也都消失了。这些数据并不能代表真实情况,特别是当前的市场状态,但是可以作为一个重要的参考。 根据IHS的统计数据,美国公司楼氏电子在2013年是全球最大的已封装MEMS麦克风(直接进行印刷电路板组装)供应商;而德国公司英飞凌则是MEMS麦克风裸晶(供应给MEMS麦克风制造商)的龙头厂商。楼氏的营收在已封装MEMS麦克风市场中占据59%的比例,英飞凌出货量则在MEMS麦克风裸晶市场占据78%。 全球已封装MEMS麦克风供应商营收排行榜(单位:百万美元) 全球MEMS麦克风裸晶供应商出货量排行榜 在已封装MEMS麦克风市场,排名第二的供应商为瑞声(AAC),营收市占率13%;排名第三的则是歌尔(Goertek),营收市占率7%。瑞声与歌尔都是中国厂商,其业务也重度依赖苹果和三星; 瑞声供应iPhone5三颗高性能MEMS麦克风中的一颗,也进驻了iPhone5S;歌尔则是iPhone专用的耳机MEMS麦克风主要供应商。瑞声2013年营收成长8%,歌尔则因为开始供应手机用高性能麦克风,2013年营收成长率高达35%。当然,经过这3年市场变化,楼市、瑞声和歌尔这三家的市场份额其实也发生了悄然改变,楼氏继续强化了其行业龙头的地位。 排名全球第四大已封装MEMS麦克风供应商的是韩国BSE,其业绩表现来自于拥有苹果最大对手三星这个大客户;BSE的2013年营收与2012年相较,成长率超过250%。紧追在BSE之后排名第五大的厂商则是欧洲业者意法半导体(ST),该公司的MEMS麦克风业务因为赢得了iPad设计案而持续扩张。 全球排名前50位MEMS厂商 国内包括台湾也有一些麦克风厂商,这些厂商主要依靠价格制胜,技术方面并没有建立起太高的壁垒。国内外也出现了一些创业公司,比如美国的Vesper MEMS,以压电麦克风作为主要技术特点,但是这些技术本身就是一线大厂掌握的技术,只是考虑市场因素而没有产线部署。所以这类创业公司当进入量产的时候压力还是非常大的,因为这个行业确实需要重资产和重投入。 如何选型适用远场语音交互的麦克风? 远场语音交互的概念其实是相对的。我们知道,语音交互涉及了非常复杂的技术链条,包括了声学处理、语音识别、语义理解和语音合成等核心技术。 声学处理主要是仿真人类的耳朵,保证机器能够听得准真实环境下人的声音; 语音识别则是把听到的人声翻译成文字; 语义理解则分析这些文字的意义; 语音合成就把机器要表达的文字翻译成语音。 这四项技术虽然独立发展,但实际上无法割裂,同时在其他技术的配合下,才能形成一次语音交互的完整链条。 这四项技术虽然独立发展,但实际上无法割裂,同时在其他技术的配合下,才能形成一次语音交互的完整链条。 以Siri为代表的近场语音识别已经发展了60多年,特别是在2009年以后借助深度学习有了实质性提高,但是正如扎克伯格所说的,当真正产品落地的时候,我们发现用户真正需要的却是类似Echo所倡导的远场语音识别。 显然,这又是一个崭新的技术领域,因为拾音距离的扩大带来的问题不仅仅是语音信号的衰减,而且还带来了复杂的真实环境以及复杂的用户习惯。 近场语音识别要求必须是低噪声、无混响、距离声源很近的场景,比如用户总是要对着手机讲话才能获得符合近场语音识别要求的声音信号,同时还要求用户满足标准发音,其识别率才有可能达到95%以上。 但是,若声源距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这就会严重影响语音识别率。同样的,我们人类在复杂远场环境的表现也不如两两交耳的窃窃私语。 通常近场语音识别引擎在远场环境下,若没有声学处理的支持,比如麦克风阵列技术的适配,其真实场景识别率实际不足60%。而且,由于真实场景总是有多个声源和环境噪声叠加,比如经常会出现周边噪声干扰和多人同时说话的场景,这就更加重了语音识别的难度。因为当前的语音识别引擎,都是单人识别模式,无法同时处理多人识别的问题。 麦克风阵列是当前解决上述问题的主要途径,但是麦克风阵列也有诸多缺陷,其中之一就是对于硬件的要求较高,这包括了麦克风和芯片器件。因此麦克风阵列如何选型麦克风也是非常细致认真的一个工作。那么,如何选型智能语音交互的麦克风呢? 首先选型前我们要对产品有一个清晰的定义,比如产品销量、产品寿命、产品场景等等,这非常重要。即便性能指标完全一致的情况下,也需要考虑麦克风供应厂商的成本、生产工艺、供货能力等因素,因为传感器件厂商归根结底还是一个生产工艺的问题,比如国内的很多麦克风厂商其实就是直接购买国外英飞凌的MEMS麦克风方案直接封装,并不具有技术研发能力,其生产工艺和生产规模就是国内很多厂商的主要差异。 其次选型要重点评估麦克风的性能指标,这包括了灵敏度、指向性、频率响应、阻抗、动态范围、信噪比、最大声压级(或AOP,声学过载点)、一致性这几个指标,其中指向性、信噪比、AOP和一致性是麦克风阵列最主要考虑的指标。 一般来说,指向性也就如下图所示的几种类型,各大厂商之间没有实质性差异。 而信噪比(SNR)和AOP对于楼氏、歌尔和瑞声三个巨头来说,相差也不是太大,比如SNR基本都在65dB以上,AOP也都大于120dB,这个参数以上的麦克风质量是当前较为可靠和成熟的,也是一线大厂的主要供应型号。 一致性对于麦克风阵列则是需要特别考量的指标,因为MEMS麦克风需要焊接,这不能对于焊机厂商提出太苛刻的要求,当焊接以后麦克风是否还能保证一定的性能,这对于麦克风厂商来说就是巨大的考验。所以,并不要轻信麦克风厂商提供的技术指标和承诺,需要认证考察他们的工厂以及生产车间及管理。 最后选型必须实际抽检麦克风的质量,即良品率。从声智科技的经验来看,当批量生产的时候,有时候批次不一样,导致麦克风的差异会很大,特别是一些中小的麦克风供应厂商。而且尤为麻烦的是,MEMS的更换成本也很大,一旦贴片焊接,若出现问题往往导致批量的麦克风报废。当然,这只是量大的时候才需要重点考虑,当量小的时候这个问题不是太过关键。 MEMS竞争激烈,新兴市场谁主沉浮? 但是不得不说,MEMS的市场竞争实际上一直非常激烈,前面也提到了这个市场已经诞生了包括楼氏、歌尔、瑞声、STM、Invense等巨头,并且占据了其中80%以上的市场。虽然现在市场从手机和平板,逐渐向IOT设备过渡,但是当前的存量市场仍然还是手机和平板,IOT的量并不是太大。那么这就产生了两个问题。 一、这个市场未来到底是巨头垄断还是巨头衰退? 虽然新兴的语音交互市场对于麦克风器件是一个强需,但是这种场景变化会不会导致巨头的市场变化?未来真的是都很难说,只能给出几点思考以供参考: 一是语音交互市场的强需是麦克风阵列,并非麦克风的元器件,因为对于麦克风厂商来说,除了增加了更多客户,其客户实质上并没有变化,也没有更高技术方面的需求。从这点来看导致现有MEMS市场格局变化的理由还不够充分。 二是若从技术层面来看,所有的技术厂商都需要关注技术的升级迭代,比如对于低功耗、高集成、矢量化麦克风的需求,若这些一线厂商不跟踪技术的进展,当技术颠覆的时候很可能就会被取代,驻极体麦克风的供应商很可能短期内就会面临这个严峻问题。当然,总会有些公司的处境比较尴尬,特别是一些厂商当遇到麦克风技术和市场挑战的时候选择退缩转型,转型经常会做成转行,这对于传感器厂商来说是巨大的挑战。 二、这个市场还有没有创业机会? 从机会均等的角度来看,任何一个行业都存在众多创业的机会,核心就在于如何把握和利用。这和芯片行业有些类似,麦克风的行业属性决定了其必然是重资产的模式,包括设备和产线的规模投入,另外成本把控、产线管理和加工工艺也都是其核心要素,这些核心技术事实上每项都是极大的投入。 另外,有理想的厂商应该是坚持走技术驱动的路线,比如瑞声科技和歌尔声学刚开始都是购买英飞凌的MEMS和ASIC芯片,然后封测卖给客户,这样长时间技术积累,再利用收购,这两家公司也逐步掌握了MEMS麦克风技术。那么对于其他厂商来说,这条路是不是可以复制或者超越,再或者干脆转型,这是一个非常痛苦的过程。 小结 MEMS麦克风未来的市场空间必然更大,其技术要求也会越来越高,在巨头已经林立的情况下,新兴的创业公司如何抓住机会突围或者分享蛋糕,这是一个痛苦的考验。到底是顶住压力直面竞争,还是退缩转型其他市场,这是经常摆在所有创业者面前现实的问题。
13854 次阅读|3 个评论
语音交互为何迭代如此之快?还有什么问题?
热度 4 brygid 2016-12-5 21:08
11月30号,亚马逊的AWS发布了三项 人工智能 技术服务:Amazon Rekognition,Amazon Polly和Amazon Lex。其中,除了Amazon Rekognition属于图像识别技术,其他两项服务都是语音交互的链条。Amazon Polly 利用机器学习技术,能够快速实现从文本到语音的转换。Amazon Lex 就是亚马逊的人工 智能 助手 Alexa 的内核,而 Alexa 已经被应用于亚马逊的 Echo 系列智能音箱。 根据AWS服务网页的示例展示和实际调用,Polly 的发音与人声已经非常相像,很多时候已经很难分辨机器与人声的界限。不仅如此,Polly 还能够按照语境对同形异义词的发音进行区分,比如说,在 “I live in Seattle” 和 “Live from New York” 这两个不同的语境下,单词 “Live” 的发音是不同的,而 Polly 在发音过程中就能够很好把握它们之间的区别。Amazon Polly 共拥有 47 种男性或女性的发音,支持 24 种语言,遗憾的是 目前还不支持汉语 。 相对Amazon的节奏,Google似乎慢了许多,早在9月初,Google的DeepMind实验室公布了其在语音合成领域的最新成果WaveNet,一种原始音频波形深度生成模型,能够模仿人类的声音,生成的原始音频质量优于目前常用的语音合成方法,包括参数化合成(Parameric TTS)与拼接式合成(Concatenative TTS)。 参数化语音合成是最常用也是历史最悠久的方法,就是 利用数学模型对已知的声音进行排列、组装成词语或句子来重新创造声音数据 。当前 机器人 的发音主要就是采用的这种方法,不过参数化合成的语音听起来总是不自然,真的就像机器发出的声音。 另外一种就是 拼接式语音合成 ,先录制单一说话者的大量语音片段,建立一个大型语料库,然后简单地从中进行选择并合成完整的大段音频、词语和句子。我们有时会听到机器模仿某些明星的声音,其背后技术就是这种方法。但是这种方法要求语料库非常大,而且处理不好就经常产生语音毛刺和语调的诡异变化,并且无法调整语音的抑扬顿挫。 WaveNet则引入了一种全新的思路,区别于上面两种方法,这是一种从零开始创造整个音频波形输出的技术。WaveNet利用真实的人类声音剪辑和相应的语言、语音特征来训练其卷积 神经网络 ,让其能够辨别语音和语言的模式。WaveNet的效果是惊人的,其输出的音频明显更接近自然人声。 WaveNet技术无疑是计算机语音合成领域的一大突破,在业界也引起了广泛讨论。但是其最大缺点就是计算量太大,而且还存在很多工程化问题。但是短短3个多月,亚马逊就已经凭借Echo的数据和技术的快速迭代,抢先将类似的技术应用到产品之中,而且正式开放给AWS用户进行使用和测试。 更为重要的是,亚马逊同步正式开放了Amazon Lex的服务,Lex 能够帮助用户建立可以进行多重步骤的会话应用,开发者可以通过它来打造自己的聊天机器人,并将其集成到自己开发的 Web 网页应用或适用于移动端的 App 中去。它也可以被应用于提供信息、增强程序功能,甚至用来控制 无人机 、机器人或玩具等。 这就很有意思了,从下面一张语音交互的技术链条来梳理一下亚马逊的策略。亚马逊首先从 语音识别 公司 Nuance 挖了一批人才,2011年又收购了两家语音技术创业公司 Yap 和 Evi,实现了语音识别的技术布局。随后启动了适应远场语音交互Echo产品的研发工作,并在2015年和2016年成为了最成功的 智能硬件 产品。Echo产品帮助亚马逊实现了以麦克风阵列为核心技术的硬件终端技术的布局。这两项技术的布局积累,帮助亚马逊快速发展,其语音助手团队快速拓展到千人规模,凭借庞大的数据和深厚的人才积累,亚马逊在智能交互领域持续发力,拥有更好体验的TTS和NLP也实现了快速迭代,奠定了亚马逊在智能语音交互应用领域的领先地位。 事实上, 从今年下半年语音交互市场的突然爆发,几乎每隔一个多月,语音交互的效果都会出现较大的提升。那么为何语音交互技术的迭代会如此迅速 ?可以从下面几点来窥得一斑: 1、 语音交互技术链条的成熟 深度学习带给了语音识别巨大的进步,但是以Siri为代表的手机语音交互一直不温不火,直到Echo和车载这类智能设备的出现,语音识别才突破手机的限制,真正落地到真实的垂直场景。这个转变不仅仅是场景的转变如此简单,实际上这从认知和技术上都是一个巨大的变化。真实场景的语音识别面向的是真正用户,因此能否满足用户需求就是一个关键问题。当前的用户对于人工智能的要求其实并不高,而是希望确实能够解决一些具体问题,但是显然通用的语音交互总是伴随着智慧的概念,根本就无法做到令用户满意。因此语音交互的落地首先就要考虑是否能够先服务好用户,这是一个关键的认知变化,而且基于这种认知,语音交互的免费策略似乎就不重要了,用户更为关注的是性能而非低价。另外一点就是技术链条的成熟,语音识别从手机转向垂直场景,需要解决远场语音识别和场景语言理解的问题,亚马逊率先解决了这些问题,国内科大讯飞和声智科技也随后补齐了这个链条。目前来看,智能语音交互的技术链条趋于成熟,已经不存在较大的障碍。 2、 真实场景数据规模的扩大 随着Echo的热卖,对于场景交互尤为重要的真实数据急剧增加,原先训练可能只有几千或者几万个小时,但是亚马逊已经从已售设备中获取了几千万的数据,而当前的训练已经是十万级数据的规模,将来百万级的数据训练也会出现。事实上,这些庞大的数据中囊括了用户时间长度和空间维度的信息,这是手机时代绝对做不到的,从这些丰富信息之中,即便简单搜索提升的效果都是惊人的。 3、 云端计算能力的不断提高 拥有了庞大的数据量,自然就急需要计算能力的不断提升,前几天Intel召开发布会,雷锋网现场也做了直播,CPU和GPU的综合计算能力再次提升了20多倍,这相当于原先需要训练20天的数据,现在可能不到1天就能完成,这是语音交互产业链条的根本性保证。 4、 深度学习人才聚集的效应 技术、数据、计算链条的相对完善,核心还需要人才的驱动,而随着人工智能的热潮,不断有更多相关人才从科院机构和院校走出来加入这个行业。创业公司的竞争是可怕的,这群大牛才华横溢,却没日没夜的拼搏,其效率提升到其他任何时代可能都难以匹及的程度。 总之,智能语音交互这个链条已经具备了大规模普及的基础,等待的只是用户习惯的改变,而这种改变正在逐步发生 。可预见的几年,语音交互应该相对于其他 人工智能技术 ,应该是最先落地的一种技术,而且其迭代的速度可能会超过我们的预期。但是语音交互仍然还有很多问题需要解决,包括终端技术的低功耗和集成化、语音识别的场景化和一体化,以及语言理解的准确性和引导性。 未来几年,智能语音交互的迭代至少还要解决如下几个问题: 一是如何基于用户提出的多种多样的、基于情感的、语意模糊的需求进行深刻分析,精确理解用户的实际需求; 二是如何将各种结构化、非结构化、半结构化的知识进行组织与梳理,最终以结构化、清晰化的知识形式完整地呈现给用户; 三是如何猜测用户可能会有什么未想到、未提出的需求,从而先人一步为用户提供相关的扩展信息; 四是如何将信息进行有效地组织与整理,以条理化、简洁化、直接化的形式呈现给用户。 谈及最后一个问题,又不得不说下亚马逊Echo为何要考虑加个7寸屏了,这虽然会使Echo的品类属性减弱,但是在AR还没有发展起来之前,确实也没有更好的办法。毕竟Echo缺少一个使得人机交互更完整的重要的组件——视觉交互,没有用户界面或上下文元素的基于语音交互的系统是不完整。用户可以通过聊天的方式来播放音乐、定时、控制灯光,获得新闻头条,然而当用户在线订单想比较一下两种产品的价格,各种性能参数,或者想看一下未来一周天气预报的温度趋势,用户目前来说还是需要一块屏。正是基于这种考虑,声智科技提供的智能音箱解决方案中,恰好有一个型号也是搭配了7寸显示屏。
5633 次阅读|4 个评论
远场语音交互的麦克风阵列技术解读
热度 4 brygid 2016-11-4 09:42
最近,微软的Surface Studio着实让人惊艳了一把!除了设计以外,大家都感叹PC机也开始使用麦克风阵列了。其实,早前亚马逊Echo和谷歌Home两者PK,除了云端服务,他们在硬件上区别最大的就是麦克风阵列技术。Amazon Echo采用的是环形6+1麦克风阵列,而Google Home(包括Surface Studio)只采用了2麦克风阵列,这种差异我们在文章《对比Amazon Echo,Google Home为何只采用了2个麦克风?》做了探讨。但是,还是有好多朋友私信咨询,因此这里想稍微深入谈谈麦克风阵列技术,以及智能语音交互设备到底应该选用怎样的方案。 什么是麦克风阵列技术? 学术上有个概念是“传声器阵列”,主要由一定数目的声学传感器组成,用来对声场的空间特性进行采样并处理的系统。而这篇文章讲到的麦克风阵列是其中一个狭义概念,特指应用于语音处理的按一定规则排列的多个麦克风系统,也可以简单理解为2个以上麦克风组成的录音系统。 麦克风阵列一般来说有线形、环形和球形之分,严谨的应该说成一字、十字、平面、螺旋、球形及无规则阵列等。至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千个不等。这样说来,麦克风阵列真的好复杂,别担心,复杂的麦克风阵列主要应用于工业和国防领域,消费领域考虑到成本会简化很多。 为什么需要麦克风阵列? 消费级麦克风阵列的兴起得益于语音交互的市场火热,主要解决远距离语音识别的问题,以保证真实场景下的语音识别率。 这涉及了语音交互用户场景的变化,当用户从手机切换到类似Echo智能音箱或者机器人的时候,实际上麦克风面临的环境就完全变了,这就如同两个人窃窃私语和大声嘶喊的区别。 前几年,语音交互应用最为普遍的就是以Siri为代表的智能手机,这个场景一般都是采用单麦克风系统。 单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是,若声源距离麦克风距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这会严重影响语音识别率。而且,单麦克风接收的信号,是由多个声源和环境噪声叠加的,很难实现各个声源的分离。这样就无法实现声源定位和分离,这很重要,因为还有一类声音的叠加并非噪声,但是在语音识别中也要抑制,就是人声的干扰,语音识别显然不能同时识别两个以上的声音。 显然,当语音交互的场景过渡到以Echo、机器人或者汽车为主要场景的时候,单麦克风的局限就凸显出来。为了解决单麦克风的这些局限性,利用麦克风阵列进行语音处理的方法应时而生。 麦克风阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。 事实上,仅靠麦克风阵列也很难保证语音识别率的指标。 麦克风阵列还仅是物理入口,只是完成了物理世界的声音信号处理,得到了语音识别想要的声音,但是语音识别率却是在云端测试得到的结果,因此这两个系统必须匹配在一起才能得到最好的效果。 不仅如此,麦克风阵列处理信号的质量还无法定义标准。 因为当前的语音识别基本都是深度学习训练的结果,而深度学习有个局限就是严重依赖于输入训练的样本库,若处理后的声音与样本库不匹配则识别效果也不会太好。从这个角度应该非常容易理解,物理世界的信号处理也并非越是纯净越好,而是越接近于训练样本库的特征越好,即便这个样本库的训练信号很差。显然,这是一个非常难于实现的过程, 至少要声学处理和深度学习的两个团队配合才能做好这个事情,另外声学信号处理这个层次输出的信号特征对语义理解也非常重要。 看来,小小的麦克风阵列还真的不是那么简单,为了更好地显示这种差别,我们测试了某语音识别引擎在单麦克风和四麦克风环形阵列的识别率对比。另外也要提醒,语音识别率并非只有一个WER指标,还有个重要的虚警率指标,稍微有点声音就乱识别也不行,另外还要考虑阈值的影响,这都是麦克风阵列技术中的陷阱。 麦克风阵列的关键技术 消费级的麦克风阵列主要面临环境噪声、房间混响、人声叠加、模型噪声、阵列结构等问题,若使用到语音识别场景,还要考虑针对语音识别的优化和匹配等问题。为了解决上述问题,特别是在消费领域的垂直场景应用环境中,关键技术就显得尤为重要。 噪声抑制: 语音识别倒不需要完全去除噪声,相对来说通话系统中需要的技术则是噪声去除。这里说的噪声一般指环境噪声,比如空调噪声,这类噪声通常不具有空间指向性,能量也不是特别大,不会掩盖正常的语音,只是影响了语音的清晰度和可懂度。这种方法不适合强噪声环境下的处理,但是应付日常场景的语音交互足够了。 混响消除: 混响在语音识别中是个蛮讨厌的因素,混响去除的效果很大程度影响了语音识别的效果。我们知道,当声源停止发声后,声波在房间内要经过多次反射和吸收,似乎若干个声波混合持续一段时间,这种现象叫做混响。混响会严重影响语音信号处理,比如互相关函数或者波束主瓣,降低测向精度。 回声抵消: 严格来说,这里不应该叫回声,应该叫“自噪声”。回声是混响的延伸概念,这两者的区别就是回声的时延更长。一般来说,超过100毫秒时延的混响,人类能够明显区分出,似乎一个声音同时出现了两次,我们就叫做回声,比如天坛著名的回声壁。实际上,这里所指的是语音交互设备自己发出的声音,比如Echo音箱,当播放歌曲的时候若叫Alexa,这时候麦克风阵列实际上采集了正在播放的音乐和用户所叫的Alexa声音,显然语音识别无法识别这两类声音。回声抵消就是要去掉其中的音乐信息而只保留用户的人声,之所以叫回声抵消,只是延续大家的习惯而已,其实是不恰当的。 声源测向: 这里没有用声源定位,测向和定位是不太一样的,而消费级麦克风阵列做到测向就可以了,没必要在这方面投入太多成本。声源测向的主要作用就是侦测到与之对话人类的声音以便后续的波束形成。声源测向可以基于能量方法,也可以基于谱估计,阵列也常用TDOA技术。声源测向一般在语音唤醒阶段实现,VAD技术其实就可以包含到这个范畴,也是未来功耗降低的关键研究内容。 波束形成: 波束形成是通用的信号处理方法,这里是指将一定几何结构排列的麦克风阵列的各麦克风输出信号经过处理(例如加权、时延、求和等)形成空间指向性的方法。波束形成主要是抑制主瓣以外的声音干扰,这里也包括人声,比如几个人围绕Echo谈话的时候,Echo只会识别其中一个人的声音。 阵列增益: 这个比较容易理解,主要是解决拾音距离的问题,若信号较小,语音识别同样不能保证,通过阵列处理可以适当加大语音信号的能量。 模型匹配: 这个主要是和语音识别以及语义理解进行匹配,语音交互是一个完整的信号链,从麦克风阵列开始的语音流不可能割裂的存在,必然需要模型匹配在一起。实际上,效果较好的语音交互专用麦克风阵列,通常是两套算法,一套内嵌于硬件实时处理,另外一套服务于云端匹配语音处理。 麦克风阵列的技术趋势 语音信号其实是不好处理的,我们知道信号处理大多基于平稳信号的假设,但是语音信号的特征参数均是随时间而变化的,是典型的非平稳态过程。幸运的是语音信号在一个较短时间内的特性相对稳定(语音分帧),因而可以将其看作是一个准稳态过程,也就是说语音信号具有短时平稳的特性,这才能用主流信号处理方法对其处理。从这点来看, 麦克风阵列的基本原理和模型方面就存在较大的局限,也包括声学的非线性处理(现在基本忽略非线性效应),因此基础研究的突破才是未来的根本。 希望能有更多热爱人工智能的学生关注声学,报考我们中科院声学所。 另外一个趋势就是麦克风阵列的小型化, 麦克风阵列受制于半波长理论的限制,现在的口径还是较大,声智科技现在可以做到2cm-8cm的间距,但是结构布局仍然还是限制了ID设计的自由性。很多产品采用2个麦克风其实并非成本问题,而是ID设计的考虑。实际上,借鉴雷达领域的合成孔径方法,麦克风阵列可以做的更小,而且这种方法已经在军工领域成熟验证,移植到消费领域只是时间问题。 还有一个趋势是麦克风阵列的低成本化, 当前无论是2个麦克风还是4、6个麦克风阵列,成本都是比较高的,这影响了麦克风阵列的普及。低成本化不是简单的更换芯片器件,而是整个结构的重新设计,包括器件、芯片、算法和云端。这里要强调一下,并非2个麦克风的阵列成本就便宜,实际上2个和4个麦克风阵列的相差不大,2个麦克风阵列的成本也要在60元左右,但是这还不包含进行回声抵消的硬件成本,若综合比较,实际上成本相差不大。特别是今年由于新技术的应用,多麦克风阵列的成本下降非常明显。 再多说一个趋势就是多人声的处理和识别, 其中典型的是鸡尾酒会效应,人的耳朵可以在嘈杂的环境中分辨想要的声音,并且能够同时识别多人说话的声音。现在的麦克风阵列和语音识别还都是单人识别模式,距离多人识别的目标还很远。前面提到了现在的算法思想主要是“抑制”,而不是“利用”,这实际上就是人为故意简化了物理模型,说白了就是先拿“软柿子”下手,因此语音交互格局已定的说法经不起推敲,对语音交互的认识和探究应该说才刚刚开始,基础世界的探究很可能还会出现诺奖级的成果。若展望的更远一些,则是 物理学的进展和人工智能的进展相结合,可能会颠覆当前的声学信号处理以及语音识别方法。 如何选用麦克风阵列? 当前成熟的麦克风阵列的主要包括:讯飞的2麦方案、4麦阵列和6麦阵列方案,思必驰的6+1麦阵列方案,云知声(科胜讯)的2麦方案,以及声智科技的单麦、2麦阵列、4(+1)麦阵列、6(+1)麦阵列和8(+1)麦阵列方案,其他家也有麦克风阵列的硬件方案,但是缺乏前端算法和云端识别的优化。由于各家算法原理的不同,有些阵列方案可以由用户自主选用中间的麦克风,这样更利于用户进行ID设计。其中,2个以上的麦克风阵列,又分为线形和环形两种主流结构,而2麦的阵列则又有Broadside和Endfire两种结构,限于篇幅我们以后的文章再展开叙述。 如此众多的组合,那么厂商该如何选择这些方案呢?首先还是要看产品定位和用户场景。 若定位于追求性价比的产品,其实就不用考虑麦克风阵列方案,就直接采用单麦方案, 利用算法进行优化,也可实现噪声抑制和回声抵消,能够保证近场环境下的语音识别率,而且成本绝对要低很多。至于单麦语音识别的效果,可以体验下采用单麦识别算法的360儿童机器人。 但是 若想更好地去除部分噪声,可以选用2麦方案,但是这种方案比较折衷, 主要优点就是ID设计简单,在通话模式(也就是给人听)情况下可以去除某个范围内的噪音。但是语音识别(也就是给机器听)的效果和单麦的效果却没有实质区别,成本相对也比较高,若再考虑语音交互终端必要的回声抵消功能,成本还要上升不少。 2麦方案最大的弊端还是声源定位的能力太差,因此大多是用在手机和耳机等设备上实现通话降噪的效果。 这种降噪效果可以采用一个指向性麦克风(比如会议话筒)来模拟,这实际上就是2麦的Endfire结构,也就是1个麦克风通过原理设计模拟了2个麦克风的功能。指向性麦克风的不方便之处就是ID设计需要前后两个开孔,这很麻烦,例如叮咚1代音箱采用的就是这种指向性麦克风方案,因此采用了周边一圈的悬空设计。 若希望产品能适应更多用户场景,则可以类似亚马逊Echo一样直接选用4麦以上的麦克风阵列。 这里简单给个参考,机器人一般4个麦克风就够了,音箱建议还是选用6个以上麦克风,至于汽车领域,最好是选用其他结构形式的麦克风阵列,比如分布式阵列。 多个麦克风阵列之间的成本差异现在正在变小,估计明年的成本就会相差不大。这是趋势,新兴的市场刚开始成本必然偏高,但随着技术进步和规模扩张,成本会快速走低,因此新兴产品在研发阶段倒是不需要太过纠结成本问题,用户体验才是核心的关键。
12705 次阅读|4 个评论
[转载]近场声全息法的声场状态表示(直观化)技术
lileizzu 2015-10-30 18:54
此文来源于网络 近年来,声场的状态表示(直观化)技术的发展非常迅速。过去,一般用声压级测量制作等高线图,或用声强法制作矢量图。最近,随着麦克风的降价及多通道输入仪器的开发成功,以及随着处理设备的发展,而且利用麦克风阵列装置,进行声全息或Beam forming测量处理,使得过去很难的声场状态表示(直观化),可以高精度,快速地实现。 本文所介绍的系统,是利用麦克风阵列的近场声全息法,一个应用例是摩托车发动机声源探测解析,另一个应用例是汽车行驶时轮胎噪声分析。对于以前仅凭人的听觉评判声音。现在可用三维方法捕捉发声的能量流向,使发声的大小及其流向有效地进行声学状态表示(直观化),就可对声源进行定量的测量分析。同时,在电脑上与CCD画像重叠或与三维数据重叠,更能方便地分析被测对象的声学状态。 用10×10个麦克风阵列设置在摩托车的发动机附近。在室外测量时,各个麦克风应配置防风球。因为临近声场,所以各个麦克风的间隔为10cm,麦克风与摩托车的距离,在最接近部分,应为8cm。发动机的转速固定为3000转/分,测量10秒的噪声数据。 声全息法的测量原理 声全息法有两种,一种是远距离法,另一种为近场声全息法。 一般,我们所听到的声音都远离声源,是从声源传过来的声波声。利用这种传送声波,确定声源位置的方法为远距离全息法。但是,声源的振动,辐射,散射等声源附近的信息非常重要,因此用远距离声全息法很难把握。因此,近场声全息法,由于能取得邻近声场的声音(声源附近振动发出的噪声)的信息,能测出在声音传布初期在辐射面附近互相抵消的声音之信息。所以,在空间上具有较高的分辨率。本例,就是利用这种邻近声场的信息,对声源面及辐射方向的声音进。 摩托车噪声的测量 麦克风阵列中央的麦克风所测得的音压级频率特性 摩托车噪声的测量 左图为500Hz的分析结果 一般声源分辨率决定于波长,但近场全息法,因为麦克风非常接近声源,所以麦克风的间隔具有分离声源的特点。 由这个分析结果,可掌握 500Hz声源在发动机曲轴部分,以及在发动机下面油底壳等处。另外,由于发动机的振动,油箱发生共振,从发动机油箱部也向外辐射噪声。
个人分类: 声电探测|1908 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-1 19:00

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部