科学网

 找回密码
  注册

tag 标签: 语音交互

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

《立委科普:语音交互时代是NLP的历史机遇》
热度 1 liwei999 2019-4-9 23:06
立委按:本文图片或视频如果有问题,请直接去我的NLP频道阅读: https://liweinlp.com/?p=5254 越来越喜欢语音交互 这两天玩 Siri,Google Assistant,感觉还是搜索公司做语音交互更有前景。 为什么?因为搜索公司的知识源积累雄厚,不是其他 players 可比(不知道百度是不是以自己的积累优势 推出啥 assistant)。这是问题的一面,搜索公司做交互从回答开放问题方面,有天然优势。问题的另一面是,从问题解析角度看,搜索公司传统的优势不再。这给社交媒体公司和NLP创业公司留下了机会。以前做文本NLP,虽然可以 argue NLP 赋能的SVO搜索,可以大大提高关键词搜索的精准,但总体上感觉NLP想进入搜索,是针插不进的。 白老师说:这是商业模式问题。关键词作为标的,太成熟。 商业模式之外,还有个重要原因。很多年来,受众都被搜索公司潜移默化了,通过query log 可知,搜索框里面的 queries 绝大多数不是“人话”,就是几个关键词,而且搜索的人,越来越不管语言的词序与小词,因为经验教训都是词序和小词没用。这就使得NLP失去了合适的对象,优势发挥不出来。这边厢 关键词技术以鲁棒和长尾见长,NLP 真地是难以实现价值。可是,语音交互时代不同了,人开始越来越多学会直接跟机器对话,这时候,自然语言回归“自然”,被搜索公司洗脑的坏习惯 在语音交互中难以持续。 这给了 NLP 以机会。 以前老觉得NLP做文本比较成熟,来了语音转文字,多了层损耗。可现在语音技术成熟了,这点损耗不算啥。考察现有的交互系统,卡壳的地方多出现在 NLP 而不是语音转文字方面。 看目前 Siri 的水平,相当不错了,蛮impressed,毕竟是 Siri 第一次把自然语言对话推送到千千万万客户的手中,虽然有很多噱头,很多人拿它当玩具,毕竟有终端客户的大面积使用和反馈的积累。尽管如此,后出来的 Google Assistant 却感觉只在其上不在其下,由于搜索统治天下20年的雄厚积累,开放类知识问答更是强项。 最近测试 Google Assistant 的笔记如下。可以说,道路是曲折的,前途是光明的。 对于相同的刺激 回答不同 感觉是随机在同义词话术中挑选。 哈 nlp 卡壳了。搜索公司的backoff法宝就是搜索,卡壳了 就改成搜索结果。 卡壳以后 退到搜索以后 搜索结果有个质量控制,可能的结果做了排序。如果觉得搜索质量不高 或找到其他痕迹发现问题不适合做搜索。就用话术装傻:My appologies ... I don't understand(对不起 先生 我没听懂)。所谓“话术”,人工智能历史上被称为“巧妙的欺骗”(artful deception,见《Church: 钟摆摆得太远 》)。这种欺骗是实用系统的永不过时的法宝之一。 thankful 的表述今天没听懂 但迟早会通过 bug 积累反馈过程 被听懂的 所以只要系统持续维护 机器对于日常会话 就会越来越应答自如 这一点没有疑问。语音交互虽然不像AI泡沫期望的那样立马改变我们的生活 但人机语音交互越来越渗透到我们和我们下一代的生活中 是一个自然而然 不可逆转的趋势。 知识问答 特别是开放类新闻查询 搜索的拿手好戏 这种搜索回应 不是退而求其次的后备应答 而是首选的答案。 所有话术都那么具有可爱的欺骗性,until 最后一句,莫名其妙回应说 this isn't supported. 这就是胡乱来了。测试下来 发现句子一长 系统就犯糊涂。10个词以上就进入深水区,常常驴唇不对马嘴。 可是 即便后备到搜索 也不至于如此不堪啊 一点 smoothing 都感觉不到 整个一个白痴。再一想,估计是我原话中提到 long sentence 它给我找来一个讲 grammar writing 的博客。 所谓语音门户之战,看样子是个拉锯战,可能是持久战。呈两极三角态势。一极是搜索巨头,谷歌、百度,手里有海量知识和答案。另一极是社媒或零售巨头,离用户近,腾讯、脸书、苹果、亚马逊等。他们可以把端口部署到千家万户去。这两极各有优势,可以长期对抗下去。三角方面,似乎还有一个角,是给NLP技术或创业公司留着的。谁知道呢,也许在用户和知识源都不具备优势的时候,技术型公司会以NLP的亮丽表现异军突起,帮助或联合其中一极成就霸业,也未可知。 haha LOL,简单即王道。 王道是要有出口。上面的乱套是系统设计的毛病,不是AI自身的问题。 又看了一遍上列“简单为王”的反AI宣传片,又笑了半天。前后两个问题,其实是两种解决方案:前一个是产品层面的。产品设计需要有个 accessibility 的机制。当主人因故说不出话或说不清话的时候,应该有个类似为残疾人准备的后备机制。这方面苹果 iPhone 做得很好,它的 accessibility features 非常丰富 考虑到很多场景和小众残疾或不残疾的另类用户。第二个问题的解决方案是技术性的,机器人应该识别主人的声音,默认只听主人的指令。从产品层面看,起码应该是个可以 configure 的选项,不应该听到声音就去执行。 总结一下自动解析所依据的语言形式是什么。主要是三种: 1. 语序 2. 直接量(尤其是小词和形态) 3. 特征 前两种叫显性形式,特征是隐性形式。语言形式这么一分,自然语言一下子就豁然开朗了。管它什么语言,不外乎是这三种形式的交错使用,比例搭配和倚重不同而已。所谓文法,也不外是用这三种形式对语言现象及其背后的结构做描述而已。 摘自《自然语言答问》(to be published) 被搜索巨头20年潜意识引导/洗脑,人上网搜索的 query,第一不讲究语序,第二扔掉了小词(知道小词是 stop words 基本上被关键词索引忽略 有它无它不 make difference)。这就使得 query 其实不是自然语言,不过是一小袋词的堆积。作为显性语言形式,小词和词序很重要,因为自然语言很大程度上依赖语序和小词这样的语言形式,来表达句法结构和逻辑语义。这么一来,query 不是自然语言技术施展的合适对象。 在不知不觉就会到来的语音交互时代,query 被语音的 question 所取代,自然语言复归“自然”,这就为NLP/NLU发挥作用,创造了条件。人会不会把上网用的 query 坏习惯带到语音交互的现场呢?考察语音交互现场,可以发现,基本上人机对话的时候,有意识背离自然语言规范的做法,是很少见的。人说话虽然并不总是特别规范,但是从学会说话的时候就开始积累的语言习惯是难以人为改变的。至少不会像 query 那样“变态”和偏离自然语言。 这是NLP的福音。 回顾一下,历史上看NLP走出实验室的落地历程,大多是遇到特殊的机遇。第一个机遇是信息抽取(IE)。在IE诞生之前,NLP面对大海一样的语言,漫无目标,是 IE 让 NLP 瞄准实际的领域需求,预定义一个狭窄的清晰定义的情报抽取范围和种类。第二个机遇是大数据,不完美的NLP技术遇到了大数据,使得信息的大量冗余弥补了引擎质量的不足。第三个机遇深度学习,仍在进行时,现在看来海量语料的预训练可以帮助模型捕捉千变万化的语言表达方式。第四个机遇就是移动时代和物联网的到来,这使得语音交互开始渗透到人类生活的方方面面,反过来促进了NLP技术充分发挥其潜力。 有意思的是,与其说搜索巨头用一个小小的搜索框“教育”或误导了用户的查询习惯,不如说是用户在不断的搜索实践中适应了关键词技术。其结果就是那不伦不类的搜索 queries 的出现和流行。既然用户会通过正向反向的结果反馈,来慢慢适应关键词搜索不懂自然语言的短板,可以预见,用户也会慢慢适应不完美的自然语言语音交互。 怎么讲? 如果同一个问题有100个问法,其中80个问法是清晰无误的,20个是有歧义的,用户会慢慢学会回避有歧义的问法,或在第一轮被误解以后,会迅速返回到更加清晰的80种问法范围来。如果这 80 种问法,机器只涵盖了 60 种比较常见的,久而久之会出现这样的情形:一方面,只要机器还在持续维护和bug fix 的反馈回路上,所涵盖的边界会慢慢扩大,从 60 往上走。另一方面,用户也会学乖,慢慢倾向于越来越多使用更加常用的,已经被反复证实的那些问法中去,回到 60 的边界内。除了恶作剧,没人存心为难自己的助手,毕竟交互的目的是为达成目标。这样来看不完美的NLP技术,面对真实世界的场景,我们是有理由乐观的。 所有的软件系统,一个最大的好处就是可以确定地说,明天更美好。除非是非良定义或设计,同时开发维护过程也是非良的操作规程,软件的质量永远是上升的,最多是爬升趋于缓慢而已。因此,今天我们取笑的交互实例,我们为机器的愚蠢所困扰的方方面面,明天后天一定会逐步改良。 唯一感到有些可惜的是,语言工程本来是一个打磨数据的过程,很多工作应该可以共享的,避免重复劳动。但实际上,这种重复劳动还在大面积进行中,而且很长时间内,也看不到资源共享的理想平台、机制和架构,虽然预训练的资源共享看上去是在这个方向上迈进了一步,但有效利用第三方的预训练资源,帮助落地到本地产品和场景,依然是一个挑战。 【相关】 《Church: 钟摆摆得太远 》 《一日一析系列》 【语义计算:李白对话录系列】 【置顶:立委NLP博文一览】 《朝华午拾》总目录
个人分类: 立委科普|5806 次阅读|1 个评论
语音交互为何迭代如此之快?还有什么问题?
热度 4 brygid 2016-12-5 21:08
11月30号,亚马逊的AWS发布了三项 人工智能 技术服务:Amazon Rekognition,Amazon Polly和Amazon Lex。其中,除了Amazon Rekognition属于图像识别技术,其他两项服务都是语音交互的链条。Amazon Polly 利用机器学习技术,能够快速实现从文本到语音的转换。Amazon Lex 就是亚马逊的人工 智能 助手 Alexa 的内核,而 Alexa 已经被应用于亚马逊的 Echo 系列智能音箱。 根据AWS服务网页的示例展示和实际调用,Polly 的发音与人声已经非常相像,很多时候已经很难分辨机器与人声的界限。不仅如此,Polly 还能够按照语境对同形异义词的发音进行区分,比如说,在 “I live in Seattle” 和 “Live from New York” 这两个不同的语境下,单词 “Live” 的发音是不同的,而 Polly 在发音过程中就能够很好把握它们之间的区别。Amazon Polly 共拥有 47 种男性或女性的发音,支持 24 种语言,遗憾的是 目前还不支持汉语 。 相对Amazon的节奏,Google似乎慢了许多,早在9月初,Google的DeepMind实验室公布了其在语音合成领域的最新成果WaveNet,一种原始音频波形深度生成模型,能够模仿人类的声音,生成的原始音频质量优于目前常用的语音合成方法,包括参数化合成(Parameric TTS)与拼接式合成(Concatenative TTS)。 参数化语音合成是最常用也是历史最悠久的方法,就是 利用数学模型对已知的声音进行排列、组装成词语或句子来重新创造声音数据 。当前 机器人 的发音主要就是采用的这种方法,不过参数化合成的语音听起来总是不自然,真的就像机器发出的声音。 另外一种就是 拼接式语音合成 ,先录制单一说话者的大量语音片段,建立一个大型语料库,然后简单地从中进行选择并合成完整的大段音频、词语和句子。我们有时会听到机器模仿某些明星的声音,其背后技术就是这种方法。但是这种方法要求语料库非常大,而且处理不好就经常产生语音毛刺和语调的诡异变化,并且无法调整语音的抑扬顿挫。 WaveNet则引入了一种全新的思路,区别于上面两种方法,这是一种从零开始创造整个音频波形输出的技术。WaveNet利用真实的人类声音剪辑和相应的语言、语音特征来训练其卷积 神经网络 ,让其能够辨别语音和语言的模式。WaveNet的效果是惊人的,其输出的音频明显更接近自然人声。 WaveNet技术无疑是计算机语音合成领域的一大突破,在业界也引起了广泛讨论。但是其最大缺点就是计算量太大,而且还存在很多工程化问题。但是短短3个多月,亚马逊就已经凭借Echo的数据和技术的快速迭代,抢先将类似的技术应用到产品之中,而且正式开放给AWS用户进行使用和测试。 更为重要的是,亚马逊同步正式开放了Amazon Lex的服务,Lex 能够帮助用户建立可以进行多重步骤的会话应用,开发者可以通过它来打造自己的聊天机器人,并将其集成到自己开发的 Web 网页应用或适用于移动端的 App 中去。它也可以被应用于提供信息、增强程序功能,甚至用来控制 无人机 、机器人或玩具等。 这就很有意思了,从下面一张语音交互的技术链条来梳理一下亚马逊的策略。亚马逊首先从 语音识别 公司 Nuance 挖了一批人才,2011年又收购了两家语音技术创业公司 Yap 和 Evi,实现了语音识别的技术布局。随后启动了适应远场语音交互Echo产品的研发工作,并在2015年和2016年成为了最成功的 智能硬件 产品。Echo产品帮助亚马逊实现了以麦克风阵列为核心技术的硬件终端技术的布局。这两项技术的布局积累,帮助亚马逊快速发展,其语音助手团队快速拓展到千人规模,凭借庞大的数据和深厚的人才积累,亚马逊在智能交互领域持续发力,拥有更好体验的TTS和NLP也实现了快速迭代,奠定了亚马逊在智能语音交互应用领域的领先地位。 事实上, 从今年下半年语音交互市场的突然爆发,几乎每隔一个多月,语音交互的效果都会出现较大的提升。那么为何语音交互技术的迭代会如此迅速 ?可以从下面几点来窥得一斑: 1、 语音交互技术链条的成熟 深度学习带给了语音识别巨大的进步,但是以Siri为代表的手机语音交互一直不温不火,直到Echo和车载这类智能设备的出现,语音识别才突破手机的限制,真正落地到真实的垂直场景。这个转变不仅仅是场景的转变如此简单,实际上这从认知和技术上都是一个巨大的变化。真实场景的语音识别面向的是真正用户,因此能否满足用户需求就是一个关键问题。当前的用户对于人工智能的要求其实并不高,而是希望确实能够解决一些具体问题,但是显然通用的语音交互总是伴随着智慧的概念,根本就无法做到令用户满意。因此语音交互的落地首先就要考虑是否能够先服务好用户,这是一个关键的认知变化,而且基于这种认知,语音交互的免费策略似乎就不重要了,用户更为关注的是性能而非低价。另外一点就是技术链条的成熟,语音识别从手机转向垂直场景,需要解决远场语音识别和场景语言理解的问题,亚马逊率先解决了这些问题,国内科大讯飞和声智科技也随后补齐了这个链条。目前来看,智能语音交互的技术链条趋于成熟,已经不存在较大的障碍。 2、 真实场景数据规模的扩大 随着Echo的热卖,对于场景交互尤为重要的真实数据急剧增加,原先训练可能只有几千或者几万个小时,但是亚马逊已经从已售设备中获取了几千万的数据,而当前的训练已经是十万级数据的规模,将来百万级的数据训练也会出现。事实上,这些庞大的数据中囊括了用户时间长度和空间维度的信息,这是手机时代绝对做不到的,从这些丰富信息之中,即便简单搜索提升的效果都是惊人的。 3、 云端计算能力的不断提高 拥有了庞大的数据量,自然就急需要计算能力的不断提升,前几天Intel召开发布会,雷锋网现场也做了直播,CPU和GPU的综合计算能力再次提升了20多倍,这相当于原先需要训练20天的数据,现在可能不到1天就能完成,这是语音交互产业链条的根本性保证。 4、 深度学习人才聚集的效应 技术、数据、计算链条的相对完善,核心还需要人才的驱动,而随着人工智能的热潮,不断有更多相关人才从科院机构和院校走出来加入这个行业。创业公司的竞争是可怕的,这群大牛才华横溢,却没日没夜的拼搏,其效率提升到其他任何时代可能都难以匹及的程度。 总之,智能语音交互这个链条已经具备了大规模普及的基础,等待的只是用户习惯的改变,而这种改变正在逐步发生 。可预见的几年,语音交互应该相对于其他 人工智能技术 ,应该是最先落地的一种技术,而且其迭代的速度可能会超过我们的预期。但是语音交互仍然还有很多问题需要解决,包括终端技术的低功耗和集成化、语音识别的场景化和一体化,以及语言理解的准确性和引导性。 未来几年,智能语音交互的迭代至少还要解决如下几个问题: 一是如何基于用户提出的多种多样的、基于情感的、语意模糊的需求进行深刻分析,精确理解用户的实际需求; 二是如何将各种结构化、非结构化、半结构化的知识进行组织与梳理,最终以结构化、清晰化的知识形式完整地呈现给用户; 三是如何猜测用户可能会有什么未想到、未提出的需求,从而先人一步为用户提供相关的扩展信息; 四是如何将信息进行有效地组织与整理,以条理化、简洁化、直接化的形式呈现给用户。 谈及最后一个问题,又不得不说下亚马逊Echo为何要考虑加个7寸屏了,这虽然会使Echo的品类属性减弱,但是在AR还没有发展起来之前,确实也没有更好的办法。毕竟Echo缺少一个使得人机交互更完整的重要的组件——视觉交互,没有用户界面或上下文元素的基于语音交互的系统是不完整。用户可以通过聊天的方式来播放音乐、定时、控制灯光,获得新闻头条,然而当用户在线订单想比较一下两种产品的价格,各种性能参数,或者想看一下未来一周天气预报的温度趋势,用户目前来说还是需要一块屏。正是基于这种考虑,声智科技提供的智能音箱解决方案中,恰好有一个型号也是搭配了7寸显示屏。
5633 次阅读|4 个评论
远场语音交互的麦克风阵列技术解读
热度 4 brygid 2016-11-4 09:42
最近,微软的Surface Studio着实让人惊艳了一把!除了设计以外,大家都感叹PC机也开始使用麦克风阵列了。其实,早前亚马逊Echo和谷歌Home两者PK,除了云端服务,他们在硬件上区别最大的就是麦克风阵列技术。Amazon Echo采用的是环形6+1麦克风阵列,而Google Home(包括Surface Studio)只采用了2麦克风阵列,这种差异我们在文章《对比Amazon Echo,Google Home为何只采用了2个麦克风?》做了探讨。但是,还是有好多朋友私信咨询,因此这里想稍微深入谈谈麦克风阵列技术,以及智能语音交互设备到底应该选用怎样的方案。 什么是麦克风阵列技术? 学术上有个概念是“传声器阵列”,主要由一定数目的声学传感器组成,用来对声场的空间特性进行采样并处理的系统。而这篇文章讲到的麦克风阵列是其中一个狭义概念,特指应用于语音处理的按一定规则排列的多个麦克风系统,也可以简单理解为2个以上麦克风组成的录音系统。 麦克风阵列一般来说有线形、环形和球形之分,严谨的应该说成一字、十字、平面、螺旋、球形及无规则阵列等。至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千个不等。这样说来,麦克风阵列真的好复杂,别担心,复杂的麦克风阵列主要应用于工业和国防领域,消费领域考虑到成本会简化很多。 为什么需要麦克风阵列? 消费级麦克风阵列的兴起得益于语音交互的市场火热,主要解决远距离语音识别的问题,以保证真实场景下的语音识别率。 这涉及了语音交互用户场景的变化,当用户从手机切换到类似Echo智能音箱或者机器人的时候,实际上麦克风面临的环境就完全变了,这就如同两个人窃窃私语和大声嘶喊的区别。 前几年,语音交互应用最为普遍的就是以Siri为代表的智能手机,这个场景一般都是采用单麦克风系统。 单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是,若声源距离麦克风距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这会严重影响语音识别率。而且,单麦克风接收的信号,是由多个声源和环境噪声叠加的,很难实现各个声源的分离。这样就无法实现声源定位和分离,这很重要,因为还有一类声音的叠加并非噪声,但是在语音识别中也要抑制,就是人声的干扰,语音识别显然不能同时识别两个以上的声音。 显然,当语音交互的场景过渡到以Echo、机器人或者汽车为主要场景的时候,单麦克风的局限就凸显出来。为了解决单麦克风的这些局限性,利用麦克风阵列进行语音处理的方法应时而生。 麦克风阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。 事实上,仅靠麦克风阵列也很难保证语音识别率的指标。 麦克风阵列还仅是物理入口,只是完成了物理世界的声音信号处理,得到了语音识别想要的声音,但是语音识别率却是在云端测试得到的结果,因此这两个系统必须匹配在一起才能得到最好的效果。 不仅如此,麦克风阵列处理信号的质量还无法定义标准。 因为当前的语音识别基本都是深度学习训练的结果,而深度学习有个局限就是严重依赖于输入训练的样本库,若处理后的声音与样本库不匹配则识别效果也不会太好。从这个角度应该非常容易理解,物理世界的信号处理也并非越是纯净越好,而是越接近于训练样本库的特征越好,即便这个样本库的训练信号很差。显然,这是一个非常难于实现的过程, 至少要声学处理和深度学习的两个团队配合才能做好这个事情,另外声学信号处理这个层次输出的信号特征对语义理解也非常重要。 看来,小小的麦克风阵列还真的不是那么简单,为了更好地显示这种差别,我们测试了某语音识别引擎在单麦克风和四麦克风环形阵列的识别率对比。另外也要提醒,语音识别率并非只有一个WER指标,还有个重要的虚警率指标,稍微有点声音就乱识别也不行,另外还要考虑阈值的影响,这都是麦克风阵列技术中的陷阱。 麦克风阵列的关键技术 消费级的麦克风阵列主要面临环境噪声、房间混响、人声叠加、模型噪声、阵列结构等问题,若使用到语音识别场景,还要考虑针对语音识别的优化和匹配等问题。为了解决上述问题,特别是在消费领域的垂直场景应用环境中,关键技术就显得尤为重要。 噪声抑制: 语音识别倒不需要完全去除噪声,相对来说通话系统中需要的技术则是噪声去除。这里说的噪声一般指环境噪声,比如空调噪声,这类噪声通常不具有空间指向性,能量也不是特别大,不会掩盖正常的语音,只是影响了语音的清晰度和可懂度。这种方法不适合强噪声环境下的处理,但是应付日常场景的语音交互足够了。 混响消除: 混响在语音识别中是个蛮讨厌的因素,混响去除的效果很大程度影响了语音识别的效果。我们知道,当声源停止发声后,声波在房间内要经过多次反射和吸收,似乎若干个声波混合持续一段时间,这种现象叫做混响。混响会严重影响语音信号处理,比如互相关函数或者波束主瓣,降低测向精度。 回声抵消: 严格来说,这里不应该叫回声,应该叫“自噪声”。回声是混响的延伸概念,这两者的区别就是回声的时延更长。一般来说,超过100毫秒时延的混响,人类能够明显区分出,似乎一个声音同时出现了两次,我们就叫做回声,比如天坛著名的回声壁。实际上,这里所指的是语音交互设备自己发出的声音,比如Echo音箱,当播放歌曲的时候若叫Alexa,这时候麦克风阵列实际上采集了正在播放的音乐和用户所叫的Alexa声音,显然语音识别无法识别这两类声音。回声抵消就是要去掉其中的音乐信息而只保留用户的人声,之所以叫回声抵消,只是延续大家的习惯而已,其实是不恰当的。 声源测向: 这里没有用声源定位,测向和定位是不太一样的,而消费级麦克风阵列做到测向就可以了,没必要在这方面投入太多成本。声源测向的主要作用就是侦测到与之对话人类的声音以便后续的波束形成。声源测向可以基于能量方法,也可以基于谱估计,阵列也常用TDOA技术。声源测向一般在语音唤醒阶段实现,VAD技术其实就可以包含到这个范畴,也是未来功耗降低的关键研究内容。 波束形成: 波束形成是通用的信号处理方法,这里是指将一定几何结构排列的麦克风阵列的各麦克风输出信号经过处理(例如加权、时延、求和等)形成空间指向性的方法。波束形成主要是抑制主瓣以外的声音干扰,这里也包括人声,比如几个人围绕Echo谈话的时候,Echo只会识别其中一个人的声音。 阵列增益: 这个比较容易理解,主要是解决拾音距离的问题,若信号较小,语音识别同样不能保证,通过阵列处理可以适当加大语音信号的能量。 模型匹配: 这个主要是和语音识别以及语义理解进行匹配,语音交互是一个完整的信号链,从麦克风阵列开始的语音流不可能割裂的存在,必然需要模型匹配在一起。实际上,效果较好的语音交互专用麦克风阵列,通常是两套算法,一套内嵌于硬件实时处理,另外一套服务于云端匹配语音处理。 麦克风阵列的技术趋势 语音信号其实是不好处理的,我们知道信号处理大多基于平稳信号的假设,但是语音信号的特征参数均是随时间而变化的,是典型的非平稳态过程。幸运的是语音信号在一个较短时间内的特性相对稳定(语音分帧),因而可以将其看作是一个准稳态过程,也就是说语音信号具有短时平稳的特性,这才能用主流信号处理方法对其处理。从这点来看, 麦克风阵列的基本原理和模型方面就存在较大的局限,也包括声学的非线性处理(现在基本忽略非线性效应),因此基础研究的突破才是未来的根本。 希望能有更多热爱人工智能的学生关注声学,报考我们中科院声学所。 另外一个趋势就是麦克风阵列的小型化, 麦克风阵列受制于半波长理论的限制,现在的口径还是较大,声智科技现在可以做到2cm-8cm的间距,但是结构布局仍然还是限制了ID设计的自由性。很多产品采用2个麦克风其实并非成本问题,而是ID设计的考虑。实际上,借鉴雷达领域的合成孔径方法,麦克风阵列可以做的更小,而且这种方法已经在军工领域成熟验证,移植到消费领域只是时间问题。 还有一个趋势是麦克风阵列的低成本化, 当前无论是2个麦克风还是4、6个麦克风阵列,成本都是比较高的,这影响了麦克风阵列的普及。低成本化不是简单的更换芯片器件,而是整个结构的重新设计,包括器件、芯片、算法和云端。这里要强调一下,并非2个麦克风的阵列成本就便宜,实际上2个和4个麦克风阵列的相差不大,2个麦克风阵列的成本也要在60元左右,但是这还不包含进行回声抵消的硬件成本,若综合比较,实际上成本相差不大。特别是今年由于新技术的应用,多麦克风阵列的成本下降非常明显。 再多说一个趋势就是多人声的处理和识别, 其中典型的是鸡尾酒会效应,人的耳朵可以在嘈杂的环境中分辨想要的声音,并且能够同时识别多人说话的声音。现在的麦克风阵列和语音识别还都是单人识别模式,距离多人识别的目标还很远。前面提到了现在的算法思想主要是“抑制”,而不是“利用”,这实际上就是人为故意简化了物理模型,说白了就是先拿“软柿子”下手,因此语音交互格局已定的说法经不起推敲,对语音交互的认识和探究应该说才刚刚开始,基础世界的探究很可能还会出现诺奖级的成果。若展望的更远一些,则是 物理学的进展和人工智能的进展相结合,可能会颠覆当前的声学信号处理以及语音识别方法。 如何选用麦克风阵列? 当前成熟的麦克风阵列的主要包括:讯飞的2麦方案、4麦阵列和6麦阵列方案,思必驰的6+1麦阵列方案,云知声(科胜讯)的2麦方案,以及声智科技的单麦、2麦阵列、4(+1)麦阵列、6(+1)麦阵列和8(+1)麦阵列方案,其他家也有麦克风阵列的硬件方案,但是缺乏前端算法和云端识别的优化。由于各家算法原理的不同,有些阵列方案可以由用户自主选用中间的麦克风,这样更利于用户进行ID设计。其中,2个以上的麦克风阵列,又分为线形和环形两种主流结构,而2麦的阵列则又有Broadside和Endfire两种结构,限于篇幅我们以后的文章再展开叙述。 如此众多的组合,那么厂商该如何选择这些方案呢?首先还是要看产品定位和用户场景。 若定位于追求性价比的产品,其实就不用考虑麦克风阵列方案,就直接采用单麦方案, 利用算法进行优化,也可实现噪声抑制和回声抵消,能够保证近场环境下的语音识别率,而且成本绝对要低很多。至于单麦语音识别的效果,可以体验下采用单麦识别算法的360儿童机器人。 但是 若想更好地去除部分噪声,可以选用2麦方案,但是这种方案比较折衷, 主要优点就是ID设计简单,在通话模式(也就是给人听)情况下可以去除某个范围内的噪音。但是语音识别(也就是给机器听)的效果和单麦的效果却没有实质区别,成本相对也比较高,若再考虑语音交互终端必要的回声抵消功能,成本还要上升不少。 2麦方案最大的弊端还是声源定位的能力太差,因此大多是用在手机和耳机等设备上实现通话降噪的效果。 这种降噪效果可以采用一个指向性麦克风(比如会议话筒)来模拟,这实际上就是2麦的Endfire结构,也就是1个麦克风通过原理设计模拟了2个麦克风的功能。指向性麦克风的不方便之处就是ID设计需要前后两个开孔,这很麻烦,例如叮咚1代音箱采用的就是这种指向性麦克风方案,因此采用了周边一圈的悬空设计。 若希望产品能适应更多用户场景,则可以类似亚马逊Echo一样直接选用4麦以上的麦克风阵列。 这里简单给个参考,机器人一般4个麦克风就够了,音箱建议还是选用6个以上麦克风,至于汽车领域,最好是选用其他结构形式的麦克风阵列,比如分布式阵列。 多个麦克风阵列之间的成本差异现在正在变小,估计明年的成本就会相差不大。这是趋势,新兴的市场刚开始成本必然偏高,但随着技术进步和规模扩张,成本会快速走低,因此新兴产品在研发阶段倒是不需要太过纠结成本问题,用户体验才是核心的关键。
12669 次阅读|4 个评论
语音智能交互,距离我们还有多远?
热度 6 brygid 2015-10-25 19:21
随着亚马逊、京东、阿里先后发布智能音箱, 10 月份苹果收购 VocalIQ 和谷歌战略入股出门问问,盘点一下今年的语音交互市场,真是异常的热闹。那么,语音交互技术真的就像市场上热捧的那样走入了智能时代吗 ? 实际上我想这个问题大家都心知肚明,资本市场的热闹也不过是各个巨头的布局,甚至是其他用意而已。不管是微软的小冰、百度的小度,还是科大讯飞的语音识别、出门问问的语音助手,仅仅还都是停留在对简单问题的理解和回答,而即便这些也是依靠大量数据训练而成的,这种训练有时候甚至是开了玩笑,比如我们真的需要大量的“调戏”语言训练出来的结果吗?深度神经网络曾经极大促进了语音识别的发展,但是目前来看,要想解决复杂问题和逻辑推理还是存在极大的难度。 另外还有重要的一点,语音交互方面的用户黏性还是非常差的,比如我们一天会用几次 Siri 或者出门问问呢?而提高用户黏性的最大挑战就是要找到一种既能满足用户需求又能保证技术实现的产品形态。用户需求自然是很明显的,我们希望的是让我们能够自然聊天的产品,但是现在技术上实现真是太难了,不仅是语音识别和情感合成的本身难度,而且还包括了噪声干扰、方言混合以及远程拾音等等问题。 上面这些挑战,严重制约了语音交互在通用市场领域的应用,而我们传统思维上却总想用户都像技术人员那样能够理解这些技术并恰当应用,这反而才是制约技术发展最大的障碍。但是随着巨头的进入和语音交互市场的繁荣,国内的科大讯飞、百度、盛大、出门问问正在转变思路,他们逐渐摒弃了盲目扩张和宣传,从通用市场领域逐步扩展到垂直市场领域,扎扎实实根据用户需求做好垂直细分的市场领域。科大讯飞重点打造教育和车载市场,出门问问重点在可穿戴市场,而客服市场现在也是各个巨头极为看重的潜在市场。一想到语音交互机器人可能取代大量客服妹妹,这可能让很多人觉得商机无限,其实完全取代人工现在看来还为时过早,但是筛选前端无效咨询帮助减轻客服工作量,这才是目前语音交互最为重要的应用领域。当然,除了教育、导航、客服市场,还有金融、医疗等垂直市场据具有较好的应用前景。 谈了这么多挑战,也展望了未来市场应用,我们还是再看看技术发展。语音交互技术包括了语音识别、语音合成以及情感识别与合成等技术。从 50 年代美国贝尔实验室和国内的中科院声学所开始研究语音技术,到 70 年代小词汇量的语音识别取得较大进展, 80 年代非特定人连续语音识别技术快速发展, 90 年代大量声学识别模型的出现,直到 21 世纪语音识别才走进我们的生活世界。这期间不管是语音交互的前端处理技术、声学特征提取、声学模型重构等都取得了重大进展,特别是机器深度学习技术的引入,极大提高了利用传统声学建模进行语音识别的准确率,微软曾经宣称利用 DNN 算法可以降低语音识别错误率 30% 。但是这还是不够的,若能引入更多计算机技术,例如有限状态机等,将语音模型、声学特征、语料音库和情感预测等统一为整体的识别网络,相信我们距离《钢铁侠》中的自然语音交互应用不是太过遥远。 了解更多声学资讯,请关注声学在线(微信号:soundonline)
4347 次阅读|7 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-16 02:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部