科学网 › 标签 › 语音合成

标签: 语音合成

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

怎样评价谷歌语音合成的WaveNet和微软语音识别的“里程碑”？: 热度 2 brygid 2016-9-16 19:55; 最近几周，语音交互领域非常的热闹，谷歌和微软的几则新闻相继刷爆了朋友圈，先来回顾下这三则新闻：首先是Google的DeepMind实验室9月初公布了其在语音合成领域的最新成果WaveNet，一种原始音频波形深度生成模型，能够模仿人类的声音，生成的原始音频质量优于目前常用的语音合成方法：参数化合成（Parameric TTS）与拼接式合成（Concatenative TTS）。没几天，谷歌大脑团队成员在 GitHub 发布消息，开源了一个基于One Billion Word Benchmark预先训练过的模型。这个数据库含有大约 10 亿个单词，词汇有 80 万单词，大部分都是新闻数据。论文作者对 CNN 或 LSTM做了彻底研究，单一模型最好成绩将结果从 51.3 提高到 30.0（同时将参数数量减少了 20 倍），模型融合的后将混淆度（perplexity）从 41.0下降到 23.7。随后，微软首席语音科学家黄学东在论文中表示，他们在近期产业标准Switchboard语音识别基准测试中，实现词错率(WER)低至6.3%的这一技术突破，这比IBM上周达到的6.6%WER下降了0.3%，达到目语音识别领域错误率最低的水平。这个突破被视为微软语音识别的里程碑。怎样评价谷歌发布的WaveNet语音合成方法？最引人关注的自然是Google发布的WaveNet。这是一个新的思路，在此之前，语音合成已经很长时间没有任何实质性进步，无非就是参数化和拼接式两种方法。参数化语音合成是最常用也是历史最悠久的方法，就是利用数学模型对已知的声音进行排列、组装成词语或句子来重新创造声音数据。当前机器人的发音主要就是采用的这种方法，不过参数化合成的语音听起来总是不自然，真的就像机器发出的声音。另外一种就是拼接式语音合成，先录制单一说话者的大量语音片段，建立一个大型语料库，然后简单地从中进行选择并合成完整的大段音频、词语和句子。我们有时会听到机器模仿某些明星的声音，其背后技术就是这种方法。但是这种方法要求语料库非常大，而且处理不好就经常产生语音毛刺和语调的诡异变化，并且无法调整语音的抑扬顿挫。 WaveNet则引入了一种全新的思路，区别于上面两种方法，这是一种从零开始创造整个音频波形输出的技术。WaveNet利用真实的人类声音剪辑和相应的语言、语音特征来训练其卷积神经网络，让其能够辨别语音和语言的模式。WaveNet的效果是惊人的，其输出的音频明显更接近自然人声。 WaveNet技术无疑是计算机语音合成领域的一大突破，也在业界引起了广泛讨论，其最大缺点就是计算量太大，但是从公开的论文来看，其中的细节还都存在很多优化方法。事实上，一旦新的思路和模型确定，计算优化只是工程问题，自然语音合成距离我们又迈进了一大步！怎样评价微软语音识别的“里程碑”？微软例行的PR新闻而已，没有多大参考意义，即便谷歌开源的模型也是这样。自从Siri发布以来，每年我们都会看到大量这种将语音识别率提升到某某级别的新闻，但是实际结果呢？语音交互一直没有走进千家万户，总是与我们的预期差了很多。首先来看，谷歌开源的预训练模型和微软语音识别率的“里程碑”，其实都是基于公开测试样本库的模型改进。业界都很清楚，除非思路和模型有颠覆性改变，模型的优化实际上带来的提升空间非常有限，而训练集合的数据深度、广度和匹配才是当前提升识别率的关键，但是这也是真实场景应用中最为头疼的事情，需要借助麦克风阵列和声学技术处理和匹配。例如谷歌开源的预训练模型，其数据库主要是基于新闻报道，这种类型的数据比起口语数据更加规范。但是在实际的应用中，模型面对的通常是非正式化的数据。所以这种模型能否适应实际应用，目前来说依然是一个大问号。微软基于NIST 2000 Switchboard的集合相比IBM下降了0.3%，搞不明白微软这个有啥可宣传的，各家测试过程中经常会跑出各种各样的WER，而且这种在标准测试集合中的提升幅度对实际应用压根没任何影响。微软真是太喜欢写论文了，而且最近总会被动跟着谷歌做这类无关痛痒的宣传。其次再说，语音识别模型方面真的没有什么太大的新闻， HTK和Kaldi两大语音识别开源平台基本上已经集成了最好用的一些模型，而现在大量研究人员做的无非就是优化和改进模型，但是区别都不是太大。每家公司报的95%和97%的语音识别率也仅仅是个参考意义，因为每家公司训练的样本集和测试集都不一样，这个参数实际上没有可对比性。最为重要的是，这和实际环境的语音识别率差别很大，对于非规则语音来说，匹配是个极其难以解决的问题，这需要前端和后端都对语音数据进行声学方面的处理。最后再说，当前的语音交互还有很多痛点要解决，首当其冲的就是人机交互在真实环境的自适应性。比如现在的语音交互设备要求说话要靠近，发音要标准，环境要安静等等，这都需要麦克风进行处理。其实所有真实场景的模式识别都会遇到这个问题，比如人脸识别，对光线、角度、距离也要有一定的要求。另外强调，人工智能现在来看还没有多少智能，这是一个重人力、重资本的行业，其所谓的智能基本都是依靠巨大的人力和财力投入换来的，这也是制约人工智能发展最大的瓶颈。即便训练一个简单的模型，各家公司就需要在数据采集和标注上投入巨额经费，另外还有流量和计算资源的投入。可怕的是，若训练结果不满意这些投入基本上都是水漂，再加上声学感知层面的处理和匹配，人工智能这个链条，真的不是一家创业公司随随便便玩动的。参考资料： https://deepmind.com/blog/wavenet-generative-model-raw-audio/ https://github.com/tensorflow/models/tree/master/lm_1b http://arxiv.org/abs/1609.03528 http://arxiv.org/abs/1312.3005; 14639 次阅读|2 个评论

展现教师魅力的开学第一课--巡课笔记之十: 热度 23 tangchangjie 2014-2-25 17:07; 　　展现教师魅力的开学第一课--巡课笔记之十（唐常杰）昨天（2.24）是新学期正式上课第一天，去新校区听了几个课，颇有收获；其中，一个基于语音识别与合成技术的“课堂考勤与评测软件”，给我印象颇深，简而言之，计算机人开始享受计算机、享受程序服务了，就像泥瓦匠为自己盖了好房。现在从一天见闻中，择富有趣味者，与朋友们共享。东方欲晓，莫道君行早为避开周一早上的车行高峰，天不亮起床去听课，自以为是先行者，当踏上去新校区的校园交通头班车时，才知只剩最后一个座位。车到中途，东方天边才现鱼肚白，到新校区时，晨曦下的校园还是灯火阑珊（手机拍摄的照片，仅够写意）：晨读教室飘逸出来的阵阵书声，胜过了明远湖畔莫高山上的早鸟的鸣叫。在新学期的第一天要上第一节课的Y p 老师，自驾车6点半就上路了。他说，早一点到学校，可留点时间思考讲课内容，比堵在路上着急好。要知道，迟到属于教学事故，谁也不愿在新学期的第一天出教学事故，这一天一定有不少校院领导巡课。人流熙攘校园中早上7:50，离上课还有20分钟，不少学生成群结队走向教室，把寒假校园的冷清，冲得烟消云散。当然，与第二节课下课和中午前下课相比，人流密度小得多（下图）：。点名机器人语音合成 Yp老师在计算机网络课的开学第一课中展示了“学生考勤评测软件”，令人耳目一新：耳新---语音合成，呼叫点名，目新—界面友好(见下图)。有三个技术要点：　　 1 随机（或预设）点名：软件读取数据库中学生记录，把姓名字符串转为计算机合成的语音，呼叫点名（语音合成），听到回答“到”之后（语音识别），自动记录出勤情况；作为公式中的惩罚因子，对迟到或缺席者增加以后被抽的几率。　　 2 随机（或预设）抽问，当老师提出问题，如果没有学生自告奋勇，轻轻一点，软件会辅助抽名，并记录回答的情况。随机暗含公平，随机抽问方式能保证一学期中。被抽问的分布大致均衡。 3 弹出窗口呼叫时弹出窗口会显示当前学生的情况，界面友好。　　开学第一次，师生见面，点名认识同学，自然而轻松；在以后的课程中，可以预设被点名人数，例如,在40人的小班中，随机抽 1/4，等等。这个软件是由几位本科生在老师指导下的课外科研习作。满足了本科生科研习作的三原则：想法创新、技术不难，有应用需求。如果有学生愿意继续改进这一科技习作，不妨以移动设备为核心，作成人形，再用情感识别与表达机制，以情感计算为灵魂，那就修成了正果，可称“点名精灵”了。　　在巡听的几个课堂上，见到的考勤方法也各式各样， L f 老师的课堂点名通过传递签到清单实现，C yy 老师通过一个几分钟的课堂小作业来达到间接考勤的目的，这些都是可行的方法，各有特色。　　　　　课程政策 Game Rule 开学第一课中自然要讲课程政策，涉及到考试、考核，课堂考察，课堂讨论、教科书、实习要求、实习分组,等等。高兴地看到，多数老师加强了平时考查和课堂讨论环节，几位老师都有出国经历，他们制定的游戏规则，如考核方式和评分比重等，都参考了国外大学，特别一些名校的教学管理方法。有一些游戏规则挺有创意，如评Best Project，且特别加分；学生实习分组男女都有，特别不主张“闺蜜小组”，对培养学生动手和合作能力有好处。讲解课程政策时，有的老师只用10分钟，有的老师用了25分钟，前者合适，后者似嫌用时太多。笔者曾只讲两分钟，相关的课程描述，考核规定等，做成一个PPT，开学前上载网上，学生在课前就下载自学了，节约了宝贵的首课时间。　　　似易实难的绪论课绪论不容易讲好，绪论是写给选书人（主要是老师）看的，而学生，将学未学，一小时难当一学期，老师越细讲，学生越迷惘；而到了期末，不需要老师讲，也自然懂了。　　几位老师在绪论上用时不等，少的15分-25分钟，较多的40分钟，有位新教师，第一次正式讲课，把绪论展开了讲，再加上课程规矩，用了70多分钟，部分学生脸上若隐若现的不耐烦，表明听觉已经疲劳了。此外，若干课程只有34个学时（ 17（周）X 2 )，讲游戏规则和绪论就用了满满的2学时，可惜时间了。　　有几位老师开场后25-35分钟就切入正式课程内容，学生津津有味，在 Y p 老师的课程中，还插入了较多提问，并且，学生自告奋勇回答问题的多，用软件点名呼叫的少，调动了思维积极性；特征之一是，学生视觉焦点在前台、在屏幕上，而不在手机上；听到精彩处，课堂上不时爆发出笑声。　　有些不好讲的内容，不是自己水平低而不会讲，是该内容不适合讲，谁都难讲好；这样的内容，不妨试试自学+课堂讨论。笔者以前有几个课的绪论，做个好PPT，让学生自学，同时布置几个问题，下一次课用几分钟提问或讨论；节约时间，效果还好。高校求教职，莫选讲绪论这里顺便插一小议，博士毕业生在高校求教职时，按惯例，要求试讲一堂课。经验表明，选题切忌选绪论；此物太不容易讲好，难以表现讲演者的风采和能力。曾见过几个求职讲绪论的，没有一位能讲精彩、讲深入、讲得服人。　　　　有趣的BigDog视频 Z h 老师去年获得了学校关爱学生十佳教师荣誉，开场白中也融入了对学生的关爱，在开讲后15分钟，就切入了正式的内容：一段机器狗BigDog视频，把学生带入“嵌入式系统”的殿堂。虽然BigDog不像熊猫那样憨态可掬，但看着它摇摇晃晃，如打醉拳，在溜滑的冰面上摇而不倒，在雪坡上打一个趔趄，有惊无险，继续攀登；不得不叹服美国科技人员在机器人方面的先进成果，再加上军事用途描述，唤起了学生对嵌入式系统的极大兴趣。唤起学生兴趣，是开学第一课的目标之一。　　　　双语课，真用双语因学科需求，计算机学院开设了大量双语课。笔者不知道今年对双语混合比例是否有定量规定，如果有，是否有可操作的指标去评估；但是知道，双语课一般要求英文版教课书，英语PPT（可适当插入汉字标注框），难点可用汉语解释，在后半学期，尽可能多的用英语解释。　　C YY 老师的“数值逻辑”课程给我很好的印象，她的英语纯正流利，备课认真，内容熟悉，在讲课中，用英语的比例比较大，是比较实在的双语课。风景这边独好中午，明远湖畔春花烂漫，和早上灯火阑珊下的景色大不相同。本想搜拍的鸭群，可能也吃午饭去了，若拍到了，这一段标题就可用“春湖水暖鸭先知”了。　　　　展现教师魅力的第一课第一课也是展现教师魅力的机会。不少选修课程由几位老师竞争地开课，允许学生试听，允许放弃(几周之内）。一个平时讲课不错的老师，如果忽视开学第一课或前几次课，因准备不周而讲得不好，本有魅力但未表现，很可能在竞争中失去学生，当学生少到一定程度，那个课程则可能被合并或取消。　一天时间，听了几个课，回到家时，已是晚上，正是：早有灯火，晚也阑珊。谁都知道，讲课远比听课累，我们听一天课也觉疲倦，再想想上课的老师，如果上最后一节课，晚上9点过才会下课，他们更辛苦。不容易，当教师不容易，当个好教师更不容易。相关博文让PPT灵动而又吸引眼球—巡课笔记之一课件内容之处理：思路、方法、深浅和详略（原名《照念PPT陋习之分析与解决》）---巡课笔记之二互动是课堂的活化剂和清新剂 ---巡课笔记之三享受学习，享受实践---喜看学生“玩”电脑，----巡课笔记之四）享受听课和享受讲课—巡课程笔记之五谁是“那位同学 ”---巡课笔记之六记一次带”民意调查的课堂讨论(图文）---巡课笔记之七秀秀我们学生的实习作品 ---巡课笔记之八带个相机去上课—巡课笔记之九展现教师魅力的开学第一课----巡课笔记之十半期考察：种瓜见瓜，种豆见豆--- 巡课训科笔记之十一让学生看到钢铁是怎样练成的，而不只看练成了的钢铁 --- 巡课笔记之十二（唐常杰) 讲话重尾习惯的数学模型及其矫正 ----巡课笔记之13 反木桶效应与 985/211本科资历-- 巡课笔记之14 马航MH17的辩论兼反思一次课堂辩论的组织其它系列博文的入口唐常杰博客主页科学博客主页; 个人分类: 教学科研|20259 次阅读|48 个评论

基于HMM的语音合成技术中的参数生成算法: naxingyu 2013-1-14 20:26; 一、定义与定理在基于隐马模型的语音合成技术中，连续密度隐马尔科夫模型（CD-HMM）集用于将语音参数建模，每个HMM状态的输出状态用单高斯函数（Gaussian）或混合高斯函数（GMM）表示(Zen et al., 2009)，其参数生成算法的目标是在给定高斯分布序列的前提下，计算出具有最大似然函数的语音参数序列(Tokuda et al., 1995)。$$p(\mathbf{o}\mid\lambda)=\sum_{all\mathbf{q}}p(\mathbf{o}\mid\mathbf{q},\lambda)P(\mathbf{q}\mid\lambda)$$其中$\mathbf{o}:=\{\mathbf{o}_1,\mathbf{o}_2,\ldots,\mathbf{o}_T\}$代表语音参数矢量序列，$\mathbf{q}:=\{q_1,q_2,\ldots,q_T\}$表示高斯分布序列。本文中，大写粗体字母表示矩阵，如$\mathbf{W}$，小写粗体字母表示矢量，如$\mathbf{o}$，普通字母表示标量。小写字母$p$专用于表示连续变量的概率分布，大写字母$P$专用于表示离散变量的概率分布。除非特别说明，所有的矢量都是列矢量。符号$\top$用于表示矩阵或矢量的转置，如$\mathbf{W}^{\top}$。由均值矢量$\boldsymbol{\mu}$和方差矩阵$\boldsymbol{\Sigma}$表示的生成数据点$\mathbf{o}_t$的高斯密度函数写作$\mathcal{N}(\mathbf{o}_t\mid\boldsymbol{\mu},\boldsymbol{\Sigma})$。在传统HMM中，状态（高斯分布）序列是由转移概率矩阵决定的，既 $$P(\mathbf{q}\mid\lambda)=\prod_{t=1}^TP(q_t\mid q_{t-1},\lambda),$$ 在基于HMM的语音合成中，状态序列是由显式时长模型输出的时长特征矢量决定的。由于这种设定改变了模型的严格马尔科夫性，我们将其成为隐半马尔科夫模型（HSMM）。因此，下面的推导专注于输出概率密度函数。在典型的语音识别和语音合成系统中，声学参数按帧提取，第$t$帧的参数由矢量表示为 $$\mathbf{c}_t=\left ^{\top},$$ 第$t$帧的观测值（对于模型来说，即输出值）通常定义为由声学特征及其一阶和二阶动态特征共同组成的矢量 $$\mathbf{o}_t=\left ^{\top}.$$ 这些动态特征是以相邻帧静态特征的回归系数的形式计算得到的，即 \begin{aligned} \Delta\mathbf{c}_t = \sum_{\tau=-L_-^{(1)}}^{L_+^{(1)}}w^{(1)}(\tau)\mathbf{c}_{t+\tau},\\ \Delta^2\mathbf{c}_t = \sum_{\tau=-L_-^{(2)}}^{L_+^{(2)}}w^{(2)}(\tau)\mathbf{c}_{t+\tau}. \end{aligned} 因此，特征参数序列可以表示为 \begin{aligned} \mathbf{o} = \left ^{\top},\\ \mathbf{c} = \left ^{\top}. \end{aligned} 观测值$\mathbf{o}$和静态特征$\mathbf{c}$之间的关系为 $$\mathbf{o}=\mathbf{W}\mathbf{c}$$ 其中$\mathbf{W}$定义为窗系数矩阵，即 \begin{aligned} \mathbf{W} = \left ^{\top}\otimes\mathbf{I}_{M\times M},\\ \mathbf{W}_t = \left . \end{aligned} $\mathbf{w}_t^{(d)}$是用于计算第$t$帧第$d$阶动态特征的窗系数，只在第$t$位和相邻位置的元素有非零值，非零值的范围取决于窗宽度，通常为1，即前后一帧。 $\mathbf{I}_{M\times M}$表示$M\times M$单位矩阵，用于将相同的窗系数应用于所有$M$维参数。因此，似然函数表示为 $$p(\mathbf{o}\mid\mathbf{q},\lambda)= \prod_{t=1}^{T}p(\mathbf{o}_t\mid q_t,\lambda)= \prod_{t=1}^{T}\mathcal{N}(\mathbf{o}_t\mid\boldsymbol{\mu}_{q_t},\boldsymbol{\Sigma}_{q_t})= \mathcal{N}(\mathbf{o}\mid\boldsymbol{\mu}_{\mathbf{q}},\boldsymbol{\Sigma}_{\mathbf{q}})$$ 其中 \begin{aligned} \boldsymbol{\mu}_{\mathbf{q}} = \left ^{\top},\\ \boldsymbol{\Sigma}_{\mathbf{q}} = diag\left ^{\top} \end{aligned} 根据以上内容，我们有如下定义 \begin{aligned} \text{static feature} ~~~~ \mathbf{c} ~~~ MT\times 1\\ \text{observation} ~~~~ \mathbf{o} ~~~ 3MT\times 1\\ \text{window} ~~~~ \mathbf{W} ~~~ 3MT\times MT\\ \text{means} ~~~~ \boldsymbol{\mu}_{\mathbf{q}} ~~~ 3MT\times 1\\ \text{covariance} ~~~~ \boldsymbol{\Sigma}_\mathbf{q} ~~~ 3MT\times 3MT \end{aligned} 在开始推导参数生成算法之前，我们需要给出线性代数中的一些定理。 \begin{aligned} \frac{dx^{\top}Ax}{dx} = x^{\top}(A+A^{\top})\\ \overset{\text{if}A^{\top}=A}{=}2x^{\top}A^{\top}=2(Ax)^{\top}\\ \frac{dAx}{dx} = A \end{aligned} 二、极大似然参数生成算法（MLPG）给定高斯分布序列$\mathbf{q}$，参数生成的准则表示为 \begin{aligned} \mathbf{o}_{\max} = \arg\max_{\mathbf{o}}p(\mathbf{o}\mid\mathbf{q},\lambda)\\ = \arg\max_{\mathbf{o}}\mathcal{N}(\mathbf{o}\mid\boldsymbol{\mu}_{\mathbf{q}},\boldsymbol{\Sigma}_{\mathbf{q}}) \end{aligned} 在这里，生成的参数序列既是高斯分布的均值矢量序列，生成的语音变化不自然。为避免这个问题，引入动态窗系数作为约束(Tokuda et al., 2000)。在这个约束条件下，以$\mathbf{o}$为变量的函数最大化就等价于以$\mathbf{c}$为变量的函数最大化。 $$\mathbf{c}_{max}=\arg\max_{\mathbf{c}}\mathcal{N}(\mathbf{Wc}\mid\boldsymbol{\mu}_{\mathbf{q}},\boldsymbol{\Sigma}_{\mathbf{q}})$$ 根据多变量高斯密度函数的定义，得到 \begin{aligned} \mathcal{N}(\mathbf{Wc}\mid\boldsymbol{\mu}_{\mathbf{q}},\boldsymbol{\Sigma}_{\mathbf{q}}) = \frac{1}{\sqrt{(2\pi)^{3MT}|\boldsymbol{\Sigma}_{\mathbf{q}}|}} \exp\left\{-\frac{1}{2}\left(\mathbf{Wc}-\boldsymbol{\mu}_{\mathbf{q}}\right)^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\left(\mathbf{Wc}-\boldsymbol{\mu}_{\mathbf{q}}\right)\right\}\\ = \frac{1}{\sqrt{(2\pi)^{3MT}|\boldsymbol{\Sigma}_{\mathbf{q}}|}} \exp\left\{-\frac{1}{2}\left(\mathbf{c}^{\top}\mathbf{W}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}-\boldsymbol{\mu}_{\mathbf{q}}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\right)\left(\mathbf{Wc}-\boldsymbol{\mu}_{\mathbf{q}}\right)\right\}\\ = \frac{1}{\sqrt{(2\pi)^{3MT}|\boldsymbol{\Sigma}_{\mathbf{q}}|}} \exp\left\{-\frac{1}{2}\left(\mathbf{c}^{\top}\mathbf{W}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{Wc}+\boldsymbol{\mu}_{\mathbf{q}}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\boldsymbol{\mu}_{\mathbf{q}}-\mathbf{c}^{\top}\mathbf{W}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\boldsymbol{\mu}_{\mathbf{q}}-\boldsymbol{\mu}_{\mathbf{q}}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{Wc}\right)\right\}\\ \left(\because\mathbf{c}^{\top}\mathbf{W}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\boldsymbol{\mu}_{\mathbf{q}}=\left(\boldsymbol{\mu}_{\mathbf{q}}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{Wc}\right)^{\top}=\boldsymbol{\mu}_{\mathbf{q}}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{Wc}\right)\\ = \frac{1}{\sqrt{(2\pi)^{3MT}|\boldsymbol{\Sigma}_{\mathbf{q}}|}} \exp\left\{-\frac{1}{2}\left(\mathbf{c}^{\top}\mathbf{W}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{Wc}+\boldsymbol{\mu}_{\mathbf{q}}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\boldsymbol{\mu}_{\mathbf{q}}-2\boldsymbol{\mu}_{\mathbf{q}}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{Wc}\right)\right\} \end{aligned} 似然度定义为密度函数的自然对数。对似然函数求$\mathbf{c}$的偏导数得到 \begin{aligned} \frac{\partial\log\mathcal{N}(\mathbf{Wc}\mid\boldsymbol{\mu}_{\mathbf{q}},\boldsymbol{\Sigma}_{\mathbf{q}})}{\partial\mathbf{c}} = -\frac{1}{2}\left\{\frac{\partial}{\partial\mathbf{c}}\left(\mathbf{c}^{\top}\underline{\mathbf{W}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{W}}\mathbf{c}\right)-2\frac{\partial}{\partial\mathbf{c}}\left(\underline{\boldsymbol{\mu}_{\mathbf{q}}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{W}}\mathbf{c}\right)\right\}\\ \left(\because\left(\mathbf{W}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{W}\right)^{\top}=\mathbf{W}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{W}\right)\\ = -\frac{1}{2}\left\{2\left(\mathbf{W}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{Wc}\right)^{\top}-2\left(\boldsymbol{\mu}_{\mathbf{q}}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{W}\right)\right\}\\ = -\frac{1}{2}\left\{2\left(\mathbf{W}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{Wc}\right)^{\top}-2\left(\mathbf{W}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\boldsymbol{\mu}_{\mathbf{q}}\right)^{\top}\right\}. \end{aligned} 令$\log\mathcal{N}(\mathbf{Wc}_{\max}\mid\boldsymbol{\mu}_{\mathbf{q}},\boldsymbol{\Sigma}_{\mathbf{q}})/\partial\mathbf{c}_{\max}=\boldsymbol{0}$, 可以得到如下线性方程（组） $$\mathbf{R}_{\mathbf{q}}\mathbf{c}_{\max} = \mathbf{r}_{\mathbf{q}}$$ 其中 \begin{aligned} \mathbf{R}_{\mathbf{q}} = \mathbf{W}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\mathbf{W}\\ \mathbf{r}_{\mathbf{q}} = \mathbf{W}^{\top}\boldsymbol{\Sigma}_{\mathbf{q}}^{-1}\boldsymbol{\mu}_{\mathbf{q}} \end{aligned} 通过求解方程（组）即可得到极大似然准则下的参数序列。三、实现方法目前，有三种官方发布的MLPG算法实现， HTS工具包中的HMGenS工具 SPTK工具包中的mlpg工具 hts_engine_API库中的参数生成模块后两者的应用场景与本文相同，即给定高斯分布序列。在第一个工具中，实现了三种不同的参数生成模式，包括联合最优高斯分布序列的搜索(Tokuda et al., 2000)。但是，通过设置$M=1$，根据HMM的维度间独立假设，三种工具都实现了按维求取。使用Cholesky 分解，$\mathbf{R}_{\mathbf{q}}$可以表示为 $$\mathbf{R}_{\mathbf{q}} = \mathbf{U}_{\mathbf{q}}^{\top}\mathbf{U}_{\mathbf{q}},$$ 其中$\mathbf{U}_{\mathbf{q}}$是一个上三角矩阵。因此参数求解方程（组）可以分解为两个方程（组） \begin{aligned} \mathbf{U}_{\mathbf{q}}^{\top}\mathbf{g}_{\mathbf{q}} = \mathbf{r}_{\mathbf{q}},\\ \mathbf{U}_{\mathbf{q}}\mathbf{c}_{\max} = \mathbf{g}_{\mathbf{q}}. \end{aligned} 上述方程组可以通过前向-后向迭代法（在线性代数课程中，也称为高斯消去法）求解。在以上任一工具的源代码中你都可以找到严格按照上述算法实现的参数求解模块。目前为止，以上工具包公开发布的稳定版本为 HTS-2.2 SPTK-3.6 hts_engine_API-1.06 参考文献 Keiichi Tokuda, Takao Kobayashi, and Satoshi Imai. speech parameter generation from HMM using dynamic features. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pages 660–663, September 1995. Keiichi Tokuda, Takayoshi Yoshimura, Takashi Masuko, Takao Kobayashi, and Tadashi Kitamura. speech parameter generation algorithms for HMM-based speech synthesis. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pages 1315–1318, June 2000. Heiga Zen, Keiichi Tokuda, and Alan W Black. Statistical parametric speech synthesis. Speech Communication, 51(11):1039–1064, November 2009.; 个人分类: 课题积累|8390 次阅读|0 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 语音合成

相关帖子

相关日志

关闭安全验证