楼主 为了把语音助手变成初恋女友,机器学习到底做了多少学习?
发表于2022-05-06 19:49:35查看 395回复0浏览 395

拜读了很多鹏友非常精彩的小P调教文章和视频,无一例外,都对小P这一套基于全新超大规模在线神经网络语音合成引擎的AI声音大加赞赏:更自然的语调,更甜美的音色,多种情绪的表达让小P更像一个真人管家为乘坐者服务。

同时,原先的小P所具的:连续对话、多音区识别、无效语句滤、随时打、深层车机节交互等引为豪能力都完继承。

当然,也有很多网友不理解,为什么一旦信号不好,小P有些时候还是会变得语调机械,甚至不言不语呢?明明是一个为我单机服务的车技系统,就一定要联网才能完成这些功能呢?

其实,这些不理解是很正常的,下面,我就带大从小P最具色的个方,去解密一为了造一像小P这样智能音助,它后的数据、人工能、机器学习技术到底完成了哪些不可思议的工作。机器学习吗?总要看,机,到底做了些学习?



为什么的语音听上去更自然了?
这次P最的区别,就语调更加自然,音更加甜美。们首先就来说说机到底学习了么神仙能力让小P变身初恋萌妹吧。

和自然人说话一样,语音助手听到令后,需要做两件情:备好要说的容,就是出文,然后合成音将容念出来。同样的容,旧版的P说出来觉得笨笨,新的小P仿佛就像可爱的姑娘在跟你说话,根本别,就在于第二部语音合成技术,取得了大幅度的进步。

语音合成(Text-To-Speech)是通过计算机将文本转换成语音的过程,随着技术的发展,像小P这样的语音助手,合成音几乎可以到了以假乱真的程度,这部分的技术,主要经历了三个发展阶段:

基于波形(词)拼接的方法
基于统计参数语音合成
基于深神经络的音合成
阶段:基于波形(词)拼接的方法
基于波形拼接语音合成方法,是基于目基元上下文信息,(如短语的位置、词性等)从录制音库找到相似的基元。

车门,小P会对我说:“午好,数据里奥斯”。最单的方法,就是直接录制这一段话,小P需要说这段话时候,就播放这段容就了。但是,问题来,我们有10万个鹏友的时候,就这一句话那就要录10个版,显然数据太大,那有什么办法优呢?有的,你看“午好”,这句话不都是一样的么?那我们只需要录制遍就了呀,于是,我们只需要录制一“下午好”和“你名字”这两语音,然后组合在起播放就OK了,原先录的10万遍午好,只需要存储次就可以了。
以此类推,其实有的话,当们把每一个字都单独录制后,就可以一字(词、短)一字(词、短)的播放出来,千遍万化语音,只要分割成我们数据库匹配字或词,就可以播放出来,完全不需要每一句话都前录好。这就是谓的基于相似波形(相同词语)进行拼接的语音合成方法。

当然,这种方法有很的弊端,一字一字念出来的音,没有语境,没有上下文,自然也就可能有抑扬挫、没有断句。如切分得比较粗,又需要储存很多音片段,录难度,存成本高。

第二阶段:基于统计参数的语音合成
前面我们也提到了,第一个阶段的语音合成技术,最大的问题就是不连贯,也没有抑扬顿挫,所以显得不真实。

其实,人类说话确实是有些规律可循的,比如,人类发生系统可以发出三类语音:

(1)浊音:(比如元音)肺部气压升高,强迫空气通声门,使声带振动产生的类周期性宽频脉冲

(2)摩擦音:(比如辅音,/s/, /sh/, /f/)空以足够的速通过分关闭的声

(3)爆破音:(比如/p/, /t/,/k/)空在完全闭合声道累积增压,然后突然开声道产生
如果我们能够总结出些抑扬顿挫,发音气的征,然后在之前合成语音基础上,根据每一发音前后关联特征,加上这些气特,是是就更像真人说话?这就是语音合成技术第阶段主要解决的问题:基统计数的音合成。其比较有名的就是基HMM(隐尔科夫模型 Hidden Markov Model)计参数的语音合成。工程师们将总结出一些像上面到的爆破音、摩擦音等特征信息数字化炼成征参数,放到整模型中,根据已有的记录上下文一些征的数据库复提炼、训练整套型,就会将些语,特征逐渐刻画在合成的音当

举个太恰的例子,原先P图时候,我们都是通PS来做的,比如鼻子亮点会显得鼻子高,颊加阴影会显瘦,这些点固成套之后,咱们就有一些美图秀秀这样的软件可以根据这些固定套路帮你自P图

听上去,是是挺完美了?但是,它也有它的问题,比如自P图,最大弱点什么?网红脸,为不过P图把人P得太不实,自动P图软件都会在训练照片时不弱化些较为突出特征,使得图片尽自然。语音合成也一样,因为数据总会有不实或突兀地方,聪明机器会有类似去最高和最分这样的操作来保证最终出的结果尽“中庸”。

第三阶段:基于深度神经网络的语音合成
基于统计参数的语音合成,受限于声码器、HMM建模精度不足等因素,使得合成的语音表现力弱,合成声音发闷。随着计算机硬件,传感器,算法等多方面水平的进步,这样一个问题优化有了更的解决方案,那就基于深度神网络进行语音合成,这也新的P采的技术手段。主要优化和解决了两个技术难点:1. 特征号采集精度高 2. 运算量高无法完成时的音合成任务。
特征信号采集精不高,怎么办?

针对经网络特征号采集精度高,的采集器将声音特征的采集精细到了每帧,添加大量关于调,气,绪等各种特征信号,新的技术进,可无限接近地获取到原声所有特征号参数。



运算量高无法完成时的音合成任务,怎么办?

采集度的问题解决了,那如此想要在如此庞的数据中接近实时地合成音,还需要常强的算力支持,也需要非常优秀的算法模型,尽可能地节约算力,才让合成语音P做到对答如流。的深层神经络有强大非线性建模力,这一类机器学习算法之所以称之为经网络,正因为它的算法逻辑如同人类的神细胞样,传递信号及其,同时互通互达,共享参数和结。这样的好处就是,原本些我们需要复等待上一次计算结果再进行的运算,可以分到非常多的处理器同时进行,互通有,运算速度大加,重复计算减少、待的时间大缩短。如同初恋女友般的P,就在这样高精的采集器和速运算的处理器和算法加持下,诞生了。

One More Thing: 为啥网络不好小P声音就不甜了?

介绍完语音合成技术的三个重要发展阶段,相信大家都知道了新的小P是需要非常庞大的语音特征数据库和高算力处理器支持的了。那这也就很好回答鹏友中经常产生疑惑:为啥网络好小P声音就不甜?因为这样套数据库和处理能力,目车机统本还是法承的,只有借云端强大服务,才可以完成这样的工作。换句话说,将如此高成的硬件设备放在每辆车,一天却使那么十次,无疑浪费,也抬高了成本。署一套强大设备,同时为所有鹏友服务,才更正确的选择。所,这套系统,部署远程,通过络进服务,是合合理。同时,鹏工程师也通各种技术手段使得可用率达到了97%,也有相应的服务降级措施,绝大数情况下,P一直都会你的初恋女友哒~