为了把语音助手变成初恋女友，机器学习到底做了多少学习？_小鹏P7社区

楼主为了把语音助手变成初恋女友，机器学习到底做了多少学习？

发表于2022-05-06 19:49:35回复0浏览 395

拜读了很多鹏友非常精彩的小P调教文章和视频，无一例外，都对小P这一套基于全新超大规模在线神经网络语音合成引擎的AI声音大加赞赏：更自然的语调，更甜美的音色，多种情绪的表达让小P更像一个真人管家为乘坐者服务。

同时，原先的小P所具的：连续对话、多音区识别、无效语句滤、随时打、深层车机节交互等引为豪能力都完继承。

当然，也有很多网友不理解，为什么一旦信号不好，小P有些时候还是会变得语调机械，甚至不言不语呢？明明是一个为我单机服务的车技系统，就一定要联网才能完成这些功能呢？

其实，这些不理解是很正常的，下面，我就带大从小P最具色的个方，去解密一为了造一像小P这样智能音助，它后的数据、人工能、机器学习技术到底完成了哪些不可思议的工作。机器学习吗？总要看，机，到底做了些学习?

为什么的语音听上去更自然了？
这次P最的区别，就语调更加自然，音更加甜美。们首先就来说说机到底学习了么神仙能力让小P变身初恋萌妹吧。

和自然人说话一样，语音助手听到令后，需要做两件情：备好要说的容，就是出文，然后合成音将容念出来。同样的容，旧版的P说出来觉得笨笨，新的小P仿佛就像可爱的姑娘在跟你说话，根本别，就在于第二部语音合成技术，取得了大幅度的进步。

语音合成（Text-To-Speech）是通过计算机将文本转换成语音的过程，随着技术的发展，像小P这样的语音助手，合成音几乎可以到了以假乱真的程度，这部分的技术，主要经历了三个发展阶段：

基于波形（词）拼接的方法
基于统计参数语音合成
基于深神经络的音合成
第阶段：基于波形（词）拼接的方法
基于波形拼接语音合成方法，是基于目基元上下文信息，（如短语的位置、词性等）从录制音库找到相似的基元。

打车门，小P会对我说：“午好，数据里奥斯”。最单的方法，就是直接录制这一段话，小P需要说这段话时候，就播放这段容就了。但是，问题来，我们有10万个鹏友的时候，就这一句话那就要录10个版，显然数据太大，那有什么办法优呢？有的，你看“午好”，这句话不都是一样的么？那我们只需要录制遍就了呀，于是，我们只需要录制一“下午好”和“你名字”这两语音，然后组合在起播放就OK了，原先录的10万遍午好，只需要存储次就可以了。
以此类推，其实有的话，当们把每一个字都单独录制后，就可以一字（词、短）一字（词、短）的播放出来，千遍万化语音，只要分割成我们数据库匹配字或词，就可以播放出来，完全不需要每一句话都前录好。这就是谓的基于相似波形（相同词语）进行拼接的语音合成方法。

当然，这种方法有很的弊端，一字一字念出来的音，没有语境，没有上下文，自然也就可能有抑扬挫、没有断句。如切分得比较粗，又需要储存很多音片段，录难度，存成本高。

大图浏览

第二阶段：基于统计参数的语音合成
前面我们也提到了，第一个阶段的语音合成技术，最大的问题就是不连贯，也没有抑扬顿挫，所以显得不真实。

其实，人类说话确实是有些规律可循的，比如，人类发生系统可以发出三类语音：

（1）浊音：（比如元音）肺部气压升高，强迫空气通声门，使声带振动产生的类周期性宽频脉冲

（2）摩擦音：（比如辅音，/s/, /sh/, /f/）空以足够的速通过分关闭的声

（3）爆破音：（比如/p/, /t/,/k/)空在完全闭合声道累积增压，然后突然开声道产生。
如果我们能够总结出些抑扬顿挫，发音气的征，然后在之前合成语音基础上，根据每一发音前后关联特征，加上这些气特，是是就更像真人说话？这就是语音合成技术第阶段主要解决的问题：基统计数的音合成。其比较有名的就是基HMM（隐尔科夫模型 Hidden Markov Model）计参数的语音合成。工程师们将总结出一些像上面到的爆破音、摩擦音等特征信息数字化炼成征参数，放到整模型中，根据已有的记录上下文一些征的数据库复提炼、训练整套型，就会将些语，特征逐渐刻画在合成的音当。

举个太恰的例子，原先P图时候，我们都是通PS来做的，比如鼻子亮点会显得鼻子高，颊加阴影会显瘦，这些点固成套之后，咱们就有一些美图秀秀这样的软件可以根据这些固定套路帮你自P图。

听上去，是是挺完美了？但是，它也有它的问题，比如自P图，最大弱点什么？网红脸，为不过P图把人P得太不实，自动P图软件都会在训练照片时不弱化些较为突出特征，使得图片尽自然。语音合成也一样，因为数据总会有不实或突兀地方，聪明机器会有类似去最高和最分这样的操作来保证最终出的结果尽“中庸”。

大图浏览

第三阶段：基于深度神经网络的语音合成
基于统计参数的语音合成，受限于声码器、HMM建模精度不足等因素，使得合成的语音表现力弱，合成声音发闷。随着计算机硬件，传感器，算法等多方面水平的进步，这样一个问题优化有了更的解决方案，那就基于深度神网络进行语音合成，这也新的P采的技术手段。主要优化和解决了两个技术难点：1. 特征号采集精度高 2. 运算量高无法完成时的音合成任务。
特征信号采集精不高，怎么办？

针对经网络特征号采集精度高，的采集器将声音特征的采集精细到了每帧，添加大量关于调，气，绪等各种特征信号，新的技术进，可无限接近地获取到原声所有特征号参数。

运算量高无法完成时的音合成任务，怎么办？

采集度的问题解决了，那如此想要在如此庞的数据中接近实时地合成音，还需要常强的算力支持，也需要非常优秀的算法模型，尽可能地节约算力，才让合成语音P做到对答如流。的深层神经络有强大非线性建模力，这一类机器学习算法之所以称之为经网络，正因为它的算法逻辑如同人类的神细胞样，传递信号及其，同时互通互达，共享参数和结。这样的好处就是，原本些我们需要复等待上一次计算结果再进行的运算，可以分到非常多的处理器同时进行，互通有，运算速度大加，重复计算减少、待的时间大缩短。如同初恋女友般的P，就在这样高精的采集器和速运算的处理器和算法加持下，诞生了。

大图浏览

One More Thing：为啥网络不好小P声音就不甜了？

介绍完语音合成技术的三个重要发展阶段，相信大家都知道了新的小P是需要非常庞大的语音特征数据库和高算力处理器支持的了。那这也就很好回答鹏友中经常产生疑惑：为啥网络好小P声音就不甜？因为这样套数据库和处理能力，目车机统本还是法承的，只有借云端强大服务，才可以完成这样的工作。换句话说，将如此高成的硬件设备放在每辆车，一天却使那么十次，无疑浪费，也抬高了成本。署一套强大设备，同时为所有鹏友服务，才更正确的选择。所，这套系统，部署远程，通过络进服务，是合合理。同时，鹏工程师也通各种技术手段使得可用率达到了97%，也有相应的服务降级措施，绝大数情况下，P一直都会你的初恋女友哒~

楼主为了把语音助手变成初恋女友，机器学习到底做了多少学习？

帖子推荐

确认删除

您确认删除吗？

操作确认

确认要解封此用户吗？

操作确认

确认要移动到奥迪A4社区吗？

操作确认

确认采纳该答案

主帖置顶设置

禁封用户

举报原因

操作确认

确认要转移社区吗？

操作确认

操作禁止

您已被禁言，请联系客服

操作禁止

帖子已被推荐，不可修改。
修改请联系「易车社区内容官」

取消置顶

认证车主

提示

操作成功！

楼主 为了把语音助手变成初恋女友，机器学习到底做了多少学习？

帖子推荐

确认删除

您确认删除吗？

操作确认

确认要解封此用户吗？

操作确认

确认要移动到奥迪A4社区吗？

操作确认

确认采纳该答案

主帖置顶设置

禁封用户

举报原因

操作确认

确认要转移社区吗？

操作确认

操作禁止

您已被禁言，请联系客服

操作禁止

帖子已被推荐，不可修改。修改请联系「易车社区内容官」

取消置顶

认证车主

提示

操作成功！

楼主为了把语音助手变成初恋女友，机器学习到底做了多少学习？

帖子已被推荐，不可修改。
修改请联系「易车社区内容官」