为什么你的语音助手说话不像人？关于TTS技术原理及挑战

发布时间：2019-08-08 07:12:43 所属栏目：业界来源：郑杰文

导读：副标题#e# 每一位刚(wan)铁(nian)直(dan)男(shen)，都梦想下班路上偶遇电影《Her》中的机器人女友萨曼萨。虽然只闻其声不见其人，但仅听声音就能感受到各种情感的诠释。萨曼萨背后的真人配音来自斯嘉丽约翰逊。有人说，光听声音就已满足我对她全部的幻想。

如前面所说，为了更准确的传递信息，人在说一句话的时候需要有节奏感。如果一个人在说话的时候中间不做任何的停顿，会让我们很难理解他说的意思，甚至我们会觉得这个人不礼貌。我们的科学家，工程师，都在想方设法的让TTS朗读得更具备节奏感一些，更礼貌一些。但是在很多时候TTS的表现却总是差强人意。

这是因为语言的变化太丰富了，根据不同的上下文，甚至不同的场合，我们的朗读的韵律节奏都不太一样。韵律中，最重要的就是讨论一句话的停顿节奏，因为停顿是一句话朗读正确的基础，如果停顿不对，错误很容易被人耳朵抓住。

比如这句：”为你切换单曲循环模式”。如果我们用“|”来表示停顿，那么一个正常的人朗读的停顿节奏一般是这样的：“为你切换|单曲循环模式”。

但是如果一但你的AI助手说“为你切|换单曲循环模式”这种奇怪的节奏感时，你内心可能是奔溃的。

后端错误

聊完前面这个“经常犯错的语言学家”，我们再来看看后端：这个按照“语言学家”给的 “规格书”来读稿子的“发音人”。

前面提到，后端主要有拼接法和参数法两种方式。现在苹果，亚马逊的AI助手Siri和Alexa 使用的是波形拼接的方法。而在国内，大多数公司都是使用参数法。所以我们关键来看一下参数法可能的后端错误。

后端系统在拿到前端给的语言信息后，要做的第一件事情是，决定每个汉字到底要发音多长时间(甚至是每个声母，韵母要发音多长时间)。这个决定发音长短的组件在专业领域里叫“时长模型”。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

PTC要在工业SaaS领域拔	Analog Devices完成对
诺辉健康发布2021年中	顺丰控股半年报：上半