加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 业界 > 正文

为什么你的语音助手说话不像人?关于TTS技术原理及挑战

发布时间:2019-08-08 07:12:43 所属栏目:业界 来源:郑杰文
导读:副标题#e# 每一位刚(wan)铁(nian)直(dan)男(shen),都梦想下班路上偶遇电影《Her》中的机器人女友萨曼萨。虽然只闻其声不见其人,但仅听声音就能感受到各种情感的诠释。 萨曼萨背后的真人配音来自斯嘉丽约翰逊。有人说,光听声音就已满足我对她全部的幻想。

如前面所说,为了更准确的传递信息,人在说一句话的时候需要有节奏感。如果一个人在说话的时候中间不做任何的停顿,会让我们很难理解他说的意思,甚至我们会觉得这个人不礼貌。我们的科学家,工程师,都在想方设法的让TTS朗读得更具备节奏感一些,更礼貌一些。但是在很多时候TTS的表现却总是差强人意。

这是因为语言的变化太丰富了,根据不同的上下文,甚至不同的场合,我们的朗读的韵律节奏都不太一样。韵律中,最重要的就是讨论一句话的停顿节奏,因为停顿是一句话朗读正确的基础,如果停顿不对,错误很容易被人耳朵抓住。

比如这句:”为你切换单曲循环模式”。如果我们用“|”来表示停顿,那么一个正常的人朗读的停顿节奏一般是这样的:“为你切换|单曲循环模式”。

但是如果一但你的AI助手说“为你切|换单曲循环模式”这种奇怪的节奏感时,你内心可能是奔溃的。

后端错误

聊完前面这个“经常犯错的语言学家”,我们再来看看后端:这个按照“语言学家”给的 “规格书”来读稿子的“发音人”。

前面提到,后端主要有拼接法和参数法两种方式。现在苹果,亚马逊的AI助手Siri和Alexa 使用的是波形拼接的方法。而在国内,大多数公司都是使用参数法。所以我们关键来看一下参数法可能的后端错误。

后端系统在拿到前端给的语言信息后,要做的第一件事情是,决定每个汉字到底要发音多长时间(甚至是每个声母,韵母要发音多长时间)。这个决定发音长短的组件在专业领域里叫“时长模型”。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读