为什么你的语音助手说话不像人?关于TTS技术原理及挑战
如前面所说,为了更准确的传递信息,人在说一句话的时候需要有节奏感。如果一个人在说话的时候中间不做任何的停顿,会让我们很难理解他说的意思,甚至我们会觉得这个人不礼貌。我们的科学家,工程师,都在想方设法的让TTS朗读得更具备节奏感一些,更礼貌一些。但是在很多时候TTS的表现却总是差强人意。 这是因为语言的变化太丰富了,根据不同的上下文,甚至不同的场合,我们的朗读的韵律节奏都不太一样。韵律中,最重要的就是讨论一句话的停顿节奏,因为停顿是一句话朗读正确的基础,如果停顿不对,错误很容易被人耳朵抓住。 比如这句:”为你切换单曲循环模式”。如果我们用“|”来表示停顿,那么一个正常的人朗读的停顿节奏一般是这样的:“为你切换|单曲循环模式”。 但是如果一但你的AI助手说“为你切|换单曲循环模式”这种奇怪的节奏感时,你内心可能是奔溃的。 后端错误 聊完前面这个“经常犯错的语言学家”,我们再来看看后端:这个按照“语言学家”给的 “规格书”来读稿子的“发音人”。 前面提到,后端主要有拼接法和参数法两种方式。现在苹果,亚马逊的AI助手Siri和Alexa 使用的是波形拼接的方法。而在国内,大多数公司都是使用参数法。所以我们关键来看一下参数法可能的后端错误。 后端系统在拿到前端给的语言信息后,要做的第一件事情是,决定每个汉字到底要发音多长时间(甚至是每个声母,韵母要发音多长时间)。这个决定发音长短的组件在专业领域里叫“时长模型”。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |