亚马逊的Alexa到底神奇在哪里

发布时间：2017-04-21 22:50:11 所属栏目：运营来源：Donews

导读：副标题#e# 随着亚马逊的智能音箱Echo销量逼近千万，Alexa无疑成为了全球范围内截至目前最为成功的消费级AI产品，也可谓是亚马逊这家电商公司在人工智能领域一次的跨界奇迹，极大刺激国内各个科技公司也纷纷进入语音交互领域。根据内部人士提供的数据，包括

所以AI最大的问题还是会归结于最原始的哲学问题，人类的智慧是怎么来的? AI根本不懂人脑的机制，怎么超越人脑?这点就从笔者最熟悉的声学来看，这个领域为啥大家都不爱进入，甚至本科都不开设这个专业?甚至声智科技成立以前，很多大众媒体同学都不知道还有个中科院声学所。

因为声学100多年没有啥实质性理论突破了，虽然在水声领域我们国际上也很领先，但是和深度学习类似，我们也是在做大量实验和调优的工作，这就很难产生颠覆性的贡献。这么久没有理论上的突破必然会导致公众的遗忘，甚至再过百年都看不到诺贝奖的希望，谁还来搞呢?毕竟学子年轻的时候都充满了希望，但是怎么做到呢?

2 语音识别的最大瓶颈在于声学

前面提到，语音识别最大的落地还是在场景之中，这涉及了语音交互用户场景的变化，当用户从手机切换到类似Echo智能音箱或者机器人的时候，实际上麦克风面临的环境就完全变了，这就如同两个人窃窃私语和大声嘶喊的区别。

前几年，语音交互应用最为普遍的就是以Siri为代表的智能手机，这个场景一般都是采用单麦克风系统。单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是，若声源距离麦克风距离较远，并且真实环境存在大量的噪声、多径反射和混响，导致拾取信号的质量下降，这会严重影响语音识别率。而且，单麦克风接收的信号，是由多个声源和环境噪声叠加的，很难实现各个声源的分离。这样就无法实现声源定位和分离，这很重要，因为还有一类声音的叠加并非噪声，但是在语音识别中也要抑制，就是人声的干扰，语音识别显然不能同时识别两个以上的声音。

显然，当语音交互的场景过渡到以Echo、机器人或者汽车为主要场景的时候，单麦克风的局限就凸显出来。为了解决单麦克风的这些局限性，利用麦克风阵列进行语音处理的方法应时而生。麦克风阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风组成，对采集的不同空间方向的声音信号进行空时处理，实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能，进而提高语音信号处理质量，以提高真实环境下的语音识别率。

但是仅靠麦克风阵列提供的这些技术还是不够的，这只能解决部分远场化的问题。事实上，真实场景下我们需要更复杂的识别技术，能不能不依赖于云端?能不能同时追踪和识别多个人讲话?能不能识别语调和情感?等等这些环节，都是急需要解决的问题?而很多技术的瓶颈就在于声学能否也有一个较大的突破。

3 语音助手核心在于场景和性格

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/8

首页

尾页

从用户定位策略，看民	短视频越来越火公众号
什么样的新媒体内容才	自媒体该怎么做新手做