亚马逊的Alexa到底神奇在哪里
所以AI最大的问题还是会归结于最原始的哲学问题,人类的智慧是怎么来的? AI根本不懂人脑的机制,怎么超越人脑?这点就从笔者最熟悉的声学来看,这个领域为啥大家都不爱进入,甚至本科都不开设这个专业?甚至声智科技成立以前,很多大众媒体同学都不知道还有个中科院声学所。 因为声学100多年没有啥实质性理论突破了,虽然在水声领域我们国际上也很领先,但是和深度学习类似,我们也是在做大量实验和调优的工作,这就很难产生颠覆性的贡献。这么久没有理论上的突破必然会导致公众的遗忘,甚至再过百年都看不到诺贝奖的希望,谁还来搞呢?毕竟学子年轻的时候都充满了希望,但是怎么做到呢? 2 语音识别的最大瓶颈在于声学 前面提到,语音识别最大的落地还是在场景之中,这涉及了语音交互用户场景的变化,当用户从手机切换到类似Echo智能音箱或者机器人的时候,实际上麦克风面临的环境就完全变了,这就如同两个人窃窃私语和大声嘶喊的区别。 前几年,语音交互应用最为普遍的就是以Siri为代表的智能手机,这个场景一般都是采用单麦克风系统。单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是,若声源距离麦克风距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这会严重影响语音识别率。而且,单麦克风接收的信号,是由多个声源和环境噪声叠加的,很难实现各个声源的分离。这样就无法实现声源定位和分离,这很重要,因为还有一类声音的叠加并非噪声,但是在语音识别中也要抑制,就是人声的干扰,语音识别显然不能同时识别两个以上的声音。 显然,当语音交互的场景过渡到以Echo、机器人或者汽车为主要场景的时候,单麦克风的局限就凸显出来。为了解决单麦克风的这些局限性,利用麦克风阵列进行语音处理的方法应时而生。麦克风阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。 但是仅靠麦克风阵列提供的这些技术还是不够的,这只能解决部分远场化的问题。事实上,真实场景下我们需要更复杂的识别技术,能不能不依赖于云端?能不能同时追踪和识别多个人讲话?能不能识别语调和情感?等等这些环节,都是急需要解决的问题?而很多技术的瓶颈就在于声学能否也有一个较大的突破。 3 语音助手核心在于场景和性格 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |