Echo：能回应的音箱【最佳发明系列之12】

来源：IPRdaily.cn中文网

作者：刘成韩雪审协北京中心 IP创新赢

原标题：Echo：能回应的音箱【最佳发明系列之12】

能获评最佳发明，亚马逊的Echo显然不是一款简单的无线音箱。其真正强大之处在于内置了云端语音服务“Alexa”。一下子将这款音箱变成了能和用户语音交流、控制其它设备的“智能助理”。看看亚马逊官方发布的介绍视频（建议在WiFi环境下观看）：

“Always ready, connected and fast. Just ask.”

随时待机，快速响应

从亚马逊的广告语中就知道：问就好了！

Alexa，几点了？

Alexa，找首轻松的歌放放

Alexa，明天要不要带雨伞

如果你觉得上面的小儿科，那么它还可以；

控制Nest、IFTTT公司旗下智能家居产品

查银行账户信息

订购披萨

Uber叫车

甚至还能语音控制汽车。

（当然，目前还不支持中文）

外表简约却内藏丰富的功能，Echo倍受用户欢迎。自2015年正式发售至今，短短两年销量即已突破500万台，在近来甚少创新的音箱界可谓异军突起，而且，据亚马逊官网的销售页面显示，Echo在近5万用户评价中获得67%的全5星好评，被亚马逊视为“下一个10亿美元级”业务。

下图是Business Insider在2016年12月对Echo销量及Alexa技能数量的统计:

Echo：能回应的音箱【最佳发明系列之12】

销量翻倍，技能数直线上升……一个看上去比较简单的音箱类单品能达到这种火爆程度，实在令人惊讶。

在互联网各大巨头早已布局语音助手的情况下，为什么Echo能够独领风骚，甚至让Google追随其脚步而推出Google Home音箱，苹果也据传将要发布基于Siri的智能音箱？

下面，小赢就从产品功能和专利技术角度，和大家分享一下亚马逊这款“可以回应的扬声器”背后的秘密。

Echo：能回应的音箱【最佳发明系列之12】

Echo的产品研发

亚马逊开发Echo以及Alexa服务的项目可以追溯到2011年，由亚马逊的Lab126实验室研发（Lab126类似于Google的X实验室。126表示第1到第26个字母。其研究项目以字母顺序命名，例如Kindle为项目A），属于项目D，于2011年启动。

该项目最初的目标并没有十分远大，其创意实际是项目C（涉及增强现实）的一个衍生分支，后来才逐渐明确。为了加速语音技术的研发，亚马逊从著名的语音技术公司Nuance挖来一批重要技术人员，后来又陆续收购了Yap、Evi、Ivona Software等多家语音初创公司，为语音转文字、语音识别在商品搜索上的应用、文本语音转换和语音命令等功能提供技术支撑。

2014年11月，亚马逊推出Echo，并于2015年7月正式对所有用户出售，售价179.99美元：

Echo：能回应的音箱【最佳发明系列之12】

Echo呈圆柱形，高约23.5厘米，内置麦克风阵列和扬声器阵列，以语音作为主要交互方式，通体只有两个按键，其主要硬件结构如下图所示:

Echo：能回应的音箱【最佳发明系列之12】

Echo的两个物理按键都在顶面，分别是关闭麦克风和唤醒；顶部有一个灯环，灯环下面是一个音量控制转环，可以通过旋转来调节音量。灯环会对Echo的状态做出灯光反馈，比如关闭麦克风的时候，灯环会变成红色，而调节音量的时候，灯环为白色，且范围随着音量变化。当捕捉用户语音时，灯环还会在朝向用户的部分点亮。

2016年3月，亚马逊丰富Echo品类，发布了小型版的Echo Dot，并在10月更新为Echo Dot 2，售价49.99美元。

Echo：能回应的音箱【最佳发明系列之12】

Echo Dot具有与Echo同样的语音交互功能，只是弱化了扬声器，但可以通过3.5mm音频接口或者蓝牙的方式连接到其它音响中，从而弥补扬声器的不足。

Echo：能回应的音箱【最佳发明系列之12】

与Echo Dot同期推出的还有Amazon Tap，是一款360°户外蓝牙音箱，同样内置了Alexa语音助手，售价129.99美元。

Echo的功能

在Echo研发过程中，亚马逊很长时间都没有明确这款扬声器的主要功能是什么。作为一个重要特点，Echo支持同时播放声音和监听用户语音的功能在后期才确定下来。

Echo：能回应的音箱【最佳发明系列之12】

亚马逊创始人贝索斯希望能让Echo完全支持电商购物。需要说明的是，有证据表明，早在2013年底，Lab126就已考虑将Echo作为一款智能语音控制设备，通过互联网将它与其他公司开发的智能灯泡等设备进行连接和控制。

Echo：能回应的音箱【最佳发明系列之12】

2015年4月，Alexa新增对Belkin WeMo无线开关和飞利浦Hue灯具的控制功能，正式触及智能家居领域。

在先后增加对多款智能家电的支持之后，2015年6月，亚马逊宣布将Alexa开放给第三方开发者，发布了Alexa Skills Kit（ASK）和Alexa Voice Service（AVS）两套工具包。

Echo：能回应的音箱【最佳发明系列之12】

其中，ASK主要面向开发者，在Alexa中开发更多语音服务应用，AVS则主要支持第三方设备厂商在设备中集成Alexa。与此同时，亚马逊还特别设立了1亿美金的风险投资基金“Alexa Fund”，专门用来扶持语音交互领域的初创企业。

由于亚马逊的推动以及Echo的良好口碑，其它智能设备厂商和第三方开发者的热情日益高涨，Alexa具备的技能越来越丰富。2015年Echo整合的第三方服务只有14项，现在已经上升至7000余项，并且以每天大约100项新技能的速度增长。有国外媒体对Alexa Skills的数量情况统计如下：

Echo：能回应的音箱【最佳发明系列之12】

在刚刚进行的CES 2017消费展上，据说有700多种产品将内置Alexa服务，包括：

LG超豪华冰箱、

华为Mate9手机（美国版）

联想的音箱

优必选机器人

甚至福特电动汽车……

虽然没有参展，但Alexa几乎无处不在

福布斯新闻表示：亚马逊的Alexa要主宰CES

亚马逊硬件部门高级副总裁David Limp曾说:“亚马逊相信下一个大平台是语音，我们要做的就是为用户打造一个完全由语音控制的云计算机。”

伴随Echo发展起来的Alexa不再只是一个内置于设备中的智能语音助手，它已经成为一个抢占先机的智能语音平台，是亚马逊在人工智能和智能家居领域的重大布局。而作为亚马逊自家最先接入Alexa服务的主体，Echo未来也必然水涨船高，还将具备更多令人期待的功能。

Echo相关的专利

如此重要的产品，自然少不了专利保护。同时，为了保密起见，对于Echo项目早期的专利，亚马逊是借助一家名为Rawles LLC.的公司进行申请，后来再转让给亚马逊。

从2012年6月起，Rawles LLC.申请了多个名称中包含“voice controlled assistant”（语音控制助理)的专利，其中的语音控制助理就是Echo音箱的形式，例如，较早的一篇申请US13/486,774（已于2015年6月获得授权，授权公开号：US9060224B1），如下图所示，语音控制助理包括麦克风阵列、扬声器阵列和计算组件，用户以说话的方式向语音控制助理提交请求，语音控制助理通过麦克风阵列采集声音信号，对声音信号进行处理，形成相应的查询请求，然后与云端通信，通过云端为用户提供各种应用服务，例如播放音乐、回答提问等，最后通过扬声器阵列将结果反馈给用户。

Echo：能回应的音箱【最佳发明系列之12】

2013年12月，同样是通过Rawles LLC.公司，亚马逊申请了一项名称为“Natural Language Control of Secondary Device”（二级装置的自然语言控制）的专利（申请号：US14/094,270，公开号：US2015/0154976A1），同时还申请了PCT并进入欧洲和中国。该申请描述了通过自然语言输入并经由初级语音响应装置来控制二级装置的技术，也就是利用Echo以语音方式控制其它设备的原型，如下图所示。

Echo：能回应的音箱【最佳发明系列之12】

众所周知，亚马逊并非最早推出智能语音助理的公司，单就以语音方式控制二级设备而言，这也不是亚马逊的首创。例如，Sensory, Inc.的一项专利（授权号：US7418392B1，申请日为2004年9月10日）就公开了通过语音指令控制设备操作的方案，被苹果和亚马逊的相关申请大量引用：

Echo：能回应的音箱【最佳发明系列之12】

然而，在Echo推出之前，市面上最为普遍的语音交互应用一般都是采用单麦克风或双麦克风系统，例如集成Siri语音助手的iPhone等。单麦克风系统可以在安静环境或距离较近的情况下取得良好效果，但如果声源距离麦克风较远，并且真实环境存在大量的噪声、多径反射和混响，这会严重影响语音识别率。在这种情况下，即便如iPhone这么优秀的产品，其Siri的表现也不尽如人意。

相比之下，Echo的独特之处在于：使用了麦克风阵列，并且结合亚马逊强大的云服务进行语音识别。麦克风阵列由一组按一定几何结构（常用线形、环形）摆放的麦克风组成，对采集的不同空间方向的声音信号进行空时处理，能够实现噪声抑制、混响去除、声源定位、人声干扰抑制等功能，从而提高语音信号处理质量，提高真实环境下的语音识别率。

下边左图中的绿色圆圈示出了Echo使用的6+1麦克风阵列，位于Echo顶部，右图为前面提到的专利US9060224B1中的相关附图：

Echo：能回应的音箱【最佳发明系列之12】

Echo所宣传的“Far-Field Voice Recognition”（远场语音识别）：

Echo：能回应的音箱【最佳发明系列之12】

正是基于其硬件中的麦克风阵列实现。基于麦克风阵列技术，亚马逊在音频信号处理、智能语音识别等领域布局了大量专利，对其产品和方案进行保护。

（1）远场拾音

为了实现良好的远场拾音效果，获得清晰的目标语音信号，需要用到波束形成，声源定位，噪声抑制，混响消除，回声消除等技术。下表简要说明了这些技术及亚马逊的典型相关专利：

Echo：能回应的音箱【最佳发明系列之12】

（2）智能语音识别

得到声音信号之后，Echo如何进行智能语音识别，准确理解用户的语音命令？这里需要用到“模型匹配”技术。模型匹配主要是和语音识别以及语义理解进行匹配，语音交互是一个完整的信号链，从麦克风阵列开始的语音流不可能割裂的存在，必然需要模型匹配在一起。实际上，效果较好的语音交互专用麦克风阵列，通常是两套算法，一套内嵌于硬件实时处理，另外一套服务于云端匹配语音处理。

Echo：能回应的音箱【最佳发明系列之12】

亚马逊设计了运行于云端的自动语音识别ASR（automatic speech recognition）系统，并基于模型匹配设计了关键词识别（keyword spotting）系统。Echo收到的语音命令被系统拆分为多个字段，它们在云端与关键词模型逐一比对，匹配度最高的部分被认为是用户发出的语音命令。US9159319B1描述了该关键词识别系统。

对于较为特殊的“唤醒词”，亚马逊还专门申请了多篇专利，例如US9275637B1（美国专利授权公开号），US9368105B1等，可以避免错误唤醒。

此外，US9299346B1、US9424840B1描述了一种语音识别平台，可基于自动语音识别ASR的结果和用户上下文来确定语音指令的范围，理解语音指令的意图，并执行相应的动作。

通过对多种音频处理和智能语音识别技术的综合运用并不断优化，亚马逊将Echo的平均语音处理响应时间从最开始的5秒缩小到1.5秒，如今甚至已做到1秒以内，大幅领先其它智能语音类产品，与Echo对话毫无延滞感，用户体验十分出色。

小结

经过以上分析可以看出，Echo之所以领先于Google Home等竞争对手，其秘笈包括：

（1）性能优异，用户体验良好；

（2）高度机密的研发过程；

（3）低调和完善的专利布局；

（4）开放的策略，促进发展完整生态链。

目前Echo和Alexa还暂未进入国内，以上策略或许可供国内有关厂商借鉴一二，在竞争激烈的人工智能语音交互市场觅得一席之地。

亚马逊硬件部门高级副总裁David Limp曾在描述Alexa的时候说，“我们的长期愿景是让Alexa这个系统能像《星际迷航》里的中央计算机一样，像科克船长一样坐在舰桥里，用声音控制一切。”

Echo：能回应的音箱【最佳发明系列之12】

随着大数据的不断积累和人工智能的迅速发展，我们相信，人类与机器之间自然语言交流的障碍将会消除，“用声音控制一切”的时代终将到来。而Echo，也许是这一时代开启的序章。

参考资料

“The Real Story of How Amazon Built the Echo”，Joshua Brustein，【https://www.bloomberg.com/features/2016-amazon-Echo/】

“远场语音交互的麦克风阵列技术解读”，陈孝良，【http://blog.sciencenet.cn/blog-1375795-1012654.html】

来源：IPRdaily.cn中文网

作者：刘毅审协北京中心通信部

编辑：IPRdaily.cn LoCo

校对：IPRdaily.cn 纵横君

本文来自IPRdaily.cn 中文网并经IPRdaily.cn中文网编辑。转载此文章须经权利人同意，并附上出处与作者信息。文章不代表IPRdaily.cn立场，如若转载，请注明出处：“http://www.iprdaily.cn/”