抢滩智能音箱（下）：对话OS围猎服务生态链会重构吗？

网易智能 2017-08-22 11:32:37 0 业界资讯 | AI, 技术, 智能音箱

智能音箱像潮水一般席卷科技行业，随着各家巨头的进入，百箱大战一触即发。8月15日，网易智能独家发布特稿《抢滩智能音箱（上）：新大陆还是海市蜃楼？》（点击阅读原文查看），采访了智能音箱生态链中的各环节厂商和资深行业人士。

在上篇中，主要阐述了中美智能音箱的差距以及造成差距的具体原因，各大厂商争抢智能音箱背后的语音交互大时代以及落地场景，以及对于智能家居控制论的争辩。

在下篇中，我们将探讨如果做出一款智能音箱，目前还有哪些技术问题，以及智能音箱背后的内容服务与音乐版权之争。

文 / 小羿

四、技术为先：

关于远场识别、唤醒时长以及声纹识别

想做一款智能音箱，首先要解决端的问题。
而要想在智能音箱上达到自然的语音交互能力，这其中最关键的技术首先是远场语音识别。

远场语音识别的实现，涉及麦克风阵列，以及降噪算法，声音识别的准确性及延迟等一系列问题。”

麦克风阵列本身很成熟，不管是2、4、6、7麦，目前国内厂商都有生产，而关键的是在软盒方案（降噪、声源定位等），如果你想做一款智能音箱，很多语音识别技术公司都会给你指定采购方。“网易人工智能总监刘锐说到。

但如何选择麦克风的组合数量？很多人给出了不同的看法。一般认为，麦克风（mic）越多，声音采集的效果越好，但算法也就越复杂，对CPU的主频要求也就越高。

云知声Pandora项目负责人张鹏认为，6mic和4mic的效果差距不是特别明显，但成本更高，加上2mic和4mic之间效果还是有一定的差距，综合考虑选择4mic会是一个比较好的方案。

“麦克风不是越多越好，应该是合适最好。”智能音箱继承方案商Sugr CEO宋少鹏说，“Google Home只用了两个麦克风，但它的算法做的非常好，效果也不错。

所以，选择多少麦克风数量，需要考虑使用场景、距离、成本，甚至是系统算法。”

目前来看，6+1的麦克风方案是亚马逊Echo验证的方案，目前使用类似方案的厂商有很多。

据灵隆科技总经理魏强称，叮咚音箱目前使用的是7+1的麦克风组合方案，这通常是软硬件一体的解决方案，除了硬件外，还必须搭配降噪、背景音消除等诸多算法，甚至涉及外部结构、电路设计。

虽然目前行业中已经有很多成熟的麦克风阵列软硬件一体化解决方案，但是真正用到实际场景中，还是会有很多问题，比较典型的是方言识别问题，以及中英文夹杂识别问题。

汉语中有很多方言，这就导致不同地区的用户在使用智能音箱做语音交互时体验上差距很大。魏强认为，方言问题本质上是数据训练的问题，如果我们有足够多的方言语料，就能解决这个难题。

另外一个很典型的问题就是用中文语音交互搜索英文歌曲，甚至中英文混杂的曲目，最后的结果往往是驴唇不对马嘴。这需要语音识别的技术公司在中、英文的切换上找到突破口。

远场识别之外，另一个比较受关注的技术问题是唤醒词定制以及唤醒时长问题。

从目前的技术水平来说，唤醒词定制没有太大的问题，难点在于定制唤醒词的唤醒准确率没有常规唤醒词高。近期，百度全资收购了专门做唤醒词定制的技术公司KITT.AI，以加强自己在这部分技术上的实力。

关于唤醒时长，这是目前业内还没有达成技术统一的难点所在。

也就是说，智能音箱被唤醒之后，是一直在拾音状态，还是转到休眠状态，这是一个问题。如果一直在唤醒状态，就有可能出现误识别的问题，比如电视上的声音说“报警”，智能音箱就立即拨打报警电话。

这是发生在Google Home上的真实案例。

“目前行业上的普遍做法是预留6秒或者10秒的唤醒时长，或者干脆让用户自己设置唤醒词的预留时间。”刘锐向网易智能解释到。

除了以上的技术之外，目前在智能音箱上还有一个方兴未艾的技术，那就是声纹识别。在网易智能对各行业人士的采访中，大家都比较认同这项技术未来的应用前景。

在张鹏看来，声纹识别为语音交互时代提供了一个身份ID，这就使得为个体成员提供个性化的服务奠定了基础。“声纹识别技术会成为智能音箱甚至是未来语音交互的标配。”刘锐这样给声纹识别技术定位。

“不过，目前声纹识别技术才刚刚兴起，现在可以识别的用户数量并没有一个标准。从技术上看，识别的用户越多，误识别率越高。”

刘锐称，目前声纹识别的算法还处于数据积累初期，还需要进一步发展成熟。魏强认为，目前的声纹技术只能用在比较清晰的语音环境下，而且不能用于支付等有风险的场景中。

“今年的语音交互技术就像2008年的手机触控技术，当时的触摸操作不灵敏，打游戏没不跟手，设备还容易发烫。但是未来语音技术肯定会越来越成熟，以上难题将迎刃而解。”宋少鹏说到。

五、从云服务到技能：生态链的重构

智能音箱之上，越来越多的人都认为，云端内容服务将成为未来语音交互时代竞争的焦点。

为了将内容服务接入语音交互设备中，亚马逊Alexa给出了一个很好的解决方案.

那就是将语音技术开放一个API接口，当你问Echo今天天气怎么样，它会先把语音通过本地处理上传到云端服务器，将语音翻译成文字，然后把文字关键词找出来理解意思，找到对应答案，这个答案去调用气象信息数据库，最后反馈给音箱播报出来，整个过程可能只需要几秒的时间。

而这里的气象信息数据，就是一项云端服务内容，亚马逊将其称为技能（Skill）。最新数据显示，Alexa平台上已经拥有15000项技能。

“比如你跟冰箱说，今天有点累了，它会给你推荐你喜欢吃的而特别有营养的东西。”海知智能CEO谢殿侠称，以后所有的业务服务都会升级成skill（技能），这种skill能够像专家一样给你推荐东西。

魏强也表达相似的观点，“手机生态中，基本是几个APP把握了巨大的入口。但是语音交互可以自然地随意切换，这是非常长尾的需求，而且越多服务对用户越好。”

“从这个角度看，未来所有的APP都会重构，这种重构可能是把一个单品升级为一个技能，也可能是过去相互隔离、推崇单点极致的APP思维互相打通。”谢殿侠这样推测语音交互的未来服务形态。

目前，国内不管是巨头厂商还是创业公司，都希望搭建一个类似Alexa的平台，百度、阿里、腾讯、网易、小米、科大讯飞都已经进入。目的就是要打造一个中文语音对话平台，将移动互联网上的服务变成平台的技能。

百箱大战档口，创业公司也不甘示弱，另辟蹊径谋求在对话平台的布局上分一杯羹。据思必驰CMO龙梦竹透露，思必驰将很快发布一个面向开发者的对话平台DUI，“我们做了一项调研，发现Alexa平台上大概60%的开发者都在观望。

是否在自己的产品中加入语音识别？在这个问题上，大企业开发者需要等待上级指派，中小客户需要更多的定制化功能。”龙梦竹称，在语音交互开发初期，你必须要跟开发者一对一进行深度沟通，而这件事只有创业公司能做。

目前，DUI已经面向500个种子开发者开放，不仅支持多轮对话、麦克风降噪、语音识别和输出、TTS语音合成，还整合了很多第三方技能（如闲聊、导航、天气等），能定制唤醒词，最重要的是会进行一对一沟通，满足开发者多样化的需求，并将数据进行整合梳理，满足开发者运营需求。

而对于云知声的团队来说，他们希望通过芯片级的解决方案整合软硬件及服务。

据张鹏透露，云知声希望延续云端芯的产品技术架构，让用户拿到芯片直接套用音箱外壳即可，云知声提供完整的解决方案。

谢殿侠也认为，智能音箱的本质是机器人的MVP（最小可用功能体），它具备叫起床、查星座、运势、黄历，读取百科、菜谱等诸多功能，可以装入各种机器人和智能家居设备中。

方案集成商老树开花科技CEO朱俊文认为，未来语音交互的竞争焦点是在云平台上面，而互联网公司是很重要的力量。

他认为，“未来纯语音引擎技术会成为成熟的基础技术，各家差异都不是很大，而最终要拼的还是内容服务，这是一个生态建设过程。”

不管是XXUI，还是XXOS，各大厂商都希望做成内容服务的平台，从而掌握语音交互时代的入口。但在无线音响设备厂商Sonos看来，他们可以整合各家平台。

王汉华向网易智能解释到，Sonos的定位是成为智能音箱产业链中的一环，主要是将音箱设计、音质、互联互通等软硬件体验做好，至于承载内容服务的OS，可以与国内外厂商合作，甚至开放接入所有平台。

但是，在中国市场，对话操作系统的竞争如此激烈，又怎么能够把多个OS接入一款硬件中呢？这种路径能不能走通？在中文对话平台没有真正形成规模之前，这里还要打一个大大的问号。

“最终能够留下来的平台级公司也就两三家，这两三个OS上面会聚集很多应用场景和硬件。”王汉华认为，“和手机很相似，未来的智能音箱产品也会出现从1000-6000元不同价格区间段的产品。”

六、音乐版权之争：
未来困难重重，活下来是第一步

对于智能音箱来说，在各家语音对话平台没有成型之前，音乐版权之争已经成为智能音箱发展的一个关键点。

在网易人工智能总监刘锐看来，智能音箱初期最基础的功能还是听音乐，这就要求各家产品厂商必须保证自己的音箱中有足够的音乐素材。

目前，国内音乐版权基本上在腾讯、阿里、网易三家手中，其他做智能音箱的厂商就需要去买二手版权。

但是，这里有一个棘手的问题就是，像索尼等唱片公司授权给互联网公司音乐版权的时候，都只是授权在APP上播放，在其他产品上并不合规。

据悉，目前很多智能音箱还是爬去的APP音乐接口和曲库，根本没有版权可言，这为将来智能音箱市场大批量出货埋下了隐患。

“从音乐版权上看，智能音箱只有大公司才玩得起。不过目前就是看谁先活下来，后面还是要看用户对于语音交互的需求。”刘锐认为，智能音箱才刚刚起步，后面困难重重。

王汉华称，“也许未来智能音箱会变得非常垂直化，比如会出现音乐音箱、购物音箱等不同场景的垂直产品，从而解决内容服务和利益分配的问题。”

后记

网易智能特别发布的两篇《智能音箱抢滩战》系列报道，站在语音交互的潮流，梳理了智能音箱的技术发展、内容服务整合以及音乐版权之争，试图还原真实的智能音箱产品、技术与市场。

当然，中国的智能音箱市场是否能迎来真正的爆发，还要看后续产品销售渠道、用户体验等。届时，网易智能也会对智能音箱的体验和发展做进一步的跟进报道，欢迎大家继续关注我们（公众号 Smartman163）。

网易智能

网易智能（公众号 smartman163），定位人工智能等前沿科技领域的垂直媒体及产品服务平台，面向人工智能等领域的从业者和关注者。运营栏目包括大型策划栏目《AI英雄》，行业研究与分析栏目《AI研究院》等，提供原生内容、新闻策划、数据报告、产品评测等服务。

IT思维

FEATURE TOPICS

最新文章

热门观点更多

人工智能将让无数职业过时，如何规划孩子的职业生涯

人工智能的黑暗秘密：如何让 AI 解释自身行为？

科技巨头间的人才争夺战，正从硅谷蔓延至全球

“AT”竞相追逐互联网保险大蛋糕，谁会站在资源优势的制高点？

腾讯 COO 任宇昕：国内信息安全投入不足 1%

抢滩智能音箱（下）：对话OS围猎服务生态链会重构吗？

发表留言 × 取消留言

思维客家族

友情链接