陈孝良：为什么国内做不好智能音响？-白红宇

由 CCF 中国计算机学会主办，雷锋网(公众号：雷锋网)与香港中文大学（深圳）承办的全球人工智能与机器人峰会 CCF-GAIR 大会进入第二天。在智能助手专场，中国科学院声学研究所副研究员、声智科技创始人陈孝良带来了以《人机语音交互的技术趋势与商业机遇》为题的主题演讲。

陈孝良：为什么国内做不好智能音响？ | CCF-GAIR 2017

雷锋网注：声智科技创始人陈孝良

语音加速人机交互方式的变革，可能会重新定义很多消费电子。极端一点，如果将来所有消费电子都支持语音交互，那这个市场很大，基本上会在全球范围内重构整个产业链条。

首先，麦克风在性能、低功耗方面要做很大改进。事实上，整个全球市场，国内的麦克风产业占比很小，即便国内有些麦克风利用国外的技术来进行生产，但核心技术还是不在国内。而且我们现在做的麦克风是标量麦克风，只能取一个物理量，如果要解决很复杂的声学问题，就需要矢量麦克风。当然，矢量麦克风还有点遥远。

第二个挑战是芯片。我们现在所有的消费电子，特别是偏重人工智能的，前端大量用了 ARM 架构，GPU 比较少。GPU 用在服务端离线数据的训练，这是我们很大的问题。比较灵活的 GPU，国外三家巨头和国内基本没有太大关联。

第三个挑战是算法。声学是每个国家比较封闭的领域，因为声学主要是为军工服务，所以各个国家相互保密，只能各自发展。比如大量使用的机器学习，国内在做改进性技术，我们如何在原创方面比国外领先，这是很大的技术挑战。

陈孝良：为什么国内做不好智能音响？ | CCF-GAIR 2017

第四个挑战是商业化挑战，它又分为三个层面。

第一是产品。国外最著名的是亚马逊 Echo，国内有京东、联想、小米的产品。这些产品有的做过评测，我相信很难得到大家 100% 的认同，甚至大家能给 80 分就不错了。这是个比较大的问题。

第二是内容和服务。国内的内容和服务比较割裂，腾讯在国内占有很大的音乐版权，百度有很大的搜索，交易大量在阿里，但亚马逊就把很多优势集中在一起。所以国内的产品很难避免和巨头合作，但是三家巨头如何合作？怎么选你的产品有很大的缺失。

第三是知识产权，标准。亚马逊、微软都在联合生态做标准，甚至包括 ARM，本身我们也是 ARM 生态联盟的。如果大家查专利，可以看到中文的专利也不是国内公司占领先地位。2010 年到 2015 年的排名顺序，我们挤不进前列。

陈孝良：为什么国内做不好智能音响？ | CCF-GAIR 2017

刚才说了很多挑战，下面和大家交流一下技术的发展趋势。

麦克风现在是标量麦克风，下一步做智能麦克风，最后要做到矢量麦克风。这么大的会场，如果大家小声交流，这个声音对机器来说就很难处理。另外芯片到底是什么架构？低功耗，对接云端，都是需要我们考虑的问题。

下一代 AI 技术是融合的。麦克风和视频、雷达的融合，声光电三个学术合在一起应该怎么做，这也是下一步需要整个研究和开发的。

算法与模型，我们做得更多。比如我们的声源定位，目前只能跟踪一个目标，能不能同时跟踪多个目标，这是非常重要的，包括离线唤醒、离线语音识别。另外，机器学习是不是只用大数据，还是可以用别的方法做一些小样数据的处理，进行冷启动，这是我们下一步要研究的方法。

音响不存在死不死的问题，它是除了笔记本和手机以外，消费电子里面拥有量最多的。但我们做这个事情需要数据，特别是远场数据，不像近场数据可以直接录，这是非常严重的问题。冷启动的时候必须要选一个品类获得启动数据。

陈孝良：为什么国内做不好智能音响？ | CCF-GAIR 2017

在产品定位方面，国内外也有很大不同。

国外亚马逊 Echo、谷歌 Home、苹果 Homepod、微软 Invoke，国内就是叮咚智能音响、联想智能音响、小雅智能音响、天猫精灵。

国外的产品很忌讳叫 Speaker。当时苹果推Homepod，大家都就猜是不是会带“Speaker”，结果选了Homepod，它天然加了两个因素，一个是Home，一个是pod，这和国内的定位有很大的差异。

现在智能音响的产品玩家很多，不光是巨头，包括国内的、深圳很多厂商都做，这里面比较严重的问题是亚马逊对生态链的重视，可能远不如我们想的那么重要。因为亚马逊比较喜欢玩自由生态。前段时间亚马逊和苹果联合降价就可以看出，它可以把产品突然降 100 美元，如果考虑生态链，这是非常严重的，可能导致很多厂商的产品卖不出去。

远场语音交互的开始是智能音响，但是将来绝对不仅仅是智能音响，其他人也不会把技术限定在智能音响，还包括很多其他的产品。

本文作者：六爷

本文转自雷锋网禁止二次转载，