本文共 1775 字,大约阅读时间需要 5 分钟。
由 CCF 中国计算机学会主办,雷锋网(公众号:雷锋网)与香港中文大学(深圳)承办的全球人工智能与机器人峰会 CCF-GAIR 大会进入第二天。在智能助手专场,中国科学院声学研究所副研究员、声智科技创始人陈孝良带来了以《人机语音交互的技术趋势与商业机遇》为题的主题演讲。
雷锋网注:声智科技创始人陈孝良
语音加速人机交互方式的变革,可能会重新定义很多消费电子。极端一点,如果将来所有消费电子都支持语音交互,那这个市场很大,基本上会在全球范围内重构整个产业链条。
首先,麦克风在性能、低功耗方面要做很大改进。事实上,整个全球市场,国内的麦克风产业占比很小,即便国内有些麦克风利用国外的技术来进行生产,但核心技术还是不在国内。而且我们现在做的麦克风是标量麦克风,只能取一个物理量,如果要解决很复杂的声学问题,就需要矢量麦克风。当然,矢量麦克风还有点遥远。
第二个挑战是芯片。我们现在所有的消费电子,特别是偏重人工智能的,前端大量用了 ARM 架构,GPU 比较少。GPU 用在服务端离线数据的训练,这是我们很大的问题。比较灵活的 GPU,国外三家巨头和国内基本没有太大关联。
第三个挑战是算法。声学是每个国家比较封闭的领域,因为声学主要是为军工服务,所以各个国家相互保密,只能各自发展。比如大量使用的机器学习,国内在做改进性技术,我们如何在原创方面比国外领先,这是很大的技术挑战。
第四个挑战是商业化挑战,它又分为三个层面。
第一是产品。国外最著名的是亚马逊 Echo,国内有京东、联想、小米的产品。这些产品有的做过评测,我相信很难得到大家 100% 的认同,甚至大家能给 80 分就不错了。这是个比较大的问题。
第二是内容和服务。国内的内容和服务比较割裂,腾讯在国内占有很大的音乐版权,百度有很大的搜索,交易大量在阿里,但亚马逊就把很多优势集中在一起。所以国内的产品很难避免和巨头合作,但是三家巨头如何合作?怎么选你的产品有很大的缺失。
第三是知识产权,标准。亚马逊、微软都在联合生态做标准,甚至包括 ARM,本身我们也是 ARM 生态联盟的。如果大家查专利,可以看到中文的专利也不是国内公司占领先地位。2010 年到 2015 年的排名顺序,我们挤不进前列。
刚才说了很多挑战,下面和大家交流一下技术的发展趋势。
麦克风现在是标量麦克风,下一步做智能麦克风,最后要做到矢量麦克风。这么大的会场,如果大家小声交流,这个声音对机器来说就很难处理。另外芯片到底是什么架构?低功耗,对接云端,都是需要我们考虑的问题。
下一代 AI 技术是融合的。麦克风和视频、雷达的融合,声光电三个学术合在一起应该怎么做,这也是下一步需要整个研究和开发的。
算法与模型,我们做得更多。比如我们的声源定位,目前只能跟踪一个目标,能不能同时跟踪多个目标,这是非常重要的,包括离线唤醒、离线语音识别。另外,机器学习是不是只用大数据,还是可以用别的方法做一些小样数据的处理,进行冷启动,这是我们下一步要研究的方法。
音响不存在死不死的问题,它是除了笔记本和手机以外,消费电子里面拥有量最多的。但我们做这个事情需要数据,特别是远场数据,不像近场数据可以直接录,这是非常严重的问题。冷启动的时候必须要选一个品类获得启动数据。
在产品定位方面,国内外也有很大不同。
国外亚马逊 Echo、谷歌 Home、苹果 Homepod、微软 Invoke,国内就是叮咚智能音响、联想智能音响、小雅智能音响、天猫精灵。
国外的产品很忌讳叫 Speaker。当时苹果推Homepod,大家都就猜是不是会带“Speaker”,结果选了Homepod,它天然加了两个因素,一个是Home,一个是pod,这和国内的定位有很大的差异。
现在智能音响的产品玩家很多,不光是巨头,包括国内的、深圳很多厂商都做,这里面比较严重的问题是亚马逊对生态链的重视,可能远不如我们想的那么重要。因为亚马逊比较喜欢玩自由生态。前段时间亚马逊和苹果联合降价就可以看出,它可以把产品突然降 100 美元,如果考虑生态链,这是非常严重的,可能导致很多厂商的产品卖不出去。
远场语音交互的开始是智能音响,但是将来绝对不仅仅是智能音响,其他人也不会把技术限定在智能音响,还包括很多其他的产品。