米唐科技的创始人兼CEO宋少鹏:语音交互产品的设计与思考?

来源:机器人创新生态网 | 发布时间:2017-01-23 12:14:25

4年前siri借iPhone起势,将语音交互推到了实用,那时候“语音将成为人机交互的新革命”等诸如此类的论调不乏于耳。

机器人大家说第8期

宋少鹏

华南理工大学无线电系硕士毕业

前微软硬件工程师,现任米唐科技创始人&CEO

宋少鹏对信号处理和音频DSP技术有深刻的钻研和专业的从业经历,做出了全球首款触控Wi-Fi音箱—方糖音箱。Sugr Cube方糖音箱是一个通体没有按键的音箱,它通过触摸、体感和语音操控,对接了亚马逊Alexa人工智能平台,可以用语音完成天气、交通、餐饮等信息服务,同时提供Spotify, iHeart Radio, Prime Music, Audible等广泛的流媒体和有声书内容。目前已经登录北美亚马逊发售。

以声音为载体的产品迭代史

声音作为一种不可见的信息,它在过去的应用中其实并没有完全发挥出它的价值。声音里面承载了巨大的信息量,它是一个没有被挖掘的巨大的金矿,现在它的价值开始慢慢的被展现出来,我们可以分析一下。

为什么说声音里面承载了巨大的信息量呢?首先声音不像文字或者图片,你必须要通过眼睛的观察来去理解它的含义,声音是不需要你去看的,只需要你去听来理解。那听的理解中其实声音里面有非常大的信息量,比如说它有语调,它有语气,它能间接地反映人的情绪,它同时可以携带了人的身份信息,就像你的指纹一样,所有这些我相信都可以在未来的产品中、应用中以及行业中发挥巨大的潜力。然而这个信息量如果仅仅是用文字打出来,那计算机或者人是完全不能理解其背后的含义的。但是当声音来传递这个信息的时候,它可以给你的接收方传递相当多的信息。

从历史的角度跟从人性的角度来看声音产品的趋势,我认为它和整个科技产品的趋势是一致的。首先最老的大家都知道,是留声机、唱片,它使得声音第一次从歌剧院搬到家里,再往后有卡带式收录机,有经典的索尼Walkman、索尼Diskman,有最最经典的Apple 的iPod,还有后来便携式的蓝牙音箱,一直到今天的亚马逊的智能音箱Echo,这是声音产品的一个迭代的历程。如果我们从历史的角度和人性的角度来看,这里面有几个维度值得我们去分析。

维度一:声音介质的缩小

首先最重要的一个维度就是介质的缩小。大家可以看到声音的介质越来越小,从最初一个巨大的黑胶唱盘到后来卡带式收录机的磁带,再到一张CD,到了iPod是一个经典的飞越,声音的介质从任何实体的东西变成了一根USB线。再到后来,无线音乐产品的出现,使得声音的介质彻底没有了,手机变成了声音的介质,再到今天亚马逊Echo智能音箱的出现,使得声音的介质真真正正变成了无,所有的声音都在云端,这个介质变成了空气。

维度二:追求自由、人性懒惰造成单次交互成本的降低

“历史是惊人的相似”。其实所有的科技产品都能找到这样一个规律,就是介质的越来越小。比如说照相机,从最初巨大的成像设备到今天卡片式的照相机。它反映的人性的需求是什么呢?我认为是两个方面:

1.自由或者追求自由;

2.人性的懒惰;懒惰并非贬义词,它就是一个中性词。人都是懒的,什么样产品的迭代能够让人更懒?满足人自由和懒惰的需求,那它就是符合人类需要的产品。

结合这两点去分析,整个声音产品的迭代是通过介质的缩小满足了人对自由和懒惰的这种人性的满足。按照这个结论我们去按照历史是惊人的相似这个观点去分析,其实手机也是这样一个产品,所以我们提取这个满足人类自由跟懒惰需求的需求方式,并把它定义成单次交互成本的降低。产品历史迭代的趋势说明了介质的缩小使得单次交互成本降低,单次交互成本降低使得产品能够不停的满足人类对自由和懒惰的人性满足。

人机交互是颠覆式创新的原点

我们再来看产品的交互成为评判产品好坏的非常重要的一环。为什么是这样呢?因为我们对产品的定义是它是设计给人类使用的机器或工具,因此人机交互是产品是否满足人性需求的一个最关键的点。

人机交互的革新是颠覆式创新的一个原点,我们在做音箱的时候考虑到一个音箱产品怎么能够在人机交互上进行创新。

案例一:鼠标的发明

首先鼠标的发明,是促成PC产品的巨大成功,因为鼠标带来了一种新型的人机交互——图形界面。在鼠标之前所有的电脑都只有键盘,通过繁杂的命令来跟它进行非常愚蠢的或者说非常基本的交互。但鼠标发明之后,人类可以以图形的方式来操作计算机,就使得计算机可以被更多的消费者接受,也使得单次交互的成本降低。

案例二:触摸屏

接下来看触摸屏,就是智能手机,智能手机的发明使得人跟计算机的交互距离拉得更近,鼠标的PC机如果是说一个手臂的距离,那触摸屏就人跟计算机,大概就只有一个手掌的距离,这种交互的发明,使得人跟计算机单次交互成本降低,同时使用场景得以扩大。

所有这些的发明都满足让人更自由,更懒惰的满足人性的趋势。这两个人机交互的创新,都带来了颠覆式创新的产品,第一个是WindowsPC,虽然它的最初发明者并不是微软,但是微软让它取得了最大化的商业成功。第二个,这里面的灵魂人物就是乔布斯,他看到了鼠标跟图形界面,他拿出了一套颠覆式创新的产品,他理解触摸技术,发明了触摸屏,又拿出了一个颠覆式创新的产品iPhone。

所以米唐科技在设计第一款产品——方糖音箱(sugr cube)时,将产品外观设计为一个类似于iphone的圆角矩形的样式,就是在向乔布斯致以百分之百的敬意。方糖音箱整个圆角的弧度和比例,以及中间喇叭跟音箱的比例是完全符合苹果的IOS图表设计规范的。也恰恰是为了达到这样一个设计点,我们为它付出了巨大的成本和努力。

颠覆式创新对行业的影响

继续回到原来的话题,人机交互是颠覆式创新的原点,那颠覆式创新又对整个行业带来了哪些影响?

颠覆式创新满足符合历史的趋势,满足人性对于自由和懒惰的追求,它出来之后在行业上面又有了一个或者多个企业,在这个颠覆式创新产品上去搭建了一个巨大的生态。一个巨大生态的搭建,其实是源于开放,于是有了人机交互的创新,产生了颠覆式的产品,又有一个企业在背后把它作为一个开放的产品来运营。按照这个标准,就有机会产生又一个巨大的生态。

再以同样的方式去分析,微软拿到了颠覆式创新的图形界面——鼠标,开发出了PC和操作系统,他们把它作为一个行业的标准和规范开放给整个行业,从而允许行业里的所有人都来做兼容软硬件,或者应用软件,就诞生了像戴尔、惠普、联想等等这些巨无霸的企业,也诞生了像Adobe、360、百度等等这样的巨大互联网企业,或者是软件企业。

再来说安卓,它也是同样的思路,首先它有了一个颠覆式创新,就是来自于苹果的触摸屏技术,谷歌通过收购开发拿出一套操作系统,同时将之开放给业界,欢迎同行业所有的公司都来做兼容式的软硬件,使得安卓又成为一个巨大的生态系统。

基于此,我们可以对语音交互技术的未来做一个展望,按照这种思路去思考和分析的话,它会进化成怎样的业态?

首先我们去看以亚马逊Echo智能音箱为代表的产品,它是基于一个崭新的人机交互。Windows是基于图形界面鼠标的交互,安卓是基于触摸屏的交互,而智能音箱是基于纯语音的交互,所以它首先是基于一个崭新的人机交互,那这个人机交互按照我们最初的分析,它是满足人类对于这个自由和懒惰的一个人性的需求:不用看,不用摸,不用输入,不用键盘不用鼠标,只需要对它说两句,它就可以给我我所需要的信息。

创新的原点有了,又有了一个可以承载创新原点的产品,这就是智能音箱。亚马逊又把其作为一种服务向行业开放,从而它就具备成为下一个巨大生态系统的雏形。这个生态雏形,完全可以类比前面说到的Windows、安卓智能手机的生态系统,所以我们认为下一个时代,将是以语音为代表的人工智能的时代,有了这样的交互、产品、服务......一个新的生态系统的大门正在向我们打开。米唐科技作为一家创业公司也在极力去拥抱这样一个生态系统。

所以当以语音为代表的AI成为一种基础服务的时候,它就有可能像过去的水和电一样,或像云存储、云计算、免费电子邮箱一样,成为一种基础服务。当AI作为一种基础服务的时候,作为产品的开发者、设计者或是创业者,这里面是否有可以挖掘的机会点呢?在此和大家分享几个案例。

案例一:早期iOS应用创业公司

早年iOS平台上不乏一些做通讯录的应用公司,早期市场前景不错。但是后期当苹果作为一家平台商,将这些全部集成到一个系统平台里,这些创业公司全都烟消云散。所以AI系统也一样,早期一些单独的、小型的AI应用会很有价值,但是当AI一旦成为一种基础服务,并为广大程序员所通用时,各个独立的小规模AI服务就很有可能会被大平台吞噬。

案例二:亚马逊Echo音箱

再来看亚马逊Echo音箱。简单来说,Echo就是一个音箱,给它插上电连上wifi,摆在家里面,想听什么歌就对它说;同时你也可以直接问它天气、路况、包裹的物流信息等等。

在我们看来,它就是计算机的一种新型形态,它以语音作为唯一的交互方式。亚马逊Echo出来之后,它背后的这套人工智能就叫Alexa。Alexa是一套开放的系统,它允许所有的硬件合作伙伴来做它的兼容硬件,同时并开放给软件的业界让大家在此之上开发基于语音交互的软件。

米唐科技在此与亚马逊合作,将Alexa的人工智能操作系统,集合到了方糖音箱里,就是Sugr cube。所以方糖音箱是目前国内最早一款能够完整支持Alexa智能音箱功能的产品。

然而,为什么有很多人都做智能音箱,而Alexa是成功的呢?首先我们认为它具有成功的几大要素。

1.音质高;

2.人机交互方式有创新:能够快速而准确的响应需求命令

如何设计下一代语音人机交互产品?与其全不如准

基于对现有市面上的智能音箱的产品及设计分析,我们不由去思考,怎样去设计下一代的语音人机交互的产品?

在这个时代之前,人机交互的产品全是基于视觉的,所以我们认为基于视觉的产品,一定要尽量全面客观。

当分析下一个时代时,基于语音交互的人工智能时代,视觉已经不是主要因素了,怎么去设计产品?怎么去设计交互?我们的观点是:与其全不如准,与其客观不如加入主观元素,与其靠量取胜不如靠质取胜。

精彩问答环节

Q1丨Echo和国内产品的比较,私认为方向一致,但消费者群体和应用场景不同,能说一下大家针对不同场景的AI算法目标设计的异同吗?

宋少鹏:我认为大家的目标是一致的,要解决的问题是一致的,就是用语音来解决计算机的交互问题,让语音成为人类获取信息的更快捷的一个通道,一种交互。但是不同的地方我认为美国跟中国的消费场景是不同的,消费习惯是不同的,所以这两个不同我认为需要有一定差异的产品特性来满足。但不幸的就是国内的产品,似乎还没有找到很好的满足方法,我认为这也是我们从业者在未来一年两年要去探索并解决的问题。

关于不同场景的AI算法的目标设计的异同,我的理解是这样的,我觉得AI产品作为下一代人机交互的背后的这个内核,我认为应该是小步快跑的方式,就是一开始还是要有一定的限制,其实我还是喜欢用历史观来看产品,如果我们看到第一代的iPhone跟第一代的安卓,其实它能做的事情是很少,所以说在AI元年大家在讨论AI产品的时候,我认为大家应该更收敛的去做一些更有约束的产品,让它能够解决一两个精准的场景。如果在一开始就去设计一个很宏大的场景,我认为可以套用一句电影的话——步子太大可能会扯着蛋疼。

我们的发展方向是成为一个语音技术的服务商。没错,我同意这位提问者的观点:语言是成为下一代产品非常重要的一个环节。中国人长久的历史和表达习惯是跟西方有很大的不同。简单地说中国人是讲虚,西方人是讲实,中国人是讲模糊,西方人是讲量化,所以这里面会造成产品形态上以及技术上有比较大的区别。

同时在跟大家分享一下,我认为语音交互的产品的前景是非常广阔的,大家可以试想一下你走到任何一个地方,当你看到一个可以有语音交互产品的时候,你可以完成目前你在手机上完成的几乎所有的动作,你可以跟它说我需要一个什么东西,然后它会跟你确认你的身份,你可以用你的声纹的信息就可以完成支付,完成身份的确认。所以我认为未来的十年是语音交互会极大普及的十年,这里面会蕴藏着大大小小的各种各样的机会,这也是我们跟大家分享的一个核心点,就是声音是不可见的信息,这个信息是有机会被深度挖掘,并且取得成果。