IT思维

文章页右侧顶部广告

语音交互界面适合什么,不适合什么?

2017-05-18 6:04:10 0 思维精读 | , ,

语音交互要么是一种终于崭露头角的天才技术,要么是我们在机器人、区块链、或发条时钟、游戏化等方面之后所见过的最夸张的浪费时间的方式。

然而,现实没有那么戏剧化,也没有那么微妙。现在如果有一个新的广泛的输入/输出界面供用户使用和设计师来设计,而产品人员和设计人员所能做的最有用的事情就是学习这种技术什么时候会以何种方式产生效果。

最近的Alexa、Siri、Cortana和“好,谷歌”的出现,并不意味着语音交互的已经“终于”到来了。恰恰相反,这意味着我们在这方面终于要启动了。“概念演示”、“周期”和“过度承诺”的阶段已经结束。从这里往后,要么用真正的技术支持真正的案例,要么技术人员就得辞职回家。

有一个著名的“长鼻子”创新,每一项重要的新技术都必须通过。微软研究院的首席研究员Bill Buxton已经经历了每一种新的用户界面的开发,他估计一种UI形式从“研究项目”到完全成熟(被定义为10亿美元的业务),通常需要30年的时间。

因此,这些技术的成熟需要一段时间,当它们诞生时,我们不应指望它们能征服所有现有的输入机制,而是作为老交互方式的补充。

取代现象一般不会发生。在旧的新技术上,新的输入设备并不会完全取代它们的前辈,而是叠加在它们的基础之上。语音不会取代触摸屏。触摸屏并没有取代鼠标。鼠标也没有取代命令行。

分析师们渴望的是一种简单的结论,即每一种新技术的诞生,都会立即预示着前一种技术的消亡,但交互界面本质上是多模态的。是越丰富越好的。每一项新技术都始于一个新的服务不足的小众市场,然后慢慢扩张,直到找到最适合的领域。

语音交互有一个很好出发点,那就是设备使用的环境。我们可以用我们的设备来限制我们的互动方式,Bill Buxton介绍了一个“place-ona”的概念,他假象了一个人物的概念(我们都喜欢讨厌)更好地介绍一个地方如何限制了互动的类型。

往往没有“最佳输入”或“最佳输出”方式。这取决于你在哪里,因为处于的地点定义了你可以自由使用的东西。在一个非常简单的层面上,人类拥有双手、眼睛、耳朵和发声的嘴巴。(让我们忽略“感觉”振动的能力,因为它只是暂时的)。

让我们来看看一些现实世界的场景:“在一个戴着耳机的图书馆里”,这种区域是“可以用手,可以用眼,可以用耳,但是限制发声的”。“烹饪”的地方是“不方便用手,可以用眼,可以用耳,可以用嘴巴发声”。

“夜总会”的环境是“可以用手,可以用眼,耳朵很忙(你听不清),嘴巴很忙(你可能不能说话/不能被听到)”。“开车”的地方是“手比较忙,眼比较忙,耳朵和嘴巴都是自由的”。

基于上面的内容,您可以看到语音用户界面在哪些场景中可能是有用的,以及它作为语音作为输入机制的作用。虽然本尼特克尼埃文斯将以这种方式来在推特混合签名,但可以肯定的是,这并不是语音技术的重点。或者更确切地说,在大多数的地方,语音都不是最优的交互方式。

与其他方式相比,语音是缓慢的,容易出错的,其准确性比所有其他用户界面都要糟糕。是的,我们说话的速度比打字的速度快,但即使是用最先进的语音处理软件,我们也会把我们的话降级为慢速、过度清晰的话,然而识别的结果却往往还是令人失望。其次,听力要比阅读慢得多,尤其是听数字声音时。

我们可以比听的更快地扫描和跳过文本。这就是为什么视觉语音信箱受到了如此大的打击(正如Benedict再次指出的那样)。所以有两件事是很清楚的:语音是一种不合格的输入/输出机制。但是有很多情况,语音却是最好的,因为它也是这种情况下唯一合适的的方式。

所以语音技术的发展余地到底能有多大?这个问题已经在无数的研讨会上被问到,答案通常都是“看情况”,但我认为最好问一些具体的问题:语音技术在哪些时候会受到用户青睐? 现在看来,开车和“你在房间里走动时演奏音乐”时语音界面的确会受到青睐,但是还有多少其他的场景会让你想起这种交互方式,推动语音交互成为日常使用的产品呢?

人们会不会想让他们的电子邮件被他们的AirPods朗读出来?音频处理/播放能有多好,会是在什么时候?世界上绝大多数人的讲话速度都超过了他们打字的速度,但如今的技术并不会一直保持下去。这一切离改变有多远?什么时候真正的多模态的消息会流行起来?

这也离不开“图书馆问题”——当参与者可以使用不同的输入/输出选项时,如何进行交流。而如今大多数消息传递产品都包含了不同步的语音片段,他们要求对方以相同的方式接收语音消息。

用户必须就一种交流方式达成共识,而这种对话在不同的语境下是行不通的。这就导致了我所说的“图书馆问题”:如果米歇尔在图书馆里,而爱丽丝在开车,他们怎么能交流呢?爱丽丝在开车,所以不能用她的手或眼睛,米歇尔也不能在图书馆里说话或制造噪音。

在理想的消息应用程序中,用户可以以任何他们想要的方式来编写信息,并且可以任意使用他们想要的方式传递信息。让语音进入正常的无处不在的信息传递将代表一个转折点,让人们在他们的设备上交谈以控制他们的这一想法变得正常。这不是一个平台,也不是一个范例。因此,虽然语音不是一个平台,也不是通常所说的新的用户界面范例,但它是另一个我们必须设计并实现的新界面…

英文来源/uploadvr 编译/机器小易 校对/山毛榉

网易智能

网易智能(公众号 smartman163),定位人工智能等前沿科技领域的垂直媒体及产品服务平台,面向人工智能等领域的从业者和关注者。运营栏目包括大型策划栏目《AI英雄》,行业研究与分析栏目《AI研究院》等,提供原生内容、新闻策划、数据报告、产品评测等服务。

Return to Top ▲Return to Top ▲