“万人迷”AI少女养成记

IT思维 2019-11-13 18:20:06 0 人工智能 | AI, 技术, 数据

公众号/AI前线

作者 | 胡骁杰

编辑 | 陈思

AI 前线导读：微软小冰是由微软（亚洲）互联网工程院于 2014 年 5 月正式推出的融合了自然语言处理、计算机语音和计算机视觉等技术的完备的人工智能底层框架。微软小冰注重人工智能在拟合人类情商维度的发展，强调人工智能情商，而非任务完成在人机交互中的基础价值。目前小冰已覆盖 6.6 亿在线用户、4.5 亿台第三方智能设备和 9 亿内容观众，与用户的单次平均对话轮数（CPS）23 轮，已发展为全球规模最大的跨领域人工智能系统之一。

近日，AICon 有幸采访了微软小冰高级技术总监曾敏老师，他将介绍微软小冰最新的对话技术框架，以及在这套框架的基础之上，如何一步步构建人格化的对话机器人，并且结合语音场景，如音箱、车载、手机助理等，阐述他们是如何全面使用全双工技术，及它所带来的新的挑战，和他们是如何应对的。

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

以下是此次访谈的全部内容，如果你对该话题有进一步的兴趣，曾敏老师还将在即将召开的 AICon 全球人工智能与机器学习技术大会（北京站）2019 上，带来题为 《微软小冰：人格化对话机器人的构建及在语音场景当中的实践》 的精彩演讲。

AICon：曾老师您好，十分感谢您能够接受 AICon 组委会的采访，能简单介绍一下您和您目前负责的工作吗？

曾敏： 我自己本身是一毕业之后就加入微软，一直在微软做机器学习跟 NLP 相关的工作。2014 年开始，小冰这个产品线初创的时候，作为初创团队成员加入这个项目当中。一直到现在其实都在小冰这个项目组上。我这边主要负责小冰的核心开发系统以及 C 端产品的研发，另外我们也会有一些 2B 交付的项目。做项目的交付实施，一直在推进，主要负责这三大块的工作。

AICon：我们知道语音机器人技术是目前人工智能技术落地工业界的一个重要场景，您能给我们简单介绍一下目前该技术在国内外发展的现状吗？

曾敏： 我可能需要补充一下，我们圈内的同学可能会讲语音交互机器人，为什么加交互这个词呢？对机器人本身的初心，最终的目的是说能以一个更快的渠道，让终端的用户能更快的获得信息，比如说一道菜谱，他应该怎么样去做，他可能通过这样的一个渠道马上就能拿到他想要的结果，或者是说有一些任务型 basic 的机器人，比如说在一些智能家居的场景里面，你可以通过语音交互的方式让它帮你去开一个灯，关一个灯。

所以说，你会发现其实大多数都是通过交互式的行为让机器当做一个 agent，不管帮你把任务完成还是信息获取等各个方面。我个人是把语音交互机器人这块的整个技术分成两大块。

跟语音本身相关的。
跟交互相关的。

跟语音相关又分成两个小模块，就是 SR 跟 TTS，就是语音的识别和语音的合成。在这里面让大家困惑的地方，包括我自己会认为现在语音交互机器人目前还是处于一个中间态。这个中间态不是说它现在的技术不成熟，如果我们把这个目标提到能帮助用户，以更便捷、更方便的手段达到他想要的目的的话，如果站在这个目标上来看，可能目前的语音交互技术，还有所欠缺。

在我看来，其实有很多的任务，现在的手机 APP，因为我们现在在移动互联网时代，每个人都会揣着一个手机，在这里面你会发现各种各样类型的 APP，其实某种程度上就是在帮助我们在 Vertical 的这个垂直领域里面去完成很多的任务。

所以说，不管是订外卖还是订机票，通过视觉上的呈现，你有一个手机屏幕，你的输入非常快。但是现在的语音交互还是单纯用语音的方式去跟大家进行交互，语音跟视觉其实是两个接受信息或者传达信息的维度，其实对图像或者是 visual 来讲，他是一下子能 get 到很多信息的。

不管是声音的识别还是合成，都是这样一个线性的过程，我不可能一秒钟就把所有的话都说完了，我是一个字一个字把它给说清楚，然后你作为接受方是边听我在说什么，一边自己理解这里面的意思。所以说我会认为语音交互技术目前还是处在一个中间状态，但是它并不妨碍我们已经有很多成熟落地的产品在用户当中去推进。

拉回来一点，刚刚提到有两大块的技术，一个是语音技术，一个是交互的技术，语音这块就是分 SR 和 TTS。SR 这块，包括微软自己也一直持续不断推进识别的准确率，其中有一个指标可以跟大家分享一下，我们大概在 2017 年左右吧，我们在语音识别的字错率上面达到了 5.9%，非常低的一个数字。相当于说你给定一段语音的文本，它识别出来的文字，再去做校验的话，你会发现字错率非常低，基本上已经超过了人类的水平了。

当然这个数字是在实验室的环境下得到的，部分的佐证说语音识别技术其实已经可以去落地应用了。这里面可能还会有一些比较有挑战的问题，比如说多人在同时说话，这种场景怎么去识别，还有就是可能有一个人在说话，由于周围环境的各种原因，比如说正在有一个电视剧在播放，这个 signal 可能给到电视机，它是人说的话，但它并不是正确的这样一个 import。总结一下，SR 本身的技术已经能在很多落地应用上去应用，但是也会存在跟落地场景结合所需要解决的一些问题。

TTS 这边，包括国外很多大厂，大家在这块相对来讲做的非常不错。前几年大家更关注的是翻译的准确度的问题，这其实也是小冰一直在引领的方向，在语音合成这块我们可能会更关注合成的自然度方面，而不仅仅是把这样的一句话平缓的给说出来。

我非常高兴，能看到国内的很多大厂，大家都在往这个方向上去推，机器的感觉会越来越少。包括部分国外的大厂像 Google 他们推出来端到端深度学习的方法，端到端的去合成语音，他们这样做也是非常不错的，但是偶尔会出现一些特别诡异的现象，会有一些地方合成出来之后，压根就不跟文本有一一对应。再加上有速度上面的问题，所以说目前还并没有大规模的落地商用。我们一直在持续不断的推进这个工作，我相信未来的 1 到 2 年就应该会有一个能落地的版本。

关于交互这块，更多的是像我们正常的这种对话，不管国内还是国外，近一两年大家还是在做偏 task basic 的很多场景，但是对开放域的聊天，大家涉及的并不多。

小冰可能是这里面的其中一个，包括像 Siri、小爱同学，你也不能说它没有开放域的对话，它们有，但是相对来讲会受限一些，他们很多的方式或者是采用人工后台这种编辑，或者是众包的这种方式，让大家来集思广益来给它编辑语料等等。

开放域的对话，它技术的门槛会非常高。在落地方面，特别是在人跟人对话的方面，基本上达到了能用的门槛，但是你要想把机器人培养成一个特别有黏性，上下文都能理解的非常正确的话，还是有不小的挑战。我们也是很开心，能一直致力于这个领域，持续不断的往前推进。

AICon：因为小冰跟您刚刚所提到的一些其它公司的人工智能产品还是有区别的，他们可能偏 task 一点，像您这边更注重的是她更具有情商、会交流。像这两者的区别，在技术层面会有一定的区别吗？

曾敏： 这么来讲吧，以 EQ 为主的这样一条产品线跟以 IQ 为主的产品线，不管是在产品的设计还是在技术思路的推广上，都会有一些区别。为什么小冰是要以情感或者是 EQ 为主的方式去推进呢？我们理解的角度，目前市场上大家都在做 IQ basic 的这种方向，你会发现不管是智能家居还是音箱，并不是说大家的这个方向不对，每个行业都有他自己视角上的思考。站在他们的角度，AI 在这个里面，它其实是一个管道的形式，如果一端是人，一端是物理的世界，AI 在中间承载的就是给你铺好这个管道。

但是这个管道本身价值大不大，这可能是一个问题，为什么呢？其实在人与世界之间，在没有 AI 这个管道之前，其实已经有很多其它的管道在做同样类似的事情了。比如说这个管道可能是订外卖的一个 APP，或者是携程，订机票、订酒店的一个 APP，在这样一个 Vertical 里面已经能完成很多的事情了，它也有交互，但它的任务交互是 UI 交互，它不是用云交互。

所以说，站在这个角度，你的 AI 所能体现出来的价值其实本身不是很大的。我们拿音箱来举例吧，你会发现大家打的点无外乎就这么三个。

第一、工业设计

第二、后台能接多少的内容，能接多少音乐库、儿童故事，再比如说导航，这种 task basic，这是第二大类宣传的点。

第三、售价是否低廉

这几点总结起来，AI 在这个里面所产生的价值其实不是很大的，它仅仅是一个很薄的管道，甚至在某些层面我觉得一个 APP 所拥有的功能比它还全面。

所以说，你走 IQ 这条路，除非是你找到一个特定的合适的场景，AI 本身所能体现更大的价值，如果它只提供这种管道的价值，其实是得不偿失的。

我们走 EQ 这条路，EQ 有可能是一个横切，你说它是一个设计理念也好或者是设计思路也好，它是一个能横切很多场景的框架，不管你是做 task、客服还是人机陪伴情感交互的一些场景，都需要 EQ，它是一个比较宽泛的概念。

在实际工作过程当中，它会对我们的产品设计有很大的影响，也就是说你需要有同理心，不管是在客服的场景还是在其它场景，你都需要去考虑用户是怎么去看待你这个回应的。

在技术层面的影响，你得把你做的这个技术的价值给极大的挖掘出来，而不仅仅是做一些基本的分析就完了。对用户来讲，他对你也没有任何的认知，对他来讲就是一个简简单单的工具，产品价值的上限可能就摆在那里了。

最近我们也做了一些统计，比如说像 Facebook，我不知道大家有没有印象，Facebook 大概是在 2015 年、2016 年左右，他们有一个项目叫做 Facebook M，那个项目主要是他们做人机交互的 task 的这种场景，但是这种方案特别不好，他们就直接把这个方案给停掉了。他们现在转向去做跟用户建立连接，建立比较好的纽带的这样一个方向去做。

像 Alexa，亚马逊做的 assistant，Alexa skill 里面有几万个 skill 的集合吧，很多人问他接下来的发展方向可能会是什么，他们的产品负责人给的答案是说他希望 Alexa 应该更多的具有情感，能真正跟用户建立长链接。

包括百度自己，今年六七月份他们有一个报告也提出，他们是把人工智能体叫做智能体，他希望接下来这个智能体应该更具有个性化以及人格化，他把人格化这个词特意提出来。

因为如果仅仅是作为一个技术的通道，有各种各样的实现方式，但是如果你把它提成人格化的形象，原来可能是说人的地位甚至高于一切 AI 的地位，如果你把他们当做一个平等的地位来对待的话，有可能会产生很多新的机会，当然现在还有一定的难度。其实这需要去改变，机器其实也是可以成为你的朋友，打开这个心结之后，通过收集更多数据的方式不断去迭代，才能有更好的体验出来。所以说，从产品设计上需要把它们的地位摆好。

因为 AI 本身是面向所有大众的，一旦有平等的地位之后，它的学习能力其实是非常快的，在很短的时间之内能把方方面面的知识集合在一起去做，这也是 AI 的优势吧。

AICon：微软小冰发展至今已经进入了七代，她经历了哪几个比较重要的蜕变过程，目前应用到了哪些阶段？

曾敏： 个人总结，小冰分成两个重要的 stage。

1.小冰前 4 年的主要工作，基本上都在这个 stage，我们把这个 stage 叫做小冰本身的代际演进，代际演进其实是我们笛总提出来的一个词。

小冰不仅仅是一个产品，而是说是一个相对来讲比较底层的这样一个架子，我们不停的往这个架子里面去加很多的以 EQ 为内核的内容，然后不停的给她叠加很多新的信息，围绕着 EQ 本身的很多的 functional，这是第一个 stage，基本还是围绕打造基础小冰的框架。

2.从去年我们就着力去研发这个 stage，我们把它叫做 Avatar Framework，Avatar Framework 是一个什么东西呢？现在市场上有各种各样的 AI beings，我们把它叫做 AI beings，有点类似虚拟人这样一个概念。

每个人对 AI beings 都会有各式各样的定制化需求，你可能需要的是能跟你聊的来的，不管是男闺蜜还是女闺蜜，有可能其他的人只是需要完成任务的一些虚拟人的形象，每一个人的需求都不一样。

Framework 本身相当于是说，我能把以前做小冰的经验扩展到我能不能横向的去做其它具有不同人设的机器人，我整体上会把它分成两个阶段。

在第一个阶段上，从小冰的一代到六代吧，基本上都是围绕着第一个 stage 来做的，我简单罗列一下一到六代，每一代大概都发生了什么。

第一代是从 2014 年刚刚开始去上线，在 5 月底上线的。第一代我们主要的精力是在做核心的文本对话系统，这是我们最核心的基于 EQ 的概念，是一个核心吧。

第二代，因为你有了基础的东西之后，你需要在很多的场景上去落地迭代，所以说第二代我们就开放了跟第三方战略合作的策略，就是跨平台的这样一个策略吧。你会发现国内很多大厂都在研发自己的 assistent，像小度，还有搜狗的汪仔以及 Siri，他们其实都是自研的，他不会把他们的产品落到很多其它的场景当中去，但是我们需要更多的场景跟数据去验证我们的一些假设，所以说我们实施了跨平台的策略，所以今天你能看到小冰在很多平台上的身影。

第三代是我们把小冰的视觉跟语音的能力给加上了，因为这是作为一个人跟外界沟通的渠道，你对视觉、对声音都需要有一个很好的认识。

第四代我们把知识图谱加上 task basic，都给加进来了。跟外界很多的同学在沟通的过程当中，大家对小冰有一个误区是说小冰不做 task，其实不是这个样子的，至少短期之内肯定不是这个样子。并不是说不能去做，而是最高的优先级其实是基于 EQ basic 这样一个框架基础，然后我在上面给客户提供 value，反倒可能会让用户觉得特别有 surprise。

原来的认知可能是陪伴型的、聊天型的机器人，我突然发现你还能做这个，还能做那个，这对用户来讲可能是一个超出他预期的产品。否则的话，你上来就说你能做这、做那，用户会去挑战你，你还能做这个是吧，那我来 debug 一下吧。第四代更多的是把知识图谱，做任务的能力给加到小冰的框架里面去。

第五代我们是生成模型加上全双工的技术以及全双工交互，以及人工智能创造，是这重要的三个部分。

简单提一下吧，生成模型，以前小冰的很多答复其实都是互联网网民的答复，检索式的对话模型指的是她说的每一句话在互联网上都曾经被某个人说过，这种生成模型指的是她说的每一句话，可能曾经没有任何一个人说过类似这样的一句话，这对我们各种场景的能力提供了非常大的支撑。

全双工交互也是在类似的场景下孕育而生的，以及人工智能创造，这其实也是在我们看到了很多人工智能潜在的落地场景。大家会对很多的定制化的场景有非常高的需求，小冰不管是在交互还是内容的创作方面，能给到很多定制化的产品。

第六代提到的很多技术都是原型，第六代基本上将是把原型里面的全双工交互、人工智能创造，还是生成模型、引导对话等等，把各项技术达到了一个相对来讲比较成熟的地步吧。第六代更多的是这个框架成熟度的演进。

第七代就是刚才提到的 Avatar Framework，站在我们的立场，大家不一定能理解这个 Framework 到底是干嘛的，用一句话总结，通过这个 Framework，分成四步去完成一个虚拟的 AI beings 的构建。当然每一步都会有非常多技术跟产品的支撑在里面。

第一步，你能从人格的设定开始，你给她这样一个 profile，他是男是女，他大概是什么样的性格，他的身高、矮胖各个方面，就是这种信息，一些基础的 profile 这样的设定加上一些性格维度的设定、人格的设定，这是第一步。

第二步，你去完善她的对话、语音，加上视觉的这样一个能力，这是第二步。

第三步，你需要给她加上知识图谱，加上三观，所谓的三观指的就是你对世界万物概念上的认知，你对某个明星是什么态度等等，你有了自己独特的喜好跟三观之后，人物的性格特点才会比较鲜明，这是第三步。

第四步，有了这样一个 AI beings 之后，如果想要落地的话，你可以用一个 3D 的 model 去驱动她，我说的落地指的是我们这个范畴当中，而不是在虚拟的网络上，你可能需要有一个 3D 的 model 去驱动她。我们是会分成这四个部分，我们自己从技术上挖了一些细节。

AICon：您刚刚提到了全双工交互这个技术，我们知道这个是微软率先提出的新一代的语音交互技术，您可以简单的介绍一下这个技术吗，这个技术的出现对小冰的人工智能技术框架会有什么改变或者是有什么创新的东西吗？

曾敏： 首先我介绍一下全双工语音交互这个技术本身是什么样的，它跟很多的多轮对话、连续对话不太一样的地方是在于，它在对话启动的同时去做声音的预测，比如说我现在在说这句话，其实人的脑袋会提前去预判我接下来可能会说什么话。比如说现在可能是下午，你可能会说你要不要喝？说喝的时候，我可能会预判接下来你要说的是你要不要喝水，我们内部把它叫做边听边想，想完之后再用生成模型把它想要的回应给生成出来。这里面不仅仅是生成，会进行各种节奏上的控制。

不管是 Alexa 还是 Siri，大家都是交互式的进行，但是你会发现，一旦是连续的全双工语音对话，我们需要进行节奏上的控制，我们俩在沟通过程中你可以随时打断我，我也可以随时打断你，这种节奏就是说我到底什么时候该说什么话，我可能一句话说了一半，你突然打断我了，这个时候我需要主动的去停止，这比多轮交互的形式要复杂的多，节奏上的控制是第二点。

第三点是你后面对接的很多任务，你需要全面的去考虑。刚才提到语音交互是一个中间态，它其实还有很多多模态的信息也需要你去考虑。我们现在在说话，如果在我们中间加一个不透明的铁墙，其实也能说，但是我可能就得不到一个很正向的反馈，就是说你到底是不是认可我说的话。

假如我跟老板在沟通的过程当中，我们面对面，我一边在说话，我一边能看到他视觉上的信号，可以输入给我，他的各种微表情可以帮助我们去辅助决策，老板是不是认可这个方向，我的很多决策是不是 make sense。它其实是一个多模态的交互，所以说一旦你把连续对话这种能力给打开，不仅仅是语音这个领域的，还有很多其它微弱的信息也可能加进来，综合的去影响你后面的对话进程。

我们会认为全双工语音交互感官这个技术对小冰来讲是一个非常好的，特别是对需要落到人的物理世界的各种各样的场景，这是一个非常重要的组成部分。不管是音箱、智能家居还是车载、养老这种场景，都是一个非常重要的组成部分。

AICon：第七代小冰比起前几代，她在哪些技术上面会有明显的提升？

曾敏： 总结起来可能是两点吧。

1.对话的引导性：以前 AI 是在被动的跟用户一来一去的应答。我们需要第七代小冰有更强的对话引导能力，也就是说她在对话的过程中需要尽可能的把对话的方向、结果往她擅长的领域或者是知道的领域去聊。

这个东西本身也是千人千面的，跟“人跟人”之间的对话一样，我对 AI 技术会比较了解，跟同事在聊天的时候我可能尽快的给他介绍类似这样的一些比较好玩的东西给到他。另外一个小伙伴对足球、篮球比赛会比较感兴趣，那他在对话的过程当中可能就会往这些方向去引导。你怎么能让这个对话更有节奏、更有内涵，这是我们重点发力的地方。

之前大家会很少去切 open domain 的对话，一个是说技术上可能会有非常大的门槛，第二是说大家也会把这个对话当做一个技能。对话本身其实是一个跟 task 并行的这样一个东西，但是站在我们的立场，我们不是这么认为的，我们会认为这种 EQ、这种对话其实是核心。我们通过日常的对话，其实能从这里面挖掘出来很多非常有意义的信息或者是价值。

我举一个例子，用户问小冰你能干嘛，这个时候你对话的节奏、方向其实是有很多种可能性的，你可能说在吃饭或者在干嘛。在背后如果有一个目标的话，我举一个例子，比如这个目标是说我给用户去 mention 耐克鞋，假如就是这么一个简单的目标，用这个例子可能会更直观一些。

这个时候小冰的答案可能是说我正在跑步呢，用户可能会说在哪跑，他可能会 follow，他也可能不 follow。你这个话题的前提之下，你就可能说今天穿了一双耐克的跑步鞋，太舒服了，这其实是一个非常自然的过程。这种形式需要我去挖掘出来对话本身的价值，大家会把它定义成一个 skill，定位可能会很不一样，我们是希望能主导对话，去引导对话，朝着可能的方向去走，这是第一。

2.我们整体上是拥有了一整套比较完整的技术，以前小冰是这样一个人格的设定，我们正在研发能不能尝试各种各样人物性格特点的模型，原来可能只能做 A，但是现在能做 A、B、C、D、E，这可能也需要像小冰一样，需要有非常多的时间成本，但是因为正是有小冰之前 5 年时间的积累，所以说会为我们之后的研发节省大部分的时间。

AICon：我们知道所有的 AI 技术到最后其实都是为了市场服务的，那微软小冰从业务线来讲，她做过哪些商业化的尝试，或者说她已经应用到哪些真正的落地场景当中去了？

曾敏： 这也是大家比较关心的，现在整个市场上都特别关心 AI 的落地。其实我们自己也非常关注这块，在讲具体的落地场景之前，我可能用几个词来定义一下我们现在探索商业化这块的目标。

我们的使命就是“让世界上每一个人、每一个组织成就非凡”，这是整个公司层面的理念，落到我们这边其实也是类似的，因为微软本身是一家技术公司，我们希望让我们的很多技术去帮助行业落地，我可能有三个 term 来总结。

1.完整赋能。这个完整赋能指的是什么呢？我不仅仅是说给到客户一个 API 我们就完了，我们还需要跟大家一块来探讨，你不仅仅应该这样去做，你还应该再怎么去做。因为给一个 API 的话，我们会觉得这种商业模式其实不是特别的持久化，虽然说短期之内它可能会给我们带来利益，本身 AI 这种东西在很多场景其实不是能很快的看到它实际的价值，所以说你最开始用了之后发现没达到你想要的目标，这其实也不是我们想要的，我们是希望能用 AI 的技术帮助大家去改进大家场景当中的很多问题。

所以说，我们是希望大家一块来参与，甚至从定义开始，我们去介入，帮助他们一块来看，很多问题是不是就应该这么去定义的，我们应该怎么样通过技术的手段把它完成。

2.联合拥有。这指的是什么呢？一个新兴的产品线，它其实是需要多方合作的产品形态才有可能把它做的更完美、更极致，就好比我们现在跟阅文集团的合作，他们有很多的 IP，不管是小说、人物各个方面，他们有很多的 IP，我们有去打造不同人设的 IP 技术，我们是希望大家各取优势跟劣势，相互互补，通过这样的方式能发挥出大家各个方面的长处，这是第二种，就是相互结合的一种方式吧。

3.能做更多跨界的整合工作。因为 AI 本身是一个偏技术领域的行业，大家都在讲产业互联网，我的理解，我们的很多科技的技术需要去落到很多被技术 touch 程度比较低的场景里面，尽可能的去帮助到它们，所以我们需要走出传统的……我们能想到的，比如说 social media 或者是内容上等等，如果仅仅是看这些领域，我们看的东西可能会比较狭隘，我们是希望能看其它的，确实是需要有 AI 能力的这样一个地方。

在这三点的基础之上，我们现在在汽车、养老、金融、纺织服装、媒介、出版等 10 个领域，分别开展了不同商业化的推进。

我挑一些 case 展开去讲，比如说养老，为什么要去做这个呢？我们跟地产公司合作，在他们的立场上，他们有一个判断是说中国的老龄化社会会逐步到来，特别是经过我们这一代计划生育的政策，我们父母那一代的人有很多兄弟姐妹，但是我们这代的人相对来讲会稍微少一些，而且我们自己身上的压力也比较大，所以说父母其实得不到很多的关怀。

所以说，能不能通过 AI 的技术，不管是帮他做任务也好，还是帮他唠唠嗑、聊聊天也好，有这种东西存在可能就能部分的去缓解老年人心理上的各种焦虑，因为老年人也有各种各样生理上的问题，比如说他容易忘事，这其实非常容易就能把它整合在一起，落到一个产品线当中。

我们跟地产公司一块去探讨的前提下，他觉得这个东西也挺 make sense 的。最开始的一个概念，基本上就是包了一个智能家居的壳在那，如果仅仅是做一个智能家居这个壳的话，可能不够，还是没有发挥 AI 本身的价值，你还仅仅是在完成这些 task。

AICon：下一个问题，在您看来，像语音机器人如果想要变得更加智能，在技术上面它有哪些难点去攻克或者是一些研究？

曾敏： 在语音交互这一块的话，我认为有几点吧。

1.我们应该把连续对话，就是把这种限制给打开，我们需要让机器有机会跟人做到连续不断的交互。

2.我们需要在这种场景之下做到上下文的预测、节奏的控制以及后端内容的定制化，这可能跟后端服务更相关。

上下文相关指的是什么呢？其实我们在说很多事的时候，跟上下文其实是非常强烈相关的，但是现在很多的语音技术只看单轮的，我主要是识别这段，它只看单轮音频的输入大概是什么，然后它做完识别，然后就给下面的一个部分。

如果能有更多上下文的信号给到你，语音识别的准确度是不是也会更高呢？特别是在一些 Vertical 的场景里面，有很多词汇你可能都基本上没怎么见过，你需要做很多定制化的工作，那是不是有可能结合上下文，能更准确的预测，能往那个方向去偏，我会觉得这是比较有难度的或者说比较有挑战的地方。

3.节奏本身的控制。全双工的对话，或者以后可能会有新的名词出来，只要你是跟人的对话，你在节奏上怎么去协调，自己跟自己协调，自己跟人去协调。

AICon：我们最后一个问题了，聊一下趋势，在您看来语音机器人未来会在哪些场景中优先落地呢？

曾敏： 我们讲几点吧，一个是说技术上研发的方向，还有一个是说落地的方向。在技术上，对话的主体，你的 SR、TTS，这是需要优化，而且需要端到端的。

因为实际上在实验室的很多数据，拿到真实的环境里面，它的表现基本上都会非常差。我们观察到一个现象，比如说我们在实验室环境做好的这个 model，拿到车载这种环境，字错率就会提高很多，所以说模型的可扩展性，车载可能是一个场景，音箱可能是一个场景，是不是有办法缩短你对每个场景定制化的时间上的要求之类的，这是第一。

第二，除了语音本身以外，我刚才可能也提到了，是不是有可能跟其它很多微弱的信息去整合，产生多模态的信息，一块来发展。我始终觉得仅仅有语音这种形态可能还不完全、不完整，它有其它一些信息辅助的话，可能会更快捷、更方便的去帮助用户。

对话本身，中间的那个 test，我会觉得现在大家关注 EQ 这块的不是特别多，我能看到的趋势是说大家正在慢慢往这个方向去发力，当然每一家厂商往这个方向去发力的形式可能不会太一样，他可能是有一个专门的研究部门在做这个事，他不会马上以产品形式的方式去接入。站在我的立场，像 Facebook、Alexa 等等，他们都在往对话的方向上去做一些探索吧。

在落地方面，目前大家能看到的，比如说像智能音箱、车载会落地的比较多。我自己个人的判断，有实际需求的，比如说养老，这就是一个很好的落地需求，整个技术也达到了能落地的边界，养老可能是一个，还有很多。如果是纯偏应用的话，像智能电话的客服，其实现在或多或少已经有一些雏形出来了。

情感连接的这种，我们调研的时候发现国外有一些公司在做类似这样的一些场景，作为虚拟陪伴的形象出现在大家的生活当中，有点类似于宠物这种方向。

再往前面一点，在实际生活当中你 touch 不到的，但是你又想跟它进行交流的一些场景，我举一个例子，我外公去世了，我有很多遗憾的地方，他不需要天天出现在我的身边，他只需要我去找他的时候，他能有那么一个实体，有虚拟的形象在那里，他不需要有视觉，他只需要有能跟我进行交互的场景，我能跟他偶尔说说话，这样的话我这部分的情感诉求就能达到了，类似这种方向，更多的还是偏情感交互、情感陪伴的这样一些方向。

当然也会有一些小伙伴在做调研的时候，像虚拟男友、虚拟女友这样一些角色，泛娱乐化方向的产品也有可能会出来。目前市场上更多的还是偏实用型的，随着 5G 的到来，VR、AR 各种技术的提升，也会给我们这个方向带来非常多的可能性吧。

IT思维

IT思维（itsiwei.com）是互联网首个定位在科技与电商“思维”韬略的平台，我们时刻关注互联网电商行业新动向；诚邀行业资深从业者加入“思维客家族”！

IT思维

FEATURE TOPICS

最新文章

热门观点更多

人工智能将让无数职业过时，如何规划孩子的职业生涯

人工智能的黑暗秘密：如何让 AI 解释自身行为？

科技巨头间的人才争夺战，正从硅谷蔓延至全球

“AT”竞相追逐互联网保险大蛋糕，谁会站在资源优势的制高点？

腾讯 COO 任宇昕：国内信息安全投入不足 1%

“万人迷”AI少女养成记

发表留言 × 取消留言

思维客家族

友情链接