这种技术，让全世界哑巴都能开口说话

网易智能 2018-01-26 16:09:19 0 业界资讯 | 技术, 数据, 新技术

选自 | The Guardian

编译 | 网易科技

去年11月，来自伦敦的31岁电影制片人乔·莫里斯（Joe Morris）注意到自己的舌头上有一处伤口很疼。他觉得自己可能是在睡梦中咬了舌头一口，到了深冬，他发现自己的痛处还没消失。于是他在谷歌上搜索“舌头伤口不会愈合”，在其中发现了口腔癌的相关页面。乔没有家族癌症史，但他还是决定打电话给自己的医生。

医生说，我确定你的口腔没什么问题。你不吸烟，才31岁。但以防万一，还是去专家那里看看。

专家说，我肯定没什么问题，你不必要作任何检查。但以防万一，我们会做一个活检。

当活检结果显示乔的口腔癌细胞呈阳性时，专家说实验室肯定搞错了。乔做了第二次活检，结果依旧如此。专家大吃一惊。现在，乔被转移到了盖伊的医院，该医院是英国最好的口腔癌治疗机构之一。

医院的肿瘤学家再次向乔保证：癌变得部位很小，舌癌通常是从表面向内生长。相关的病变部位可能会被剔除，而对舌头的其他部位没有太大损害。他们会进行核磁共振检查，以确保没有任何严重的内部增生，然后安排手术。

图像显示出像冰山一样存在的肿瘤。它深深地扎根在乔的舌根，向外凸起耸立，尖端已经顶破了患者舌头的表面。“当医生告诉我这个消息的时候，正好有一封工作邮件让我心烦意乱”去年夏天，乔写信给我，“当他向我解释说我要失去我的舌头时，我脑子里正想着如何重新起草一个答复。

“你会失去你三分之二的舌头，”医生告诉他，“这会严重影响吃饭和说话。“

乔想知道手术如何影响他的说话。他会口齿不清吗？

医生犹豫了一下，然后把视线转向他的手，“你的家人仍然能够理解你。”

手术前一周，乔开始恐慌：他意识到他可能再也不会说话了。即使他能够说话，也不会像以前一样了。乔知道他即将失去重要的身份特征，于是邀请一位朋友记录下他的声音。

在录像中，乔的话语已经有些不正常了：发音有些含混不清，不得不经常喝水，休息一下，以减轻说话的压力。他穿着一件黑色针织V领毛衣，坐在靠近窗户的地方，黄昏时分，窗外可以看到伦敦的天际线。他脸色苍白，蓝色的眼睛凹陷在眼眶中，黑黝黝的头发很乱，留着三天没刮的胡茬。他看起来有点不舒服，有点伤心，有点沮丧。他一直在躲闪着镜头，望着远处，或开玩笑。当被要求说出这个日期时，他笑着说：“我相信，日期是二月二十四日，2017年的一天。

对着镜头，乔奋力地表达了自己将要永远失去声音的感觉。“我的工作，也就是我的生活，全是关于沟通，关于谈话。我喜欢说话，“他微微一笑，感慨地说，“我有几件事要说。”

在拍摄这部影片之前不久，乔的朋友得到了一些消息。他在波士顿之外找到了一家名为Vocal ID的公司，它为那些通过设备来帮助自己说话的人开发定制的数字化声音。公司可以使用乔的录音来在电脑上重现自己的声音，让他能够永远用自己的发音。

他们联系了Vocal ID的公司创始人，一位名叫鲁帕帕特尔（Rupal Patel）的语言病理学家，她解释说，如果在手术之前他能够录下自己的声音，将来就有可能数字化重建乔的声音。这意味着Vocal ID通过分析记录的几千个句子发音来捕捉英语发音中的所有音素。

乔同意试一下。他录了几百个句子，然后，意识到这个任务的艰巨性，停了好几天。他写信给我说：“这是我自由的最后一周，我有很多事情要做，有很多人要见面，还要品尝很多美食。”手术前两天，他又开始了录音。他的发音是缓慢而痛苦的——那时候乔说话已经极其痛苦的，他正在试图做出最有口才的表达。在最后一天，他记录到了深夜。

第二天早上，乔回到医院，切掉了舌头。

让人们丧失言语能力的方式有很多，譬如口吃或失用症，运动神经元病和脑瘫，这些都影响了参与语言表达的肌肉控制能力。此外还有创伤性脑损伤、中风、诸如乔这样的手术、多发性硬化症以及自闭症等。在美国，超过200万人需要用数字化的“适应性替代通信”（AAC）方法来帮助弥补言语缺陷。残疾慈善机构2008年的一份研究报告估计，英国有1％的人使用或需要AAC。

现代的自适应替代通信往往涉及斯蒂芬·霍金（Stephen Hawking）所使用的设备类型——一种小型的电脑或平板电脑，可以播放大量的文字。在1969年发明第一台现代文本语音通讯设备之前，肌肉发达或声音障碍的人不得不使用通过吸管吸气和呼气操作的“吸吮”式打字机。到1986年，当霍金开始使用语音设备时，AAC技术有了显著的提高。他使用的程序（称为均衡器）起初允许他通过按动开关在台式计算机上选择单词或短语，然后可以通过安装在轮椅上的小型计算机来发音。

2014年上映的霍金传记片《万物理论》（The Theory of Everything）有一个鲜明的提示，即这项技术试图修正存在的缺陷。当霍金和他的第一任妻子简第一次听到霍金的新声音时，他们惊呆了。在片刻无语之后，简怯懦地提出了一个反对意见：“这是美国口音”。一时间大家都笑了，但它说明了AAC存在的一个硬伤。我们的声音是其他人了解我们的重要渠道：你的年龄，性别，国籍，家乡，性格，情绪，同时也是自己认识自己的途径。当你的发音不再是本地口音后，你是否失去了自己的一部分？

霍金的案例是用一个人的声音塑造他们身份的最具代表性例子之一。虽然他机器人般的数字化语音（和美国口音）一开始让人感觉不舒服，但它却成了他的身份特征。霍金钟情于自己的新声音，几年后，当他有机会采用一种更流畅，更有人情味和英语口语的新声音时，他拒绝了。现在感觉听闻其声，如见其人。

“霍金的声音”并不仅仅属于霍金。自问世以来，小女孩，老年人以及各种种族和背景的人也使用了同样的声音。这是依赖AAC的用户世界中的一个奇特的特征：数以百万计的人拥有的声音类型却相当有限。虽然现在比以前有更多的变化，但能够应用的只有几十种选择，其中大部分还是成年人和男性口音。

“如果你走进一个坐满语音障碍孩子的教室里，你会听到周围的声音完全一样，”帕特尔告诉我说。十年前，她在一次语言障碍会议上遇到一个小女孩和一个50多岁的男人正在使用他们的设备进行对话。他们在用同一个成年男性的声音说话。帕特尔惊恐万分，她告诉我说：“这只会让丧失言语功能的人失去尊严。”

电影评论家罗杰·艾伯特（Roger Ebert）的下巴因癌症被移除，他在2009年发表的一篇文章中描述了这种声音多么令人沮丧：“我听起来像机器人罗比。想要有口才和语调是不可能的。“他厌倦了在谈话中被忽略，“我们能把人送上月球，为什么却不能拥有自己的发声器？“

这是帕特尔已经在着手解决的问题。2007年，她开始研究一种技术，从而能够制作出更像用户发音的定制化数字声音。到2014年，该技术已经足够成熟，帕特尔和她的团队成立了世界上第一个“语音银行”。这是一个在线平台，任何有互联网连接的人都可以通过录音朗读自己的声音，建立关于声音的语音库（Voice Voicebank）。相关程序是用一个故事来编写的，用来捕捉英语中所有的音素。（早期的语音捐献者需要上传3487个句子;现在，Vocal ID的研究总监Geoff Meltzner可以开发少于1000个句子的声音，尽管更多的录音会使得人声更加自然逼真。）

每位捐献者的录音都被编入一个声音库，可以在为客户制作新的声音时使用。该公司为客户提供“BeSpoke”声音，这种定制化的声音能够将客户自己的声音与捐献者所提供的词汇结合在一起。这样，一个十几岁的青少年就可以用他哥哥的捐赠声音，或者是一个来自语音库Voicebank的陌生人声音，从而打造出高质量的定制化发音。（像Joe这样的客户为了某种目的而将他们的声音储存起来，Vocal ID称之为“声音遗产”：他们记录下自己的声音，等需要的时候会收到一个关于自己声音的数字文件。）

创建一个新的数字化语音通常需要两个要素：声源和过滤器。“声源”是声带，喉和喉部肌肉等器官的结合，当我们笑，叫喊或说话时，声源会发出声音。正如Vocal ID的研究副总裁Geoff Meltzner所解释的那样，你的声源就像你的指纹，”每个声源中都有独一无二的标识”。而“过滤器”则是将这些声源发出的声音塑造成不连续的，人耳可辨别的单词，其包括了舌头，嘴唇，咽等等。

Vocal ID的工作原理是从接受者那里捕捉几秒钟的元音（声源），并将其应用于捐赠者所提供的过滤器。这种组合产生的主要是“接收者”的声音。通过调整算法，Meltzner可以提供“柔和”（鼻音更重）或更“权威”（低音）或“更亮”（充满高音）的声音。

当一个新的声音完成后，它会作为插件添加到其拥有者已经使用的任何语音设备中。最近，Vocal ID在自己的应用程序中添加了一个功能，允许客户自行调整他们的声音，以获得他们想要的音色和音调。系统的设计很方便，但偶尔也会出现故障。有一次，一个十几岁的客户惊慌地呼唤帕特尔，因为她更新了iPhone上的软件，失去了自己的声音。

捐赠你的声音通常需要几天时间，这和捐肾完全不同。除了笔记本电脑和互联网连接之外，没有筛选过程，也没有设备参与。去年冬天的一个慵懒日子里，我决定在床上捐献我的声音，我把笔记本电脑向前倾斜，嘴巴向内置麦克风坚持重复：“提拉米苏好极了！提拉米苏好极了！“

浏览器上显示的Vocal ID人类语音库在看起来有点像一个视频游戏：靛蓝色的背景画出了一个卡通形象站在一行文字旁边，大声朗读。一旦你满意你的发音，点击上传句子到语音库，随后会出现现一行新的文字。屏幕底部的一栏会实时跟踪您的进度。

作为捐献者，需要阅读的句子很多，人们通常会在几天或几周的时间内完成捐赠，一次只做几个小时。为了让漫长的练习变得有趣，Vocal ID会根据捐献者的兴趣选择阅读材料：诗歌，科幻小说或科幻小说。这种捐献行为触发了我们内心深处的东西：我们都是独一无二的。这个声音也许是一个独特的个人礼物——既是物质的，也是精神上的。

在完成语音捐献后不久，我到波士顿西郊的Vocal ID公司办公室拜访了帕特尔。帕特尔非常热衷于为那些丧失言语功能的人创造一种个性化的声音。她解释说，当残疾人出现沟通障碍时，这会增加他们的工作和社交障碍。

人类常常会对同类的声音给予特别的关注和同情，并且无意识地会将说话能力与思想的存在等同起来。?2010年，医学人类学家Mary Wickenden为青少年AAC用户发表了一篇题为《青少年世界，不同的声音》的论文，她指出：“如果你不能说话，可能很难证明你的想法。”

对于那些不能说话的人来说，在社会中会不断被提醒自己的“不真实”。在第一年创造的七个声音中，有六位用户是脑瘫的儿童或青少年，他们中的许多人抱怨说，陌生人往往完全忽视他们，总是直接和他们的父母交流，或者像对待婴幼儿一样对待他们。

不同的对话技术根据个人用户的需求而变化很大：手指肌肉发达的人可以通过传统的键盘输入文字，并通过扬声器听到单词发音。更常见的是用户使用自己最习惯控制的操纵杆或开关，从屏幕上选择单词，短语或符号。对于那些不能使用操纵杆的人来说，可以通过跟踪眼球运动的屏幕来选择短语和符号。

即使对于那些经常使用类似技术的人来说，这些设备也可能令人沮丧。通常，在你选到需要的字符或符号之前，你必须等待光标跳过十几个字母或符号——如果错过了，则必须等待光标再次循环。很多设备并没有关于性方面的文字或符号，也没有一个简单的方法可以让使用者坦率地与朋友或伴侣谈论性，或者提醒照顾者关于尿路感染等问题。

预编程的声音往往不会考虑用户的年龄。帕特尔告诉我，她有一个客户是名叫萨拉扬（Sara Young）的青少年。当时，萨拉所使用的设备发音与很多ATM机的机械化声音非常类似。萨拉在学校会使用Heather的声音，这意味着在小组讨论时，除非你仔细观察，否则几乎不可能区分谁在说什么。和许多同龄人一样，莎拉经常在自己的设备上播放预先设定的不同声音但她仍然感到沮丧。当我走访办公室时，帕特尔和梅尔茨纳正在对萨拉的BeSpoke声音进行最后的修改，他们用萨拉录制的几个“ahhh”声音和一个捐献者的声音来定制声音。他们希望在圣诞节前能够完成。

在与帕特尔的第二天，我陪同她到马萨诸塞州列克星敦的科廷学院举办了一个技术交易会，这是一所面向特殊学生的私立学校，其中有几个是Vocal ID公司的客户。该公司经常在学校进行外联活动，向使用AAC的儿童提供他们的产品，并招募新的语音捐献者——他们总是缺少年轻捐献者的声音。展会上充满了包括萨拉在内的脑瘫家长和孩子。像许多脑瘫孩子一样，萨拉看上去比他的实际年龄要小，因为进食也需要肌肉控制，而脑瘫患儿在这方面的能力欠缺。她的头发是黑色的波浪状，染着深青色的条纹。当我们见面时，她穿着一件浅粉色的长袖衬衫，挂在轮椅上的包是粉红色的，而她用来控制轮椅电机的那只脚穿着粉红色的运动鞋。

作为一个运动和肌肉障碍患者，萨拉的身体常常会痉挛。她的舌头会不自主地伸进嘴里，脖子会从一边到另一边扭曲。她的手臂卷曲，像叶子一样展开。她不能在没有帮助的情况下吃饭或者淋浴。她用硅胶的吸管喝水，因为她吮吸时会不受控制地咬吸管。她用左脚在iPad上做家庭作业，并在胶带和标记的帮助下画画。当她说话的时候，就是通过安装在轮椅上的AAC设备，感知她的眼球运动，作为打字的替代输入法。

乍看起来像孩子般的身体状态掩盖了萨拉作为十几岁青少年的个性。她会保持轮椅静止不动，偶尔晃动一下。当她觉得无聊的时候，她会操纵轮椅转个圈。她有一个蓝色和粉红色的鼻环，她还不喜欢一个过时的手机。她有着浓厚的眉毛和不停转动的眼睛。

因为她是一个强大的沟通者，萨拉已经成为AAC社区其他孩子的偶像。在这个技术交易会上，萨拉和她的母亲艾米·杨（Emmy Young）登台发表主题演讲。萨拉首先说了几句已经事先写在自己设备上的话。她的声音听起来像一台自动取款机：“大家好，我的名字叫萨拉。我今年16岁了。当我没有（发音装置）时，人们大部分时候只和我的妈妈说话。有时我说的很慢，所以他们只是对我说而不会听我的。他们不知道如何等待我的回答。”

当天晚些时候，艾米和萨拉共同进行提问环节时，事实变得很清楚。当萨拉被问到她用iPad做什么时，她开始专注地扭头盯着自己的设备屏幕。三十秒过去了，六十秒过去了。大家静静地坐着，看着她。九十秒后，电脑流畅地说：“HWFACEBOOKIGSNAPCHATMUSIC”。

艾米翻译，“家庭作业，Facebook，Instagram，Snapchat和音乐”。

在一小时的问答中，萨拉说了不到30个字。按照他们的沟通习惯，艾米做了大部分的发言，部分是因为时间的缘故，部分原因是萨拉经常依靠母亲来理解和翻译她的非言语性暗示。“这对她来说是需要消耗巨大的体力，”艾米后来向我解释道，“虽然我们鼓励人们直接和她说话，但是有时她会通过看我来回应”。

萨拉想要表达的思想与设备之间的脱节令人不安。艾米说：“数字语音有点让人失望。当我们听到Vocal ID的时候，我们想：‘能够创造一些更自然的声音就好了’，莎拉还没有随着年龄增长而改变声音的体验，所以这对她来说也是一样的。如果这个声音更自然，我觉得萨拉能接受这种改变。”

当我告诉帕特尔这段对话时，她的眼睛闪闪发光。“我真的希望人们不仅能够听萨拉说话，而且真正听到她，看到她，体验她。当她说出‘是啊！’，或者‘不！’，或者她用自己的声音说出任何东西，然后过渡到她的设备时，如果这两种转换感觉流畅，和别人的沟通就会很好。”

对于乔而言，从身体健康的正常人变成不能言语的残疾人非常痛苦。当他从手术中醒来的时候，感觉到自己真的不能说话了。医生切除了他的大部分舌头。“你必须记住，你的舌头有很大一部分是你看不见的，因为它在你的喉咙里，”乔提醒我。医生希望乔能够及时控制新的肌肉，并形成言语。

在最初的十天里，即使他试图说话也不会有声音。“我感到完全被困住了，被关在自己身体里的一个囚犯，”他通过电子邮件告诉我。他可以写下来，让医务人员知道他是饿了还是感到痛苦。“但是没有什么有意义的沟通。”他的朋友们来看他。第一次，他不能参加对话，不能插嘴。他坐在那里，相当沉默。他对我说：“我喜欢争论，喋喋不休和被倾听。”

当你置身于谈话之外，就失去了很重要的东西。另一方面，正如乔所认为的那样，少了平等的权利。乔写道：“人们对待你的方式完全不同。他们不是故意的，但他们只是会照顾你，把你当小孩子。”

乔可能不会每天都使用AAC设备，但是他坚持认为这对他来说重要的是，无论如何，他的声音都存在于某个地方。“我的妻子是哈利波特的粉丝，所以我开玩笑说这是我的魂器。”他认为这是一种自我保护的行为。“我担心随着年龄的增长，随着事情越来越多，我可能会开始忘记自己的声音。”

人们经常以这种方式使用语音数据库，帕特尔说。她注意到，一些处于变性阶段的跨性别人群通常在一开始就是这样。对于他们来说，对乔来说，语音数据库是一个可以保存自我的保险库，记录在那里，以防万一。

对于其他人来说，数字声音并不是他们身份的残余，而是他们将成为谁的承诺。在圣诞节之前，萨拉在Vocal ID得到了她的新声音。当帕特尔和Meltzner站到萨拉和艾尔面前的时候，萨拉紧张地站了起来，帕特尔提示Meltzner展示为萨拉设计的两个声音。Meltzner用他预先编好的一个句子播放了第一个。“嗨，我的名字是SARA。我16岁，我很惊讶。”

这听起来像是原来声音Heather的妹妹一样，而在原有基础上却带着一丝人性的东西。

萨拉高兴地笑了起来。“好的，”帕特尔说。“现在我们会听到第二个。”

“嗨，我的名字是SARA。我16岁，而且我很棒。“第二个声音听起来更清晰，而且更有活力。”

“好吧，你喜欢哪一个？”帕特尔问萨拉。

经过长时间的停顿，萨拉说了第二个。

“哦，嘿！”帕特尔笑了起来。“那也是我们最喜欢的。你感觉怎么样？“

长时间的停顿之后，萨拉说：“这是纯洁的声音。”

他们把它下载到她的设备上。帕特尔后来向我指出，一个人有了新声音时可能会有些低落，因为他们不太清楚如何回应。她说，真正有趣的是会发生在几天和几周后，萨拉们会注意到自己如何受到不同的对待，或者对于新声音有一个全新的体验。

随着声音的加载，帕特尔问艾米她有什么感觉。“太好了，只要莎拉感觉好就行！”她顿了一下。“这将需要一些习惯。另一个声音是用了12年的Heather。这在某种程度上是就像我孩子的声音随着发育改变了一样。”

当萨拉的声音完成转移后，团队聚集在一起，听到她用新声音讲的第一句话是什么。

“谢谢，谢谢你们的一切工作，”她说。“我知道你们能够做到。”

帕特尔笑了起来。“谢谢你给我们这个机会！”大人站在一旁，漫无目的地看着萨拉。“你想说点其他的吗？”

她想了一下，然后凝视着她的屏幕。

“哟。”

(原标题：How a new technology is changing the lives of people who cannot speak)

网易智能

网易智能（公众号 smartman163），定位人工智能等前沿科技领域的垂直媒体及产品服务平台，面向人工智能等领域的从业者和关注者。运营栏目包括大型策划栏目《AI英雄》，行业研究与分析栏目《AI研究院》等，提供原生内容、新闻策划、数据报告、产品评测等服务。

IT思维

FEATURE TOPICS

最新文章

热门观点更多

人工智能将让无数职业过时，如何规划孩子的职业生涯

人工智能的黑暗秘密：如何让 AI 解释自身行为？

科技巨头间的人才争夺战，正从硅谷蔓延至全球

“AT”竞相追逐互联网保险大蛋糕，谁会站在资源优势的制高点？

腾讯 COO 任宇昕：国内信息安全投入不足 1%

这种技术，让全世界哑巴都能开口说话

发表留言 × 取消留言

思维客家族

友情链接