使用深度神经网络预测大脑如何处理自然声音

IT思维 2023-04-11 12:11:49 0 人工智能 | AI, 技术, 数据

公众号/ ScienceAI（ID：Philosophyai）

编辑 | 萝卜皮

识别声音涉及输入波形到语义表示的大脑转换。尽管过去的研究将颞上回 (STG) 确定为重要的皮层区域，但这些脑转换的计算指纹特征仍然很差。

法国国家科学研究中心和艾克斯-马赛大学以及荷兰马斯特里赫特大学的研究团队，利用模型比较框架并对比声学、语义（连续和分类）和声音到事件深度神经网络表示模型预测感知声音差异和 7 T 人类听觉皮层功能磁共振成像响应的能力。

该团队确认光谱时间调制可以预测早期听觉皮层（Heschl’s gyrus，HG,）反应，并且听觉维度（例如，响度、周期性）可以预测 STG 反应和感知差异。声音事件深度神经网络预测 HG 回响应类似于声学模型，但值得注意的是，它们在预测 STG 响应和感知差异方面优于所有竞争模型。

结果表明，STG 需要中间声学到语义的声音表示，声学模型和语义模型都无法解释。这些表示本质上是组合的，并且与行为相关。

该研究以「Intermediate acoustic-to-semantic representations link behavioral and neural responses to natural sounds」为题，于 2023 年 3 月 16 日发布在《Nature Neuroscience》。

听觉系统最重要的功能之一是帮助人们识别声学环境中的发声物体和事件（例如，鸟鸣声、汽车驶近）。尽管支持声音处理的功能神经解剖学通路已广为人知，但学界对大脑如何将传入的声音转化为有意义的语义表示的了解还不多。

多年来，已经提出了几种计算模型，可用于描述此声学到语义转换链的不同阶段的声音表示。在声学（输入）方面，这些包括在外围、皮层下和早期皮层水平近似声音表征的生物物理学启发模型，以及听觉维度的心理物理学模型。在语义（输出）方面，最近在自然语言处理 (NLP) 背景下开发的模型导出了抽象语义实体和概念的数字表示——声音识别的输出。最后，端到端深度神经网络 (DNN) 已经在大型人类标记声音数据集上进行了训练，以将声学输入（波形、频谱图）映射到预定义的语义类别集中。

评估声音表示计算模型有效性的典型方法是评估它们解释人类听众的实验（行为或神经）观察结果的能力。使用这种方法，研究人员证明了一个考虑不同光谱时间尺度声学调制的模型，可以准确地解释功能性磁共振成像 (fMRI) 对 HG 和早期听觉区域中自然声音的响应模式。

这些研究还表明，对于沿颞上回/沟 (STG/STS) 腹侧和背侧分区的非初级听觉区域，MTF 模型预测不太准确。这些区域接收来自早期听觉区域的输入，并已被证明对预定义类别的自然声音（例如，语音、人类和动物发声、音乐和动作声音）表现出优先反应，因此很可能在自然声音的声学到语义转换中发挥关键作用。

到目前为止，大多数研究都根据对广泛语义类别（例如，语音、音乐）的神经元选择性来解释观察到的 STG 对自然声音的反应，而其他研究则主张分布式、组合编码。因此，STG 中声音表示的性质存在争议，语义表示如何从早期阶段派生的问题仍未得到解答。

最近，有研究表明，从 DNN 派生的声音表征，经过专门训练以识别语音或音乐类型，可以比 MTF 派生表征更好地解释 fMRI 对 STG 中自然声音的响应。这些结果表明，DNN 可能有助于理解非主要听觉区域（尤其是 STG）中声音表征的性质。然而，在当前的计算听觉神经科学研究中，仍然存在需要解决的悬而未决的问题，以解释和构建 DNN 的功能，包括它们与后初级大脑表征的心理声学模型、语义嵌入或对自然声音的选择性大脑反应的分类模型的比较。

在这里，法国国家科学研究中心和艾克斯-马赛大学以及荷兰马斯特里赫特大学的研究团队在系统模型比较框架内解决这些问题，将代表性相似性分析扩展到交叉验证方差划分领域。特别是，他们比较了行为反应的数值预测和高场 (7 T) fMRI 听觉皮层对来自三类模型的自然声音的反应：声学、语义和声音事件 DNN。

图示：测量行为和 fMRI 数据中的模型表示。（来源：论文）

图示：可视化计算模型和大脑中的声学到语义表示。（来源：论文）

研究人员发现 DNN 比声学和语义模型更能预测行为和 fMRI 反应 (STG)。通过方差划分分析，表明 DNN 捕获行为和大脑中的预测性声学和语义表示，并且它们的优势源于无法用声学或语义模型或它们的组合解释的表示级别。其他分析表明，这种声音表示级别出现在 DNN 的中间层中。

图示：感知声音差异和 7 T fMRI 中 DNN 表示的逐层分析。（来源：论文）

最终通过严格的外部验证测试揭示了 fMRI 和行为中的共享 DNN 表示，该测试将 fMRI 数据中的 DNN 表示推广到在不同声音刺激下执行不同任务的不同参与者组中获得的行为数据。总之，介于声学和语义之间的常见表示有助于对自然声音的行为和神经 (STG) 反应。

图示：从 7 T DNN 加权 fMRI 数据预测行为数据。（来源：论文）

讨论

该团队通过对使用不同方法（行为测量与 fMRI）、刺激和范例（感知差异与单向重复检测）和参与者获得的两个截然不同的数据集进行基于模型的分析来研究自然声音的表示。这两个数据集都高度一致地表明现有计算模型预测对自然声音的反应的能力。在他们考虑的模型中，声音事件 DNN 在行为和神经数据集中提供了最好的整体预测。此外，将 fMRI 数据投影到 DNN 模型空间，他们可以预测相当大一部分的行为数据方差，表明 DNN 捕获了行为和神经反应共有的表征水平。

此处考虑的 DNN 是经过训练以对发声对象和事件进行分类的卷积层次模型。因此，它们可以被认为是识别日常声音的声学到语义转换的候选计算实现。尽管对这种转换的机制解释仍然很困难，但与不同任务（行为）和不同区域的声学和语义模型（fMRI）的比较分析为 DNN 对预测的独特贡献的解释以及 STG 中神经声音表示的性质提供了重要的见解。

图示：行为数据中的声学和语义表示。（来源：论文）

在行为数据集和 fMRI 数据集中的非主要 STG 区域中，DNN 的声音差异任务优于其他模型。相反，语义模型在单词差异任务（行为）中优于 DNN，而光谱时间声学模型与 HG（fMRI）中的 DNN 性能相匹配。这种结果分离表明，DNN 的额外贡献反映了一种既不是声学（如 HG 响应中所反映的）也不是语义（如单词任务中所反映的）的声音表示水平。研究人员将此级别称为“中间”。方差划分分析在统计上证实了这一观察结果，因为它显示了 DNN 在声音差异任务（行为）和 STG 区域中的显著独特贡献。

图示：7 T fMRI 数据中的声学和语义表示。（来源：论文）

该团队的研究结果对非初级听觉皮层中自然声音表征的当前模型具有相关意义。一种主流观点将 fMRI 对 STG 中自然声音的反应模式解释为地方主义代码在高度选择性神经元群体和语义类别之间实现一对一对应的证据。DNN 模型与分类和其他（非听觉）连续语义表示相比的优越性表明，STG 中的听觉语义信息在空间上分布并且是“成分的”，神经元群体编码多维表示的原始成分（维度）。

在此框架内，然后可以通过任务/上下文相关的 STG 响应读出在更高级别的皮层区域（例如，腹外侧前额叶皮层）解决声音类别。逐层 DNN 分析支持这一假设，表明网络架构的中间（而不是后期）层对 DNN 预测的贡献最大。在这些中间层中，在早期（卷积）块和晚期（完全连接）块之间的界面上，复杂特征在早期层中初始扩展之后，在晚期（输出）层中发生特定任务的细化和分类读出之前，形成并压缩到低维流形中。

沿着有限数量的原始维度的分布式编码解释了几乎无限类别的灵活和自适应表示，以及范例的类别内区分。相反，地方主义观点需要指定 STG 实际编码了多少/哪些类别（和子类别），并且需要用于示例编码的临时机制。可以想象，这种提出的“通用”编码机制与专门的处理机制共存，例如，专门用于语音的语言分析，并且可能用于处理音乐的高度特定方面。此外，fMRI 研究可能会根据所选的分析方法（多变量与单变量）突出显示这些互补神经编码中的一种或另一种。

建模声音表示和 fMRI 数据的 MDS 可视化，以及 PT 和 PP 中的结果模式表明听觉皮层逐渐转变，低级声学特征分辨率逐渐降低，高级信息并行丰富。这与之前在视觉皮层中的观察结果一致，显著差异是 STG 响应最好由中间 DNN 层解释，而对高级视觉皮层中的自然图像和感知图像差异的响应最好由晚期 DNN 层解释。这可能反映了视觉和听觉皮层之间的重要差异，尽管需要进一步研究以消除声音和图像分类网络之间的架构差异的影响。

有趣的是，从 fMRI 数据直接预测行为数据揭示了 HG 和早期听觉区域以及 STG 的显著独特贡献。判断复杂声音的相似性需要积极关注和比较声音的声学，这可能反映在 HG 和早期区域的反应中。这些结果预测早期听觉区域与 STG 一起在需要细粒度声音识别的任务中发挥积极作用。

目前，将 STG 表示的原始维度与可解释的声音属性相关联需要进一步研究。一个有启发性的假设来自听觉认知的理论和实证研究，将日常声音的识别视为对声音产生源的推断。从这个角度来看，中间 STG 表示可以反映声音属性，这些声音属性可以从声波波形中导出，并且可以用于从声音推断来源，例如声音产生的基本机制，以及物体的材料和几何形状。在未来的研究中，需要优化刺激集和任务来将这些维度的表示与声学和一般语义分开。结合高时空分辨率方法（如皮层脑电图），这些优化设计还可能有助于将研究人员的观察与实际神经元计算联系起来，并区分各种 STG 区域对自然声音的高级表示的贡献。这种差异在论文的分析中没有得到解决，但在最近的语言皮层脑电图研究中有所报道。

这里考虑的所有模型都是通用听觉模型，可以应用于任何声音，包括语音。然而，就语音而言，这些模型解释了它们的声学（与所有其他声音一样）而不是它们的语言处理。因此，对于语音，中间表示（例如出现在此处考虑的通用 DNN 中的那些）可能会对与派生副语言属性（例如，性别、身份）相关的特征组合进行编码，但不会对提取语音波形（例如，音素、音节）所传达的语言含义所需的语言单元进行编码。大量证据表明，中间语言单位（例如音素）在 STG 中表示，并且它们源自多个光谱时间线索的整合。有趣的是，最近的研究表明，声音产生的发音机制（例如，发音的位置、发音方式）为神经以及对音素的行为反应提供了相关的组织维度。因此，研究人员提出中间声音表征反映声音产生的基本机制，将物理机制、皮层组织和行为之间的联系推广到所有自然声音，正如之前观察到的语音。

除了模型类之间的主要比较之外，论文的分析还为每个单独的模型类启用了相关考虑因素。声学模型的比较表明，虽然 HG 响应更好地由声谱时间调制结构（MTF 模型）解释，但 STG 响应和感知声音差异性更好地由估计听觉感知属性的听觉维度模型解释（音调、响度、亮度、周期性和粗糙度）。这与之前的发现一致，并证实 STG 和感知响应需要输入声音的高阶表示。HG 中 MTF 和 DNN 模型结果的相似性表明，通过考虑除波形或耳蜗样表示之外的输入声学表示，可以进一步提高声音到事件 DNN 的生物物理有效性。此外，了解感知听觉维度与早期/中间 DNN 层中出现的表征之间的关系可能有助于将 DNN 与心理声学联系起来。

研究人员考虑的模型集包括语义的连续模型，通过对大型自然语言语料库的神经网络分析获得。重要的是，这些语义模型在单词差异任务中优于所有其他模型，并预测了感知声音差异方差的独特部分。在论文的分析中，后一种行为发现没有明确的 fMRI 对应物。fMRI 数据集不包括（前）额叶皮层，这可能解释了为什么他们没有在 fMRI 数据中找到高阶语义表示。未来的扩展应该考虑更大的大脑覆盖范围，包括额叶以及语义网络的其他区域。

最后，研究人员对 DNN 的选择仅限于以前用于预测 fMRI 响应的卷积架构，以及谷歌开发的两个密切相关的卷积 DNN（VGGish 和 Yamnet）。后面这些模型的优越性能很可能是由于用于训练的声音和事件类别的集合更大且异构。在未来的工作中，详细检查训练集、它们的语义描述和组织以及任务如何调节 DNN 与人类行为和神经反应之间的对应关系将很有趣。此外，比较用于自动声音识别的其他神经网络算法（包括递归神经网络、长短期记忆网络和变换器）表现出不断改进的性能也很重要。通过发布数据和代码，这项研究有助于建立一个开放式比较框架，该框架可以为行为和大脑中自然声音表征的新比较和分析设置基准基准。

论文链接：https://www.nature.com/articles/s41593-023-01285-9

相关报道：https://medicalxpress.com/news/2023-04-deep-neural-networks-natural-brain.html

IT思维

IT思维（itsiwei.com）是互联网首个定位在科技与电商“思维”韬略的平台，我们时刻关注互联网电商行业新动向；诚邀行业资深从业者加入“思维客家族”！

IT思维

FEATURE TOPICS

最新文章

热门观点更多

人工智能将让无数职业过时，如何规划孩子的职业生涯

人工智能的黑暗秘密：如何让 AI 解释自身行为？

科技巨头间的人才争夺战，正从硅谷蔓延至全球

“AT”竞相追逐互联网保险大蛋糕，谁会站在资源优势的制高点？

腾讯 COO 任宇昕：国内信息安全投入不足 1%

使用深度神经网络预测大脑如何处理自然声音

发表留言 × 取消留言

思维客家族

友情链接