您的位置:主页 > 人工智能 > 正文

机器学习系统像人类一样处理声音

麻省理工学院的研究人员使用一种称为深度神经网络的机器学习系统,创建了第一个模型,该模型可以复制人类在听觉任务(例如识别音乐流派)上的表现。该模型由多层信息处理单元组成,可以对大量数据进行训练以执行特定任务,研究人员使用此模型来阐明人脑如何执行相同任务。

机器学习系统像人类一样处理声音

“这些模型首次为我们提供了可以执行对人类重要的感官任务的机器系统,并且可以在人类层面上完成,” Frederick A.和Carole J. Middleton神经科学助理教授乔什·麦克德莫特(Josh McDermott)说。麻省理工学院脑与认知科学系的博士,也是该研究的资深作者。“从历史上看,这种感觉处理一直很难理解,部分原因是我们还没有真正清楚的理论基础和开发可能发生的情况的模型的好方法。”

这项发表在《神经元》杂志上的研究 还提供了证据,证明人类听觉皮层像视觉皮层一样是按等级组织排列的。在这种类型的布置中,感官信息经过连续的处理阶段,其中较早地处理了基本信息,而在较后的阶段中提取了更高级的功能(例如单词含义)。

麻省理工学院研究生Alexander Kell和斯坦福大学助理教授Daniel Yamins是该论文的主要作者。其他作者是前麻省理工学院访问学生埃里卡·舒克(Erica Shook)和前麻省理工学院博士后山姆·诺曼·海涅格(Sam Norman-Haignere)。

大脑建模

当深度神经网络在1980年代首次开发时,神经科学家希望这种系统可用于对人脑进行建模。但是,那个时代的计算机功能不足,无法构建足以执行诸如对象识别或语音识别之类的实际任务的模型。

在过去的五年中,计算能力和神经网络技术的进步使得使用神经网络执行困难的现实任务成为可能,并且它们已成为许多工程应用中的标准方法。同时,一些神经科学家重新考虑了将这些系统用于模拟人脑的可能性。

“这对于神经科学来说是一个令人兴奋的机会,因为我们实际上可以创建一个可以完成人们可以做的事情的系统,然后我们可以查询这些模型并将它们与大脑进行比较,” Kell说。

麻省理工学院的研究人员训练了他们的神经网络,以执行两项听觉任务,一项涉及语音,另一项涉及音乐。对于语音任务,研究人员为该模型提供了成千上万个两秒钟的通话记录。任务是识别剪辑中间的单词。对于音乐任务,要求模型识别两秒钟的音乐片段的类型。每个剪辑还包含背景噪声,以使任务更加逼真(也更加困难)。

经过成千上万的示例,该模型学会了像人类听众一样准确地执行任务。

“想法是随着时间的流逝,模型在任务上会变得越来越好,” Kell说。“希望它正在学习一些通用的知识,因此,如果您呈现该模型从未听过的新声音,它将很好用,并且在实践中通常是这样。”

该模型还倾向于在人类犯错最多的同一片段上犯错。

可以通过多种方式组合组成神经网络的处理单元,从而形成影响模型性能的不同体系结构。

麻省理工学院的团队发现,完成这两项任务的最佳模型是将处理分为两个阶段的模型。第一组阶段在任务之间共享,但此后分为两个分支以供进一步分析-一个分支用于语音任务,一个分支用于音乐体裁任务。

然后,研究人员使用他们的模型探索了关于听觉皮层结构的长期问题:听觉皮层是否按层次组织。

在分层系统中,一系列的大脑区域在感觉信息流经​​系统时会对其执行不同类型的计算。已有文献证明,视觉皮层具有这种类型的组织。较早的区域(称为主要视觉皮层)对简单的功能(例如颜色或方向)做出响应。后面的阶段可以执行更复杂的任务,例如对象识别。

但是,很难测试这种类型的组织是否也存在于听觉皮层中,部分原因是因为还没有可以复制人类听觉行为的良好模型。

“我们认为,如果我们可以构建一个可以完成人们所做的某些相同事情的模型,那么我们便可以将模型的不同阶段与大脑的不同部分进行比较,并获得一些证据来证明这些部分是否大脑可能是有层次的组织,”麦克德莫特说。

研究人员发现,在他们的模型中,声音的基本特征(例如频率)在早期阶段更容易提取。随着信息的处理并沿着网络走得更远,提取频率变得更加困难,但是提取诸如单词之类的更高级别的信息变得更加容易。

为了查看模型阶段是否可以复制人类听觉皮层如何处理声音信息,研究人员使用功能磁共振成像(fMRI)在大脑处理真实声音时测量听觉皮层的不同区域。然后,他们将大脑的响应与模型中处理相同声音时的响应进行了比较。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。