基于音频Transformer与动作单位的多模态情绪辨认算法设计与实现（在RAVDESS数据集上的应用）

登录 · 发表于 2025-5-25 08:29:31

择要：情绪辨认技术在医学、自动驾驶等多个领域的广泛应用，正吸引着研究界的持续关注。本研究提出了一种融合语音情绪辨认（SER）与面部情绪辨认（FER）的自动情绪辨认系统。在SER方面，我们采用两种迁移学习技术评估了预练习的xlsr-Wav2Vec2.0转换器：嵌入提取和微调。实验效果显示，通过附加多层感知器进行整体微调时取得最佳准确率，验证了迁移学习相较于重新练习更具鲁棒性，且预练习知识有助于任务顺应。在FER方面，通过提取视频动作单位对比静态模子与顺序模子的性能差异，发现两者差异较小。错误分析表明，视觉系统可通过高情绪负载帧检测器进行优化，这为视频情绪辨认方法研究提供了新思路。最终，采用晚期融合战略将两种模态团结后，在RAVDESS数据集的八种情绪分类任务中取得了86.70%的受试者5-CV评估准确率。研究证实，两种模态携带互补的情绪信息，其有效团结可明显提升系统性能。
1、多模态情绪辨认

根据 Huang 等人 [58] 的综述，合并模式有三种基本方式：早期融合、关节融合和晚期融合。
早期融合包括组合从各种预练习模子中提取的特性或模态。在练习最终模子之前，这些属性被分组到单个向量中。
Huang等[58]将关节融合界说为“将从神经网络中心层学习到的特性表示与来自其他模态的特性作为最终模子的输入毗连起来的过程。与早期融合相比，关键区别在于，在练习过程中，损失会传播回特性提取神经网络，从而为每次练习迭代创建更好的特性表示。
另一方面，晚期融合包括两个阶段：第一阶段练习与模态一样多的模子，第二阶段，最终模子接收第一阶段得出的团结后验以实行确定性分类。这些程序之间的边界有时大概很含糊，由于融合战略大概在练习期间的任何时间发生[59]。
早期融合的上风在于检测特性相关性以消除冗余信息并学习不同模态之间的交互。然而，由于采样率不同，在对齐来自许多模态的数据时大概会出现同步题目，当组合嵌入是高维时也会遇到困难[60,61]。这种方法包括一些工作，例如邓等人[62]提出的方法。他们网络了来自 T5 transformer 文本模子和 VGG、YAMNET 和 TRILL 听觉模子的代表性特性;然后，将这些嵌入毗连并引入到共注意力 transformer 模子中，该模子加强了每个嵌入的最相关槽以产生融合表示，然后用于练习最终分类器。这两种模式的融合进步了 IEMOCAP 和 SAVEEE 两个数据集中情绪辨认器的准确性。
作为早期融合战略的替代方案，在决策层面存在融合或晚期融合。Sun等[60]在以前的任务中利用了从预先练习模子中获取的特性来练习一个双LSTM模子，该模子为他们的三种使用模态（音频、视频和文本）中的每一种都有一个注意力层，以辨认唤醒和效价。然后，通过采用晚期融合技术对 bi-LSTM 模子的后验进行整合，以学习最终的 LSTM 模子。
由于晚期融合战略在雷同任务上的简化和充分性能[60,63]，我们决定在每种模态（听觉或视觉）上应用每个练习模子的后验组合。后来，我们用生成的输出对多项式 Logistic 回归进行馈送。这个过程也可以理解为一种集成方法：我们本身组装每个模子学到的后验，然后我们练习一个多项式 logistic 回归模子来解决单个任务，即情绪辨认。
我们的框架由两个系统构成：语音情绪辨认器和面部情绪辨认器。我们将这两个系统的效果与晚期融合战略相团结，如图 1 所示

2、数据集和评估

在我们的分析中，我们使用了 RAVDESS [20]。此数据集包括 7356 个带有行为情绪内容的录音。档案平均分为三种范例的内容（完整的 AV、纯视频和纯音频）和两个人声通道（语音和歌曲）。
除了中性情绪（仅包括常规强度）外，别的的心情都是在两个级别的情绪唤醒产生的：常规和强烈。每个文件都包罗一个参加者，代表以下八种情绪之一：平静、中立、快乐、悲伤、愤怒、恐惧、惊奇和厌恶。
我们只在实验中使用了完整的 AV 材料和语音通道，由于我们对语音而不是歌曲的视听情绪辨认感兴趣。此选择将文件数量限制为 1440 个视频，最大和最小持续时间分别为 5.31 和 2.99 秒。语料库有 24 名演员，以性别平衡的方式分布，他们用中性的北美口音说词汇匹配的报告。这种设置适用于研究与情绪相关的副语言学，隔离词汇并减少文化大概引起的情绪表达偏见。在其长处中，它还具有每种情绪的成比例文件数，这避免了使用非平衡数据练习算法所衍生的题目。此外，RAVDEESS 是研究界的参考数据集，用于多项工作 [33,64,65]。
尽管进行了简化，但该数据集对情绪辨认构成了重大障碍，乃至对人类也是云云。仅使用语音刺激实现的人类准确率为 67%，而使用视觉信息时，这一准确率仅增加到 75%。
3、特性提取

对于 SER 模子，我们使用了预先练习的 xlsr-Wav2Vec2.0 [66] 模子。该模子具有 Wav2Vec2.0 转换器的原始架构 [67]。与 Wav2Vec2.0 不同，xlsr 版本使用 53 种不同的语言进行了练习，在语音转文本方面到达了最先进的性能。此外，xlsr-Wav2Vec2.0 是一个转换器，以自我监视的方式从数百万个原始音频数据中练习出来。在对未标记数据进行预练习后，该模子对标记数据进行了微调，以顺应不同性质的下游语音辨认任务。
正如 Baevski 等人在 [67] 中形貌的那样，该模子由三个不同的部分构成（也出现在图 2 中）：特性编码器、变压器和量化模块。

   图 2.建议的语音情绪辨认管道。    首先，特性编码器包罗多个卷积层，这些层接收原始音频 X 并输出录音每个时间步的埋伏语音表示 Z。  其次，transformer 模块接收埋伏语音表示 Z 并创建上下文表示 C。这种上下文表示是在通过符合 transformer 模块的 24 个 transformer 块和 16 个 attention heads之后生成的。    4、微调

  作为嵌入提取的替代方案并重用以前网络的专业知识，我们还对预练习的 xlsr-Wav2Vec2.0 进行了微调。通过微调底子预练习模子，我们解冻了它的一些顶层，并团结练习了新添加的分类器层和底子模子的最后层。这项技术使我们可以大概“微调”底子模子中的高阶特性表示，使它们顺应新的特定任务，同时保持从数百万个数据样本的练习中得到的知识。
  在我们的例子中，要解决的新任务是语音情绪辨认。为了顺应 xlsr-Wav2Vec2.0 架构，我们在 transformer 模块的输出之上引入了全局平均池化。该层将上下文表示 C 的所有时间步折叠成一个 1024 维向量。这些平均嵌入被传递给一个两层的 MLP，分别有 1024 个和 8 个神经元，堆叠在池化层的顶部。
  在微调过程中，除了特性编码器的卷积层外，所有层都进行了调整。该模块的层保持冻结状态，由于它们包罗来自负量数据的嵌入式知识，而且充足坚固，无需顺应即可使用。
  在图 2 中，我们展示了一个图表，阐明了特性提取器和微调战略。在“LARGE xlsr-Wav2Vec2.0”的方块下，我们可以看到模子具有的绿色默认层。从特性编码器阶段的输出中，我们提取了馈送到静态模子（SVM、k-NN 和 MLP）的嵌入。关于微调版本，粉红色的线条表示我们使用 RAVDESS 重新练习的层。在蓝色框内，我们还可以辨认 transformer 顶部添加的层，用于实行情绪分类。
  5、静态模子与顺序模子

  得到每个视频帧的 AU 后，我们需要完成一个预处理步骤，以使输入格式顺应特定模子，无论是静态的照旧顺序的。为了评估静态模子，我们计算了从每个视频中提取的 AU 序列的平均向量，将所有时间步骤折叠成一个柔化向量。在这个阶段，我们测试了两种战略，对每列的 AU 在 0-1 范围内进行归一化，或者不采用任何归一化。在使 AU 顺应静态题目后，我们将样本引入不同的模子： SVC 、 k-NN 分类器和 MLP 。
  这种方法作为我们的基准，有两个紧张长处：第一个是简单，第二个是“平均效果”。为了说明这一点，假设一个视频在几个帧上与原型情绪有毛病，由于视频上的人闭上了眼睛。由于平均池化，只要所有其他帧都封装了精确的情绪，这些帧就不会严峻影响最终辨认。然而，这种方法也有一个明显的缺点：顺序数据大概表现出自然的时间顺序。然而，这种单个帧级特性的启发式聚合忽略了时间顺序，这反过来又大概导致次优的鉴别能力。作为静态模子的替代方案，我们采用了顺序模子，假设帧的顺序中有相关信息，这通常是有效的，尤其是对于顺序数据。

关于序列模子的架构，它由几个双向 LSTM 层构成，具有深度的自我注意机制，雷同于 [72] 中提出的。在图 4 中，显示了所采用的 Bi-LSTM 的结构图片。

图 4.具有注意力机制的双向 LSTM，用于在输入处使用动作单位序列进行情绪辨认。来自源的修改版本 [73]。 Bi-LSTM 层以双向方式工作，这使我们可以大概在隐藏状态的两个方向上网络顺序信息ℎ1,ℎ2...、ℎ

继续阅读请点击广告

基于音频Transformer与动作单位的多模态情绪辨认算法设计与实现（在RAVDESS数据集上的应用）

本帖子中包含更多资源

圆咕噜咕噜

基于音频Transformer与动作单位的多模态情绪辨认算法设计与实现（在RAVDESS数据集上的应用）

本帖子中包含更多资源

圆咕噜咕噜

登录参与点评抽奖加入IT实名职场社区