【传知代码】机器情绪及烦闷症识别算法 五(论文复现) ...

打印 上一主题 下一主题

主题 495|帖子 495|积分 1485

在现代生理健康研究中,烦闷症一直是一个备受关注的课题。随着科学的进步,研究职员逐渐认识到,烦闷症的成因远不止单一因素,而是由复杂的生物学、生理学和社会环境因素交织而成的。最近,MSA(综合性综合性模型)在展现烦闷症机制上显现了惊人的潜力。通过多维度的分析,MSA模型为我们提供了一个全新的视角,让我们能够更深入地理解烦闷症的根源、影响以及大概的干预措施。
  本文所涉及所有资源均在传知代码平台可获取
目录
概述
焦点逻辑
复现过程
写在最后

概述

人类语言不仅拥有口头语言而且拥有来自视觉(面部特征)和声学(声调)模态的非语言行为。这种丰富的信息为我们提供了理解人类行为和意图的益处的陈诉。然而,不同模态之间的异质性往往增长了分析人类语言的难度。例如,音频和视频流的吸取器大概随着可变的吸取频率而变化,因此我们大概无法得到它们之间的最佳映射。皱眉的脸大概与过去说的悲观的话有关。
此外,人类情绪表达通常是多模态的,它包罗自然语言、面部手势和声学行为的混合。然而,在建模如许的多模态人类语言时间序列数据中存在两个主要挑衅:
   1)由于来自每个模态的序列的可变采样率而导致的固有数据非对齐
  2)跨模态的元素之间的长程依赖性
  

烦闷症是一种全球性、广泛存在的生理健康标题,严重影响着患者的日常生活和社会功能,并带来巨大的社会和经济负担。传统的烦闷症检测方法主要依赖于患者的自我陈诉和临床访谈,但这些方法具有主观性强、受患者表达本领限制的缺点,大概导致早期症状被忽视或误判。因此,寻找更客观、精准的检测手段成为当今烦闷症研究的重点。
多模态烦闷症检测应运而生,依托于人工智能、机器学习和大数据分析等技能的进步,通过综合分析语音、心情、文本、行为、生理生理数据等多种信息源,能够更全面地捕捉和识别烦闷症的多维度体现。这种方法不仅进步了烦闷症检测的准确性和客观性,还具有早期发现、持续监测和个性化干预的潜力,为烦闷症的管理和治疗带来了新的盼望和大概性。
这篇文章开始先容情绪盘算经典论文模型,他是ACL 2019的一篇多模态情绪盘算的论文 “Multimodal Transformer for Unaligned Multimodal Language Sequences”,此中提出的模型是MulT,此外,原创部分为加入了烦闷症数据集以实现烦闷症检测任务,以及在SIMS数据集和SIMV2数据集上举行实验,地点

Transformer网络首次被引入用于神经机器翻译(NMT)任务,此中编码器息争码器侧各自利用自注意 Transformer。在自关注的每一层之后,编码器息争码器通过附加的解码器子层连接,此中解码器针对目标文本的每个元向来关注源文本的每个元素。为了以得到该模型的更详细表明。除了NMT之外,Transformer网络也已经成功地应用于其他任务,包罗语言建模,语义角色标注,词义消歧、学习句子表征,以及视频活动识别。本文从NMT Transformer中汲取了很强的开导,将其扩展到多模态环境中。NMT Transformer偏重于从源文本到目标文本的单向翻译,而人类多模态语言的时间序列既不像单词嵌入那样被很好地表示,也不像单词嵌入那样是离散的,每种模态的序列具有非常不同的频率。因此,我们发起不要明确地从一种模态翻译到另一种模态(这大概极具挑衅性),而是通过注意来潜在地调整跨模态的元素。因此,我们的模型(MulT)没有编码器-解码器结构,但它是由多个成对和双向跨模态注意块堆栈构建的,这些块直接关注低层特征(同时去除自注意)。
焦点逻辑

        在本节中,我们描述了用于对未对齐的多模态语言序列举行建模的多模态Transformer(MulT)如下图。在高层次上,MulT通过前馈融合过程从多个方向成对交织模态变换器归并多模态时间序列。具体来说,每个跨模态Transformer通过学习两种模态的特征之间的注意力,用来自另一源模态的低级特征反复强化目标模态。因此,MulT架构利用这种跨模态变换器对所有模态对举行建模,随后是序列模型(例如,自我注意力(self-attention)Transformer),其使用融合特征举行预测:

        我们思量了两种模态 αα 和 ββ,每种模态中分别有两个(大概未对齐的)序列,分别表示为 Xα∈RTα×dαXα​∈RTα​×dα​ 和 Xβ∈RTβ×dβXβ​∈RTβ​×dβ​。在本文中,T(⋅)T(⋅) 和 d(⋅)d(⋅) 分别表示序列长度和特征维度。受到神经机器翻译(NMT)中解码器 Transformer (Vaswani et al., 2017) 的开导,我们假设融合跨模态信息的一个有用方法是提供跨模态的潜在适配,即从 ββ 到 αα。必要注意的是,本文中讨论的模态大概跨越非常不同的领域,例如面部属性和口语单词,我们定义 Query 为 Qα=XαWQαQα​=Xα​WQα​​,Key 为 Kβ=XβWKβKβ​=Xβ​WKβ​​,Value 为 Vβ=XβWVβVβ​=Xβ​WVβ​​,此中 WQα∈Rdα×dkWQα​​∈Rdα​×dk​,WKβ∈Rdβ×dkWKβ​​∈Rdβ​×dk​ 和 WVβ∈Rdβ×dvWVβ​​∈Rdβ​×dv​ 是权重矩阵。从 ββ 到 αα 的潜在适配表示为跨模态注意力 Yα:=CMβ→α(Xα,Xβ)∈RTα×dvYα​:=CMβ→α​(Xα​,Xβ​)∈RTα​×dv​:
公式可以翻译如下:

这表示了从模态 ββ 到模态 αα 的跨模态注意力 YαYα​ 的盘算过程。具体步骤如下:
   1)盘算 Query 向量 QαQα​ 和 Key 向量 KβKβ​ 的点积,并除以 dkdk​
  2)举行缩放。
  3)对上述结果应用 softmax 函数以得到注意力权重。
  4)使用这些注意力权重对模态 ββ 的 Value 向量 VβVβ​ 举行加权求和,得到跨模态的注意力表示 YαYα​。
  请注意,YαYα​ 的长度与 QαQα​ 雷同(即 TαTα​),但同时它表示在 VβVβ​ 的特征空间中。具体来说,公式 (1) 中的缩放 (通过 dkdk​
​) softmax 盘算了一个得分矩阵 softmax(⋅)∈RTα×Tβsoftmax(⋅)∈RTα​×Tβ​,其 (i,j)(i,j) 项表示模态 αα 的第 ii 个时间步对模态 ββ 的第 jj 个时间步的注意力。因此,YαYα​ 的第 ii 个时间步是 VβVβ​ 的加权总结,此中的权重由 softmax(⋅)softmax(⋅) 中的第 ii 行确定。
多模态语言序列通常涉及三种主要模态:语言 (L)、视频 (V) 和音频 (A) 模态。我们用 X{L,V,A}∈RT{L,V,A}×d{L,V,A}X{L,V,A}​∈RT{L,V,A}​×d{L,V,A}​ 表示这三种模态的输入特征序列及其对应的维度。在此符号的底子上,本小节将详细描述多模态 Transformer 的组件以及如何应用跨模态注意力模块,为了确保输入序列中的每个元素能够充分感知其邻近元素,我们将输入序列通过一个一维卷积层(1D temporal convolutional layer)举行处理:

此中,kL,V,AkL,V,A​ 是针对模态 {L, V, A} 的卷积核大小,而 dd 是统一的特征维度。颠末卷积处理后的序列预计能够包罗序列的局部结构,这一点非常告急,由于这些序列是在不同的采样率下网络的。此外,由于时间卷积将不同模态的特征投影到雷同的维度 dd,因此在跨模态注意力模块中可以举行点积操作,为了使序列能够携带时间信息,参考 (Vaswani et al., 2017) 的方法,我们在 X^L,V,AX^L,V,A​ 上添加了位置嵌入(PE),此中,PE(TL,V,A,d)PE(TL,V,A​,d) 是位置嵌入,旨在为每个时间步的输入序列提供时间位置信息,而 ZL,V,A[0]ZL,V,A[0]​ 是不同模态的低级位置感知特征:

基于交织模态注意力块,我们计划了交织模态变换器,使得一种模态能够从另一种模态吸取信息。在以下内容中,我们以将视觉(V)信息传递给语言(L)的例子举行阐明,这被表示为“V → L”。我们将每个交织模态注意力块的所有维度(d{α,β,k,v})固定为 d,每个交织模态变换器由 D 层交织模态注意力块组成。情势上,交织模态变换器在 i = 1, …, D 层中按以下方式举行前向盘算,此中 fθfθ 是一个位置逐元素的前馈子层,由参数 θθ 参数化,而 CMV→L,mulCMV→L,mul​ 表示第 ii 层的 CMV→LCMV→L​ 的多头版本:

复现过程

在情绪盘算任务中,可以看到 MFM 模型性能超越其他模型,证明了其有用性:

在下载附件并预备好数据集并调试代码后,举行下面的步骤,附件已经调通并修改,可直接正常运行,下载多模态情绪分析集成包:
  1. pip install MMSA
复制代码
开始举行训练:
  1. from MMSA import MMSA_run
  2. # run LMF on MOSI with default hyper parameters
  3. MMSA_run('lmf', 'mosi', seeds=[1111, 1112, 1113], gpu_ids=[0])
  4. # tune Self_mm on MOSEI with default hyper parameter range
  5. MMSA_run('self_mm', 'mosei', seeds=[1111], gpu_ids=[1])
  6. # run TFN on SIMS with altered config
  7. config = get_config_regression('tfn', 'mosi')
  8. config['post_fusion_dim'] = 32
  9. config['featurePath'] = '~/feature.pkl'
  10. MMSA_run('tfn', 'mosi', config=config, seeds=[1111])
  11. # run MTFN on SIMS with custom config file
  12. MMSA_run('mtfn', 'sims', config_file='./config.json')
复制代码
训练过程和终极结果如下所示:


MULT模型通过跨模态注意力机制(cross-modal attention)有用融合了多种模态(语言、视频、音频)的信息。这种融合方式不仅能够在模态之间传递信息,还能够保留各模态的独特特征,加强模型的综合体现,其实用场景如下:
   1)情绪分析:MULT模型实用于处理带有复杂情绪信息的多模态数据(如文本、视频和音频),并能够精确捕捉和分析情绪特征。其多模态融合和跨模态交互本领使其在情绪分析任务中体现出色。
  2)多模态内容理解:在必要结合多种感知信息(如语言、视觉、声音)来理解内容的任务中,MULT模型体现尤为突出。它能够有用地融合来自不同来源的信息,天生更为全面和精确的理解。
  3)视频和音频分析:对于必要同时处理和分析视频与音频数据的任务,MULT模型能够高效地融合视觉和听觉信息,实用于如视频理解、音频分类等场景。
  4)人机交互:在涉及多模态数据的人机交互场景中,MULT模型能够融合语言、视觉和听觉信息,提升体系对用户输入的理解本领,从而实现更为自然和智能的交互。
  5)医疗诊断:在必要结合多模态数据(如影像、语音、文字)举行诊断的医疗场景中,MULT模型能够提供更为准确的多维度分析,辅助大夫做出决策。
  写在最后

     在展现机器情绪及其在烦闷症识别中的潜力的探索过程中,我们站在了技能与人文交汇的前沿。随着人工智能和情绪盘算的飞速盼望,我们逐渐看到了机器不仅能够感知和处理情绪,还能够在生理健康领域发挥至关告急的作用。
        机器情绪识别算法的发展,不仅赋予了人工智能更为风雅的情绪理解本领,也为烦闷症的早期发现和干预开辟了新天地。通过深入分析人类情绪的玄妙变化,机器情绪识别体系能够在更早阶段捕捉到烦闷症的潜在信号,从而实现实时的干预和支持。这种技能的突破,不仅提升了对情绪数据的分析准确性,还为个体化的治疗方案提供了坚实的底子。
        然而,这一领域的进步并非没有挑衅。如何确保算法的准确性与公平性、如何掩护用户隐私、如何有用地将技能应用于实际医疗场景中,这些标题都必要我们在将来的研究中不断探索息争决。尽管云云,机器情绪识别算法所带来的潜力和盼望,无疑为生理健康领域注入了新的活力。
        总而言之,机器情绪及烦闷症识别算法的结合,代表了科技与生理学的深度融合,它将改变我们对情绪和生理健康的理解,也将为那些受烦闷症困扰的人们带来亘古未有的支持和资助。随着技能的不断进步,我们有来由期待,将来的人工智能将成为生理健康领域中最可信赖的助手,带来更多的盼望和改变。
详细复现过程的项目源码、数据和预训练好的模型可从该文章下方附件获取。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

梦见你的名字

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表