基于Transformer的语音障碍分析方法

打印 上一主题 下一主题

主题 834|帖子 834|积分 2502

基于Transformer的语音障碍分析方法

原文:Voice Disorder Analysis: a Transformer-based Approach
引言

语音障碍的紧张性



  • 语音障碍严重影响患者的生存质量,早期诊断和治疗至关紧张。
  • 主动化工具用于检测和分类这些障碍具有紧张意义。
现有挑战



  • 缺乏病理语音数据,导致难以有效利用强大模型。
  • 病理语音数据复杂且多样性高,不同类型的录音(如句子朗读和持续元音发音)增加了诊断难度。
办理方案概述



  • 提出了一种基于Transformer的新方法,直接处理原始语音信号。
  • 通过生成合成数据和数据增强来办理数据短缺问题。
  • 利用Mixture of Experts (MoE)集成模型,同时思量多种录音类型。
方法论

数据生成与增强

合成数据创建



  • 利用Text-to-Speech (TTS)技能生成健康和病理语音,确保生成的语音能准确反映特定类别的特征。
  • 应用强大的数据增强管道(包括音调变化、时间拉伸和噪声添加),以丰富和平衡训练数据集。
Mixture of Experts (MoE)



  • 训练多个Transformer模型,分别针对不同类型的录音(如句子朗读和持续元音发音)。
  • 利用浅层MoE框架对所有模型的预测进行对齐,选择置信度最高的预测结果。
  • 对每个模型进行不同的预训练,以充实利用不同数据集的上风。
实验设置

数据集



  • 利用两个公开数据集(SVD和AVFAD)和一个内部意大利数据集(IPV)。
  • SVD:包括德语语音和电声门图数据,重点关注句子朗读和正常音调的元音发音。
  • AVFAD:包含葡萄牙语语音,涵盖各种语音任务。
  • IPV:新收集的意大利病理语音数据集,包括视频喉镜查抄、感知语音评估和声学语音分析。
模型与训练过程



  • 比力了1D-CNN、2D-CNN和纯Transformer模型(如wav2vec 2.0、WavLM和HuBERT)。
  • 利用10折交叉验证,并应用强大的数据增强管道。
结果与讨论

语音障碍检测



  • 提出的方法在AUC指标上显着优于其他模型,特别是在SVD、AVFAD和IPV数据集上的表现尤为突出。
  • 利用合成数据和数据增强,联合MoE集成模型,显着提升了模型的泛化本事。
语音障碍分类



  • 在多标签分类任务中,提出的方法在F1宏均匀值上有显着提升,特别是对于不平衡类别的情况。
  • 初始预训练进一步增强了分类任务的性能。
消融研究



  • 数据增强和合成数据的引入显着提高了模型性能,尤其是在IPV数据集上。
  • 利用MoE集成模型并进行专门预训练(LibriSpeech和Audioset)进一步提升了性能。
合成数据的泛化性能



  • 仅利用合成数据训练并在真实数据上测试,模型性能仍然显着高于随机水平,表明合成数据的质量较高。
结论

主要贡献



  • 提出了新的方法,通过强数据合成和增强策略以及Transformer模型集成,显着提升了语音障碍检测和分类任务的性能。
局限性与将来工作



  • 模型规模较大,MoE集成模型使模型大小翻倍。将来可以探索共享权重的方法。
  • 模型在专家指导下录制的数据上训练,将来将扩展到实际场景中,嵌入基于Web的应用步调,摆设在多个私家和公共耳鼻喉科诊所。
致谢

资助信息



  • 本研究部分由FAIR - Future Artificial Intelligence Research资助,并获得欧盟Next-GenerationEU项目的资金支持。
参考文献



  • 枚举了相关范畴的参考文献,涵盖了语音障碍的盛行病学研究、深度学习在医学中的应用等。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

前进之路

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表