基于Transformer的语音障碍分析方法
原文:Voice Disorder Analysis: a Transformer-based Approach
引言
语音障碍的紧张性
- 语音障碍严重影响患者的生存质量,早期诊断和治疗至关紧张。
- 主动化工具用于检测和分类这些障碍具有紧张意义。
现有挑战
- 缺乏病理语音数据,导致难以有效利用强大模型。
- 病理语音数据复杂且多样性高,不同类型的录音(如句子朗读和持续元音发音)增加了诊断难度。
办理方案概述
- 提出了一种基于Transformer的新方法,直接处理原始语音信号。
- 通过生成合成数据和数据增强来办理数据短缺问题。
- 利用Mixture of Experts (MoE)集成模型,同时思量多种录音类型。
方法论
数据生成与增强
合成数据创建
- 利用Text-to-Speech (TTS)技能生成健康和病理语音,确保生成的语音能准确反映特定类别的特征。
- 应用强大的数据增强管道(包括音调变化、时间拉伸和噪声添加),以丰富和平衡训练数据集。
Mixture of Experts (MoE)
- 训练多个Transformer模型,分别针对不同类型的录音(如句子朗读和持续元音发音)。
- 利用浅层MoE框架对所有模型的预测进行对齐,选择置信度最高的预测结果。
- 对每个模型进行不同的预训练,以充实利用不同数据集的上风。
实验设置
数据集
- 利用两个公开数据集(SVD和AVFAD)和一个内部意大利数据集(IPV)。
- SVD:包括德语语音和电声门图数据,重点关注句子朗读和正常音调的元音发音。
- AVFAD:包含葡萄牙语语音,涵盖各种语音任务。
- IPV:新收集的意大利病理语音数据集,包括视频喉镜查抄、感知语音评估和声学语音分析。
模型与训练过程
- 比力了1D-CNN、2D-CNN和纯Transformer模型(如wav2vec 2.0、WavLM和HuBERT)。
- 利用10折交叉验证,并应用强大的数据增强管道。
结果与讨论
语音障碍检测
- 提出的方法在AUC指标上显着优于其他模型,特别是在SVD、AVFAD和IPV数据集上的表现尤为突出。
- 利用合成数据和数据增强,联合MoE集成模型,显着提升了模型的泛化本事。
语音障碍分类
- 在多标签分类任务中,提出的方法在F1宏均匀值上有显着提升,特别是对于不平衡类别的情况。
- 初始预训练进一步增强了分类任务的性能。
消融研究
- 数据增强和合成数据的引入显着提高了模型性能,尤其是在IPV数据集上。
- 利用MoE集成模型并进行专门预训练(LibriSpeech和Audioset)进一步提升了性能。
合成数据的泛化性能
- 仅利用合成数据训练并在真实数据上测试,模型性能仍然显着高于随机水平,表明合成数据的质量较高。
结论
主要贡献
- 提出了新的方法,通过强数据合成和增强策略以及Transformer模型集成,显着提升了语音障碍检测和分类任务的性能。
局限性与将来工作
- 模型规模较大,MoE集成模型使模型大小翻倍。将来可以探索共享权重的方法。
- 模型在专家指导下录制的数据上训练,将来将扩展到实际场景中,嵌入基于Web的应用步调,摆设在多个私家和公共耳鼻喉科诊所。
致谢
资助信息
- 本研究部分由FAIR - Future Artificial Intelligence Research资助,并获得欧盟Next-GenerationEU项目的资金支持。
参考文献
- 枚举了相关范畴的参考文献,涵盖了语音障碍的盛行病学研究、深度学习在医学中的应用等。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |