免费入驻
产品入驻解决方案入驻公司入驻案例入驻
登录 · 注册
- 只需一步，快速开始
- 账号登录
- 立即注册
- 找回密码
自动登录找回密码

密码立即注册

ToB企服应用市场:ToB评测及商务社交产业平台»论坛 › 物联网 › 物联网 › 基于Transformer的语音障碍分析方法

基于Transformer的语音障碍分析方法

前进之路金牌会员 | 5 天前 | 显示全部楼层 | 阅读模式

上一主题

下一主题

楼主

主题 834|帖子 834|积分 2502

基于Transformer的语音障碍分析方法

原文：Voice Disorder Analysis: a Transformer-based Approach
引言

语音障碍的紧张性

语音障碍严重影响患者的生存质量，早期诊断和治疗至关紧张。
主动化工具用于检测和分类这些障碍具有紧张意义。

现有挑战

缺乏病理语音数据，导致难以有效利用强大模型。
病理语音数据复杂且多样性高，不同类型的录音（如句子朗读和持续元音发音）增加了诊断难度。

办理方案概述

提出了一种基于Transformer的新方法，直接处理原始语音信号。
通过生成合成数据和数据增强来办理数据短缺问题。
利用Mixture of Experts (MoE)集成模型，同时思量多种录音类型。

方法论

数据生成与增强

合成数据创建

利用Text-to-Speech (TTS)技能生成健康和病理语音，确保生成的语音能准确反映特定类别的特征。
应用强大的数据增强管道（包括音调变化、时间拉伸和噪声添加），以丰富和平衡训练数据集。

Mixture of Experts (MoE)

训练多个Transformer模型，分别针对不同类型的录音（如句子朗读和持续元音发音）。
利用浅层MoE框架对所有模型的预测进行对齐，选择置信度最高的预测结果。
对每个模型进行不同的预训练，以充实利用不同数据集的上风。

实验设置

数据集

利用两个公开数据集（SVD和AVFAD）和一个内部意大利数据集（IPV）。
SVD：包括德语语音和电声门图数据，重点关注句子朗读和正常音调的元音发音。
AVFAD：包含葡萄牙语语音，涵盖各种语音任务。
IPV：新收集的意大利病理语音数据集，包括视频喉镜查抄、感知语音评估和声学语音分析。

模型与训练过程

比力了1D-CNN、2D-CNN和纯Transformer模型（如wav2vec 2.0、WavLM和HuBERT）。
利用10折交叉验证，并应用强大的数据增强管道。

结果与讨论

语音障碍检测

提出的方法在AUC指标上显着优于其他模型，特别是在SVD、AVFAD和IPV数据集上的表现尤为突出。
利用合成数据和数据增强，联合MoE集成模型，显着提升了模型的泛化本事。

语音障碍分类

在多标签分类任务中，提出的方法在F1宏均匀值上有显着提升，特别是对于不平衡类别的情况。
初始预训练进一步增强了分类任务的性能。

消融研究

数据增强和合成数据的引入显着提高了模型性能，尤其是在IPV数据集上。
利用MoE集成模型并进行专门预训练（LibriSpeech和Audioset）进一步提升了性能。

合成数据的泛化性能

仅利用合成数据训练并在真实数据上测试，模型性能仍然显着高于随机水平，表明合成数据的质量较高。

结论

主要贡献

提出了新的方法，通过强数据合成和增强策略以及Transformer模型集成，显着提升了语音障碍检测和分类任务的性能。

局限性与将来工作

模型规模较大，MoE集成模型使模型大小翻倍。将来可以探索共享权重的方法。
模型在专家指导下录制的数据上训练，将来将扩展到实际场景中，嵌入基于Web的应用步调，摆设在多个私家和公共耳鼻喉科诊所。

致谢

资助信息

本研究部分由FAIR - Future Artificial Intelligence Research资助，并获得欧盟Next-GenerationEU项目的资金支持。

参考文献

枚举了相关范畴的参考文献，涵盖了语音障碍的盛行病学研究、深度学习在医学中的应用等。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

回复

使用道具举报

0 个回复

倒序浏览

快速回复

发新帖回复

金牌会员

这个人很懒什么都没写!

楼主热帖

标签云

挺好的服务器

微信订阅号

微信服务号

微信客服

小程序

H5

关于我们商务合作网站地图

快速回复 返回顶部 返回列表