论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
物联网
›
物联网
›
基于Transformer的语音障碍分析方法
基于Transformer的语音障碍分析方法
前进之路
金牌会员
|
2025-2-24 02:31:46
|
显示全部楼层
|
阅读模式
楼主
主题
968
|
帖子
968
|
积分
2904
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
基于Transformer的语音障碍分析方法
原文:Voice Disorder Analysis: a Transformer-based Approach
引言
语音障碍的紧张性
语音障碍严重影响患者的生存质量,早期诊断和治疗至关紧张。
主动化工具用于检测和分类这些障碍具有紧张意义。
现有挑战
缺乏病理语音数据,导致难以有效利用强大模型。
病理语音数据复杂且多样性高,不同类型的录音(如句子朗读和持续元音发音)增加了诊断难度。
办理方案概述
提出了一种基于Transformer的新方法,直接处理原始语音信号。
通过生成合成数据和数据增强来办理数据短缺问题。
利用Mixture of Experts (MoE)集成模型,同时思量多种录音类型。
方法论
数据生成与增强
合成数据创建
利用Text-to-Speech (TTS)技能生成健康和病理语音,确保生成的语音能准确反映特定类别的特征。
应用强大的数据增强管道(包括音调变化、时间拉伸和噪声添加),以丰富和平衡训练数据集。
Mixture of Experts (MoE)
训练多个Transformer模型,分别针对不同类型的录音(如句子朗读和持续元音发音)。
利用浅层MoE框架对所有模型的预测进行对齐,选择置信度最高的预测结果。
对每个模型进行不同的预训练,以充实利用不同数据集的上风。
实验设置
数据集
利用两个公开数据集(SVD和AVFAD)和一个内部意大利数据集(IPV)。
SVD:包括德语语音和电声门图数据,重点关注句子朗读和正常音调的元音发音。
AVFAD:包含葡萄牙语语音,涵盖各种语音任务。
IPV:新收集的意大利病理语音数据集,包括视频喉镜查抄、感知语音评估和声学语音分析。
模型与训练过程
比力了1D-CNN、2D-CNN和纯Transformer模型(如wav2vec 2.0、WavLM和HuBERT)。
利用10折交叉验证,并应用强大的数据增强管道。
结果与讨论
语音障碍检测
提出的方法在AUC指标上显着优于其他模型,特别是在SVD、AVFAD和IPV数据集上的表现尤为突出。
利用合成数据和数据增强,联合MoE集成模型,显着提升了模型的泛化本事。
语音障碍分类
在多标签分类任务中,提出的方法在F1宏均匀值上有显着提升,特别是对于不平衡类别的情况。
初始预训练进一步增强了分类任务的性能。
消融研究
数据增强和合成数据的引入显着提高了模型性能,尤其是在IPV数据集上。
利用MoE集成模型并进行专门预训练(LibriSpeech和Audioset)进一步提升了性能。
合成数据的泛化性能
仅利用合成数据训练并在真实数据上测试,模型性能仍然显着高于随机水平,表明合成数据的质量较高。
结论
主要贡献
提出了新的方法,通过强数据合成和增强策略以及Transformer模型集成,显着提升了语音障碍检测和分类任务的性能。
局限性与将来工作
模型规模较大,MoE集成模型使模型大小翻倍。将来可以探索共享权重的方法。
模型在专家指导下录制的数据上训练,将来将扩展到实际场景中,嵌入基于Web的应用步调,摆设在多个私家和公共耳鼻喉科诊所。
致谢
资助信息
本研究部分由FAIR - Future Artificial Intelligence Research资助,并获得欧盟Next-GenerationEU项目的资金支持。
参考文献
枚举了相关范畴的参考文献,涵盖了语音障碍的盛行病学研究、深度学习在医学中的应用等。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
前进之路
金牌会员
这个人很懒什么都没写!
楼主热帖
UWP/WinUI3 Win2D PixelShaderEffec ...
低代码平台 - 危险的赌注
Docker 基础 - 1
后台性能测试规范
小小项目-博客系统 - 服务器版本 - jav ...
Python3程序捕获Ctrl+C终止信号 ...
端午假期整理了仿天猫H5 APP项目vue.js ...
Redis常见使用场景
实用五步法教会你指标体系的设计与加工 ...
Fastjson反序列化
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
SQL-Server
快速回复
返回顶部
返回列表