SenseVoice多语言语音明确模子之最新摆设落地履历

[复制链接]
发表于 2026-2-7 16:23:59 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
SenseVoice是阿里云通义实验室开辟的一款多语言音频根本模子,专注于高精度多语言语音辨认、情绪辨识和音频变乱检测。
SenseVoice支持凌驾50种语言的辨认,而且在中文和粤语上的辨认结果优于Whisper模子,提升了50%以上。
SenseVoice具备强盛的情绪辨认本领,可以大概检测音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互变乱。
SenseVoice模子在推理速率上表现出色,其小型模子SenseVoice-Small接纳非自回归端到端框架,10秒音频的推理时间仅为70毫秒,比Whisper-large快15倍。
github项目地点:https://github.com/FunAudioLLM/SenseVoice。
一、情况安装

1、python情况
发起安装python版本在3.10以上。
2、库安装
  1. pip install torch==2.0.0+cu118 torchvision==0.15.1+cu118 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118
  2. pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
  3. pip install funasr-onnx gradio -i https://pypi.tuna.tsinghua.edu.cn/simple
复制代码
为了方便音频处置惩罚,还必要安装ffmpeg,下令如下:
apt install ffmpeg
3、SenseVoiceSmall模子下载
  1. git lfs install
  2. git clone https://www.modelscope.cn/iic/SenseVoiceSmall.git
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表