瑞星 发表于 2025-2-24 05:24:34

【ASR技能】WhisperX安装&利用

介绍

WhisperX 是一个开源的自动语音识别(ASR)项目,由 m-bain 开辟。该项目基于 OpenAI 的 Whisper 模型,通过引入批量推理、逼迫音素对齐和语音活动检测等技能。提供快速自动语音识别(large-v2 为 70 倍实时),具有单词级时间戳和说话人分类。
WhisperX 的核心技能包罗:
批量推理:利用 faster-whisper 后端,实现了高效的批量推理,大幅提升了转录速度。
逼迫音素对齐:通过 wav2vec2 对齐模型,提供了精确的单词级时间戳。
说话人识别:集成了 pyannote-audio 进行说话人分割,实现了多说话人 ASR。
语音活动检测(VAD):预处理阶段利用 VAD,淘汰了幻听现象,同时不影响转录准确性。
安装

官网:https://github.com/m-bain/whisperx?tab=readme-ov-file
参考安装:https://www.bilibili.com/opus/902027713218347033
上面介绍的比较详细了,下面只形貌一下个人安装过程遇见的标题

[*]conda安装国内镜像源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud//pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/

#设置搜索时显示通道地址
conda config --set show_channel_urls yes

[*]直接运行whisperx会有Timeout连接错误,步调第一次运行会去下载镜像,必要利用HuggingFace镜像源,添加到环境变量中去
HF_ENDPOINT = "https://hf-mirror.com"

[*]遇见报错:找不到cudnn_ops64_9.dll
cudnn和cuda重新安装了一次,还是报错,最后还是手动添加到环境变量中去。
到安装目录中,手动搜索【cudnn_ops64_9.dll】,找到路径之后添加到环境变量中去

[*]最好利用管理员身份运行【Anaconda Powershell Prompt】
利用

whisperx 1.mp3 --model large --language zh
https://i-blog.csdnimg.cn/direct/a8a178de38d84e95b2677c334decf16f.png
精确到毫秒级的单词识别(json文件)
https://i-blog.csdnimg.cn/direct/1851f54d662e4b138cbb9d0c900fbb01.png

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 【ASR技能】WhisperX安装&利用