【ASR技能】WhisperX安装&利用

打印 上一主题 下一主题

主题 850|帖子 850|积分 2550

介绍

WhisperX 是一个开源的自动语音识别(ASR)项目,由 m-bain 开辟。该项目基于 OpenAI 的 Whisper 模型,通过引入批量推理、逼迫音素对齐和语音活动检测等技能。提供快速自动语音识别(large-v2 为 70 倍实时),具有单词级时间戳和说话人分类。
WhisperX 的核心技能包罗:
批量推理:利用 faster-whisper 后端,实现了高效的批量推理,大幅提升了转录速度。
逼迫音素对齐:通过 wav2vec2 对齐模型,提供了精确的单词级时间戳。
说话人识别:集成了 pyannote-audio 进行说话人分割,实现了多说话人 ASR。
语音活动检测(VAD):预处理阶段利用 VAD,淘汰了幻听现象,同时不影响转录准确性。
安装

官网:https://github.com/m-bain/whisperx?tab=readme-ov-file
参考安装:https://www.bilibili.com/opus/902027713218347033
上面介绍的比较详细了,下面只形貌一下个人安装过程遇见的标题

  • conda安装国内镜像源
  1. conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  2. conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
  3. conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud//pytorch/
  4. conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
  5. conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/
  6. #设置搜索时显示通道地址
  7. conda config --set show_channel_urls yes
复制代码

  • 直接运行whisperx会有Timeout连接错误,步调第一次运行会去下载镜像,必要利用HuggingFace镜像源,添加到环境变量中去
  1. HF_ENDPOINT = "https://hf-mirror.com"
复制代码

  • 遇见报错:找不到cudnn_ops64_9.dll
    cudnn和cuda重新安装了一次,还是报错,最后还是手动添加到环境变量中去。
  1. 到安装目录中,手动搜索【cudnn_ops64_9.dll】,找到路径之后添加到环境变量中去
复制代码

  • 最好利用管理员身份运行【Anaconda Powershell Prompt】
利用

  1. whisperx 1.mp3 --model large --language zh
复制代码

精确到毫秒级的单词识别(json文件)


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

瑞星

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表