在 windows 上部署使用 Whisper 教程

打印 上一主题 下一主题

主题 1742|帖子 1742|积分 5226

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
在 Windows 上部署 OpenAI Whisper:详细教程

OpenAI Whisper 是一个功能强大的多语言语音识别模子,能够处置惩罚多种音频格式并天生高质量的字幕文件。本文将详细先容如安在 Windows 系统上部署 Whisper,使用 GPU 加速音频转录,并探讨 Whisper 的根本使用方法和支持的音频格式。
使用体验:直接用cpu(i7-12700)跑small模子,6分钟的音频也大概只要3分钟,除了极个别语速很快的时间的语气词没识别出来,其他地方完全精确。用gpu(3060 laptop)跑small模子,8分钟的音频一分钟以内跑完。因此,对于时长较短的音频,small模子完全够用了
目录


  • 什么是 Whisper?
  • 环境预备
  • 创建虚拟环境并安装 Whisper
  • 使用 Whisper 举行音频转录
  • 使用 GPU 加速 Whisper
  • Whisper 支持的音频格式
  • 常见题目及解决方案

1. 什么是 Whisper?

Whisper 是 OpenAI 提供的开源语音识别模子,能够将音频文件转录为文本或字幕文件,支持多种语言和多格式输出。其主要功能包括:


  • 自动检测和转录多语言音频。
  • 支持天生 .txt, .srt, .vtt 等格式的字幕文件。
  • 能够处置惩罚嘈杂环境下的音频。
  • 通过 GPU 加速,提高转录服从。

2. Whisper 支持的音频格式

Whisper 支持多种常见的音频格式,能够处置惩罚各种范例的音频文件,包括但不限于:


  • MP3 (.mp3)
  • WAV (.wav)
  • M4A (.m4a)
  • FLAC (.flac)
  • OGG (.ogg)

3. 环境预备

在开始部署 Whisper 之前,请确保你具备以下环境:


  • 操作系统:Windows 10 或更高版本
  • Python:Python 3.7 及以上版本
  • Conda:用于创建和管理虚拟环境(保举使用 Miniconda)
  • NVIDIA GPU(可选):用于加速音频转录任务

4. 创建虚拟环境并安装 Whisper


  • 创建虚拟环境
    打开 终端(Anaconda PromptGit Bash等,我个人用的是Git Bash),运行以下命令创建并激活虚拟环境:
    1. conda create --name whisper_env python=3.9
    2. conda activate whisper_env
    复制代码
  • 安装 Whisper
    在虚拟环境中运行以下命令安装 Whisper:
    1. pip install git+https://github.com/openai/whisper.git
    复制代码
  • 安装 FFmpeg
    Whisper 依赖 FFmpeg 处置惩罚音频文件,使用以下命令安装:
    (一定要记得安装,不然会报错找不到音频文件)
    1. conda install -c conda-forge ffmpeg
    复制代码
  • (可选)安装支持 GPU 的 PyTorch
    如果你有 NVIDIA GPU 并且想使用 GPU 加速,安装支持 CUDA 的 PyTorch。比方,针对 CUDA 11.8:
    1. pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
    复制代码

5. 使用 Whisper 举行音频转录

Whisper 支持多种音频转录模式,可以天生多种格式的字幕文件。以下是一个简单的音频转录命令:
  1. whisper "path/to/your/audiofile.mp3" --model small --output_format srt --output_dir "path/to/output"
复制代码


  • –model small:选择模子大小,模子越大,精度越高,但速率较慢(可选模子:tiny, base, small, medium, large)。
  • –output_format srt:指定输出格式为 .srt 字幕文件。
  • –output_dir:指定天生文件的生存路径。
如果需要自动检测语言,你可以直接运行命令。否则,也可以手动指定音频的语言:
  1. whisper "path/to/your/audiofile.mp3" --model small --language English
复制代码
Whisper 具备自动语言检测功能,可以识别音频中的语言并选择适合的模子举行转录。默认情况下,Whisper 使用前 30 秒的音频举行语言检测。
  1. whisper "path/to/audiofile.mp3" --model small
复制代码

6. 使用 GPU 加速 Whisper

如果你有 NVIDIA GPU,并且已安装了 CUDA 和支持 GPU 的 PyTorch,Whisper 会自动使用 GPU。你也可以通过 --device 参数明确指定使用 GPU:
  1. whisper "path/to/your/audiofile.mp3" --model small --output_format srt --output_dir "path/to/output"
  2. --device cuda
复制代码
使用 GPU 加速时,音频处置惩罚速率会显著提拔,特别是在处置惩罚较大的模子如 medium 或 large 时。

7. 常见题目及解决方案

1. NumPy 版本兼容性题目

如果你遇到类似 RuntimeError: Numpy is not available 或 NumPy 相关的告诫,可以通过降级 NumPy 来解决:
如果用的是Git Bash,则加引号:
  1. pip install "numpy<2.0"
复制代码
如果用的是 Anaconda Prompt,则不消加引号:
  1. pip install numpy<2.0
复制代码
2. FileNotFoundError

如果系统提示找不到文件,确保音频文件路径精确。对于 Git Bash 用户,留意文件路径格式应使用正斜杠 /,比方:
  1. whisper "/f/LINSP_podcast/episode.mp3" --model small
复制代码
如果路径精确还是找不到文件,确保安装了 FFmpeg
3. GPU 不可用

如果你有 NVIDIA GPU,但 PyTorch 无法检测到 GPU,请检查 CUDA 是否安装精确,并使用以下命令验证 GPU 是否可用:
  1. python -c "import torch; print(torch.cuda.is_available())"
复制代码
4. FFmpeg 题目

如果 FFmpeg 没有安装或无法找到,确保你已经使用 Conda 安装了 FFmpeg:
  1. conda install -c conda-forge ffmpeg
复制代码

总结

通过这篇教程,你已经了解了如安在 Windows 系统上部署 Whisper,创建虚拟环境、安装须要依赖,并使用 GPU 加速音频转录。Whisper 提供了强大的语音识别能力,支持多种音频格式,并且能够天生不同的字幕文件,适合各种语音转录和字幕天生需求。
盼望这篇博客对你有所资助,如果你有任何题目或建议,欢迎在评论区留言!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

缠丝猫

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表