qidao123.com技术社区-IT企服评测·应用市场

标题: 在 windows 上部署使用 Whisper 教程 [打印本页]

作者: 缠丝猫 时间: 2024-10-5 12:10
标题: 在 windows 上部署使用 Whisper 教程
在 Windows 上部署 OpenAI Whisper：详细教程

OpenAI Whisper 是一个功能强大的多语言语音识别模子，能够处置惩罚多种音频格式并天生高质量的字幕文件。本文将详细先容如安在 Windows 系统上部署 Whisper，使用 GPU 加速音频转录，并探讨 Whisper 的根本使用方法和支持的音频格式。
使用体验：直接用cpu（i7-12700）跑small模子，6分钟的音频也大概只要3分钟，除了极个别语速很快的时间的语气词没识别出来，其他地方完全精确。用gpu（3060 laptop）跑small模子，8分钟的音频一分钟以内跑完。因此，对于时长较短的音频，small模子完全够用了
目录

什么是 Whisper？
环境预备
创建虚拟环境并安装 Whisper
使用 Whisper 举行音频转录
使用 GPU 加速 Whisper
Whisper 支持的音频格式
常见题目及解决方案

1. 什么是 Whisper？

Whisper 是 OpenAI 提供的开源语音识别模子，能够将音频文件转录为文本或字幕文件，支持多种语言和多格式输出。其主要功能包括：

自动检测和转录多语言音频。
支持天生 .txt, .srt, .vtt 等格式的字幕文件。
能够处置惩罚嘈杂环境下的音频。
通过 GPU 加速，提高转录服从。

2. Whisper 支持的音频格式

Whisper 支持多种常见的音频格式，能够处置惩罚各种范例的音频文件，包括但不限于：

MP3 (.mp3)
WAV (.wav)
M4A (.m4a)
FLAC (.flac)
OGG (.ogg)

3. 环境预备

在开始部署 Whisper 之前，请确保你具备以下环境：

操作系统：Windows 10 或更高版本
Python：Python 3.7 及以上版本
Conda：用于创建和管理虚拟环境（保举使用 Miniconda）
NVIDIA GPU（可选）：用于加速音频转录任务

4. 创建虚拟环境并安装 Whisper

创建虚拟环境：
打开终端（Anaconda Prompt ， Git Bash等，我个人用的是Git Bash），运行以下命令创建并激活虚拟环境：
1. conda create --name whisper_env python=3.9
2. conda activate whisper_env
复制代码
安装 Whisper：
在虚拟环境中运行以下命令安装 Whisper：
1. pip install git+https://github.com/openai/whisper.git
复制代码
安装 FFmpeg：
Whisper 依赖 FFmpeg 处置惩罚音频文件，使用以下命令安装：
（一定要记得安装，不然会报错找不到音频文件）
1. conda install -c conda-forge ffmpeg
复制代码
（可选）安装支持 GPU 的 PyTorch：
如果你有 NVIDIA GPU 并且想使用 GPU 加速，安装支持 CUDA 的 PyTorch。比方，针对 CUDA 11.8：
1. pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
复制代码

5. 使用 Whisper 举行音频转录

Whisper 支持多种音频转录模式，可以天生多种格式的字幕文件。以下是一个简单的音频转录命令：

whisper "path/to/your/audiofile.mp3" --model small --output_format srt --output_dir "path/to/output"

复制代码

–model small：选择模子大小，模子越大，精度越高，但速率较慢（可选模子：tiny, base, small, medium, large）。
–output_format srt：指定输出格式为 .srt 字幕文件。
–output_dir：指定天生文件的生存路径。

如果需要自动检测语言，你可以直接运行命令。否则，也可以手动指定音频的语言：

whisper "path/to/your/audiofile.mp3" --model small --language English

复制代码

Whisper 具备自动语言检测功能，可以识别音频中的语言并选择适合的模子举行转录。默认情况下，Whisper 使用前 30 秒的音频举行语言检测。

whisper "path/to/audiofile.mp3" --model small

复制代码

6. 使用 GPU 加速 Whisper

如果你有 NVIDIA GPU，并且已安装了 CUDA 和支持 GPU 的 PyTorch，Whisper 会自动使用 GPU。你也可以通过 --device 参数明确指定使用 GPU：

whisper "path/to/your/audiofile.mp3" --model small --output_format srt --output_dir "path/to/output"
--device cuda

复制代码

使用 GPU 加速时，音频处置惩罚速率会显著提拔，特别是在处置惩罚较大的模子如 medium 或 large 时。

7. 常见题目及解决方案

1. NumPy 版本兼容性题目

如果你遇到类似 RuntimeError: Numpy is not available 或 NumPy 相关的告诫，可以通过降级 NumPy 来解决：
如果用的是Git Bash，则加引号：

pip install "numpy<2.0"

复制代码

如果用的是 Anaconda Prompt，则不消加引号：

pip install numpy<2.0

复制代码

2. FileNotFoundError

如果系统提示找不到文件，确保音频文件路径精确。对于 Git Bash 用户，留意文件路径格式应使用正斜杠 /，比方：

whisper "/f/LINSP_podcast/episode.mp3" --model small

复制代码

如果路径精确还是找不到文件，确保安装了 FFmpeg
3. GPU 不可用

如果你有 NVIDIA GPU，但 PyTorch 无法检测到 GPU，请检查 CUDA 是否安装精确，并使用以下命令验证 GPU 是否可用：

python -c "import torch; print(torch.cuda.is_available())"

复制代码

4. FFmpeg 题目

如果 FFmpeg 没有安装或无法找到，确保你已经使用 Conda 安装了 FFmpeg：

conda install -c conda-forge ffmpeg

复制代码

总结

通过这篇教程，你已经了解了如安在 Windows 系统上部署 Whisper，创建虚拟环境、安装须要依赖，并使用 GPU 加速音频转录。Whisper 提供了强大的语音识别能力，支持多种音频格式，并且能够天生不同的字幕文件，适合各种语音转录和字幕天生需求。
盼望这篇博客对你有所资助，如果你有任何题目或建议，欢迎在评论区留言！

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/)