语音识别之whisper本地部署（实时语音之开篇）

登录 · 发表于 2025-4-29 07:47:06

本文已首发于秋码纪录
微信公众号：你我杂志刊

如果你也想搭建一个与秋码纪录一样的网站，可以浏览我的这篇国内 gitee.com Pages 下线了，致使众多站长纷纷改用 github、gitlab Pages 托管平台
秋码纪录网站使用的主题是开源的，目前只在github.com开源。
hugo-theme-kiwi开源地点：https://github.com/zhenqicai/hugo-theme-kiwi
Whisper是由OpenAI开发的开源语音识别模型，以其多语言支持、高准确率与鲁棒性著称。它通过68万小时的多语言、多任务数据训练，覆盖100+语言，支持语音转录、翻译和语言检测，成为目前最通用的语音识别工具之一。
其焦点优势在于：

端到端训练：直接处理处罚原始音频输入，无需复杂预处理处罚，输出包含标点符号的完整文本。
噪声鲁棒性：在嘈杂环境、方言口音场景下仍能保持高精度。
多任务能力：支持语音翻译（如中文转英文）、时间戳标注等复杂任务。

本地安装

我始终使用python3自带的venv来搭建python虚拟环境，固然咯，你也是可以使用anaconda或miniconda来构建python虚拟环境。

python -m venv whisper-env
cd whisper-env/Scripts
activate

复制代码

随后，我们安装openai-whisper这个依赖库。

pip install -U openai-whisper

复制代码

或者直接从github.com堆栈获取最新的。

# 或从 GitHub 安装最新版本
pip install git+https://github.com/openai/whisper.git

复制代码

我们可以看到，所安装的依赖库中包含了tiktoken，故而，就不必要在安装了。

虽然，whisper是可以通过CPU来推理的，但是在电脑设备具有GPU的环境，照旧选择torch的CUDA版本。

pip uninstall torch
pip install torch --index-url https://download.pytorch.org/whl/cu124

复制代码

之后，新建一个demo.py文件，写入以下脚本。

import whisper
model = whisper.load_model("turbo")
result = model.transcribe("audio.wav")
print(result["text"])

复制代码

首次运行，会去下载模型，而我使用的是turbo，以是自动下载的便是large-v3-turbo。

如果自动下载失败了，那么就手动下载吧。
模型默认加载路径：C:\Users\你电脑的用户名\.cache\whisper
https://www.modelscope.cn/models/iic/Whisper-large-v3-turbo/files

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

继续阅读请点击广告

语音识别之whisper本地部署（实时语音之开篇）

本帖子中包含更多资源

浏览过的版块

熊熊出没