语音识别之whisper本地部署(实时语音之开篇)

[复制链接]
发表于 2025-4-29 07:47:06 | 显示全部楼层 |阅读模式
本文已首发于 秋码纪录
微信公众号:你我杂志刊

如果你也想搭建一个与秋码纪录一样的网站,可以浏览我的这篇 国内 gitee.com Pages 下线了,致使众多站长纷纷改用 github、gitlab Pages 托管平台
秋码纪录网站使用的主题是开源的,目前只在github.com开源。
hugo-theme-kiwi开源地点:https://github.com/zhenqicai/hugo-theme-kiwi

Whisper是由OpenAI开发的开源语音识别模型,以其多语言支持、高准确率与鲁棒性著称。它通过68万小时的多语言、多任务数据训练,覆盖100+语言,支持语音转录、翻译和语言检测,成为目前最通用的语音识别工具之一。
其焦点优势在于:

  • 端到端训练:直接处理处罚原始音频输入,无需复杂预处理处罚,输出包含标点符号的完整文本。
  • 噪声鲁棒性:在嘈杂环境、方言口音场景下仍能保持高精度。
  • 多任务能力:支持语音翻译(如中文转英文)、时间戳标注等复杂任务。
本地安装

我始终使用python3自带的venv来搭建python虚拟环境,固然咯,你也是可以使用anaconda或miniconda来构建python虚拟环境。
  1. python -m venv whisper-env
  2. cd whisper-env/Scripts
  3. activate
复制代码

随后,我们安装openai-whisper这个依赖库。
  1. pip install -U openai-whisper
复制代码
或者直接从github.com堆栈获取最新的。
  1. # 或从 GitHub 安装最新版本
  2. pip install git+https://github.com/openai/whisper.git
复制代码

我们可以看到,所安装的依赖库中包含了tiktoken,故而,就不必要在安装了。

虽然,whisper是可以通过CPU来推理的,但是在电脑设备具有GPU的环境,照旧选择torch的CUDA版本
  1. pip uninstall torch
  2. pip install torch --index-url https://download.pytorch.org/whl/cu124
复制代码

之后,新建一个demo.py文件,写入以下脚本。
  1. import whisper
  2. model = whisper.load_model("turbo")
  3. result = model.transcribe("audio.wav")
  4. print(result["text"])
复制代码

首次运行,会去下载模型,而我使用的是turbo,以是自动下载的便是large-v3-turbo。

如果自动下载失败了,那么就手动下载吧。
模型默认加载路径:C:\Users\你电脑的用户名\.cache\whisper
https://www.modelscope.cn/models/iic/Whisper-large-v3-turbo/files


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

×
登录参与点评抽奖,加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表