如安在树莓派5上离线摆设Whisper(文本转语音模子)

打印 上一主题 下一主题

主题 1772|帖子 1772|积分 5316


前言

本文主要针对2023年发布的树莓派新产物树莓派5的开发使用,为了实现离线的语音辨认转文本功能,本文使用了openai的whisper模子。
一、环境需要

树莓派5(最好8GB内存)

Rspberry PI系统

Conda环境(可自行搜索,也可以查看我专栏下的其他文章)

二、Whisper是什么

Whisper 是 OpenAI 开发的一个强大的开源语音辨认模子。它可以将语音转换为文本,支持多种语言和方言,具有高准确率和鲁棒性。Whisper 经过大规模、多样化数据的练习,可以或许在各种噪音环境中保持良好的辨认效果。此外,它提供了多种模子尺寸,得当差别硬件资源的需求,并且易于集成和使用。Whisper 适用于会议记载、视频字幕、语音助手等多种应用场景,并支持离线运行,确保数据隐私。
三、使用步骤

1) 创建并激活虚拟环境 whisper_env(这里使用单独的一个虚拟环境,防止与其他环境包冲突)

  1. conda create -n whisper_env python=3.9
  2. conda activate whisper_env
复制代码
2)安装ffmpeg,pytorch以及一些依靠项

FFmpeg介绍

FFmpeg 是一个开源的多媒体框架,用于处理音频、视频以及其他多媒体文件。它包罗了一系列强大的工具和库,可以用于录制、转换和流式传输多媒体内容。Whisper 和 FFmpeg 是互补的工具,FFmpeg 可以资助用户准备和处理音频数据,以便 Whisper 更加高效地进行语音辨认。通过结合这两者,用户可以实现从音频录制到文本转录的完备流程。
(1)ffmpeg安装

这里使用conda下令下载
  1. conda install -c conda-forge ffmpeg
复制代码
如果下载迟钝则可以实验使用换源下载
  1. conda install -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ ffmpeg
复制代码
(2)必要依靠项安装

这里需要提前安装依靠项,本人测试中发现如果直接安装whisper,在检索中安装各依靠项容易卡死,多次实验后发现提前安装依靠项可以解决这个问题。
  1. sudo apt update
  2. sudo apt install -y build-essential libopenblas-dev libblas-dev libatlas-base-dev \
  3. libprotobuf-dev protobuf-compiler libhdf5-serial-dev hdf5-tools \
  4. libjpeg-dev zlib1g-dev libpng-dev libtiff-dev libavcodec-dev libavformat-dev \
  5. libswscale-dev libv4l-dev libxvidcore-dev libx264-dev libgtk-3-dev \
  6. libcanberra-gtk* libcanberra-gtk3* ffmpeg
复制代码
如果下载迟钝可以思量换源,这一步请自行换源。
(3)pytorch安装

这里安装pytorch,pytorch较大,以是建议通过换源安装,以下给出清华源安装的下令:
  1. pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple
复制代码
检查后测试是否安装乐成
  1. python -c "import torch; import torchvision; import torchaudio;
  2. print('PyTorch version:', torch.__version__);
  3. print('TorchVision version:', torchvision.__version__);
  4. print('Torchaudio version:', torchaudio.__version__);
  5. print('CUDA available:', torch.cuda.is_available())"
复制代码
正常会显示版本

(4)安装whisper

这里使用换源下载。
  1. pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple
复制代码
(5)检测whisper的功能

完成安装后,通过文件传输工具将恣意录取的一段mp3录音文件传输到树莓派5中,放到某个文件夹中,并且进入该文件夹,如图:

如何使用whisper下令进行转录(此中,–model选项指定了模子的大小(这里使用tiny),–language选项指定了语言(这里使用中文))
运行结果如下:

(6)乐成实现!

赞!到这儿说明你的whisper模子已经乐成摆设啦!接下来你可以使用其他代码去调用它,并且根据自己的需求使用差别大小的模子!(模子越大,性能要求越高,同样性能也会更好)
总结

本文介绍了如安在树莓派5上乐成摆设 OpenAI 的 Whisper 模子,以实现离线语音辨认功能。希望本文可以或许资助你顺遂完成环境搭建和模子使用,如有任何问题,请随时接洽我,也可在评论区评论。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

万有斥力

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表