如安在树莓派5上离线摆设Whisper（文本转语音模子）

万有斥力 · 2024-10-2 04:28:49

前言

本文主要针对2023年发布的树莓派新产物树莓派5的开发使用，为了实现离线的语音辨认转文本功能，本文使用了openai的whisper模子。
一、环境需要

树莓派5（最好8GB内存）

Rspberry PI系统

Conda环境（可自行搜索，也可以查看我专栏下的其他文章）

二、Whisper是什么

Whisper 是 OpenAI 开发的一个强大的开源语音辨认模子。它可以将语音转换为文本，支持多种语言和方言，具有高准确率和鲁棒性。Whisper 经过大规模、多样化数据的练习，可以或许在各种噪音环境中保持良好的辨认效果。此外，它提供了多种模子尺寸，得当差别硬件资源的需求，并且易于集成和使用。Whisper 适用于会议记载、视频字幕、语音助手等多种应用场景，并支持离线运行，确保数据隐私。
三、使用步骤

1）创建并激活虚拟环境 whisper_env(这里使用单独的一个虚拟环境，防止与其他环境包冲突)

conda create -n whisper_env python=3.9
conda activate whisper_env

复制代码

2)安装ffmpeg，pytorch以及一些依靠项

FFmpeg介绍

FFmpeg 是一个开源的多媒体框架，用于处理音频、视频以及其他多媒体文件。它包罗了一系列强大的工具和库，可以用于录制、转换和流式传输多媒体内容。Whisper 和 FFmpeg 是互补的工具，FFmpeg 可以资助用户准备和处理音频数据，以便 Whisper 更加高效地进行语音辨认。通过结合这两者，用户可以实现从音频录制到文本转录的完备流程。
（1）ffmpeg安装

这里使用conda下令下载

conda install -c conda-forge ffmpeg

复制代码

如果下载迟钝则可以实验使用换源下载

conda install -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ ffmpeg

复制代码

（2）必要依靠项安装

这里需要提前安装依靠项，本人测试中发现如果直接安装whisper，在检索中安装各依靠项容易卡死，多次实验后发现提前安装依靠项可以解决这个问题。

sudo apt update
sudo apt install -y build-essential libopenblas-dev libblas-dev libatlas-base-dev \
libprotobuf-dev protobuf-compiler libhdf5-serial-dev hdf5-tools \
libjpeg-dev zlib1g-dev libpng-dev libtiff-dev libavcodec-dev libavformat-dev \
libswscale-dev libv4l-dev libxvidcore-dev libx264-dev libgtk-3-dev \
libcanberra-gtk* libcanberra-gtk3* ffmpeg

复制代码

如果下载迟钝可以思量换源，这一步请自行换源。
（3）pytorch安装

这里安装pytorch，pytorch较大，以是建议通过换源安装，以下给出清华源安装的下令：

pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

复制代码

检查后测试是否安装乐成

python -c "import torch; import torchvision; import torchaudio;
print('PyTorch version:', torch.__version__);
print('TorchVision version:', torchvision.__version__);
print('Torchaudio version:', torchaudio.__version__);
print('CUDA available:', torch.cuda.is_available())"

复制代码

正常会显示版本

（4）安装whisper

这里使用换源下载。

pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

复制代码

（5）检测whisper的功能

完成安装后，通过文件传输工具将恣意录取的一段mp3录音文件传输到树莓派5中，放到某个文件夹中，并且进入该文件夹，如图：

如何使用whisper下令进行转录（此中，–model选项指定了模子的大小（这里使用tiny），–language选项指定了语言（这里使用中文））
运行结果如下：

（6）乐成实现！

赞！到这儿说明你的whisper模子已经乐成摆设啦！接下来你可以使用其他代码去调用它，并且根据自己的需求使用差别大小的模子！（模子越大，性能要求越高，同样性能也会更好）
总结

本文介绍了如安在树莓派5上乐成摆设 OpenAI 的 Whisper 模子，以实现离线语音辨认功能。希望本文可以或许资助你顺遂完成环境搭建和模子使用，如有任何问题，请随时接洽我，也可在评论区评论。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

如安在树莓派5上离线摆设Whisper（文本转语音模子）

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云