前言
本文主要针对2023年发布的树莓派新产物树莓派5的开发使用,为了实现离线的语音辨认转文本功能,本文使用了openai的whisper模子。
一、环境需要
树莓派5(最好8GB内存)
Rspberry PI系统
Conda环境(可自行搜索,也可以查看我专栏下的其他文章)
二、Whisper是什么
Whisper 是 OpenAI 开发的一个强大的开源语音辨认模子。它可以将语音转换为文本,支持多种语言和方言,具有高准确率和鲁棒性。Whisper 经过大规模、多样化数据的练习,可以或许在各种噪音环境中保持良好的辨认效果。此外,它提供了多种模子尺寸,得当差别硬件资源的需求,并且易于集成和使用。Whisper 适用于会议记载、视频字幕、语音助手等多种应用场景,并支持离线运行,确保数据隐私。
三、使用步骤
1) 创建并激活虚拟环境 whisper_env(这里使用单独的一个虚拟环境,防止与其他环境包冲突)
- conda create -n whisper_env python=3.9
- conda activate whisper_env
复制代码 2)安装ffmpeg,pytorch以及一些依靠项
FFmpeg介绍
FFmpeg 是一个开源的多媒体框架,用于处理音频、视频以及其他多媒体文件。它包罗了一系列强大的工具和库,可以用于录制、转换和流式传输多媒体内容。Whisper 和 FFmpeg 是互补的工具,FFmpeg 可以资助用户准备和处理音频数据,以便 Whisper 更加高效地进行语音辨认。通过结合这两者,用户可以实现从音频录制到文本转录的完备流程。
(1)ffmpeg安装
这里使用conda下令下载
- conda install -c conda-forge ffmpeg
复制代码 如果下载迟钝则可以实验使用换源下载
- conda install -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ ffmpeg
复制代码 (2)必要依靠项安装
这里需要提前安装依靠项,本人测试中发现如果直接安装whisper,在检索中安装各依靠项容易卡死,多次实验后发现提前安装依靠项可以解决这个问题。
- sudo apt update
- sudo apt install -y build-essential libopenblas-dev libblas-dev libatlas-base-dev \
- libprotobuf-dev protobuf-compiler libhdf5-serial-dev hdf5-tools \
- libjpeg-dev zlib1g-dev libpng-dev libtiff-dev libavcodec-dev libavformat-dev \
- libswscale-dev libv4l-dev libxvidcore-dev libx264-dev libgtk-3-dev \
- libcanberra-gtk* libcanberra-gtk3* ffmpeg
复制代码 如果下载迟钝可以思量换源,这一步请自行换源。
(3)pytorch安装
这里安装pytorch,pytorch较大,以是建议通过换源安装,以下给出清华源安装的下令:
- pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple
复制代码 检查后测试是否安装乐成
- python -c "import torch; import torchvision; import torchaudio;
- print('PyTorch version:', torch.__version__);
- print('TorchVision version:', torchvision.__version__);
- print('Torchaudio version:', torchaudio.__version__);
- print('CUDA available:', torch.cuda.is_available())"
-
复制代码 正常会显示版本
(4)安装whisper
这里使用换源下载。
- pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple
复制代码 (5)检测whisper的功能
完成安装后,通过文件传输工具将恣意录取的一段mp3录音文件传输到树莓派5中,放到某个文件夹中,并且进入该文件夹,如图:
如何使用whisper下令进行转录(此中,–model选项指定了模子的大小(这里使用tiny),–language选项指定了语言(这里使用中文))
运行结果如下:
(6)乐成实现!
赞!到这儿说明你的whisper模子已经乐成摆设啦!接下来你可以使用其他代码去调用它,并且根据自己的需求使用差别大小的模子!(模子越大,性能要求越高,同样性能也会更好)
总结
本文介绍了如安在树莓派5上乐成摆设 OpenAI 的 Whisper 模子,以实现离线语音辨认功能。希望本文可以或许资助你顺遂完成环境搭建和模子使用,如有任何问题,请随时接洽我,也可在评论区评论。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |