人工智能-使用指南：开源项目 Whisper-Node

花瓣小跑 发表于 2024-10-2 13:46:19

使用指南：开源项目 Whisper-Node

使用指南：开源项目 Whisper-Node

whisper-nodeNodeJS bindings for OpenAI's Whisper. (C++ CPU version by ggerganov)项目地址:https://gitcode.com/gh_mirrors/wh/whisper-node
1. 项目介绍

Whisper-Node 是一个用 TypeScript 编写的 Node.js 绑定库，它封装了 OpenAI 的 Whisper 模型。Whisper 是一个强大的音频转文本工具，专为多语言的语音辨认而计划，提供了高精度的时间戳。这个库允许开发者在他们的 Node.js 应用中利用 Whisper 模型进行音频转笔墨，并支持多种输出格式如 JSON、TXT、SRT 和 VTT。
2. 项目快速启动

安装依赖

起首，确保你的情况中已安装 Node.js 和 npm，然后通过以下命令添加 whisper-node 到你的项目中：
npm install whisper-node
下载 Whisper 模型

你可以选择下载预训练模型或指定自定义模型路径。默认情况下，不指定模型路径时将使用内置的基础英文模型 (base en)。若要下载模型，运行：
npx whisper-node download
运行示例

以下是一个简单的代码片段，展示了如何使用 whisper-node 转灌音频文件：
import { whisper } from 'whisper-node';

const filePath = './example/sample.wav';
async function transcribeAudio() {
try {
   const transcript = await whisper(filePath);
   console.log(JSON.stringify(transcript));
} catch (error) {
   console.error('Error during transcription:', error);
}
}

transcribeAudio();
运行此脚本，它会输出 JSON 格式的转录结果，包括开始时间、结束时间和辨认出的笔墨。
3. 应用案例和最佳实践

多语言辨认

可以通过设置 language 参数来主动检测或指定音频的语言：
const options = { language: 'auto' }; // 自动检测
const options = { language: 'fr' }; // 指定法语
输出文件

除了获取 JSON 结果外，还可以天生 TXT、SRT 或 VTT 文件：
const options = {
gen_file_txt: true,
gen_file_subtitle: true,
gen_file_vtt: true,
};
音频流处理

对于及时音频流，可以利用现有实现将音频数据流送入 Whisper 进行处理。
4. 典型生态项目

Whisper-Node 可以集成到各种应用场景中，比如：

[*]在线会议记载：将会议灌音转化为笔墨记载，便于后期整理。
[*]客服系统：主动转录客户对话，便于分析并提高服务质量。
[*]教育平台：资助听障学生或外语学习者同步阅读视频课程字幕。
[*]媒体编辑工具：为视频添加精准字幕，便于搜刮和编辑。
为了更好的体验和扩展性，可以与其他 Node.js 库联合，比方使用 ffmpeg 处理音视频流，或者搭配数据库存储转录结果。
现在你已经掌握了 Whisper-Node 的根本用法，可以实验将它整合到你的项目中，发挥其在语音辨认方面的潜力。如有更多疑问或需求，查阅项目 README 获取更多信息。祝你编码舒畅！
whisper-nodeNodeJS bindings for OpenAI's Whisper. (C++ CPU version by ggerganov)项目地址:https://gitcode.com/gh_mirrors/wh/whisper-node

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

使用指南：开源项目 Whisper-Node