OpenAI的人工智能语音识别模子Whisper详解及利用

火影 · 2024-7-12 07:06:47

1 whisper先容

        拥有ChatGPT语言模子的OpenAI公司，开源了 Whisper 主动语音识别系统，OpenAI 强调 Whisper 的语音识别能力已达到人类水准。
        Whisper是一个通用的语音识别模子，它利用了大量的多语言和多任务的监督数据来训练，能够在英语语音识别上达到接近人类水平的鲁棒性和正确性。Whisper还可以举行多语言语音识别、语音翻译和语言识别等任务。Whisper的架构是一个简单的端到端方法，采用了编码器-解码器的Transformer模子，将输入的音频转换为对应的文本序列，并根据特殊的标记来指定不同的任务。
        Whisper 是一个主动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 举行了训练。OpenAI 认为利用这样一个庞大而多样的数据集，可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别，Whisper 还能实现多种语言的转录，以及将这些语言翻译成英语。OpenAI 开放模子和推理代码，希望开发者可以将 Whisper 作为创建有用的应用步伐和进一步研究语音处理技术的基础。
        代码地点：代码地点
2 whisper模子

2.1 利用数据集

Whisper模子是在68万小时标记音频数据的数据集上训练的，此中包括11.7万小时96种不同语言的演媾和12.5万小时从”任意语言“到英语的翻译数据。该模子利用了互联网生成的文本，这些文本是由其他主动语音识别系统(ASR)生成而不是人类创建的。该数据集还包括一个在VoxLingua107上训练的语言检测器，这是从YouTube视频中提取的短语音片段的聚集，并根据视频标题和形貌的语言举行标记，并带有额外的步调往复除误报。
2.2 模子

重要采用的布局是编码器-解码器布局。
重采样:16000 Hz
特性提取方法:利用25毫秒的窗口和10毫秒的步幅计算80通道的log Mel谱图表现。
特性归一化:输入在全局内缩放到-1到1之间，而且在预训练数据集上具有近似为零的平均值。
编码器/解码器:该模子的编码器和解码器采用Transformers。

编码器的过程

编码器首先利用一个包含两个卷积层(滤波器宽度为3)的词干处理输入表现，利用GELU激活函数。
第二个卷积层的步幅为 2。
然后将正弦位置嵌入添加到词干的输出中，然后应用编码器 Transformer 块。
Transformers利用预激活残差块，编码器的输出利用归一化层举行归一化。

模子布局

解码的过程

在解码器中，利用了学习位置嵌入和绑定输入输出标记表现。
编码器和解码器具有雷同的宽度和数目的Transformers块。
2.3 训练

输入的音频被分割成 30 秒的小段、转换为 log-Mel 频谱图，然后转达到编码器。解码器颠末训练以猜测相应的文字说明，并与特殊的标记举行混合，这些标记指导单一模子实验诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等任务。
相比现在市面上的其他现有方法，它们通常利用较小的、更细密配对的「音频 - 文本」训练数据集，或利用广泛但无监督的音频预训练集。因为 Whisper 是在一个大型和多样化的数据集上训练的，而没有针对任何特定的数据集举行微调，虽然它没有击败专攻 LibriSpeech 性能的模子（著名的语音识别基准测试），然而在很多不同的数据集上丈量 Whisper 的 Zero-shot（不需要对新数据集重新训练，就能得到很好的效果）性能时，研究职员发现它比那些模子要稳健得多，犯的错误要少 50%。
为了改进模子的缩放属性，它在不同的输入巨细上举行了训练。

通过 FP16、动态损失缩放，并采用数据并行来训练模子。
利用AdamW和梯度范数裁剪，在对前 2048 次更新举行预热后，线性学习率衰减为零。
利用 256 个批巨细，并训练模子举行 220次更新，这相当于对数据集举行两到三次前向转达。

由于模子只训练了几个轮次，过拟合不是一个紧张问题，而且没有利用数据增强或正则化技术。这反而可以依赖大型数据集内的多样性来促进泛化和鲁棒性。
Whisper 在之前利用过的数据集上展示了良好的正确性，而且已经针对其他最先进的模子举行了测试。
2.4 优点

Whisper 已经在真实数据以及其他模子上利用的数据以及弱监督下举行了训练。
模子的正确性针对人类听众举行了测试并评估其性能。
它能够检测清音地区并应用 NLP 技术在转录本中正确举行标点符号的输入。
模子是可扩展的，答应从音频信号中提取转录本，而无需将视频分成块或批次，从而降低了漏音的风险。
模子在各种数据集上取得了更高的正确率。

Whisper在不同数据集上的对比效果，相比wav2vec取得了现在最低的词错误率

模子没有在timit数据集上举行测试，所以为了查抄它的单词错误率，我们将在这里演示怎样利用Whisper来自行验证timit数据集，也就是说利用Whisper来搭建我们本身的语音识别应用。

2.5 whisper的多种尺寸模子

whisper有五种模子尺寸，提供速率和正确性的均衡，此中English-only模子提供了四种选择。下面是可用模子的名称、大致内存需求和相对速率。

模子的官方下载地点：

"tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
"tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
"base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
"base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt",
"small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt",
"small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
"medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt",
"medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
"large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt",
"large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
"large": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",

复制代码

3 whisper环境构建及运行

3.1 conda环境安装

参见：annoconda安装
3.2 whisper环境构建

conda create -n whisper python==3.9
conda activate whisper
pip install openai-whisper
conda install ffmpeg
pip install setuptools-rust

复制代码

3.3 whisper命令利用用

whisper /opt/000001.wav --model base

复制代码

输出内容如下：

[00:00.000 --> 00:02.560] 人工智能识别系统。

复制代码

实验命令时，会主动举行模子下载，主动下载模子存储的路径如下：

~/.cache/whisper

复制代码

也可以通过命令行订定本地模子运行：

Whisper /opt/000001.wav --model base --model_dir /opt/models --language Chinese

复制代码

支持的文件格式：m4a、mp3、mp4、mpeg、mpga、wav、webm
3.4 whisper在代码中利用

import whisper
model = whisper.load_model("base")
result = model.transcribe("/opt/000001.wav")
print(result["text"])

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

OpenAI的人工智能语音识别模子Whisper详解及利用

0 个回复

快速回复

楼主热帖

标签云