IT评测·应用市场-qidao123.com技术社区

标题: AI生成字幕模子whisper先容与利用 [打印本页]

作者: 吴旭华    时间: 2025-1-21 13:35
标题: AI生成字幕模子whisper先容与利用

前言

随着人工智能技术的飞速发展,AI生成字幕模子已成为视频内容创作和传播范畴的告急工具。其中,OpenAI推出的Whisper模子以其卓越的性能和广泛的应用场景,受到了广大用户和研究者的关注。本文将详细先容Whisper模子的根本原理、特点、应用场景以及利用方法,旨在帮助读者更好地了解和运用这一先进技术。
一、whisper先容

Whisper是端到端的语音体系,相比于之前的端到端语音识别,其特点主要是:
Whisper模子的性能因语言而异。下表展示了大型-v3和大型-v2模子在不同语言上的性能分解,利用的是在Common Voice 15和Fleurs数据集上评估的WER(单词错误率)或CER(字符错误率,以斜体显示)。

模子采用了经典的基于Transformer的Encoder-Decoder的布局。模子输入的特征是80维Fbank特征,输出的label是文本ID,在文本ID之前是语种ID、使命范例、时间戳三个特殊标志。如下图所示。

二、预训练模子下载与环境配置

本文作者利用CT-Transformer标点模子 对中文开源数据(AISHELL1 AISHELL2 WENETSPEECH HKUST)加标点,基于Belle-whisper-large-v3-zh进行了Lora微调,得到标点能力提升的Belle-whisper-large-v3-zh-punct,在复杂场景下(wenetspeech_meeting)上有进一步提升。模子已经开源到Huggingface,接待下载:

点进想要下载的模子界面点击

可以将下面的文件全部下载并移动到一个文件夹下


环境配置:
创建假造环境并安装pytorch:
  1. conda create -n whisper python=3.9
  2. pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
复制代码
下载whisper项目:
cd到下载好的项目路径中
执行:
  1. pip install -r requirement.txt
复制代码
三、推理

运行下面代码:
model的路径就是刚才下载好的文件夹,transcriber是你准备识别的音频文件
  1. from transformers import pipeline
  2. transcriber = pipeline(
  3.   "automatic-speech-recognition",
  4.   model=r"F:\whisper-main\cccc/",return_timestamps=True
  5. )
  6. transcriber.model.config.forced_decoder_ids = (
  7.   transcriber.tokenizer.get_decoder_prompt_ids(
  8.     language="zh",
  9.     task="transcribe"
  10.   )
  11. )
  12. transcription = transcriber("D:\ApowerREC/1~1.mp3")
  13. print(transcription)
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4