使用Distil-Whisper distil-large-v2提升主动语音识别的服从

一给  论坛元老 | 2025-3-30 11:29:40 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1931|帖子 1931|积分 5793

使用Distil-Whisper distil-large-v2提升主动语音识别的服从

    distil-large-v2   
项目地点: https://gitcode.com/mirrors/distil-whisper/distil-large-v2   
在当今的信息时代,主动语音识别(ASR)技术已经成为各种应用场景中的关键技术,如智能助手、语音转文本、集会记载等。然而,传统的主动语音识别模子往往在服从和精确性之间难以到达平衡,尤其是在资源受限的环境中。本文将先容如何使用Distil-Whisper distil-large-v2模子来进步主动语音识别的服从,同时保持高水平的识别精确性。
引言

主动语音识别的任务是精确地将人类的语音转换为文本。这一任务对于进步生产力、辅助残疾人士以及推动智能化历程都至关重要。然而,现有的主动语音识别模子通常必要大量的计算资源,这限制了它们在低功耗或资源受限环境中的应用。因此,提升主动语音识别的服从,使其在不牺牲精确性的环境下顺应更多场景,成为了迫切的需求。
当前挑战

现在,主动语音识别模子的主要挑战在于如何在保持高精确率的同时,减少模子的复杂性和计算需求。传统的模子往往参数目庞大,导致计算速度慢,资源斲丧大。此外,这些模子在处理长篇语音时,服从低下,难以满意及时性的要求。
模子的上风

Distil-Whisper distil-large-v2模子通过知识蒸馏技术,从Whisper大型模子中学习到了高效的表征,实现了6倍的速度提升和49%的参数目减少。该模子在分布外数据集上的字错误率(WER)保持在1%以内,这意味着它在精确性和服从之间取得了精良的平衡。以下是Distil-Whisper distil-large-v2模子的一些上风:


  • 速度快:模子运行速度快,恰当及时语音识别需求。
  • 参数目少:模子参数目减少,降低了计算资源的需求。
  • 精确性高:即使在分布外数据上,模子也能保持高精确性。
实验步骤

要使用Distil-Whisper distil-large-v2模子举行主动语音识别,必要遵循以下步骤:

  • 安装必要的库:首先,必要安装Transformers和datasets库,以及对应的audio模块。
  • 加载模子和处理器:使用AutoModelForSpeechSeq2Seq和AutoProcessor加载模子和处理器。
  • 创建pipeline:使用pipeline类创建主动语音识别的pipeline,配置相应的参数,如max_new_tokens、chunk_length_s和batch_size。
  • 处理音频数据:将音频数据转达给pipeline举行处理,获取文本结果。
以下是具体的代码示例:
  1. import torch
  2. from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
  3. from datasets import load_dataset
  4. # 设置设备
  5. device = "cuda:0" if torch.cuda.is_available() else "cpu"
  6. torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
  7. # 加载模型和处理器
  8. model_id = "distil-whisper/distil-large-v2"
  9. model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True)
  10. model.to(device)
  11. processor = AutoProcessor.from_pretrained(model_id)
  12. # 创建pipeline
  13. pipe = pipeline(
  14.     "automatic-speech-recognition",
  15.     model=model,
  16.     tokenizer=processor.tokenizer,
  17.     feature_extractor=processor.feature_extractor,
  18.     max_new_tokens=128,
  19.     chunk_length_s=15,
  20.     batch_size=16,
  21.     torch_dtype=torch_dtype,
  22.     device=device,
  23. )
  24. # 加载并处理音频数据
  25. dataset = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
  26. sample = dataset[0]["audio"]
  27. result = pipe(sample)
  28. print(result["text"])
复制代码
效果评估

Distil-Whisper distil-large-v2模子在多个数据集上的性能对比显示,它在速度和精确性上都优于大型Whisper模子。例如,与Whisper large-v2模子相比,Distil-Whisper distil-large-v2模子的字错误率仅高出1%,但速度却进步了6倍。这表明该模子在主动语音识别任务中具有明显的上风。
结论

Distil-Whisper distil-large-v2模子为主动语音识别范畴带来了革命性的改变,它不但进步了识别服从,还保持了高水平的精确性。通过使用该模子,开发者和企业可以在资源受限的环境中摆设高效的主动语音识别系统,从而推动技术的普及和应用。我们鼓励广大开发者和企业尝试并应用Distil-Whisper distil-large-v2模子,以提升他们的语音识别任务服从。
    distil-large-v2   
项目地点: https://gitcode.com/mirrors/distil-whisper/distil-large-v2   

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

一给

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表