【AIGC】OpenAI 宣布推出Whisper large-v3-turbo 语音转录模型 速率提高了8 ...

我可以不吃啊  金牌会员 | 2025-2-16 20:15:12 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 906|帖子 906|积分 2718

OpenAI 宣布推出了一个名为 large-v3-turbo(简称 turbo)的新 Whisper 模型。这是 Whisper large-v3 的优化版本,将解码器层数从大型模型的 32 层减少到与 tiny 模型相同的 4 层。此优化版本的开发受到了 Distil-Whisper 的启发,后者表明使用较小的解码器可以显着提拔转录速率,同时对准确性的影响较小。
速率比 large-v3 快 8 倍,但质量险些没有下降!

Whisper large-v3-turbo 主要功能和特点:

  • 更少的解码器层数

    • 与 Whisper large-v3 相比,large-v3-turbo 只使用了 4 个解码器层,而 large-v3 使用了 32 个解码器层。较少的解码器层数使得模型在保持相对高准确度的同时,显着提高了处理速率。

  • 优化的速率表现

    • Turbo 模型的语音转录速率比 tiny 模型更快,是 Whisper 系列模型中速率与准确性兼顾的“最佳选择”。通过使用更小的解码器层数,该模型提拔了实时转录的能力。
    • 通过减少解码层数和启用 torch.compile,推理速率可提拔高达 4.5 倍,进一步提高了模型的服从,非常适合必要低延迟的应用场景。

  • 多语言支持

    • 支持 99 种语言的语音转录,表现精彩,而且与大型数据集兼容,包括 FLEURS 和 Common Voice 数据集,尤其在高质量录音上效果更佳。

  • 跨语言的高效表现

    • Turbo 模型的跨语言转录表现与 large-v2 相当,但在一些语言(如泰语和粤语)上表现较弱。在一些录音质量较高的数据集(如 FLEURS)上,turbo 模型的表现优于 Common Voice 数据集。

  • 更快的自动语音识别 (ASR)

    • 结合最新的技能补丁(#2359),turbo 模型在使用 F.scaled_dot_product_attention(缩放点积注意力机制)时,能进一步提拔自动语音识别的速率。

  • 专注于转录使命

    • Turbo 模型专为多语言转录使命微调,不适合翻译使命,因为训练时不包含翻译数据。它在纯语音转录方面的表现更为优异,但翻译使命表现较差。

  • 使用与集成方便

    • 开发者可以通过简单的 Python 包更新或 Whisper 的命令行工具默认使用 turbo 模型,使得其在实际应用中更易于集成。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

我可以不吃啊

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表