python 使用Whisper模型举行语音翻译

打印 上一主题 下一主题

主题 941|帖子 941|积分 2823

目录
一、Whisper 是什么?
二、Whisper 的根本下令行用法
三、代码实践
四、是否保存Token标记
五、翻译长度问题
六、性能分析


一、Whisper 是什么?

Whisper 是由 OpenAI 开源的一个主动语音辨认(Automatic Speech Recognition, ASR)系统。它的主要特点是:


  • 多语言支持:它本身就能辨认几十种语言,包罗中文。
  • 多尺寸预练习模型:官方提供了 5 个差别大小的模型(tiny, base, small, medium, large),它们的体量和辨认效果差别,可以根据硬件资源和需求来选择。
  • 端到端(End-to-End):基于 Transformer 架构,直接从音频特征(mel spectrogram)举行处置处罚,无需繁琐的特征工程。
通常,你可以直接将 Whisper 当作一个“现成的”ASR 工具,用来把音频文件转成文本。如果想针对某些特定口音、方言或专业领域进

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

梦见你的名字

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表