目录
一、Whisper 是什么?
二、Whisper 的根本下令行用法
三、代码实践
四、是否保存Token标记
五、翻译长度问题
六、性能分析
一、Whisper 是什么?
Whisper 是由 OpenAI 开源的一个主动语音辨认(Automatic Speech Recognition, ASR)系统。它的主要特点是:
- 多语言支持:它本身就能辨认几十种语言,包罗中文。
- 多尺寸预练习模型:官方提供了 5 个差别大小的模型(tiny, base, small, medium, large),它们的体量和辨认效果差别,可以根据硬件资源和需求来选择。
- 端到端(End-to-End):基于 Transformer 架构,直接从音频特征(mel spectrogram)举行处置处罚,无需繁琐的特征工程。
通常,你可以直接将 Whisper 当作一个“现成的”ASR 工具,用来把音频文件转成文本。如果想针对某些特定口音、方言或专业领域进
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |