来自云龙湖轮廓分明的月亮 发表于 昨天 23:28

【多模态mllm之audio encoder】openai whisper模子分析

Whisper Large 模子布局分析

https://i-blog.csdnimg.cn/direct/9c2331089d544f19b9eaeb2ea5eb8cce.png
Whisper 模子是一种端到端的自动语音辨认(ASR)体系,基于 Transformer 的编码器—解码器架构。其重要构成部门包罗:
输入预处置惩罚

原始音频起首颠末预处置惩罚,转换为 log‑Mel 谱图。这里通常利用固定参数的卷积层(比方 2 层卷积)举行特性提取和降采样,天生恰当 Transformer 输入的特性矩阵。
编码器(Encoder)

编码器部门由多个 Transformer encoder 层堆叠构成,每一层包罗:
1. 自留意力机制(Self-Attention):捕捉音频序列中的全局依靠关系。
2. 前馈神经网络(FFN):举行非线性变更。
3. 残差毗连与层归一化:确保练习稳固性。
处置惩罚过程

编码器将 log‑Mel 特性映射到隐蔽状态空间,形玉成局音频体现。该过程通常起首将音频分割成30秒的片断,以管理盘算需求。 然后将此音频重新采样到尺度的16,000 Hz采样率,以确保输入格式的同一性。 重新采样后,利用25毫秒的窗口和10毫秒的步长将音频转换为80通道的对数幅度梅尔频谱图,有效地捕捉音频随时间厘革的频率特性。 值得留意的是,Whisper Large v3模子采取128个梅尔频率箱

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 【多模态mllm之audio encoder】openai whisper模子分析