FunAudioLLM：用语音大模型解锁智能语音交互的无限大概 ...

九天猎人 · 2025-2-24 06:49:31

择要

随着人工智能技能的飞速发展，语音处理已成为人机交互的核心领域之一。本文将先容 FunAudioLLM 模型家族中的两个紧张成员：SenseVoiceSmall 和 CosyVoice2-0.5B，探讨它们在语音识别、语音合成和情感分析中的应用，并提供实用的摆设指南。
引言

FunAudioLLM 模型家族简介FunAudioLLM 是阿里巴巴通义实行室推出的开源语音大模型框架，旨在通过语音明白和生成技能增能人机自然交互。其中，SenseVoiceSmall 和 CosyVoice2-0.5B 是两个核心模型，分别专注于语音识别和语音合成。

SenseVoiceSmall 的功能与特点• 多语言语音识别 SenseVoiceSmall 支持超过 50 种语言，经过超过 40 万小时的数据练习，识别性能优于传统模型（如 Whisper）。• 低耽误推理：采用非自回归端到端架构，10 秒音频的推理仅需 70 毫秒，速度是 Whisper-Large 的 15 倍。• 情感识别：能够检测语音中的情感和常见音频事件（如掌声、笑声、咳嗽等）。• 便捷的微调与摆设提供微调脚本和多语言客户端支持（Python、C++、Java 等），方便开辟者根据业务需求进行定制。
CosyVoice2-0.5B 的功能与特点• 轻量高效参数量仅为 0.5B，体积小，盘算资源消耗低，得当在资源受限的设备上运行。• 自然语音合成支持多语言、音色、语言风格和语言者身份的自然语音生成，合成语音接近真人发音。• 零样本学习与情感语音生成能够在没有上下文的情况下生成情感丰富的语音，适用于有声书、语音助手等场景。

技能架构

深度学习技能 FunAudioLLM 采用了 Transformer 模型、语音量化编码技能和流匹配技能，明显提升了语音处理的性能。• 数据驱动的优化模型练习依靠大量标注数据，包括语音、文本和情感标签，以提高识别准确性和语音合成的自然度。
API调用

使用硅基流动的api进行调用官网如下：

包含许多相干模型以及详细的API使用说明。、
相干链接为硅基官网
完成注册后会送2000万token的算力，注册完后需要申请APIkey作为调用API的入口参数。

语音识别的api为SenseVoiceSmall，使用免费

具体调用例子为

import requests
url = "https://api.siliconflow.cn/v1/audio/transcriptions"
payload = "-----011000010111000001101001\r\nContent-Disposition: form-data; name="model"\r\n\r\nFunAudioLLM/SenseVoiceSmall\r\n-----011000010111000001101001--\r\n\r\n"
headers = {
"Authorization": "Bearer apikey",
"Content-Type": "multipart/form-data"
}
response = requests.request("POST", url, data=payload, headers=headers)
print(response.text)

复制代码

硅基流动也可在网页中进行调用，点击send会模仿行为。

相干例子可见
不外需要进行长语音的翻译需要的话需要对脚本进行处理，比如将语音进行分割，然后一段段进行翻译后再拼接起来。
具体代码可见
代码堆栈
文本转语音

现在文本转语音使用的是CosyVoice2-0.5B，硅基流动的价格为
￥50/ M UTF-8 bytes
MB与字节的换算：1MB（兆字节）即是1024KB（千字节），而1KB即是1024字节。因此，1MB即是1024 * 1024 = 1048576字节。2. UTF-8编码下汉字的表现：在UTF-8编码中，一个汉字通常用3个字节表现。3. 盘算过程：• 1048576字节 ÷ 3 = 349525…1。• 这意味着1MB最多可以表现349525个汉字，还剩下1个字节，这1个字节不足以表现一个完备的汉字。以是，1MB在UTF-8编码下最多可以表现349525个汉字。
即如果1MB的费用是50元，那么每个汉字的成本大约是0.000143元，或者可以更直观地说，每1000个汉字的成本约为0.143元。照旧比较便宜的。
调用脚本为

from pathlib import Path
from openai import OpenAI
speech_file_path = Path(__file__).parent / "siliconcloud-generated-speech.mp3"
client = OpenAI(
api_key="apikey", # 从 https://cloud.siliconflow.cn/account/ak 获取
base_url="https://api.siliconflow.cn/v1"
)
with client.audio.speech.with_streaming_response.create(
model="FunAudioLLM/CosyVoice2-0.5B", # 支持 fishaudio / GPT-SoVITS / CosyVoice2-0.5B 系列模型
voice="FunAudioLLM/CosyVoice2-0.5B:alex", # 系统预置音色
# 用户输入信息
input="你能用高兴的情感说吗？<|endofprompt|>今天真是太开心了，马上要放假了！I'm so happy, Spring Festival is coming!",
response_format="mp3" # 支持 mp3, wav, pcm, opus 格式
) as response:
response.stream_to_file(speech_file_path)

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

FunAudioLLM：用语音大模型解锁智能语音交互的无限大概 ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块