ACE Studio 连合 StepFun 开源了音乐天生根本模子 ACE-Step 1.5

发表于 2026-2-28 12:45:24

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

×

你有没有想过如许一个题目：为什么 AI 音乐天生总是“高高在上”？
不是说它做不出好听的歌，而是要么须要昂贵的云端 API 调用，要么须要专业级显卡才气跑起来。想在自己电脑上天生一首完备的歌曲？对不起，32GB 显存起步，天生时间按分钟盘算，平凡创作者只能望而却步。
这种“技能壁垒”，让 AI 音乐创作始终停顿在少数人的游戏里。
克日，ACE Studio 连合 StepFun 开源了音乐天生根本模子ACE-Step 1.5，彻底冲破了这道墙。这个模子不但在 A100 上 2 秒内天生 4 分钟完备歌曲，在斲丧级 RTX 3090 上也只需 10 秒，显存占用稳固控制在4GB 以内。更告急的是，它接纳MIT 开源协议，可免费商用，而且在常用评测指标上的体现已经逾越了大多数贸易音乐模子。
告别“云端依靠”：斲丧级硬件上的专业级创作

传统的 AI 音乐天生，要么像 Suno、Udio 如许依靠云端 API，要么须要高端显卡才气当地运行。纵然是开源模子，动辄也要 16GB 以上显存，天生一首歌须要几分钟以致更久。
而 ACE-Step 1.5 实现的是真正的当地化、轻量化、贸易级音乐天生。
想象如许一个场景：你在咖啡馆用条记本电脑，突然有了创作灵感。打开 ComfyUI，输入一段笔墨形貌和歌词，10 秒后，一首完备的、带人声演唱的 4 分钟歌曲就天生了。音质、旋律、编曲、人声体现力，都到达了专业水准。
这不是科幻，而是 ACE-Step 1.5 在 RTX 3090 上的真实体现。假如换成 A100，这个时间会收缩到 2 秒。显存占用？稳固在 4GB 以内，连游戏本都能轻松运行。citationcitation
更告急的是，这种“布衣化”不是以断送质量为代价的。在盲测 A/B 对比中，ACE-Step 1.5 的主观质量介于 Suno v4.5 和 Suno v5 之间，在音乐连贯性评分上到达了4.72 分，证明亚秒级天生并没有陵犯音乐的美学保真度。
混淆架构：让 AI 既会“规划”又会“实验”

混淆推理-扩散架构（Hybrid Reasoning-Diffusion Architecture)。这种架构将音乐天生拆解为两个协同工作的组件:
语言模子（LM）继承“音乐规划师”：它负责将用户输入的自然语言提示分析为布局化的歌曲蓝图。这个过程包罗明白歌词寄义、确定音乐风格、规划歌曲布局（intro、verse、chorus、bridge 等）、分配乐器编排，以致推断符合的调式和节奏型。
扩散 Transformer(DiT）作为“声学渲染引擎”：它负责将蓝图高保真地转化为音频波形。通过仅需 4-8 步的蒸馏推理计谋，DiT 可以大概在包管音质的同时实现极速天生。
这种“分工协作”的计划，让 ACE-Step 1.5 实现了四种独特的交互模式：

Planner Mode（规划师模式）：将暗昧的用户提示转化为详细的布局蓝图和音频代码
Listener Mode（谛听者模式）：通过逆向工程从音频代码中提取字幕和歌词，展示语义明白本领
Co-Pilot Mode（副驾驶模式）：作为创意助手，将简单查询扩展为完备的歌曲布局
Refiner Mode（精炼师模式）：标准化和优化用户输入，最大化鄙俚 DiT 的性能

这种架构的上风不但在于速率，更在于可控性。用户可以准确控制音乐风格、调式、节奏、感情，以致可以使用专业音乐术语（如“Dorian 调式”、“swing feel”、“staccato strings”）来引导天生，实现零样本音色迁移和强束缚下的风格同等性保持。citation
数据基建：2700 万样本的高质量语料库

模子本领的背后，是踏实的数据根本办法。ACE-Step 1.5 构建了一个包罗2700 万样本的高质量语料库，覆盖2000+ 音乐风格和50+ 语言。
为了消除幻觉并进步依照度，团队练习了专门的嘉奖模子，在 400 万合成负样本对上举行强化学习，然后用这个颠末 RL 增强的管道标注整个语料库，末了举行严格的过滤。
这种“数据驱动”的方法，确保了模子在明白和天生音乐时的正确性。无论是盛行、摇滚、爵士、古典，还是电子、嘻哈、民谣，ACE-Step 1.5 都能正确把握风格特性，天生符合预期的音乐作品。
更告急的是，整个练习数据集完全由免版税、非版权质料构成，这意味着用户可以放心地将天生的音乐用于贸易用途，而不消担心版权纠纷。citation
全链路音频编辑：不但是“天生”，更是“创作”

ACE-Step 1.5 不但仅是一个“文本天生音乐”的工具，它提供了六大实用编辑模式，赋予创作者对音频素材的深度再塑权：

音频重绘（Inpainting）：更换歌曲中的某个片断，保持前后连贯
跨歌手翻唱：将一首歌的人声更换为差别风格的演唱
人声提取为伴奏：自动分离人声和伴奏，天生纯音乐版本
音轨智能分离：将混音分解为独立的乐器轨道
多层叠加编曲：在现有音乐根本上添加新的乐器层
智能续写补全：基于已有片断自动天生后续内容

这些功能的组合，让 ACE-Step 1.5 从一个“天生器”变成了一个“创作平台”。你可以天赋生一个根本版本，然后通过重绘修改不满足的段落，通过翻唱实验差别的演唱风格，通过续写扩展歌曲长度，通过叠加编曲丰富音乐条理。
整个创作过程变得像使用 Photoshop 编辑图片一样机动和直观。citation
轻量个性化：数首参考曲目即可定制专属风格

传统的音乐模子微调，每每须要大规模数据集和长时间练习。而 ACE-Step 1.5 支持轻量级 LoRA 微调，用户仅需几首参考曲目，就能在数分钟内完成个人风格模子定制。
想要复刻某个特定歌手的音色？提供几首 ta 的歌曲作为参考，练习一个 LoRA 模子，就能让 AI 以这种音色演唱任何歌词。
想要创建一个独特的音乐风格？网络几首符合这种风格的作品，微调模子，就能让 AI 按照这个风格天生新的音乐。
这种“低门槛、高自由度”的个性化本领，让每个创作者都能拥有自己的“专属 AI 音乐人”。无需专业的音乐制作知识，无需昂贵的灌音装备，只须要创意和几首参考歌曲。citation
多语言支持：冲破语言边界的环球化创作

ACE-Step 1.5 兼容50 余种语言的歌词演唱本领，从英语、中文、日语、韩语，到西班牙语、法语、德语、阿拉伯语，以致包罗一些小语种。
这意味着，无论你的母语是什么，无论你想创作哪种语言的歌曲，ACE-Step 1.5 都能正确明白歌词寄义，并以自然、流畅的发音演唱出来。
更告急的是，模子在练习时特意制止了“英语中央主义”的私见。每种语言都得到了充实的练习数据支持，确保天生质量的同等性。这种“语言同等”的计划理念，让 AI 音乐创作真正成为一个环球化的工具。
开源生态：ComfyUI 集成与跨平台支持

ACE-Step 1.5 已经集成到ComfyUI中，这个广泛使用的节点式天生工作流情况，让用户可以轻松组装、测试和复用音乐天生流程。
别的，模子还得到了AMD Ryzen AI 处理惩罚器和 Radeon 显卡的官方支持，通过 AMD ROCm 软件优化，确保在 AMD 平台上也能得到精彩的性能。citation
接纳MIT 开源协议，意味着 ACE-Step 1.5 可以自由用于贸易用途，无需付出授权费用。这种开放的态度，正在构建一个由开发者、音乐人、创业者共同加入的 AI 音乐创作生态。
从独立音乐人的个人创作，到游戏、视频的配乐制作，从广告音乐的快速定制，到音乐教诲的辅助工具，ACE-Step 1.5 正在让 AI 音乐创作从“少数人的特权”变成“各人可用的工具”。
应用场景：从个人创作到贸易制作

得益于轻量化摆设和贸易级质量，ACE-Step 1.5 的应用场景极其广泛：

独立音乐人：快速天生 demo，实验差别的编曲风格，大概为歌词创作配乐参考。纵然没有专业的编曲本领，也能将创意转化为完备的音乐作品。
内容创作者：为视频、播客、直播天生配景音乐。不消担心版权题目，不消费钱购买音乐库，几秒钟就能天生符合内容调性的原创配乐。
游戏开发者：根据游戏场景动态天生音乐。差别的关卡、差别的感情、差别的战斗强度，都可以及时天生匹配的配景音乐，让游戏体验更加沉醉。
广告制作：快速定制符合品牌调性的广告音乐。客户要求修改？几分钟就能天生新版本，大大收缩制作周期。
音乐教诲：让门生通过 AI 辅助学习作曲、编曲、配器。输入差别的和弦举行、旋律片断，听听 AI 会怎样发展，从中学习音乐创作的逻辑。
这些场景的共同特点是：须要快速、机动、高质量、可商用的音乐天生本领，而这正是 ACE-Step 1.5 的核心上风。
技能对比：真正的 Suno 当地化替换

在 Reddit 等社区的讨论中，很多用户将 ACE-Step 1.5 与 Suno 举行对比。固然在某些细节上 Suno 大概仍有上风，但 ACE-Step 1.5 的当地化摆设、开源协议、可定制性，让它成为真正的“当地化 Suno 替换方案”。
一位用户批评道：“我通常使用 Riffusion/Producer.ai，但我必须说，Ace 的质量是可比的。”另一位用户则体现：“我真的很喜欢创作歌曲作为爱好，任何有根本音乐知识的人都可以使用这个模子并制作出专业质量的作品。我非常感谢 Ace-step 团队。”citationcitation
更告急的是，ACE-Step 1.5 的开源特性，意味着社区可以在此根本上继承创新。从更好的提示词工程，到新的编辑功能，从特定风格的微调模子，到与其他 AI 工具的集成，整个生态正在快速发展。
总结： ACE-Step 1.5 不但是一个技能突破，更是一个信号——AI 音乐创作的未来不是“云端把持”，而是“当地民主化”。从 4GB 显存到贸易级质量，从文本天生到全链路编辑，从单一风格到 50+ 语言，ACE-Step 1.5 正在重新界说“各人都能创作音乐”的边界。
ACE Studio 和 StepFun 用一个开源模子证明：音乐创作的门槛不应该由硬件和资本决定，而应该由创意和热情决定。这个“音乐民主化”的工具，大概将引爆一场 AI 音乐创作的革命。
OpenCSG社区：https://opencsg.com/models/AIWizards/Ace-Step1.5
hf社区：https://huggingface.co/ACE-Step/Ace-Step1.5

关于 OpenCSG
OpenCSG是环球领先的开源大模子社区平台，致力于打造开放、协同、可连续生态，AgenticOps是人工智能范畴的一种AI原生方法论，由OpenCSG（开放传神）提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产物 CSGHub 提供模子、数据集、代码与 AI 应用的一站式托管、协作与共享服务，具备业界领先的模子资产管理本领，支持多脚色协同和高效复用。

免责声明：如果侵犯了您的权益，请联系站长及时删除侵权内容，谢谢合作！qidao123.com:ToB企服之家，中国第一个企服评测及软件市场,开放入驻,技术点评得现金.

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块