两大AI音乐模型更新相继落地
本周迎来两项重要的AI音乐模型更新,它们均非来自Suno。总部位于波兰的语音AI公司ElevenLabs,在今年二月完成5亿美元D轮融资后估值已达110亿美元,此次推出了Music v2模型。而推出Stable Diffusion的Stability AI也发布了Stable Audio 3.0,这是一个包含四个模型的系列,提供开源权重并支持生成超过六分钟的音频。
这一动向的背景是相关行业机构于2024年对Suno和Udio提起的版权诉讼,使得“基于授权数据训练”成为AI音乐发布中最关键的声明。ElevenLabs和Stability均在此方面着力强调,确保用户生成内容不会引发版权争议。
Music v2:单曲贯通歌剧与重金属
Music v2是ElevenLabs推出的第二代音乐模型,距初代发布约十个月。其核心亮点在于复杂指令下的连贯性。据官方介绍,单首曲目可从歌剧风格转向重金属再回归原调,在快速说唱段落保持结构完整,并能嵌入非音乐音效,同时确保作品整体不崩解。
当生成提示词变得复杂时,AI音频往往容易失去连贯性,因此该特性值得关注,尤其在生成长篇作品时。局部重绘功能现已实用化:用户可选择片段重新生成,其余部分保持不变。还支持分段落创作,模型能保持章节间的连续性而非视作独立片段。多语言支持亦有所提升,但具体细节未公开。
该模型支撑三个平台:面向创作者的ElevenMusic、面向开发者的ElevenAPI以及面向品牌的ElevenCreative。前两个平台已上线,API访问需通过销售团队申请。ElevenLabs同步下调了v1与v2模型的定价,并透露其年度经常性收入已达5亿美元。音乐业务虽占比尚小,但今年四月推出的消费者应用ElevenMusic正直接瞄准Suno的用户群体。
Stable Audio 3.0:开源权重与设备端运行
Stable Audio 2.0此前最长生成时长为三分钟,发布时已落后于Suno。新版推出四个模型:小型音效模型(设备端运行)、小型全曲模型(设备端作曲)、中型模型(最长6分20秒,需更强硬件)及大型模型(仅限API调用)。其中三个模型在开源平台提供权重。
小型模型参数量为4.59亿,无需GPU即可运行。中型模型参数量达14亿,在专业GPU上生成6分20秒音频仅需约1.31秒。大型模型27亿参数仅向年营收超百万美元的组织开放API服务。秒级生成精度可精确控制音频时长。
该架构采用全新设计的语义声学自动编码器,确保长音频的旋律连贯性。支持LoRA微调技术,艺术家可用自有作品数据定制模型。局部重绘功能支持单段/多段修改及因果延续扩展。模型权重开源策略延续了其图像领域的成功经验,通过与大型音乐集团建立的合作,其授权清晰度达历史最佳。
行业竞逐:挑战王者Suno
若将ChatGPT比作AI文本领域的王者,Suno便是AI音乐领域的统治者。其背后公司在2025年11月估值已达24.5亿美元,年度经常性收入突破3亿美元,用户规模约1亿,每日生成歌曲约700万首。
为规避版权争议,ElevenLabs已与多家音乐版权方达成授权合作。Stability则获得了两大音乐集团的支持。早前涉诉的Udio现已转为封闭生态平台。目前Stable Audio 3.0的中小型模型已在开源平台上线,ElevenMusic用户可免费使用基础服务,商业需求可通过对应平台获取。

资金费率
资金费率热力图
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
账号安全
资讯收藏
自选币种