首个国产音乐SOTA模型来了！专为中文优化，免费用，不限曲风

在「天工」大模型发布一周年之际，昆仑万维重磅宣布，「天工 3.0」基座大模型与「天工 SkyMusic」音乐大模型正式开启公测。

自从 AI 让人类实现音乐创作自由后，连吵架都变得有趣了起来。

前段时间，X 平台知名 AI 博主 Aran Komatsuzaki 自己写了一首歌，专门用来表达对另一位 AI 科学家 ;;Gary Marcus 的不满，还用当前大火的 Suno 把它生成了出来。要知道，过去，这些大佬们的口水战主要就是发个帖子，然后你来我往地跟帖。这次，Aran Komatsuzaki 的做法可谓是玩出了新花样，不知道是不是从「谢帝谢帝我要 diss 你」得到的灵感。

和 Aran Komatsuzaki 一样，国内外很多懂音乐、不懂音乐的人都在试玩 Suno 等 AI 音乐创作工具，生成了很多非常有意思的音乐作品。

不过，有很多网友反映，Suno 有时生成中文不太稳定，会出现中文歌曲带有英文感、生僻字唱错等问题。

B 站网友针对 Suno 生成的一首中文歌发表的评论。视频地址：https://b23.tv/gVqTUOu

那么，有没有一个 AI 音乐生成模型专门针对中文做过优化呢？

昆仑万维今日面向全社会开放公测的「天工 SkyMusic」就是这样一个模型。它生成的中文人声发音清晰、正宗、无异响，没有出现「百老汇式中文歌」等水土不服的情况。而且，它不仅针对普通话做了优化，粤语、成都话、北京话等方言语种也照顾到了。

如此优异的表现自然离不开强大的基座模型，即昆仑万维在同一时间发布并开源的大模型「天工 3.0」。该模型拥有 4000 亿参数，超越了 3140 亿参数的 Grok-1，是全球最大的开源 MoE 大模型。

在 MMBench 等多项权威多模态测评结果中，「天工 3.0」超越 GPT-4V，全球领先。

在这个基座模型的加持下，天工 SkyMusic 对歌曲的理解更为深刻。它能够通过歌词控制情绪变化，并实现如颤音、歌剧、吟唱等多种歌唱技巧，使生成的音乐作品情感更加丰富且贴合情境。

如果你不想自己写歌词，也可以试试输入框右下角的「AI 写词」功能。它可以从第一句开始写，每次只生成一句，不满意的句子可以及时删掉，直至整首歌创作完成。

当然，你也可以尝试用「天工 3.0」来写歌，比如这首《本站》就是我们用「天工 3.0」写出来的：

接下来就是选择参考歌曲，这也是天工 SkyMusic 的独特之处，即能够按照示例音源生成音乐。

在这一步，天工 SkyMusic 提供了很多参考曲目，你可以从中挑选，也可以选择上传歌曲文件。在这里，我们上传了一首洛天依的歌曲，看看生成效果如何：

天工 SkyMusic 技术原理图：Large-scale Transformer 负责谱曲，来学习 Music Patches 的上下文依赖关系，同时完成音乐可控性；Diffusion Transformer 负责演唱，通过 LDM 让 Music Patches 被还原成高质量音频。这套模型架构在处理视频、音频和音乐时效果极佳。

从图中可以看出，天工 SkyMusic 的框架是类 Sora 的 DiT 技术路径，不过研发时间是在 Sora 问世之前，因此不可避免地要踩很多坑。

对于产业来说，这张原理图非常宝贵，因为市面上没有任何可用的 AI 音乐大模型企业公开自己的技术路径，包括 SUNO，昆仑万维是唯一一个。

强大的背后基座 ;; 天工 3.0

天工 SkyMusic 的成功离不开它背后的基座模型 ;; 天工 3.0。它最核心的升级体现在「独立思考」方面。这在该模型新增的多轮搜索与综合工具调用、图表绘制、研究模式、增强模式等功能中均有所体现。

给定一个数据统计任务，它不仅能够帮你把数据都收集齐全，还能自己写代码、调用各种函数来绘制图表。各个中间步骤被拆解得条理清晰，后续的执行也基本不需要人去干预，甚至连「避免标签重叠」、「文本居中显示」这类细节都被考虑到了。这就是「独立思考」能力的体现。

「我们的 4000 亿大模型是给我们所有的面向 C 端的产品提供支撑的底座大模型。我的底座大模型做得越好，我的音乐、游戏、视频以及动漫产品就会做得更好。所以我们做底座大模型是有非常强的动力的。」方汉说到。

实现通用人工智能，

让每个人更好地塑造和表达自我

在关于 AGI 的愿景中，我们经常听一些AI企业高管提到，他们想要用 AI 工具来提高人类社会的生产力和效率。因此，他们大多专注于模型智力的扩展和增强。但在方汉看来，这其中忽略了一个重要问题，即如何用 AI 帮助人们更好地理解和表达情感。

在天工 SkyMusic 的音乐作品区，我们看到了很多这样的例子：学生即将毕业的离愁、青年爱而不得的神伤、中年人养家糊口的疲惫都通过歌声表达了出来。这是真正的「以歌明志」。

而对于方言的支持则更像一种文化平权，这是方汉非常看重的一点。未来，他们希望把更多语种加进去，让每一个小语种人群都可以轻松创作出属于自己的文化内容。

「在 AIGC 领域，我们宏伟的目标是希望全世界每一个人都能平等地去创作内容。我们想要降低所有人的创作门槛，让大家都能更好地塑造和表达自我。」方汉表示。

最近，这些内容还被写入了昆仑万维的最新使命中。

其实，这种做法在商业上也是有意义的。「一旦人人都可以创作音乐之后，我相信任何一个公共场所，比如说每个餐厅、每个酒吧都可以创作出属于自己的背景音乐，来满足自己的业务需要。」方汉解释说。

随着未来持续的优化完善，天工 SkyMusic 会逐渐演变成一个专业且易用的全民音乐创作平台。

当然，昆仑万维的发力方向不只是音乐。以「天工 3.0」为基础，他们已经形成了六大 AI 业务矩阵。未来，这些矩阵将组成一个 AI UGC 平台。

这个平台不仅能够帮助普通人表达自我，还能帮助那些想用 AI 创作内容的创作者完成 IP 创作的全闭环。这个闭环以「好的故事（IP）」为核心，跨越文本、漫画、音乐和视频等多种形式，消费者的内容消费也都在这一个平台上完成，这是昆仑万维构建的商业逻辑。

「我们的本质是让更多人参加到创作者队伍里面去。前提是你要会讲一个好的故事。如果你能够创作一个好的 IP，那么就能创作内容。可以预见到的是，所有内容行业都将被重做一遍。创作者人数将以百倍扩充，能够消费的内容也是以百倍扩充。人类将进入一个新时代，这也是我们提出『All in AGI 与 AIGC』战略的逻辑。」方汉说到。

这个时代将被塑造成什么样子？我们拭目以待。

正文

首个国产音乐SOTA模型来了！专为中文优化，免费用，不限曲风

相关阅读