在「天工」大模型发布一周年之际,昆仑万维重磅宣布,「天工 3.0」基座大模型与「天工 SkyMusic」音乐大模型正式开启公测。
自从 AI 让人类实现音乐创作自由后,连吵架都变得有趣了起来。
前段时间,X 平台知名 AI 博主 Aran Komatsuzaki 自己写了一首歌,专门用来表达对另一位 AI 科学家 ;;Gary Marcus 的不满,还用当前大火的 Suno 把它生成了出来。要知道,过去,这些大佬们的口水战主要就是发个帖子,然后你来我往地跟帖。这次,Aran Komatsuzaki 的做法可谓是玩出了新花样,不知道是不是从「谢帝谢帝我要 diss 你」得到的灵感。
和 Aran Komatsuzaki 一样,国内外很多懂音乐、不懂音乐的人都在试玩 Suno 等 AI 音乐创作工具,生成了很多非常有意思的音乐作品。
不过,有很多网友反映,Suno 有时生成中文不太稳定,会出现中文歌曲带有英文感、生僻字唱错等问题。
B 站网友针对 Suno 生成的一首中文歌发表的评论。视频地址:https://b23.tv/gVqTUOu
那么,有没有一个 AI 音乐生成模型专门针对中文做过优化呢?
昆仑万维今日面向全社会开放公测的「天工 SkyMusic」就是这样一个模型。它生成的中文人声发音清晰、正宗、无异响,没有出现「百老汇式中文歌」等水土不服的情况。而且,它不仅针对普通话做了优化,粤语、成都话、北京话等方言语种也照顾到了。
如此优异的表现自然离不开强大的基座模型,即昆仑万维在同一时间发布并开源的大模型「天工 3.0」。该模型拥有 4000 亿参数,超越了 3140 亿参数的 Grok-1,是全球最大的开源 MoE 大模型。
在 MMBench 等多项权威多模态测评结果中,「天工 3.0」超越 GPT-4V,全球领先。
在这个基座模型的加持下,天工 SkyMusic 对歌曲的理解更为深刻。它能够通过歌词控制情绪变化,并实现如颤音、歌剧、吟唱等多种歌唱技巧,使生成的音乐作品情感更加丰富且贴合情境。
如果你不想自己写歌词,也可以试试输入框右下角的「AI 写词」功能。它可以从第一句开始写,每次只生成一句,不满意的句子可以及时删掉,直至整首歌创作完成。
当然,你也可以尝试用「天工 3.0」来写歌,比如这首《本站》就是我们用「天工 3.0」写出来的:
接下来就是选择参考歌曲,这也是天工 SkyMusic 的独特之处,即能够按照示例音源生成音乐。
在这一步,天工 SkyMusic 提供了很多参考曲目,你可以从中挑选,也可以选择上传歌曲文件。在这里,我们上传了一首洛天依的歌曲,看看生成效果如何:
天工 SkyMusic 技术原理图:Large-scale Transformer 负责谱曲,来学习 Music Patches 的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer 负责演唱,通过 LDM 让 Music Patches 被还原成高质量音频。这套模型架构在处理视频、音频和音乐时效果极佳。
从图中可以看出,天工 SkyMusic 的框架是类 Sora 的 DiT 技术路径,不过研发时间是在 Sora 问世之前,因此不可避免地要踩很多坑。
对于产业来说,这张原理图非常宝贵,因为市面上没有任何可用的 AI 音乐大模型企业公开自己的技术路径,包括 SUNO,昆仑万维是唯一一个。
强大的背后基座 ;; 天工 3.0
天工 SkyMusic 的成功离不开它背后的基座模型 ;; 天工 3.0。它最核心的升级体现在「独立思考」方面。这在该模型新增的多轮搜索与综合工具调用、图表绘制、研究模式、增强模式等功能中均有所体现。
给定一个数据统计任务,它不仅能够帮你把数据都收集齐全,还能自己写代码、调用各种函数来绘制图表。各个中间步骤被拆解得条理清晰,后续的执行也基本不需要人去干预,甚至连「避免标签重叠」、「文本居中显示」这类细节都被考虑到了。这就是「独立思考」能力的体现。
「我们的 4000 亿大模型是给我们所有的面向 C 端的产品提供支撑的底座大模型。我的底座大模型做得越好,我的音乐、游戏、视频以及动漫产品就会做得更好。所以我们做底座大模型是有非常强的动力的。」方汉说到。
实现通用人工智能,
让每个人更好地塑造和表达自我
在关于 AGI 的愿景中,我们经常听一些AI企业高管提到,他们想要用 AI 工具来提高人类社会的生产力和效率。因此,他们大多专注于模型智力的扩展和增强。但在方汉看来,这其中忽略了一个重要问题,即如何用 AI 帮助人们更好地理解和表达情感。
在天工 SkyMusic 的音乐作品区,我们看到了很多这样的例子:学生即将毕业的离愁、青年爱而不得的神伤、中年人养家糊口的疲惫都通过歌声表达了出来。这是真正的「以歌明志」。
而对于方言的支持则更像一种文化平权,这是方汉非常看重的一点。未来,他们希望把更多语种加进去,让每一个小语种人群都可以轻松创作出属于自己的文化内容。
「在 AIGC 领域,我们宏伟的目标是希望全世界每一个人都能平等地去创作内容。我们想要降低所有人的创作门槛,让大家都能更好地塑造和表达自我。」方汉表示。
最近,这些内容还被写入了昆仑万维的最新使命中。
其实,这种做法在商业上也是有意义的。「一旦人人都可以创作音乐之后,我相信任何一个公共场所,比如说每个餐厅、每个酒吧都可以创作出属于自己的背景音乐,来满足自己的业务需要。」方汉解释说。
随着未来持续的优化完善,天工 SkyMusic 会逐渐演变成一个专业且易用的全民音乐创作平台。
当然,昆仑万维的发力方向不只是音乐。以「天工 3.0」为基础,他们已经形成了六大 AI 业务矩阵。未来,这些矩阵将组成一个 AI UGC 平台。
这个平台不仅能够帮助普通人表达自我,还能帮助那些想用 AI 创作内容的创作者完成 IP 创作的全闭环。这个闭环以「好的故事(IP)」为核心,跨越文本、漫画、音乐和视频等多种形式,消费者的内容消费也都在这一个平台上完成,这是昆仑万维构建的商业逻辑。
「我们的本质是让更多人参加到创作者队伍里面去。前提是你要会讲一个好的故事。如果你能够创作一个好的 IP,那么就能创作内容。可以预见到的是,所有内容行业都将被重做一遍。创作者人数将以百倍扩充,能够消费的内容也是以百倍扩充。人类将进入一个新时代,这也是我们提出『All in AGI 与 AIGC』战略的逻辑。」方汉说到。
这个时代将被塑造成什么样子?我们拭目以待。