中美AI音乐正面刚，谁是最强王者？中国AI音乐生成与国外同行掰手腕，竟成全球最新SOTA！_娱评

中美AI音乐正面刚，谁是最强王者？中国AI音乐生成与国外同行掰手腕，竟成全球最新SOTA！

2024.04.25 09:47
0.18k

要说最近AI最火爆的细分领域，那就不得不提到AI音乐生成。

海外有「Suno」、「Udio」、「Stable Audio2.0」……国内目前只有昆仑万维的「天工SkyMusic」，但以上每一个AI音乐生成应用都是实打实的可上手。

那么，同为AI音乐生成领域最具代表性的产品，同样主打几分钟内即可生成高质量的音频内容，中外AI音乐生成模型究竟有何不同？哪些产品能力更被用户所看重？

接下来，就让我们以海外代表玩家「Suno」和国内代表玩家「天工SkyMusic」为对比，一探究竟，来一场实力对决吧！

首先让我们同时打开「Suno」」和「天工SkyMusic」。

目前Suno只有网页端产品使用入口，而「天工SkyMusic」则是在集成在手机APP端，这一点上来说，「天工SkyMusic」更适合国人的使用习惯。

先来说「Suno」，它的界面包括了Home、Create、Library、Ecplore等几个次级页面，Home相当于是「Suno」用户作品的“展示柜”，收纳了欢迎度较高的热门作品，以及各种音乐风格的作品合集，比如布鲁斯、说唱、古典等。点击Create即可进入创作页面。

而「天工SkyMusic」被收纳在「天工APP」的板块，同样具备用户作品展示、灵感指南等功能。相较而言，「天工SkyMusic」的界面更为简洁，创作入口更为直接。

从操作层面，虽然都是AI音乐生成应用，但这两款产品的生成逻辑有着一个极大不同。

「天工SkyMusic」让用户在曲库中选择歌曲或者是自己上传歌曲作为参考；「Suno」则需要用户用较为精准的乐理知识精准描述想要的音乐风格。

相较而言，「天工SkyMusic」对于即使没有音乐背景的小白用户，哪怕缺乏专业乐理、乐器等专业训练，也不妨碍用户精准“告诉”AI想要的是什么。

但在「Suno」的创作过程中，需要用户用自然语言准确地输入“提示词”，包括设计音乐风格相关的关键词描述，如： Pop、Folk、Acoustic，以及情绪氛围相关的词，如： Uplifting、Hopeful、Joyful……，这其实在用户上手之时，就抬高了门槛，比如该如何精准描述类似《以父之名》曲风的音乐？

「天工SkyMusic」对没有接受过专业音乐培训的普通人来说更加友好。绝大部分普通人对音乐流派的了解程度不深，对曲风的把握也不够精准，泛泛描述很难得到理想作品，找一首类似的音乐来做参考，能够比语言描述更好地表达对作曲的需求。相比之下，「Suno」可能更适合对音乐感兴趣的极客或者专业音乐人士来使用。

接下来，我们再来看看两款AI音乐应用自带的“AI作词”功能测评。

让我们以《洛阳铲》为题，看看「Suno」和「天工SkyMusic」分别给出了怎样的答卷？

整体来说，「天工SkyMusic」自动生成的歌词更符合古风效果，而「Suno」自动生成的歌词略显生硬，缺少了歌词应有的灵动与韵味。当然，让一款海外应用“说”中文已经是难为TA了，这题算附加题，不计分。

人声合成是最能体验AI音乐生成效果和音乐品质的维度。「天工SkyMusic」的AI人声合成，能够产生中文水平极高、发音清晰的歌声，展现出卓越的音频质量和逼真的演唱效果，已经达到业内SOTA水平！

在这方面，两相对比，Suno的中文演唱水平就明显差了很多，唱起中文歌来明显有一种老外说中文那味儿。下面这首Suno生成的音乐作品，确实在中文发音上既不清晰也不准确。

[file_v3_00a8_d354e231-4fd3-4826-aca9-82e61c275ecg.mp4]

【用户用suno制作的中文歌】

值得一提的是，对于中文用户来说，「天工SkyMusic」还具备一个超级惊喜的功能——方言歌的创作！中国是一个拥有丰富方言文化的国家，各地的方言都有其独特的韵味和表达方式。通过提供「方言版」歌词，并使用具有方言特色的歌曲作为参照，「天工SkyMusic」就能生成出具有浓郁地方特色的音乐作品。

以用户生成的这两首四川rap和粤语情歌为例，不仅展示了方言歌曲的创作可能性，也体现了「天工SkyMusic」在中文领域的绝对优势。四川rap的热情和节奏感，粤语情歌的婉约和深情，都通「天工SkyMusic」得到了完美的复刻！

[全是爱四川版.MP4]

[剁椒鱼头.mp4]

经过实际上手后的深度体验，相信中外AI音乐生成大模型大PK的胜负，已经有了明确的答案。

事实上，根据官方数据，在人声和 BGM 音质、人声自然度、发音可懂度等几个指标上，「天工 SkyMusic 」的综合性能都超越「Suno V3」，成为最新音乐 AIGC 的 SOTA 模型，让中国的自研大模型技术第一次在 AIGC 领域领跑全球。

4000亿参数，国内音乐AIGC性能之王

「天工SkyMusic」的各方面能力都能秒杀国外音乐大模型，背后的技术底气来自哪里？

这要从多年前，昆仑万维的AI布局说起。2016年公司就收购了StarMaker，负责整个产品的研发及运维工作，并以此开展AI音乐的研究及布局。

今年2月，昆仑万维发布了天工2.0，已经远超行业水准，令人惊叹！如今，4月17发布的天工3.0可谓光速成长，其模型技术知识能力提升超过20%，数学、推理、代码、文创等能力提升超过30%，相当于是一个“文武双全”的博士！

在天工3.0推出前，市面上公认最厉害的大模型Grok-1参数为3140亿，天工3.0达到了惊人的4000亿！相当于这个“博士”的大脑储存了如此庞大的信息，并能以秒为单位进行处理。

天工3.0一经发布便成为全球最大的开源MoE大模型之一。在MMBench等多项权威多模态测评结果中，“天工3.0”的表现已经超过了GPT-4V，领跑全球，给人们带来全新颠覆式的人工智能体验。

「天工SkyMusic」便是基于“天工3.0”基座开源大模型，不仅实现全球领先，还做到了AI音乐生成领域的“全球首家公开技术架构”。

「天工SkyMusic」采用音乐音频领域类Sora模型架构，但为了得到更逼真、更专业的音乐效果，绕开了目前市面上主流的符号音乐生成技术路线，选择了一条对技术要求更高，资源投入更大的大模型技术路线。

在无数次研发实验算力算法投入下，「天工SkyMusic」成功攻克难关，探索出Encoder—DiT——Decoder的最佳方案。

正是在AI领域数年深耕，才能厚积薄发。「天工SkyMusic」的发布引爆音乐产业，让专业人士不再为高昂的音乐制作成本苦恼，让热爱音乐的普通人感受到音乐创作的乐趣，更是世界看到中国自研大模型在垂直领域的实力。

“AI会取代音乐人吗？”这类问题大家也不用再担心。未来，「天工SkyMusic」将成为中国音乐产业重要的创作工具之一，帮助音乐人创作更多精良作品，提高效率。昆仑万维也将持续优化、迭代产业，推动中国AI及音乐产业蓬勃发展。

标签: 音乐 AIGC 昆仑 SkyMusic 天工 AI

免责声明:凡本网站发布的文章、图片、音频、视频等内容所表述的观点和立场不代表本网站的观点和立场，若对该观点或立场有疑义或异议，请及时用电子邮件或电话通知我们，以迅速采取适当措施，避免给双方造成不必要的经济损失。凡本网站发布的所有文章、图片、音频、视频文件等资料的版权归版权所有人所有，本站采用的非本站原创文章及图片等内容无法一一和版权者联系，如果本网所选内容的文章作者及编辑认为其作品不宜上网供大家浏览，或不应无偿使用，请及时用电子邮件或电话通知我们，以迅速采取适当措施，避免给双方造成不必要的经济损失。