谷歌的新人工智能将文本转化为音乐

430 [ 互联网 ]

谷歌研究人员制造了一种人工智能,它可以从文本提示中生成分钟长的音乐片段,甚至可以将吹口哨或哼唱的旋律转换成其他乐器,类似于DALL-E这样的系统如何从书面提示中生成图像(通过TechCrunch)。该模型名为MusicLM,虽然你不能自己玩,但该公司已经上传了一系列使用该模型制作的样本。

这些例子令人印象深刻。这里有30秒的片段,这些片段听起来像是从一段长的描述中创作出来的真实歌曲,这些描述规定了一种流派、氛围,甚至是特定的乐器,还有从一两个词(如“旋律techno”)中产生的五分钟长的片段。也许我最喜欢的是“故事模式”的演示,其中模型基本上被赋予了一个脚本,可以在提示之间转换。例如,此提示:

产生了你可以在这里收听的音频。

它可能不适合每个人,但我完全可以看到这是由一个人创作的(在写这篇文章时,我也在循环中听了几十次)。演示网站上还展示了该模型在被要求生成10秒的大提琴或马拉卡斯等乐器片段(后一个例子是系统性能相对较差的例子)、8秒的特定类型的片段、适合越狱的音乐,甚至初级钢琴演奏者与高级钢琴演奏者的声音。它还包括对“未来俱乐部”和“手风琴死亡金属”等短语的解释

MusicLM甚至可以模拟人类的声音,虽然它似乎能正确地调整声音的音调和整体声音,但它们的质量肯定是不好的。我可以用最好的方式来描述它,就是它们听起来颗粒或静止。这种质量在上面的例子中并不清楚,但我认为这个例子很好地说明了这一点。

顺便说一下,这是要求它制作可以在健身房播放的音乐的结果。你可能也注意到歌词是无稽之谈,但如果你不注意的话,你可能不一定能听懂——有点像你在听某人用Simlish唱歌,或者听一首听起来像英语的歌,但不是。

我不会假装知道谷歌是如何取得这些成果的,但它发布了一篇研究论文,如果你是那种能够理解这一数字的人,会对此进行详细解释:

人工智能生成的音乐有着悠久的历史,可以追溯到几十年前;有一些系统被誉为创作流行歌曲、比90年代的人类更好地模仿巴赫,以及伴随现场表演。最近的一个版本使用AI图像生成引擎StableDiffusion将文本提示转换为声谱图,然后将其转换为音乐。这篇论文说,MusicLM在“质量和对字幕的坚持”方面,以及它可以接收音频和复制旋律这一事实上,可以优于其他系统。

最后一部分也许是研究人员最酷的演示之一。该网站允许您播放输入音频,在那里有人哼哼或吹口哨,然后让您听到模型如何将其作为电子合成器、弦乐四重奏、吉他独奏等进行再现。

与其他进军这类人工智能的尝试一样,谷歌对MusicLM的态度明显比其他同行对类似技术的态度更为谨慎。该论文总结道,“我们目前没有发布模型的计划”,并列举了“潜在的盗用创意内容”(即抄袭)和潜在的文化挪用或虚假陈述的风险。

这项技术总是有可能在某个时候出现在谷歌的一个有趣的音乐实验中,但目前,唯一能够利用这项研究的人是其他构建音乐AI系统的人。谷歌表示,它将公开发布一个包含约5500个音乐文本对的数据集,这将有助于培训和评估其他音乐AI。