现在AI作曲,写出来的歌可以作为短视频的BGM

日期:2023-10-17 14:26:18 / 人气:237

“毋庸置疑,AI的出现让很多行业面临技术革新,音乐圈也不例外。
不仅仅是人声模拟,在音乐创作上,AI也下足了功夫,各种文字生成的音乐模型层出不穷:
比如OpenAI的MuseNet,Google的MusicLM,Meta的MusicGen,还有前不久刚从Stability AI家族出来的Stable Audio等等。
这些只是一些相对来说比较另类的AI音乐模型,其他不知名的都下海了。
生成音乐的AI模型那么多,他们的主旨就是让音乐的外行作曲,只要他会打字,会描述就行。
说到这里,对乐理一知半解的史超真的很兴奋。我不会作曲,但文字描述是我们的擅长领域。
于是,我们决定亲自尝试一下目前市面上几个出圈的AI作曲模型,看看它们能不能从零开始作曲,写出来的曲子好不好。
首先出场的是Stability AI的新作曲AI :Stable Audio。
官方表示,超过80万个音频文件用于训练模型,包括音乐、音效、单乐器演奏等。整个数据集的总时间加起来超过19500小时。
而且仅通过语言描述,AI就能生成长达90秒的音乐。
司盘也是贼,史超去了。官网听了以下例子,包括钢琴和架子鼓,都是纯器乐。
也有不同的流派和风格,比如民族打击乐,嘻哈,重金属。
它甚至可以产生白噪声,就像餐馆里嘈杂的噪音。u1s1听起来挺现实的。
人们在繁忙的餐馆里聊天,差评,45秒。
当然,官方公布肯定是一个很好的示范。到底怎么用,还是得自己去尝试。
所以我们也注册了号,看看我能通过这种模式创作出什么样的音乐。
由于它刚刚发布,史超花了很长时间才进入稳定音频的网页。
进去之后,让它生成一段30秒的低音独奏,112拍,放克一下,有点节奏。
生成过程大约花了一两分钟,史超听了结果,但有点出乎意料。那是在弹低音,音乐风格相当准确,唯一的缺陷就是低音的音色不清晰,像是指法和拍子之间的中间状态。
接下来,难度稍微大一点,乐器稍微复杂一点。让它生成一首朗朗上口的流行舞曲,中间是热带打击乐。要有欢快的节奏,适合在沙滩上听。
这一次,稳定音频犯了一点小错误。虽然节奏挺欢快的,也适合在沙滩上跳,但是这30s里我听不出提示里的热带打击乐。
让它生成一段摇滚乐,几分钟就搞定了。虽然听起来还是不太清楚,但是摇滚乐、电吉他、架子鼓还是能听出来的。
总体体验,在音乐代,Stable Audio的表现真的没什么问题,偶尔也会有一些意想不到的表现。
至少对于一些想在短视频中插入背景音乐的创作者来说,这是完全够用的。
而这一次,稳定音频也在时长上做了一点努力。普通版可以在45秒内产生音频。如果想更久,可以升级一个PRO版本,可以连续产生90秒。
接下来,第二位参赛者:Meta AI的MusicGen,它基于Transformer架构,依靠音频预测生成的一段音频。
现在MusicGen只放出了Demo,可以在huggingface上体验一波。
比如生成一段嘻哈音乐,听起来很朗朗上口,节奏也相当干净。
与稳定音频不同的是,MusiacGen在生成音乐时,提示词会更加自由,不仅有文字选项,还有一些声音文件。
操作很简单。输入提示词,然后把你要参考的音乐片段直接拖到文件盒里,或者现场录制。当然,音频提示可以留空。
虽然MusiacGen一次只能生成30秒的音频,但如果加上音频提示,生成一段较长的音频也不是不可以,不然会有点麻烦。
每次只要生成30s的音频,前后截取10s的音频作为提示,最后就是一个长音频。
但是在整个体验过程中,有一点真的会让一大波人望而却步,那就是它的生成速度太慢了,三四分钟还不错,而且离谱的是有时候等了几分钟,突然弹出一个弹窗。。。
今年年初,谷歌还发布了音乐大模型MusicLM。在现有的AI作曲者中,Google的功能最多。
除了最基本的生成音乐的词,MusicLM还做了一些其他的招数。
比如故事模式可以让它生成一段1分钟长的音乐:冥想0~15s,醒来16~30s,奔跑31~45s,结束46~60s。
生成的音频听起来确实中规中矩,但还是老毛病,乐器声音不够清晰,段落间转换有点生硬。
还有看图配音乐的功能,给一张拿破仑骑马翻越阿尔卑斯山的经典图片,然后对图片进行描述,MusicLM可以生成30 s的音乐。
这次听起来真的有点戏剧性。
MusicLM也没有向公众公布。想要体验,只能在AI测试厨房上排队,获得内测资格。
OpenAI的MuseNet是三年前在官网发表的。
然而,它近年来没有更新,它仍然基于与GPT-2相同的技术。而且三年过去了,这个AI还没有对外开放。
但是看看吧,官网对MuseNet的介绍和给出的例子,估计上面的模式是存在的。
先不说生成的音乐质量如何,光是时长就已经很高了,最多能生成4分钟的音乐。
与上面提到的模型相比,生成的音乐的质感也是秒/分。史超从官网下载了一个例子,大家可以一起听听。
且不说是艾创作的,我真的会以为是那个音乐大师创作的新曲子,有引子,有高潮,乐器的声音很清晰。经过简单的调整,这将是一个完整的音乐作品。
当然,除了神经网络的贡献外,训练数据集也对这一效果起到了关键作用。
OpenAI已经使用了数十万个MIDI文件来训练MuseNet。下图是数据集的一部分,从肖邦、巴赫、莫扎特到迈克尔杰克逊、披头士、麦当娜,从古典到摇滚、流行,几乎各种音乐都能在里面找到。
不仅在国外,在国内,AI音乐这几年发展也很快。在去年的华为开发者大会上,公布了一个音乐AI :Singer模型。网易云针对音乐人推出网易尹田,作词、作曲、编曲都可以直接由AI解决。
在前不久的2023世界人工智能大会上,腾讯多媒体实验室也展示了自主研发的AI通用作曲框架XMusic。
总的来说,这些AI作曲模型各有千秋,基本都能生成想要的音乐风格。甚至有时候生成的音乐不经过仔细考虑无法被AI识别,在一些短视频中也可以适当使用。“迷惑”过去。
但是,如果要从专业的角度来看,恐怕以上所有的ai都或多或少存在一些不足。最明显的就是上面提到的ai,它们产生的音乐在乐器表现上几乎不清晰。
而且和AI绘画一样,AI音乐也是版权问题的一大重灾区。由于相关法律跟不上AI发展的速度,AI侵权诉讼时有发生。
例如,今年1月,美国唱片业协会向政府提交了侵权报告,提醒他们注意AI音乐的侵权行为。
就连MusicLM的研究人员也亲口承认了侵权的问题,并在论文中写道,存在盗用创作内容的潜在风险。
原因是在测试这个模型的过程中,发现它生成的音乐有1%左右是直接从训练数据集复制过来的。
难怪大部分音乐AI模型根本不试用,或者只是demo或者排队内测。即使是对外开放的稳定音频,也反复强调其数据集是由AudioSparx授权的。
抛开版权问题,目前AI在音乐领域的发展确实令人咋舌,拥抱AI音乐已经成为行业大势所趋。
专门提供轻音乐的AI音乐公司Endel获得了华纳、索尼等音乐巨头的投资,AI音乐创作平台Soundful也获得了环球音乐、迪士尼和微软的投资。
当然,AI音乐的到来是出于商业和技术趋势的考虑。在音乐性和艺术性上,现在的AI还远不及人类创作者,这也是未来AI最优先考虑的。"

作者:蓝狮娱乐




现在致电 5243865 OR 查看更多联系方式 →

蓝狮娱乐 版权所有