让莫扎特“续写”披头士的音乐，OpenAI的新AI作曲能力强丨Demo可玩

安妮

郭一璞 2019-04-26 15:42:34 来源：量子位

安妮郭一璞假装发自旧金山

量子位报道 | 公众号 QbitAI

热爱打游戏的OpenAI，正式涉足音乐圈了。

它们今天发布了新AI，名叫MuseNet，利用无监督学习的方法，可以用10种不同的乐器来制作时长4分钟的音乐。

注意，不是10种不同的乐器自顾自的演奏，而是多声部合奏，放一起听起来毫无违和感。

还可以驾驭各种曲风，从莫扎特、贝多芬，到爵士乐、乡村音乐，还有披头士、Lady Gaga的曲风。

甚至，MuseNet能让莫扎特“续写”Lady Gaga的歌，让肖邦“续写”Adele的歌。

现在，你可以点开下面的音频，听着AI创作的音乐读下去了。

有Demo，不懂音乐和代码也能玩

在MuseNet的网站上，有一个Demo可以让你亲自选定音乐风格，合成你想要的曲子。

只要做三步：

1、选择你想听哪位音乐家的风格：

比如我们选莫扎特。

2、选择开始的旋律：

这里如果选NONE（START FROM SCRATCH），AI就会看心情，随便给你来一段莫扎特风格的曲子；

如果选了其他几首歌，比如Lady Gaga的Poker Face，就相当于命题作文，用莫扎特的风格续写Poker Face。

3、点下面的→，让它生成音乐：

这里，黑色背景上紫色横条的图样是曲谱，箭头左边这一块谱子是Poker Face原有开头部分的音乐，注意没有词，只是前奏，大概只有一两个小节，图上一根小横条就是一个音符，位置高地表示它们的高低音。

点箭头之后，右边的这一长串才是AI生成的音乐。

点击PLAY FROM START就可以播放了，你可以听到平静的前奏进行完后，突然开始了复杂的和弦，已然从Lady Gaga的夸张曲风平滑的跳转到莫扎特古典优雅的音乐风格。

你可以点下面的视频来试听：

如果你按住曲谱拖拽，就可以看到后面因为屏幕不够宽而被隐藏的部分曲谱。

甚至有时候还会发现其他颜色的的音符，这里是加入了另外的音色。

比如这里，原有的紫色是钢琴的声音，新增的橙色，是的小提琴的声音。

一共生成了4个版本的曲子，可以点曲谱下面Completion 1 of 4左侧的左右箭头来切换。

然鹅，其实这里的曲子是OpenAI提前写好的，是打好的小抄。

如果你想要听现场freestyle，点曲谱上方的SHOW ADVANCED SETTINGS，有更多的音乐风格和开头音乐可以选择，还能设定一种或者几种乐器的音色，选定TOKENS来生成不同长度的音乐，就可以听AI现场发挥的版本了。

可以试试让披头士乐队“续写”《哈利波特》的BGM然后用钢琴弹出来，或者用贝多芬的风格续写Let It Go然后用吉他演奏。

当然，这个Demo还不太完美，比如你选择钢琴、吉他还是鼓的音色，生成的曲子听起来音色都差不多，OpenAI说这版Demo会存活到5月12号，后面会有一个迭代的版本。

逆天模型GPT-2

创作型选手MuseNet背后是一套强大的支持技术，与GTP-2通用无监督学习技术相同。

几个月前，GTP-2生成的假新闻和编造的故事甚至以假乱真，还能完成阅读理解、常识推理、文字预测、文章总结等多种任务。

作为一个没有经过任何领域数据专门训练的模型，它的表现比那些专为特定领域打造的模型还要好，一经问世就获得了Hinton等大牛的强推和关注。

△ GPT-2在不同语言建模任务上的测试结果

简单来说，GPT-2就是基于Transformer架构的大规模模型。

GPT-2是GPT算法“进化版”，比GPT参数扩大10倍，达到了15亿个，数据量扩大10倍，使用了包含800万个网页的数据集，共有40GB。

这个庞大的算法使用语言建模作为训练信号，以无监督的方式在大型数据集上训练一个Transformer，然后在更小的监督数据集上微调这个模型，以帮助它解决特定任务。

上图左部分，是研究中使用的Transformer架构以及训练目标。右边部分，是针对特定任务进行微调。

将所有结构化输入转换为token序列，由预训练模型处理，然后经过线性+softmax层处理。

就GPT-2而言，它的训练目标很简单：根据所有给定文本中前面的单词或音符，预测下一个单词。现在，MuseNet在此基础上进行改进，也能预测音符了。

72层网络

了解了MuseNet的底层架构，现在来看它的整套音乐加工流水线。

首先，研究人员为音乐家和乐器分别创建了token，模型用这些token进行训练预测下一个音符是什么，更好地控制MuseNet生成的示例的种类。

随后，研究人员为MuseNet中嵌入了可视化信息，让模型理解所学习到音乐家与乐器的风格间互相的关联性。

看似气质毫不相同的音乐，其实也有相似的元素在里面。研究人员用t-SNE创建了2D风格信息图中，更形象地说明了这一点：

以贝多芬的风格为例，它的乐曲中包含了部分莫扎特元素、海顿元素、柴可夫斯基元素和门德尔松元素。

而莫扎特则多了克莱门蒂元素：

这样一张关系图中，AI摸清了每个音乐家风格的门道。

最后，该神经网络出马了。MuseNet计算和优化了稀疏Transformer，训练了72层的多头（核心数=24）注意神经网络，内含共有4096个token，让生成音乐的时长可达到4分钟。

就这样，一只MuseNet，就能同时驾驭多位音乐大家的风格，Lady Gaga和莫扎特的“混搭风”，来了解一下？

传送门

研究人员表示，到五月中旬，代码和预训练模型也将放出。

OpenAI博客地址（内附Demo）：

https://openai.com/blog/musenet/

GPT-2官方介绍：

https://openai.com/blog/better-language-models/

安妮

让莫扎特“续写”披头士的音乐，OpenAI的新AI作曲能力强丨Demo可玩

相关阅读

GPT-4o引发OpenAI组织创新热议！重任应届生本科生，职级都是浮云

OpenAI图像检测工具曝光，CTO：AI生成的99%都能认出

ChatGPT开学大礼包：官方教师使用指南正式上线

200字带你看完一本书，GPT-3已经会给长篇小说写摘要了

抱抱脸Open了OpenAI的秘密武器，网易参与复现

抱抱脸正面挑战OpenAI，推出开源版GPT商店！完全免费、支持六大开源模型当底座

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此