ICLR19论文：口哨声变交响乐，神经网络一键改变音乐风格 | 开源

安妮 2019-05-09 13:18:37 来源：量子位

铜灵发自凹非寺

量子位出品 | 公众号 QbitAI

Facebook新开源的炫酷AI项目，能给音符“变装”。

它将海顿的弦乐四重奏转换成巴赫的大合唱、贝多芬的钢琴曲。让经典的吉他演奏，摇身一变成了优雅的莫扎特交响乐。

甚至连你随口哼唱的口哨，经过AI的加工和改造，都能变成莫扎特的交响乐。

这就是音乐界的P音大师么。

目前，这个项目的论文已被ICLR19接收，还获得了图灵奖得主、深度学习大牛Yann LeCun的转推，推特上已经近600赞。

这下，谁还能说你没有音乐天赋？

口哨变音乐的秘密

在论文A Universal Music Translation Network中，FaceBook AI研究院的四位研究人员详细介绍了背后的原理。

让音乐转变风格，甚至将口哨变成交响乐的秘密，都藏在一个通用的音乐转换网络里了。

这是一种横跨乐器、流派和风格的音乐转换方法，在多域Wavenet自编码器的基础上改造而来。这是此前谷歌研究出的一种原始音频波形生成模型，波形生成速度快，并且效果逼真。

除了借助了Wavenet的架构，这个通用转换网络还具有一个共享编码器和进行端到端波形训练的解缠潜空间（disentangled latent space）。

△ FaceBook通用音乐转换模型架构

这个编码器是一个全卷积网络，它由三个块组成，每个块包含10个残差层，可应用到任意序列长度。

其次，每个残差层均包含一个随着核心尺寸增加而增加的扩张卷积、一个非线性单元RELU，还有一个1×1 卷积，固定宽度为128个通道。

通过部署多样的训练数据集和大型网络的容量，独立域的编码器支持将音乐转换成训练过程中未曾见过的音乐域。这种无监督学习方法，不依赖于域或者是音乐的转录间匹配过样本的监督。

研究人员用此前DeepMind发布的声音合成器NSynth和从人类专业音乐家演奏的数据集上的数据评估这种方法。

研究人员记录了改编过音频的MOS分数（平均评价计分），结果显示，模型显示的音频质量略低于人类演奏的音频质量。

随后，研究人员评估了不同条件下人类演奏音乐与模型生成音乐间的归一化相关性。

结果显示，AI生成的音乐高于了人类的得分。

传送门

论文：

https://arxiv.org/abs/1805.07848

开源地址：

https://github.com/facebookresearch/music-translation

Facebook官方博客：

https://research.fb.com/publications/a-universal-music-translation-network/

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

人工智能神经网络

安妮

ICLR19论文：口哨声变交响乐，神经网络一键改变音乐风格 | 开源

相关阅读

居家办公竟被读取脑电波？老板们为远程监控想出奇招

让AI学会“哦买尬，买它！”，清北中科院CMU争相角逐顶会Workshop竞赛，淘系技术&浙大联手举办

Batch大小不一定是2的n次幂！ML资深学者最新结论

手机玩游戏大作难在哪？硬件性能要加码，高能效AI同样关键

生物学50年难题被DeepMind解决了，蛋白质版“阿法狗”预测结构准确性达92.4

把毛选和鲁迅全集喂给AI后，写出来的高考作文太对味了

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此