ICLR19论文:口哨声变交响乐,神经网络一键改变音乐风格 | 开源
铜灵 发自 凹非寺
量子位 出品 | 公众号 QbitAI
Facebook新开源的炫酷AI项目,能给音符“变装”。
它将海顿的弦乐四重奏转换成巴赫的大合唱、贝多芬的钢琴曲。让经典的吉他演奏,摇身一变成了优雅的莫扎特交响乐。
甚至连你随口哼唱的口哨,经过AI的加工和改造,都能变成莫扎特的交响乐。
这就是音乐界的P音大师么。
目前,这个项目的论文已被ICLR19接收,还获得了图灵奖得主、深度学习大牛Yann LeCun的转推,推特上已经近600赞。
这下,谁还能说你没有音乐天赋?
口哨变音乐的秘密
在论文A Universal Music Translation Network中,FaceBook AI研究院的四位研究人员详细介绍了背后的原理。
让音乐转变风格,甚至将口哨变成交响乐的秘密,都藏在一个通用的音乐转换网络里了。
这是一种横跨乐器、流派和风格的音乐转换方法,在多域Wavenet自编码器的基础上改造而来。这是此前谷歌研究出的一种原始音频波形生成模型,波形生成速度快,并且效果逼真。
除了借助了Wavenet的架构,这个通用转换网络还具有一个共享编码器和进行端到端波形训练的解缠潜空间(disentangled latent space)。
△ FaceBook通用音乐转换模型架构
这个编码器是一个全卷积网络,它由三个块组成,每个块包含10个残差层,可应用到任意序列长度。
其次,每个残差层均包含一个随着核心尺寸增加而增加的扩张卷积、一个非线性单元RELU,还有一个1×1 卷积,固定宽度为128个通道。
通过部署多样的训练数据集和大型网络的容量,独立域的编码器支持将音乐转换成训练过程中未曾见过的音乐域。这种无监督学习方法,不依赖于域或者是音乐的转录间匹配过样本的监督。
研究人员用此前DeepMind发布的声音合成器NSynth和从人类专业音乐家演奏的数据集上的数据评估这种方法。
研究人员记录了改编过音频的MOS分数(平均评价计分),结果显示,模型显示的音频质量略低于人类演奏的音频质量。
随后,研究人员评估了不同条件下人类演奏音乐与模型生成音乐间的归一化相关性。
结果显示,AI生成的音乐高于了人类的得分。
传送门
论文:
https://arxiv.org/abs/1805.07848
开源地址:
https://github.com/facebookresearch/music-translation
Facebook官方博客:
https://research.fb.com/publications/a-universal-music-translation-network/
— 完 —
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ’ᴗ’ ի 追踪AI技术和产品新动态
- 微软公布19财年财报:净利润增长22%,云计算首超个人计算业务2019-07-19
- 腾讯云推出物联网边缘计算平台,具备五大特点,想攻克物联网落地难题2019-08-28
- DeepMind医疗业务几经动荡,现在团队并入Google2019-09-20
- 首例基因编辑干细胞治疗艾滋病:北大邓宏魁参与,达最佳治疗效果2019-09-14