内容简介:Facebook新开源的炫酷AI项目,能给音符“变装”。它将海顿的弦乐四重奏转换成巴赫的大合唱、贝多芬的钢琴曲。让经典的吉他演奏,摇身一变成了优雅的莫扎特交响乐。甚至连你随口哼唱的口哨,经过AI的加工和改造,都能变成莫扎特的交响乐:
铜灵 发自 凹非寺
量子位 出品 | 公众号 QbitAI
Facebook新开源的炫酷AI项目,能给音符“变装”。
它将海顿的弦乐四重奏转换成巴赫的大合唱、贝多芬的钢琴曲。让经典的吉他演奏,摇身一变成了优雅的莫扎特交响乐。
甚至连你随口哼唱的口哨,经过AI的加工和改造,都能变成莫扎特的交响乐:
△ 想听口哨变身交响乐的,可拖拽至1分45秒附近
这就是音乐界的P音大师么。
目前,这个项目的论文已被ICLR19接收,还获得了图灵奖得主、深度学习大牛Yann LeCun的转推,推特上已经近600赞。
这下,谁还能说你没有音乐天赋?
口哨变音乐的秘密
在论文A Universal Music Translation Network中,FaceBook AI研究院的四位研究人员详细介绍了背后的原理。
让音乐转变风格,甚至将口哨变成交响乐的秘密,都藏在一个通用的音乐转换网络里了。
这是一种横跨乐器、流派和风格的音乐转换方法,在多域Wavenet自编码器的基础上改造而来。这是此前谷歌研究出的一种原始音频波形生成模型,波形生成速度快,并且效果逼真。
除了借助了Wavenet的架构,这个通用转换网络还具有一个共享编码器和进行端到端波形训练的解缠潜空间(disentangled latent space)。
△ FaceBook通用音乐转换模型架构
这个编码器是一个全卷积网络,它由三个块组成,每个块包含10个残差层,可应用到任意序列长度。
其次,每个残差层均包含一个随着核心尺寸增加而增加的扩张卷积、一个非线性单元RELU,还有一个1×1 卷积,固定宽度为128个通道。
通过部署多样的训练数据集和大型网络的容量,独立域的编码器支持将音乐转换成训练过程中未曾见过的音乐域。这种无监督学习方法,不依赖于域或者是音乐的转录间匹配过样本的监督。
研究人员用此前DeepMind发布的声音合成器NSynth和从人类专业音乐家演奏的数据集上的数据评估这种方法。
研究人员记录了改编过音频的MOS分数(平均评价计分),结果显示,模型显示的音频质量略低于人类演奏的音频质量。
随后,研究人员评估了不同条件下人类演奏音乐与模型生成音乐间的归一化相关性。
结果显示,AI生成的音乐高于了人类的得分。
传送门
论文:
https://arxiv.org/abs/1805.07848
开源地址:
https://github.com/facebookresearch/music-translation
Facebook官方博客:
https://research.fb.com/publications/a-universal-music-translation-network/
— 完 —
小程序|get更多AI学习干货
加入社群
量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;
欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 神经网络 – 序列预测LSTM神经网络落后
- 神经网络历史以及浅析神经网络与感知机
- 【神经网络】11行Python代码实现的神经网络
- 常见的五种神经网络(三):循环神经网络(上篇)
- 常见的五种神经网络(三):循环神经网络(中篇)
- 聊聊从脑神经到神经网络
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。