内容简介:潮起浪涌,拍击礁石。你以为这是慢动作录制的自然片段?
边策 鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
潮起浪涌,拍击礁石。
你以为这是慢动作录制的自然片段?
非也。
只要一张 静态 风景照,几分钟之内,AI就能还原出这自然界的壮阔动态。
延时摄影,慢动作效果,一图即可复现。
画质是清晰的1080p,入门门槛却不高,仅需一个GPU和几百兆字节的预训练数据。
纪录片缺素材,后期制作太麻烦?有了这只AI就不怕了。
这项来自日本筑波大学的研究,登上计算机图形学顶会SIGGRARH Asia,预训练模型和代码均已开源 (地址见文末) 。
还原自然的云卷云舒
这只AI,专注于自然界云与水的律动。
△ 输出
△ 输入
天上云卷云舒,水面云的倒影也会随之移动。
不仅有空间移动,晨光暮色,亦能动态呈现。
△ 4倍速
像不像记录片里的片段?
不仅如此,天空云涌,水面潮起,在这场AI的魔术表演中,就像在自然界中一样两不相误。
与前辈作品相比,这样的表现完全是大师级别。
△ 上排为前辈作品,下排为新方法
难怪网友惊叹:这太美了!
原理
这一魔法的实现,需要以下相关的工作:光流预测、风格迁移、视频预测等。
光流是一种描述图像中各像素运动速度和方向的方法,根据物体相邻两帧的差异可以计算出图像的光流,同样也可以根据光流推测是视频下一秒可能的样子。
风格迁移通过感知损失的反向传播来优化输出图像,在保留源内容的前提下,改变图像的风格,而本文中,风格迁移的主要作用是对图像中变化部分的颜色进行更改。
去年有人提出了通过风格迁移方法实现图像的昼夜交替、四季更迭的转换。而输出视频的难度在于要实现这种变换的平滑性。
下图展示了视频合成的整个流程:给定输入图像和控制未来变化的潜在代码, 运动预测器 会生成将来的向后光流(backward flows)。
这些流使输入图像变形,合成添加了运动的图像,然后将它们转换为运动循环。
但是,仅仅让图片动起来还不够,由于延时摄影的特点是时间长,在这段时间里,天色还会变暗。
因此还要对整张图片的色调进行更改,不是简单的调个色,而是要让视频画面的颜色随着时间推进平滑地过渡。
这就是 外观预测器 负责的工作,它能够更改运动预测器生成图片的颜色,从而获得输出视频。
在一般的循环推理中,错误会在循环的输出帧中累积。而在这篇论文的运动预测中,这些光流在空间上是平滑的,因此对错误的敏感度较低。
此外,算法通过回溯到输入图像来重构每个预测帧,避免由于重复的颜色采样而导致RGB值的错误累积。
运动预测器
训练运动预测器的方法非常直接,最终目标就是让模型预测的光流场与真实光流场之间的差异最小化。
至于推理过程,首先从单个输入图像生成加入的运动帧,通过线性混合(linear blending)使其循环,然后对每个帧进行颜色转换。
在这个过程中反复使用预测帧作为下一个运动预测的输入帧,重复此过程获得多个帧。
但是自监督的环境中预测光流场是有挑战性的,因为这本质上是要找到两个具有较大自由度的连续帧之间的对应关系,这很容易陷入局部最优值中,从而产生不一致的流场。
为此,作者在预测和训练阶段都限制了输出光流场的范围,以一个常数除预测的光流场,限制它们的幅度范围。事实也证明了这种方法的有效性。
外观预测器
由于外观预测器是使用输入图像和每个训练视频中两帧之间任意帧来训练的,因此需要一个潜在代码来控制每个帧的外观。
最终,颜色迁移图通过输入图像和控制的潜在编码来共同计算完成。这种方法避免了反复直接从输入图像预测导致随时间变化的色彩。
日本团队
论文的第一作者,是日本筑波大学计算机几何与图形实验室(CGG)的副教授远藤裕纪(Yuki Endo)。
另外两位合作者,分别是同实验室的金森佳宏(Yoshihiro Kanamori)副教授,和丰桥技术科技大学的栗山繁( Kuriyama Shigeru)教授。
传送门
PyTorch代码:
https://github.com/endo-yuki-t/Animating-Landscape
项目地址:
http://www.cgg.cs.tsukuba.ac.jp/~endo/projects/AnimatingLandscape/
论文地址:
https://arxiv.org/abs/1910.07192
作者系网易新闻·网易号“各有态度”签约作者
— 完 —
如何关注、学习、用好人工智能?
每个工作日, 量子位 AI内参 精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。
同时,AI内参群为大家提供了交流和分享的平台,更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅:
了解AI发展现状,抓住行业发展机遇
AI社群 | 与优秀的人交流
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 学会Python+Selenium,分分钟搭建Web自动化框架!
- SpringBoot系列(八)分分钟学会Springboot多种解决跨域方式
- IBM 警告,量子计算机可分分钟破解现有的加密技术
- 神奇!零基础分分钟玩转AI,华为云ModelArts全体验
- 优步大数据平台处理100多PB数据却只有分分钟延迟!
- 人人都是女装大佬??Snapchat的性别交换滤镜分分钟会被玩坏!
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
编程语言实现模式
Terence Parr / 李袁奎、尧飘海 / 华中科技大学出版社 / 2012-3-20 / 72.00元
《编程语言实现模式》旨在传授开发语言应用(工具)的经验和理念,帮助读者构建自己的语言应用。这里的语言应用并非特指用编译器或解释器实现编程语言,而是泛指任何处理、分析、翻译输入文件的程序,比如配置文件读取器、数据读取器、模型驱动的代码生成器、源码到源码的翻译器、源码分析工具、解释器,以及诸如此类的工具。为此,作者举例讲解已有语言应用的工作机制,拆解、归纳出31种易于理解且常用的设计模式(每种都包括通......一起来看看 《编程语言实现模式》 这本书的介绍吧!