单帧风景照变延时摄影,分分钟搞定,还能有昼夜变化,这是来自日本的开源动画景观算法
边策 鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
潮起浪涌,拍击礁石。
你以为这是慢动作录制的自然片段?
非也。
只要一张静态风景照,几分钟之内,AI就能还原出这自然界的壮阔动态。
延时摄影,慢动作效果,一图即可复现。
画质是清晰的1080p,入门门槛却不高,仅需一个GPU和几百兆字节的预训练数据。
纪录片缺素材,后期制作太麻烦?有了这只AI就不怕了。
这项来自日本筑波大学的研究,登上计算机图形学顶会SIGGRARH Asia,预训练模型和代码均已开源(地址见文末)。
还原自然的云卷云舒
这只AI,专注于自然界云与水的律动。
△输出
△输入
天上云卷云舒,水面云的倒影也会随之移动。
不仅有空间移动,晨光暮色,亦能动态呈现。
△4倍速
像不像记录片里的片段?
不仅如此,天空云涌,水面潮起,在这场AI的魔术表演中,就像在自然界中一样两不相误。
与前辈作品相比,这样的表现完全是大师级别。
△上排为前辈作品,下排为新方法
难怪网友惊叹:这太美了!
原理
这一魔法的实现,需要以下相关的工作:光流预测、风格迁移、视频预测等。
光流是一种描述图像中各像素运动速度和方向的方法,根据物体相邻两帧的差异可以计算出图像的光流,同样也可以根据光流推测是视频下一秒可能的样子。
风格迁移通过感知损失的反向传播来优化输出图像,在保留源内容的前提下,改变图像的风格,而本文中,风格迁移的主要作用是对图像中变化部分的颜色进行更改。
去年有人提出了通过风格迁移方法实现图像的昼夜交替、四季更迭的转换。而输出视频的难度在于要实现这种变换的平滑性。
下图展示了视频合成的整个流程:给定输入图像和控制未来变化的潜在代码,运动预测器会生成将来的向后光流(backward flows)。
这些流使输入图像变形,合成添加了运动的图像,然后将它们转换为运动循环。
但是,仅仅让图片动起来还不够,由于延时摄影的特点是时间长,在这段时间里,天色还会变暗。
因此还要对整张图片的色调进行更改,不是简单的调个色,而是要让视频画面的颜色随着时间推进平滑地过渡。
这就是外观预测器负责的工作,它能够更改运动预测器生成图片的颜色,从而获得输出视频。
在一般的循环推理中,错误会在循环的输出帧中累积。而在这篇论文的运动预测中,这些光流在空间上是平滑的,因此对错误的敏感度较低。
此外,算法通过回溯到输入图像来重构每个预测帧,避免由于重复的颜色采样而导致RGB值的错误累积。
运动预测器
训练运动预测器的方法非常直接,最终目标就是让模型预测的光流场与真实光流场之间的差异最小化。
至于推理过程,首先从单个输入图像生成加入的运动帧,通过线性混合(linear blending)使其循环,然后对每个帧进行颜色转换。
在这个过程中反复使用预测帧作为下一个运动预测的输入帧,重复此过程获得多个帧。
但是自监督的环境中预测光流场是有挑战性的,因为这本质上是要找到两个具有较大自由度的连续帧之间的对应关系,这很容易陷入局部最优值中,从而产生不一致的流场。
为此,作者在预测和训练阶段都限制了输出光流场的范围,以一个常数除预测的光流场,限制它们的幅度范围。事实也证明了这种方法的有效性。
外观预测器
由于外观预测器是使用输入图像和每个训练视频中两帧之间任意帧来训练的,因此需要一个潜在代码来控制每个帧的外观。
最终,颜色迁移图通过输入图像和控制的潜在编码来共同计算完成。这种方法避免了反复直接从输入图像预测导致随时间变化的色彩。
日本团队
论文的第一作者,是日本筑波大学计算机几何与图形实验室(CGG)的副教授远藤裕纪(Yuki Endo)。
另外两位合作者,分别是同实验室的金森佳宏(Yoshihiro Kanamori)副教授,和丰桥技术科技大学的栗山繁( Kuriyama Shigeru)教授。
传送门
PyTorch代码:https://github.com/endo-yuki-t/Animating-Landscape
项目地址:http://www.cgg.cs.tsukuba.ac.jp/~endo/projects/AnimatingLandscape/
论文地址:https://arxiv.org/abs/1910.07192
— 完 —
- 低成本机器人“皮肤”登上Nature子刊:实现三维力的自解耦,来自法国国家科学研究中心&香港大学2024-11-23
- OpenAI重夺竞技场第一,但这波靠的是4o2024-11-21
- Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了2024-11-19
- 0元起步打造你的AI搜索!实测秘塔知识库新功能,竟能指导我升职加薪了2024-11-11