谷歌AI秀神技：大脸畸变一键还原，拍照无需抢C位，实时运行毫无PS痕迹

栗子 2019-06-24 13:03:19 来源：量子位

如果有了算法，拍出来脸还是大，就尴尬了。

栗子发自凹非寺

量子位报道 | 公众号 QbitAI

真令人脸大。

合照的时候，没有谁喜欢站在最边上。

因为脸会被镜头无情地拉扯，不止变得宽广，还会有些歪斜：

△ 97°视场角

不过，谷歌刚刚推出了一门法术，可以让广角照片里的人脸，不用再扭曲变形：

左一的妹子，右一的妹子，脸型都显得更加对称自然了。

那么，增加一波难度。

带上墨镜，带上帽子，拉长的脸依然可以复原：

△ 103°视场角

用手挡住半张脸，AI还是没有被迷惑：

△ 103°视场角

不止是这样，AI把人脸调正的同时，也不会扭曲了背景。

比如下图，中间是DxO Viewpoint的人脸修正，后面的栏杆被挤成了一条弧线；而右边是谷歌算法，修好了人脸，栏杆依然直挺：

团队说，整个修复过程都是AI自动完成，并且在移动端也可以运行。

这只善良又聪颖的AI，登上了顶会SIGGRAPH 2019。

也在Reddit论坛收获了1.9k的热度：

有人说，Pixel的广角前置镜头已经用上了这个算法，拍完之后点开照片预览，发现自己的脸已经收窄了。

现在就来看看，人物和背景，到底是怎样兼顾的吧。

互补才是完美

谷歌说，从前想要纠正镜头畸变，总是需要职业的修图士。

因为，让机器自动完成的话，常常是修好了一处扭曲，又制造了另一处新的扭曲。

不过，团队也正是从这些不完美的算法之间，发现了新世界的大门：

先看透视投影 (Perspective Projection) 。从一个投射中心出发，把一个3D物体投在2D表面上。忠于透视原理，近大远小。

这种投影一定有失真，比如站在边上的人，离投射中心比较远，脸就大了起来。不过，它拉伸的主要是人脸，背景并不容易发生扭曲。

而球极平面投影 (Stereographic Projection) 就不同了。把一个球面投射到平面上，并不忠实反映距离，却十分忠实地反映角度。就像这张地图。

这种投影也一定有失真，但对一张照片来说，主要是背景里的直线会变弯，而人脸不易被拉伸。

如此说来，两种投影愉快地互补了。

观察到这个美丽的现实，研究人员当然要把它们的优点，用优雅的方式结合起来。

一句话概括，就是让透视投影去处理背景，球极平面投影去处理局部 (人脸) 。

当然，要让两种原本冲突的投影方式和平共处，并不是一句话的事。具体说来：

△97°视场角

输入的照片如上，已经先用透视投影处理过。

第一步，找出目标区域：人脸，包括头发。

这里，要用人物分割算法，给输入图像里的人类做个Mask；再用人脸检测器，标出脸部的边界框。最后，把Mask和边界框的交集，用绿色标注出来。

第二步，为输入的 (透视投影) 照片，算出一个球极平面投影。

如果把这个投影可视化，会发现边角的人脸已经修好，只是背景里，左边的窗棱和右边的墙弯了 (下图) 。

所以就有了关键的下一步：

第三步，用上前两步的数据，算出一个网格 (Mesh) 。这个网格依然是做球极平面投影，但只要调整人脸区域，背景尽量保持原样。

为了不影响背景，这里用到了能量最小化 (Energy Minimization) 方法，来平息两种投影之间的冲突，促成更加平滑的过渡。

这样，就有了一个兼顾人脸和背景的、优化过的网格：

第四步，用这个网格来捏那张输入的照片，得到的就是最终答案：

右下角的人脸自然了，背景里的直线也还是直线。

团队说，这个方法可以胜任70°-120°的视场角。

并且，几乎不受场景的限制：

单人自拍可以，多人合照可以。

△ 103°视场角

△ 97°视场角

室内户外都表现稳定；光线明暗也不影响AI的发挥。

△ 114°视场角

除了开头提到的帽子、墨镜、手遮脸，这些没有难倒AI的因素之外，脸朝侧面也不会给算法造成困惑。

△ 103°视场角

还要注意的是，团队是为了移动端的应用，才开发了这只AI。它的运行速度，足以支持手机上相机App的正常交互：即时修图，即时分享。

如果说有什么缺憾，大概就是在捏脸的同时，还不能把身体一起捏好。

而人在角落，身体也可能被拉伸，如果只把脸修到正常的形状和大小，身体有时候就显得太大：

即便这样，AI也已经满足了广角人像拍摄的大部分需求。

大家一起自拍的时候，就算拿着手机的那个人是你，也不用再担心自己的脸被拉宽拉长了。

三个少年

AI的爸爸，三位谷歌少年，全部来自宝岛。

一作名叫施易昌 (YiChang Shih) ，本科念台大，硕博都在麻省理工，实习经历遍布Adobe、谷歌研究院、微软研究院等等。

2015年，从闪耀的CSAIL实验室拿到博士学位，如今已是谷歌的高级软件工程师 (Senior Software Engineer) ，主攻移动设备上的计算摄影。

二作是赖威昇 (Wei-Sheng Lai) ，本科硕士都在台大，现在是加州大学默塞德分校博四的学生。曾经在Adobe和英伟达实习，不久前刚刚结束在谷歌作为学生研究员的历程。

三作叫梁家恺 (Chia-Kai Liang) ，本科和博士都在台大。2008年博士毕业，现在是谷歌的高级专家软件工程师 (Senior Staff Software Engineer) 。

One More Thing

虽然，三位作者里有两位都曾经在Adobe实习。

但这支团队孕育的AI，画风温柔善解人意。

比起一周前Adobe发布的“反向PS”利器，那只能把P过的美照打回原形的AI (如下) ，这广角人像的修复师AI，大概算得上爱的奉献了。

论文传送门：

https://people.csail.mit.edu/yichangshih/wide_angle_portrait/shih_sig19_lowres.pdf

项目主页：

https://people.csail.mit.edu/yichangshih/wide_angle_portrait/

包含网格的效果展示：

https://people.csail.mit.edu/yichangshih/wide_angle_portrait/webpage/main-results/index.html

与前人算法比较：

https://people.csail.mit.edu/yichangshih/wide_angle_portrait/webpage/academic-results/index.html

与市面产品比较：

https://people.csail.mit.edu/yichangshih/wide_angle_portrait/webpage/manual-results/index.html

— 完 —

人工智能机器学习谷歌

栗子

马云正式卸任后，阿里巴巴开盘跌0.87%2019-09-10
AI独角兽云知声，已完成一期科创板IPO辅导2019-10-17
亚马逊在华拓展云计算团队，挑战阿里巴巴和腾讯2019-10-16
IDC：今年上半年中国公有云服务市场规模达54.2亿美元2019-11-07

谷歌AI秀神技：大脸畸变一键还原，拍照无需抢C位，实时运行毫无PS痕迹

互补才是完美

三个少年

One More Thing

相关阅读

科学家用ML证明120年前争议理论：精神分裂与痴呆症存在相似之处

用AI把自己画进动漫里，3天揽获150万+播放量，职业动画师：有被吓到

欧盟针对美国科技巨头列「清单」打压：苹果谷歌在列，防垄断还要求共享数据

GitHub热榜第一：小姐姐自拍，变成二次元萌妹，效果远胜CycleGAN

谷歌创始人亲自救场Gemini现身黑客聚会，投资人逼宫CEO劈柴下台

2020中国人工智能年度评选开启，4大类别7大奖项申报正式启动

热门文章

AI应用突围，中小企业的新周期已至

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

阿里云造“Agent工厂”，百炼MCP服务上线，无需代码5分钟建Agent

倒计时1周！20余位行业大佬共话AI，中国AIGC产业峰会最全攻略在此