博士答辩人没来，导师还能赞不绝口！上海交大ACM校友实力演绎学以致用

晓查 2020-08-18 14:52:09 来源：量子位

把自己的博士论文答辩会变成了3D版

边策萧箫发自凹非寺
量子位报道 | 公众号 QbitAI

疫情之下，我们已经看惯了线上的一切：云毕业典礼、云学术会议、云发布会。

但这些“云”终究让人感觉没“内味”。

因为没有身后的PPT投影、手舞足蹈的演讲，终归都是没有灵魂的！

所以，上海交大ACM班校友、南加州大学在读博士黄锃用专业知识，给自己办了场特殊的博士论文答辩。

他只有一个摄像头，家里没有投影仪，却把自己的答辩会办得像在礼堂演讲一样。

演讲人从2D变成3D，卧室背后的白墙也变成自己展示论文PPT的幕布。

右上角就是真实的黄锃同学，他一边演讲，电脑实时把他变成3D模型投影到场景中，导师们看到这一幕不禁笑了，随手就是一个转发。

在黄锃同学的主页上，我们发现了他的学弟李瑞龙早就开始“整活”，验证了3D论文答辩的可行性。

现在黄锃同学的这项研究已经被ECCV 2020收录。

背后的技术

黄锃过去就一直从事3D图像重建的研究工作，去年他参与的一项研究PIFu（像素对齐隐式函数）可以从单张图片重建完全纹理的3D人体图像。

但是因为PIFu对硬件的要求很高，导致该技术并不能用于实时的图像重建。

为此，黄锃和团队里的李瑞龙、修宇亮等一起提出了一种新颖的分层表面定位算法，和一种无需显式提取表面网格的直接渲染方法。

通过从粗到细的方式选择不必要的区域进行评估，成功地将3D重建速度提高了两个数量级，同时没有降低质量。

结果证明，这种从单摄像头实时重建3D视频的方法，处理速度可达15fps，3D空间分辨率为2563。

为了减少实时3D重建所需的计算量，作者引入了两种新颖的加速技术：基于八叉树的鲁棒表面定位、无网格渲染。

由于算法流水线的主要瓶颈，是要在过多的3D位置上进行估计，因此，减少要估计的点数将大大提高性能。

八叉树是用于有效形状重构的通用数据表示，它可以分层减少存储数据的节点数量。

作者提出的这种表面定位算法，保留了原来靠蛮力重建的准确性，而且复杂度与基于朴素八叉树的重建算法相同。

此外，作者通过直接从PIFu生成的视图渲染，来绕过显式网格重建阶段。下图展示了无网格渲染算法的原理，虚线和实线分别表示真实表面和重建表面。

结合这两种算法，可以实时从任意角度快速渲染3D图像。

该算法还面临一个问题，那就是有些特殊的姿势和视角很难恢复，因为它们只在训练数据集中占据很小的一部分。

一般的方法是进行数据扩展，但是对于这种3D数据来作扩增是很困难的。

然而，之前的研究证明，改变数据采样分布会直接影响重建的质量，于是作者找到了一种解决训练数据偏差的方法OHEM。

其关键思想，是让网络自动发现困难的样本，自适应地更改采样概率。

最后，作者的方法在没有任何超参数的情况下实现了最快加速，在保持原始重建精度的同时，处理速度从30秒减少到0.14秒。

与无网格渲染技术相结合后，处理一帧图像的时间只需0.06秒。系统的总体延迟平均为0.25秒。

这种方法不需要搭建搭建具有多个视角摄像头的工作室，让普通人也能用上实时的3D演讲视频。

作者指出，本文的主要贡献点在于：

1、从单眼视频中实时生成3D全身视频，可以在各种姿势和服装类型下构造出完全纹理的衣服，而不受拓扑约束。

2、提出一种渐进式表面定位算法，可使表面重建比基线快两个数量级，而且不会影响重建精度，在速度和正确性之间做了很好的取舍。

3、提出无需明确提取表面网格即可直接用于视图合成的渲染技术，进一步提高了整体性能。

4、提出一种有效的训练技术，可解决合成生成的训练数据不平衡问题。

和全息投影相比？

乍一看投影效果，是不是想到了马云今年在人工智能大会上，利用商汤全息投影完成的演讲？

△ 来源于微博@澎湃新闻

虽然也是将人的影响投影到另一处场景中，不过二者的性质完全不同。

全息投影成像的原理，是利用光的干涉和衍射，再现出物体真实的三维图像记录。

而这次的虚拟答辩效果，实际上是利用AI将摄像头拍到的2D人物图像，转换成3D的效果。

也就是说，二者无论是从原理、还是从设备需求来说都不一样。

不仅如此，应用的场景也有所不同。

全息投影更侧重于真实场景下「互动」的效果，也就是说，你在线下场景中，可以与一个投影出的3D版「真人」互动、或是听一场3D全息投影的演唱会等。

但这次的虚拟3D生成技术，则是侧重于在电子设备上将2D图像视频模拟出3D效果。

无论是单薄的2D视频、还是无法利用视频呈现的2D照片，利用这项技术都可以还原出仿真的人物形象。

也就是说，一台摄像机拍出来的普通2D效果，利用这项技术就能转换成效果斐然的3D图像。

关于作者

用这项技术答辩的黄锃，本科毕业于上海交通大学ACM班。而这项实时技术的主要贡献，则来自他合作的两位学弟。

这篇论文的两个同等贡献的第一作者，分别是两位黄锃的博士一年级学弟李瑞龙、修宇亮。

李瑞龙毕业于清华基础科学班，在清华获得了物理和数学学士学位，以及计算机科学硕士学位。

修宇亮则毕业山东大学软件工程学院数字媒体技术专业，本科期间他还是专业第一，之后进入上海交大获得计算机硕士学位。

至于黄锃自己，他在高中时就曾获得全国中学生物理奥赛金牌，进入上海交大ACM班就读后，本科四年均获奖学金，还顺便在数学建模美赛（MCM）上拿了个一等奖。

本科期间，黄锃曾在微软亚洲研究院实习，师从首席研究员曾文军，参与机器学习、深度神经网络相关的科研课题中。

△ 曾文军，图源：微软亚洲研究院

也是在这里，他开始深入地认识和掌握深度学习的核心概念和技巧，也开始认真思考机器学习的现状和发展。

李瑞龙、修宇亮、黄锃均师从计算机图形学领域有名的黎颢教授，主要研究方向是结合几何处理和深度学习的虚拟人体重建。

△ 黎颢

博士期间，黄锃曾在Facebook实习，共有9篇论文发表在论文顶会上，其中SIGGRAPH 1篇，ECCV 2篇，CVPR 2篇，ICCV 3篇，ICLR 1篇。

黄锃最近的一项研究ARCH，则发表在CVPR 2020上，这项研究主要是关于穿着衣服人的3D可动画化重构。

而黄锃最「出圈」的研究，是一项名为PIFu的2D图像转3D技术，在国外的社交媒体上被网友拿来模拟了各种2D物体图像。

有日本网友利用PIFu的技术，将照片上的奥黛丽·赫本和坂本龙马「请」到了自己的家里。

3D的效果还是很不错的。（就是，黑白的图像看起来略有点阴森…）

论文地址：
https://arxiv.org/abs/2007.13988

视频介绍：
https://www.bilibili.com/video/av753971174/

黄锃个人主页：
https://zeng.science/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

计算机图形学计算机视觉

晓查

博士答辩人没来，导师还能赞不绝口！上海交大ACM校友实力演绎学以致用

背后的技术

和全息投影相比？

△ 来源于微博@澎湃新闻

关于作者

△ 曾文军，图源：微软亚洲研究院

△ 黎颢

相关阅读

肚子上挂张画就能“隐身”：AI完全看不到我，更看不出我是人类了 | 开源

本科经典算法Dijkstra，被证明是普遍最优了：最坏情况性能也最优！

NVIDIA何琨：AI视频处理加速引擎TensorRT及Deepstream介绍

石头、剪刀、布！10分钟带你打开深度学习大门，代码已开源

微软Excel竟能实现CV算法：亚马逊工程师妙用，人脸检测、字符识别都不在话下

苹果或已收购AI视觉搜索创业公司Fashwell

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把