66篇论文入选CVPR 2021，商汤的秘籍竟是“大力出奇迹”

鱼羊 2021-06-22 21:06:14 来源：量子位

学术产业两开花

鱼羊发自凹非寺
量子位报道 | 公众号 QbitAI

CVer翘首以盼的CVPR 2021，它来了它来了。

本届CVPR论文录用率，较去年略有回升，但竞争依然激烈——在7039篇有效投稿中，最终有1661篇中选，录用率为23.6%。

继去年华人一作包揽最佳论文、最佳学生论文、经典论文奖之后，今年的CVPR又延续了“华人主场”的气质：

单看最佳论文奖候选名单，32篇中就有18篇有华人学者参与，足可谓占据半壁江山。

又比如年年霸榜的商汤科技，此番共有66篇论文入选，并且还是学术、产业两开花的那种，其中还有一篇入选最佳论文候选名单。

入选最佳论文候选名单

照例，我们先来探究一下这份成绩单的“质量”。

就先从入选最佳论文候选名单的NeuralRecon: Real-Time Coherent 3D Reconstruction From Monocular看起。

这是一篇三维重建方向的研究。NeuralRecon是首个基于神经网络的单目实时场景三维重建系统。

具体的效果，就像这样：

△实时重建

不同于以往基于深度图估计与融合的方法，NeuralRecon直接基于图像特征，预测用TSDF（截断符号距离函数）表示的局部三维表面，并创新地提出了一个联合TSDF重建与融合框架。

这样做的好处是，可以让网络学习到三维表面在局部和全局上的平滑先验，使得最终的重建结果准确且具有很好的一致性。

实际上，三维重建是实现沉浸式AR效果的基础。而NeuralRecon这种基于单个摄像头拍摄的视频，实时进行三维重建的方法，就为AR在普通智能手机上的落地应用打下了理论基础。

要知道，为了在手机、平板等设备上实现更好的AR效果，苹果甚至用上了激光雷达这样的传感器。现在有了NeuralRecon，即使是普通的智能手机，也能实现更强大的AR功能。

比如基于NeuralRecon重建的场景，实现这样的效果：

论文链接：https://arxiv.org/abs/2104.00681

以上，还只是商汤这回在CVPR上展示的学术积累的一个方面。

比如，在与自动驾驶息息相关的点云方面，商汤同样有一篇论文中选Oral。

在Variational Relational Point Completion Network这篇论文中，研究人员提出了一个两阶段网络，来从残缺点云中学习关系型结构属性，从而恢复可信且高质量的完整点云形状。此外，论文还生成了一个丰富的残缺点云数据集，可作为点云补全测试基准。

论文链接：https://arxiv.org/abs/2104.10154

而在图像视频编码方面，Checkerboard Context Model for Efficient Learned Image Compression这篇论文创新地提出了棋盘格上下文建模方式，实现了在常用模型上超过40倍的加速。

论文链接：https://arxiv.org/abs/2103.15306

除此之外，在同期举办的挑战赛中，商汤-南洋理工联合实验室（S-Lab）团队一举斩获CVPR 2021 NTIRE视频理解挑战赛三项冠军，包括视频超分辨率、重度压缩视频质量增强（固定量化参数，保真度）和重度压缩视频质量增强（固定比特率，保真度）赛道。商汤研究院团队摘得CVPR 2021 ActivityNet时序动作检测任务弱监督学习赛道冠军。

一窥商汤应用布局

话至此处，可见在这届CVPR上，商汤这个“算法工厂”仍然延续了全能的风格。

并且在此次入选CVPR的论文中，不仅能看到商汤在各个学术领域的投入，还能一窥从自动驾驶到智慧城市，乃至在手机等诸多应用领域，商汤的技术布局。

比如提升屏下相机的成像质量：

△画质恢复前后

论文地址：https://jnjaby.github.io/projects/UDC/

又比如在自动驾驶技术上，针对轨迹预测问题，商汤的研究人员引入Transformer，提出了一种基于堆叠式Transformer的端到端轨迹预测框架mmTransformer。既有效减轻了轨迹预测的复杂性，也确保了多模态的轨迹输出。

论文地址：https://decisionforce.github.io/mmTransformer/

而在激光雷达的3D目标检测上，商汤提出了一种名为ST3D的自训练域适应方法，让检测器在用高质量伪标签训练的同时，避免对大量简单样本过拟合。实验表明，ST3D在KITTI 3D目标检测榜上，甚至超过了全监督方法。

论文地址：https://arxiv.org/abs/2103.05346

事实上，围绕汽车智能化这个时下最热的产业命题，商汤近来可谓落子频繁。

在今年的上海国际车展上，商汤的SenseAuto智能汽车解决方案正式亮相，而结合SenseAuto展现的能力和商汤的CVPR论文，便可看出商汤布局自动驾驶的独特之处——

依靠长期以来在感知技术上的沉淀和积累，一口气打通车内车外，从舱内对驾驶员的感知，到舱外的自动驾驶系统，形成一站式解决方案。

另外，说到技术落地，就要提及商汤一直以来关注的另一个重点——长尾问题。

同样，此番也有论文体现。如LVIS Challenge 2019&2020 冠军团队的长尾目标检测算法Equalization Loss v2，从梯度的角度提出了一种统一的视角来分析长尾问题，并已开源。

论文地址：https://arxiv.org/abs/2012.08548

其实无论是在防火、防水这样的智慧城市应用场景中，还是在复杂道路行驶的自动驾驶场景中，长尾问题一直是困扰着AI模型的一个技术难点。

毕竟再怎么精心调教，看似达到了高精度的模型们，总是会在现实场景中被训练时未曾遇见的情况困住。

商汤也在多年的实践中认识到，一对一精细打磨的模型难以应对长尾问题，反而是简单粗暴地用上大数据+大模型+强算力，“眉毛头发一把抓”，更能解决AI商业化落地中的这个老大难问题。

而这，其实也就是商汤为什么能在CVPR这样的顶会上多点开花的技术秘籍。

商汤秘籍：AI大装置

无论是SenseAuto还是解决长尾问题的“大力出奇迹”，据商汤联合创始人林达华透露，几乎都是在商汤AI大装置的基础上进行的。

什么是AI大装置？

其实就是商汤在过去几年中，投资56亿打造大数据+大模型+超强算力的人工智能基础设施，包括AI算力中心（AIDC）、算法训练平台SenseParrots和数据处理平台，以及面向社区的开源算法模型框架OpenMMLab、面向企业的开放算法模型工厂SenseSpring。

至于AI大装置给商汤带来了什么，林达华也做了进一步的解释：

从技术突破这个角度来说，人工智能大装置的一个重要意义就是，它为人工智能的技术研发提供了关键的算力支撑。

在这个基础设施之上，人工智能大装置还提供了丰富的工具和技术组件，能帮助研究员进行快速的试错，他们能够快速地实验很多新的想法。

这样一来，很多有价值的新技术、创新想法就都出来了。

可以说，商汤多年以来在CVPR等顶会上展现的研发、创新能力，在今天沉淀成为了AI大装置的形态。而反过来，AI大装置也进一步加速了研发人员实现想法创意、凝结技术成果的过程。

林达华谈到，在现在这个阶段，人工智能的一些简单的基础问题都已经解决了，AI的进一步发展，就是要深入到更广泛的行业里面。

但这也就意味着，成千上万的具体问题正在浮出水面，人工智能如果沿着过去那种“具体问题具体攻破”的路径接着走，是很难真正更深化地实现落地的。

这个时候，整个行业需要通用性更强的模型。

而像GPT-3、AlphaFold这样的代表性成果，就指出了一条可行的路径：大参数模型，能够带来完全不一样的革命性的变化。

这也就是商汤要重金押注AI大装置的意义所在。

一方面，对于未来10年的人工智能发展，构建起基础设施。

另一方面，当越来越多的人才投入到AI算法研发领域，AI大装置这样的基础设施，将随着技术的开源开放，逐渐从企业内部平台，演变成面向整个生态、整个社区的具有公共性质的设施。

不仅仅是对商汤而言，对于整个AI产业而言，人才+生态+技术，或许正是推动AI进入工业化发展阶段，真正高效率、低成本赋能百业的关键所在。

现在，商汤CVPR 2021的成绩单，就是对AI大装置路径的一次有力验证。

“大力出奇迹”在未来还能给AI领域带来怎样的惊喜，由此看来值得持续期待。

你觉得呢？

— 完 —

CVPR 商汤

鱼羊

66篇论文入选CVPR 2021，商汤的秘籍竟是“大力出奇迹”

入选最佳论文候选名单

一窥商汤应用布局

商汤秘籍：AI大装置

相关阅读

Adobe把GAN搞成了缝合怪，凭空P出1024分辨率全身人像 | CVPR 2022

无需参数访问！CMU用大模型自动优化视觉语言提示词 | CVPR’24

“梗王”大模型，靠讲笑话登上CVPR | 中山大学

商汤联合创始人杨帆：人工智能产业正在面临一个“幸福的烦恼” | MEET2022

给GAN一句描述，它就能按要求画画，微软CVPR新研究 | 附PyTorch代码

CVPR官方：禁止评审结束前在网上宣传论文，即日起生效

热门文章

又一开源AI神器！将机器学习论文自动转为可运行代码库

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

Qwen3真香！通义App满血接入，一手实测在此

当购物用上大模型！阿里妈妈首发世界知识大模型，破解推荐难题