深度学习论文TOP10，2019一季度研究进展大盘点

鱼羊 2019-05-07 14:06:14 来源：量子位

基于PyTorch Geometric的快速图像表征学习、Mask Scoring R-CNN、星际争霸多智能体挑战、Lingvo……

鱼羊编译整理

量子位报道 | 公众号 QbitAI

9012年已经悄悄过去了1/3。

过去的100多天里，在深度学习领域，每天都有大量的新论文产生。所以深度学习研究在2019年开了怎样一个头呢？

Open Data Science对第一季度的深度学习研究进行了盘点总结，推出了这一季度的十佳论文。一起来看看，TOP10都花落谁家吧。

基于PyTorch Geometric的快速图像表征学习

Fast Graph Representation Learning with PyTorch Geometric

这篇论文的作者Matthias Fey和Jan E. Lenssen来自德国多特蒙德工业大学。

他们的研究介绍了PyTorch Geometric——一个基于PyTorch的不规则结构化输入数据（如图形、点云和流形）深度学习库。

除了通用的图形数据结构和处理方法，PyTorch Geometric还包含了各种最新发布的关系学习方法和3D数据处理方法。

利用稀疏 GPU 加速，提供专用的 CUDA 内核，并为不同大小的输入样本引入高效的小批量处理，通过这些方法，PyTorch Geometric 实现了很高的数据吞吐量。

该项目的代码可以在GitHub上找到：https://github.com/rusty1s/pytorch_geometric

论文链接：https://arxiv.org/abs/1903.02428v2

Mask Scoring R-CNN

凭借比何恺明的Mask R-CNN更出色的效果，MS R-CNN拿下了计算机视觉顶会CVPR 2019的口头报告。

在Mask R-CNN这样的模型中，实例分类的置信度被当作蒙版（mask）的质量衡量指标，但实际上蒙版的质量和分类的质量并没有很强的相关性。

△高分类得分，低蒙版质量

华中科技大学的这篇文章针对这个问题进行了研究，他们提出了一种新的打分方法：蒙版得分（mask score）。

不仅仅直接依靠检测得到分类得分，Mask Scoring R-CNN模型还单独学习了一个针对蒙版的得分规则：MaskloU head。

同时考虑分类得分和蒙版得分，MS R-CNN就能更加公正地评估算法质量，提高实例分割模型的性能。

研究团队在COCO数据集上进行了实验，结果表明MS R-CNN在不同的基干网路上，AP提升始终在1.5%左右。

这篇论文的作者是黄钊金，来自华中科技大学电信学院副教授王兴刚的团队，王兴刚也是这篇论文的作者之一。

GitHub地址：https://github.com/zjhuang22/maskscoring_rcnn

论文地址：https://arxiv.org/abs/1903.00241v1

使用更少的标签生成高保真图像

High-Fidelity Image Generation with Fewer Labels

关于生成对抗网络（GAN）的最新研究表明，最新的模型虽然能生成高分辨率高保真的多样化自然图像，但真的实现起来要依赖大量的标记数据。

在这篇论文中，来自谷歌大脑和苏黎世联邦理工学院的研究人员演示了如何从关于自我和半监督学习的最新研究进展中获益，在无监督ImageNet合成和条件设置中超越最先进的模型BigGAN。

GitHub地址：https://github.com/google/compare_gan

论文地址：https://arxiv.org/abs/1903.02271v1

GCNv2：实时SLAM的高效通信预测

GCNv2: Efficient Correspondence Prediction for Real-Time SLAM

这篇论文的作者Jiexiong Tan等人都来自瑞典皇家理工学院。

他们提出了一个基于深度学习的网络模型GCNv2，用于生成关键点和描述符。

GCNv2是图卷积网络（GCN）的高效精简版。它采用二进制描述符向量作为ORB特性，因此它可以在ORB-SLAM等系统中轻松替换ORB。

GitHub地址：https://github.com/jiexiong2016/GCNv2_SLAM

论文地址：https://arxiv.org/abs/1902.11046v1

ALiPy：用于主动学习的Python工具包

ALiPy: Active Learning in Python

ALiPy是南京航空航天大学开源项目，是一个以自由度为主打的主动学习开源免费工具包。基于这个框架，用户可以方便地评估、比较、分析不同主动学习方法的性能。

这个Python工具包支持7种不同的主动学习场景，同时还实现了25种主动学习算法供使用者调用。

什么要选择主动学习方法呢？因为有监督的机器学习方法通常需要大量带标签的例子来进行模型训练。然而，在许多实际应用中，有大量的未标记数据，这大大增加了机器学习的成本。

而主动学习能通过反复迭代选出最有价值的数据，只将有价值的数据加入训练集，从而降低了标记成本。

这篇论文主要介绍了ALiPy的各个模块和使用方法。在工具箱中，学习框架的每个组件都有多个可选项，包括数据处理、主动选择、标签查询、结果可视化等。除了20多种最先进的主动学习算法的实现之外，ALiPy还支持用户轻松配置和实施自己的方法。

该工具箱在Github上有详细记录和开源，可以通过PyPI轻松安装。

ALiPy 官网：http://parnec.nuaa.edu.cn/huangsj/alipy/index.html

GitHub地址：https://github.com/NUAA-AL/ALiPy

论文地址：https://arxiv.org/abs/1901.03802v1

DeepFashion2：用于服装图像检测、姿势估计、分割和重新识别的时尚数据集

DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images

程序员现在也有了了解时尚的新途径。

DeepFashion2是一个综合时尚数据集，它拥有491k张流行服饰图片，既有卖家秀，也有买家秀。同时，801k种服装在图像中被标注了出来。这个数据集还提供了873k个商业-消费者图像对。

DeepFashion2的训练集包含391k张图片，验证集有34k张图片，测试集则分到了67k张图片。所以，用它来完成衣服检测、姿势估计、分割和检索这样的任务再合适不过了。

其实早在2017年，香港中文大学就开源了一个大型时尚数据集DeepFashion，其中包含80万张图片。

然而，标记稀疏（仅4~8个）、没有针对单像素的蒙版这样的问题使得DeepFashion与现实场景产生了明显的差距。

为了解决这些问题，DeepFashion2就诞生了。

↓↓↓↓↓↓

这回真的是标注清楚又全面了。

GitHub地址：https://github.com/switchablenorms/DeepFashion2

论文地址：https://arxiv.org/abs/1901.07973v1

星际争霸多智能体挑战

The StarCraft Multi-Agent Challenge

这篇论文的作者是俄罗斯-亚美尼亚大学的Mikayel Samvelyan和牛津大学的Tabish Rashid等人。

星际争霸多智能体挑战（SMAC）基于即时战略游戏星际争霸Ⅱ，游戏中的每一个单位都能被单独控制，也就是说每一个单位都需要一个独立的智能体来操控。

这是一个多智能体协作问题，在深层多智能体强化学习（RL）领域当中这类问题一向非常具有吸引力，因为它能与大量现实世界中的系统联系起来。

单一智能体的强化学习可以依托于ALE和MuJoCo这样的标准化环境，但多智能体协同强化学习领域并没有类似的基准问题，这就导致了许多这方面的论文都像是一次性玩具。

于是研究者们提出将星际争霸多智能体挑战（SMAC）作为填补这一空白的基准问题。

为了达到最佳的实践效果，这篇论文提供了一系列对战图和测试建议，研究者们还开源了了一个深层多智能体强化学习框架，框架整合了最先进的强化学习算法。

GitHub地址：https://github.com/oxwhirl/smac

论文地址：https://arxiv.org/abs/1902.04043v2

Dropout是SDR的特殊情况：更快，更准确的深度学习

Dropout is a special case of the stochastic delta rule: faster and more accurate deep learning

Dropout是用来减轻深层神经网络过度参数化、深度学习过拟合和避免不良局部最小值的一种方法。它在每次更新之前根据带有概率p的Bernoulli随机变量移除隐藏单元，从而创造一个稀疏的网络架构。

而Noah Frazier-Logue和Stephen José Hanson的研究表明Dropout是1990年发布的随机delta规则（SDR）的一个特例。

SDR把神经网络中的每个权重重新定义为随机变量，并且为随机变量中的每个参数提供了更新规则。而Dropout就是一个具有带固定参数的二项随机变量的SDR特例。

在论文中，作者还用SDR修改了DenseNet框架，并在标准基准（CIFAR-10和CIFAR-100）中进行了测试，结果说明SDR相对于二项分布的 Dropout 具有很大的优势。

GitHub地址：https://github.com/noahfl/sdr-densenet-pytorch

论文地址：https://arxiv.org/abs/1808.03578v2

Lingvo：用于序列到序列模型的模块化和可扩展的框架

Lingvo: a Modular and Scalable Framework for Sequence-to-Sequence Modeling

Lingvo是Google出品的一个Tensorflow框架，为协作深度学习研究提供完整的解决方案，侧重于序列到序列模型。

Lingvo模型具有模块化、易扩展的特点，实验配置集中且高度可定制。该框架支持分布式训练和量化推理，包含大量实用程序，辅助函数和最新研究的现有实现。

这篇论文概述了Lingvo的基础设计，介绍了框架的各个部分，同时还提供了展示框架功能的高级功能示例。

GitHub地址：https://github.com/tensorflow/lingvo

论文地址：https://arxiv.org/abs/1902.08295v1

新的自适应优化算法AdaBound

Adaptive Gradient Methods with Dynamic Bound of Learning Rate

AdaGrad、RMSProp和Adam之类的自适应优化方法通过调整学习率上的元素级缩放项实现了快速训练，但与SGD相比这些方法的泛化性能较差，甚至由于不稳定和极端的学习率而无法收敛。

AdaBound是由北大、浙大等名校学霸提出的全新优化算法，是Adam和AMSGrad的新变体，兼具Adam和SGD两者之美，速度快且性能佳。

该论文已经被ICLR 2019接收。

GitHub地址：https://github.com/Luolc/AdaBound

论文地址：https://openreview.net/forum?id=Bkg3g2R9FX

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

强化学习深度学习计算机视觉论文

鱼羊

深度学习论文TOP10，2019一季度研究进展大盘点

基于PyTorch Geometric的快速图像表征学习

Mask Scoring R-CNN

使用更少的标签生成高保真图像

GCNv2：实时SLAM的高效通信预测

ALiPy：用于主动学习的Python工具包

DeepFashion2：用于服装图像检测、姿势估计、分割和重新识别的时尚数据集

星际争霸多智能体挑战

Dropout是SDR的特殊情况：更快，更准确的深度学习

Lingvo：用于序列到序列模型的模块化和可扩展的框架

新的自适应优化算法AdaBound

相关阅读

“计算机视觉女神”被IEEE期刊封杀

商汤再挖MSRA大将：R-FCN作者代季峰加盟任执行研究总监

LeCun：概率论无法实现真正AI，我们要退回原点重新开始

机器人会模仿人类微笑了，但我总觉得这笑容……

AutoML并非全能神器！新综述爆火，网友：了解深度学习领域现状必读

AlphaGo之父对话《连线》，曾被导师劝阻研究强化学习，如今获得ACM计算奖

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此