超好用的自信学习：1行代码查找标签错误，3行代码学习噪声标签

问耕 2019-11-10 13:22:30 来源：量子位

十三发自凹非寺
量子位报道 | 公众号 QbitAI

你知道吗？就连ImageNet中也可能至少存在10万个标签问题。

在大量的数据集中去描述或查找标签错误本身就是挑战性超高的任务，多少英雄豪杰为之头痛不已。

最近，MIT和谷歌的研究人员便提出了一种广义的自信学习(Confident Learning，CL)方法，可以直接估计给定标签和未知标签之间的联合分布。

这种广义的CL，也是一个开源的Clean Lab Python包，在ImageNet和CIFAR上的性能比其他前沿技术高出30%。

这种方法有多厉害？举个栗子。

上图是2012年ILSVRC ImageNet训练集中使用自信学习发现的标签错误示例。研究人员将CL发现的问题分为三类：

1、蓝色：图像中有多个标签；
2、绿色：数据集中应该包含一个类；
3、红色：标签错误。

通过自信学习，就可以在任何数据集中使用合适的模型来发现标签错误。下图是其他三个常见数据集中的例子。

△目前存在于Amazon Reviews、MNIST和Quickdraw数据集中的标签错误的例子，这些数据集使用自信学习来识别不同的数据模式和模型。

这么好的方法，还不速来尝鲜？

什么是自信学习？

自信学习已然成为监督学习的一个子领域。

从上图不难看出，CL需要2个输入：

1、样本外预测概率；
2、噪声标签；

对于弱监督而言，CL包括三个步骤：

1、估计给定的、有噪声的标签和潜在的(未知的)未损坏标签的联合分布，这样就可以充分描述类条件标签噪声；
2、查找并删除带有标签问题的噪声(noisy)示例；
3、进行消除错误的训练，然后根据估计的潜在先验重新加权示例。

那么CL的工作原理又是什么呢？

我们假设有一个数据集包含狗、狐狸和奶牛的图像。CL的工作原理就是估计噪声标签和真实标签的联合分布(下图中右侧的Q矩阵)。

△左：自信计数的示例；右：三类数据集的噪声标签和真实标签的联合分布示例。

接下来，CL计数了100张被标记为“狗”的图像，这些图像就很可能是“狗”类(class dog)，如上图左侧的C矩阵所示。

CL还计数了56张标记为狗，但高概率属于狐狸的图像，以及32张标记为狗，但高概率属于奶牛的图像。

而后的中心思想就是，当一个样本的预测概率大于每个类的阈值时，我们就可以自信地认为这个样本是属于这个阈值的类。

此外，每个类的阈值是该类中样本的平均预测概率。

轻松上手Clean Lab

刚才也提到，本文所说的广义CL，其实是一个Clean Lab Python包。而它之所以叫Clean Lab，是因为它能“clean”标签。

Clean Lab具有以下优势：

速度快：单次、非迭代、并行算法(例如，不到1秒的时间就可以查找ImageNet中的标签错误)；
鲁棒性：风险最小化保证，包括不完全概率估计；
通用性：适用于任何概率分类器，包括 PyTorch、Tensorflow、MxNet、Caffe2、scikit-learn等；
独特性：唯一用于带有噪声标签或查找任何数据集/分类器标签错误的多类学习的软件包。

1行代码就查找标签错误！

3行代码学习噪声标签！

接下来，是Clean Lab在MNIST上表现。可以在这个数据集上自动识别50个标签错误。

原始MNIST训练数据集的标签错误使用rankpruning算法进行识别。描述24个最不自信的标签，从左到右依次排列，自顶向下增加自信(属于给定标签的概率)，在teal中表示为conf。预测概率最大的标签是绿色的。明显的错误用红色表示。

传送门

项目地址：
https://github.com/cgnorthcutt/cleanlab/

自信学习博客：
https://l7.curtisnorthcutt.com/confident-learning

— 完 —

人工智能机器学习

问耕

泰合资本梅林：2021是资本市场结构性转折的一年2021-12-14
独家！扒出腾讯新高管余总的真面目！2021-04-01
点云处理不得劲？球卷积了解一下2019-10-24
Dota2冠军OG如何被AI碾压？OpenAI累积三年的完整论文终于放出2019-12-14

超好用的自信学习：1行代码查找标签错误，3行代码学习噪声标签

相关阅读

祖传人像玩家，如何把AI秀出新高度

AI预测心力衰竭，准确率竟能100%？！AI研究引发强烈质疑，网友：门外汉滥用机器学习

让CNN有了平移不变性，同时提升ImageNet成绩：Adobe开源新方法，登上ICML

蚂蚁集团副总裁重返学界，任复旦大学AI创新与产业研究院院长，曾获普渡大学终身教职

高通CEO：元宇宙是互联网的未来，我们对它的理解只是冰山一角

腾讯曝光新型AI攻击手法：“黑”掉神经网络，构造后门，最主流模型均不能幸免

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此