干货!谷歌首席科学家阐述半监督学习革命,想走出瓶颈先试试这个

你的半监督学习有救了

原作:Vincent Vanhoucke

铜灵 栗子 郭一璞 翻译

量子位 出品 | 公众号 QbitAI

没有大量的标注数据怎么办?

谷歌首席科学家,谷歌大脑技术负责人Vincent Vanhoucke说,半监督学习革命已经来了。

他用一篇博客,细数了半监督学习的进展,以及这类方法会为机器学习领域带来怎样的变化,量子位已为大家翻译如下:

机器学习工程师最熟悉的操作之一是搞到大量数据,但是拿到数据之后,需要不少资源来标注这些数据。

干货!谷歌首席科学家阐述半监督学习革命,想走出瓶颈先试试这个

这是个难题,在这一步上左右为难的工程师们,往往都会这样做:

既然这么多数据都没标注,那先想想用这点已标注的监督数据能干点啥;然后去查文献,发现不同的文献都指向了同一个答案——半监督学习。

这就是通常会出错的地方了。

半监督学习历来是每个工程师走过的弯路,他们研究了半监督学习,然后就回到那些已有的标注过的数据上。每个人遇到的问题细节不一样,但大体上说,都是这些问题:

干货!谷歌首席科学家阐述半监督学习革命,想走出瓶颈先试试这个

在数据少的时候,半监督学习的确能提高模型表现,但实际操作中你却发现:

这种提高只是从“太烂,没法用”提高到“不太烂,但还是没法用”。

基本上,如果你的数据体系有利于半监督学习,那基本意味着你的分类器训练的很烂,而且完全没法用(手动狗头)。

另外,半监督学习可不是白来的,而且用半监督学习的方法往往不能像监督学习那样给出一个趋向同样的渐进,比如未标记的数据可能会引起偏差。MIT的《半监督学习(Semi-Supervised Learning)》第四章里曾经提过一个早期很流行的半监督学习方法,先为未标记数据创造一个自动编码器,然后根据标记数据进行微调。

干货!谷歌首席科学家阐述半监督学习革命,想走出瓶颈先试试这个

几乎没人这么操作,因为通过自动编码器学习的表现完全受限于微调的渐进表现。有趣的是,即使现代的生成模型大大提高,也没有改变这种状况,可能是因为一个好的生成模型并不等于好的分类器吧。

最后,当你现在看到工程师们微调模型的时候,基本都是从有监督数据中学到的表征开始的,嗯,自我监督数据都是为了语言建模。

在任何可行的情况下,从其他预训练模型迁移学习是一个更强大的起点,半监督方法难以超越。

因此,一个典型的机器学习工程师在遇到半监督学习的困境时的处理过程是这样的:

干货!谷歌首席科学家阐述半监督学习革命,想走出瓶颈先试试这个
  1. 一切都很糟糕,我们不如试试半监督学习。(毕竟这是一个工程师的工作,比数据标注有趣多了吧)
  2. 看数字增加了,但看起来还是很恐怖。看来我们还是要给数据先贴上标签了。
  3. 虽然说数据越多越好,但你试过抛弃半监督机制会怎样么?
  4. 越简单的效果可能就是最好的,我们可以省略掉上述的2和3步骤,节省大量时间,也不用给自己找这么多麻烦。

如果你是幸运儿,你的困难可能有这样一个表征:

干货!谷歌首席科学家阐述半监督学习革命,想走出瓶颈先试试这个

在这种情况下,有一个苛刻的数据规范,可怕的不是半监督学习的方法,甚至半监督学习还提高了数据效率。

根据我的经验,很少能达到这个最佳状态。考虑到复杂性的额外成本,标签数据的数量通常不会差开几个数量级,所以训练效果差距也不大。

这样来看,这几乎不值得这么麻烦,除非你想搞的是一个学术基准上的竞争。

等等,这篇文章的标题不是“安静的半监督革命”吗?

一个有趣的趋势是,半监督学习的前景可能正在改变,比如这样:

干货!谷歌首席科学家阐述半监督学习革命,想走出瓶颈先试试这个

首先,如果这些曲线和人们的心理模型相符,用半监督学习训练的效果就是数据越多,效果越好。即使在监督学习效果良好的情况下,半监督学习与监督学习之间的差距也应该是确定的。

并且,这种情况发生的频次也会越来越多,并且没有任何代价,因此也不会那么复杂。“神奇地带”(magic zone)起点较低,它不受数据规范的限制同样重要。

有哪些新东西呢?

首先,有些机智的方法,可以让AI自己给数据加标签,然后把损失函数用相应的方式来表达:把自动加标签的噪音和可能的偏差都考虑进去。

干货!谷歌首席科学家阐述半监督学习革命,想走出瓶颈先试试这个

最近有两篇研究,都是这方面很例的栗子:

一是MixMatch: A Holistic Approach to Semi-Supervised Learning

Arxiv码:1905.02249

二是Unsupervised Data Augmentatio

Arxiv码:1904.12848

其次,有一个根本上的变化,是人类已经意识到半监督学习会在机器学习隐私中,扮演一个很重要的角色了。

比如,PATE (Arxiv码:1610.05755) 方法里面定假设有监督的数据是私有的。那在教师-学生网络里,学生型就有强大的隐私保障,可以只用未标记的数据 (公开数据) 进行训练。

知识蒸馏 (Distilling Knowledge) 中,有些对隐私敏感的方法,成为了联合学习 (Federated Learning) 的一个关键推动力:

因为这样的方法,可以保障高效的分布式学习 (Distributed Learning) ,模型不需要访问用户数据,在数学上保障了隐私。

干货!谷歌首席科学家阐述半监督学习革命,想走出瓶颈先试试这个

现在,可以在实际应用的设定下,重新考量半监督学习的价值,真是激动人心。

看到那些长期存在的假设,如今却受到挑战,这是非常好的现象,说明这个领域正在发生惊人的进步。

这趋势是近期才出现的,我们还要看看,这样的方法能不能经受时间的考验;

不过,机器学习工具的架构,很可能发生根本上的改变,这件事还是很诱人的,值得期待。

传送门

原文:The Quiet Semi-Supervised Revolution

https://towardsdatascience.com/the-quiet-semi-supervised-revolution-edec1e9ad8c

MIT的《半监督学习(Semi-Supervised Learning)》

http://www.acad.bg/ebook/ml/MITPress-%20SemiSupervised%20Learning.pdf

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

版权所有,未经授权不得以任何形式转载及使用,违者必究。