中国力量占领KDD:包揽“大数据领域世界杯”全部冠亚军,北航拿下最佳学生论文奖

多名华人学者获奖

萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

数据挖掘、知识发现领域的最高学术会议——KDD 2020的所有奖项已全部公布。

KDD,全称Knowledge Discovery and Data Mining,由SIGKDD举办,后者是美国计算机学会ACM旗下数据挖掘和知识发现的专业组织。

在这次的AI顶会中,中国力量,依然夺目。

其中,北航学生获得最佳学生论文,滴滴出行6篇论文入选;

而在挑战赛上,美团、第四范式、蚂蚁金服、深度赋智等业界团队,以及国立台湾大学、东南大学、上海交大、中山大学和清华大学等学术界团队斩获了所有赛道的冠亚军

这次挑战赛的主办方大部分来自中国,包括阿里巴巴达摩院、清华大学、BienData、第四范式、滴滴出行等。

此外,汤继良、盛胜利、唐杰等华人学者在本届SIGKDD大会上也获得了多项大奖。

最佳论文奖

今年最佳论文奖由来自谷歌研究院的Walid Krichene和Steffen Rendle获得。

这篇论文对样本指标进行了调查,并给出了在度量标准计算中应该避免抽样的建议。

这是因为,为了加快度量标准的计算,通常会采用抽样的模式进行度量,只对较小的一组随机项和相关项进行排名。但调查发现,样本指标与精确的度量不一致,因为这些指标不会保留相关项的陈述。

而且,样本越小,指标之间的差异也会越小,对于非常小的样本,所有指标都会变成AUC指标。所以,可以通过最小化不同的标准(偏差或均方误差),来提高样本指标的性能。

此外,今年KDD的最佳学生论文奖,则由来自杜克大学陈怡然团队、以及北航的研究人员摘得。

最佳学生论文奖

最佳学生论文奖由来自北京航空航天大学的段逸骁、杨建磊,以及杜克大学的陈怡然、Ang Li和Huanrui Yang获得。

据悉,论文一作Ang Li目前是阿里巴巴达摩院的实习生。

为了解决深度学习数据集涉及侵犯用户隐私的问题,这篇论文提出了一个名为TIPRDC的框架,目的在于学习一个特征提取器,可以从中间特征中隐藏隐私信息,同时也最大限度地保留嵌入在原始数据中的原始信息。

为了达成这个目标,团队设计了一种混合训练方法,用于学习中间特征,包括用于从特征中隐藏隐私信息的对抗训练过程,以及使用基于神经网络的交互信息估计器、用于最大程度地保留原始信息。

从评估效果来看,TIPRDC明显优于其他现有方法。

华人获新星奖、时间检验奖

此外,KDD首届新星奖(旨在表彰KDD社区里在博士毕业五年内便获得卓越科研成就的年轻学者),颁给了两位学者,其中一位就是华人学者汤继良。

这位在特征学习领域作出杰出贡献的学者,目前在密歇根州立大学数据科学与工程实验室进行研究。

而KDD的第一届应用科学时间检验奖则颁给了清华大学计算机科学与技术系长聘教授唐杰,这篇获奖的论文名为《ArnetMiner: Extraction and Mining of Academic Social Networks》。

据悉,唐杰教授目前任清华大学计算机系副主任,曾入选国家“杰出青年”名单,目前发表论文 200余篇,被引用10000余次(个人h-指数59)。

至于KDD的时间检验研究奖(表彰10年前杰出的KDD论文),则颁给了来自美国阿肯色中央大学计算机科学系教授和数据分析实验室的主任盛胜利。

不仅在KDD 2020上,能看见各位来自中国的学者一展风采,在素有“大数据领域世界杯”之称的KDD Cup 2020上,也能感受到来自中国团队的力量。

中国包揽“大数据领域世界杯”冠亚军

除了在KDD这样的全球AI顶会,SIGKDD每年还会举行KDD Cup挑战赛,同时面向学术界和业界。

今年的挑战赛各赛道的主办方,大部分来自中国,包括阿里巴巴达摩院、清华大学、BienData、第四范式以及滴滴出行等。

而在今年的机器学习、AutoML机器学习、强化学习这3大赛道中,中国团队包揽了所有的冠亚军

一起来看看这次比赛的奖项结果。

常规机器学习赛道

在KDD CUP 2020上,常规机器学习被分成了两个赛道。

机器学习赛道一由阿里巴巴达摩院主办,其中阿里、杜克大学、清华大学和UIUC也参与了此次赞助,两项任务分别各有一千多个小组参加了比赛。

赛道一的有两个任务,一个是多模态召回(Multimodalities Recall ),另一个则是去偏差(Debiasing)。

在任务一中,国立台湾大学(WinnieTheBest)和美团点评(MTDP_CVA)的团队分别获得了冠亚军,而季军的团队也同样来自美团(aister)。

在任务二中,来自美团点评(aister)与深度赋智(DeepWisdom)的团队获得了冠亚军,而季军团队则来自北京航空航天大学。

而机器学习赛道二只有一个任务,即学术图谱上的对抗攻击和防御,涉及到生成对抗网络(GAN)的知识。

在赛道二中,最终的冠亚军分别由上海交通大学(SPEIT-卓工)和中山大学、杭州电子科大的(ADVERSARIES)团队获得,其中季军团队(DaftStone)来自中国科学技术大学。

此次机器学习赛道二的主办方是BienData,共有544名选手参与了此次比赛。

AutoML机器学习赛道

至于AutoML机器学习赛道,则聚焦于图表示学习技术,核心任务是基于图的拓扑结构,学习节点或者全图的向量表达,更好地用于下游机器学习任务(商品推荐、知识图谱补全、交通流量预测等)中。

这个赛道的主办方为第四范式,其中ChaLearn、斯坦福大学和谷歌共同协办。

最终冠军由来自美团点评、中国科学院大学和清华大学(aister)的团队获得,亚军为南京大学(PASA_NJU)的团队,至于季军团队,则来自蚂蚁金服(qqerret)。

值得一提的是,这项比赛的所有代码都在GitHub上放出了公开链接,感兴趣的小伙伴们可以自行学习(文末附公开链接)。

强化学习赛道

这次的强化学习赛道由滴滴举办,共设计了订单分配和车辆调度两个任务,参赛团队需设计开发算法来指定在派单窗口内的订单和司机的匹配,并指引一批空闲司机开往指定目的地。

这次一共有1195位参赛选手、共1007支队伍参加了这项比赛,比赛结果于昨日在KDD大会上公布。

其中,第一个任务的冠亚军分别由来自第四范式和北航(Polar Bear)和来自中山大学(EM)的团队获得,而季军则是来自Lyft的团队。

至于第二项任务,则由来自东南大学、普渡大学(TLab)的团队、以及南京大学(wait a minute)的团队获得冠亚军,季军由日本的NTTdocomo实验室摘得。

论文链接:

最佳论文:https://dl.acm.org/doi/pdf/10.1145/3394486.3403226

最佳学生论文:https://arxiv.org/abs/2005.11480AutoML

项目链接:

https://www.4paradigm.com/competition/kddcup2020

参考链接:

https://www.kdd.org/kdd2020/

https://www.reddit.com/r/MachineLearning/comments/ihg1kw/r_kdd_2020_video_collection_best_papers_keynotes/

https://www.kdd.org/kdd2020/kdd-cup

版权所有,未经授权不得以任何形式转载及使用,违者必究。