印度裔Kaggle大神自述:我是如何获得所有4个类别的Grandmaster

还是数独高手,担任今年亚洲数独锦标赛银牌得主

杨净 发自 凹非寺
量子位 报道 | 公众号 QbitAI

Kaggle大神是如何炼成的?

最近,一个印度裔Kaggle大神在论坛上分享了他获得4个类别的Grandmaster的经历。

嗯,一共就只有四种。

可以看到,他的金牌总数加起来就有84枚,其中Discussion上获得了56枚,数据集这一类别的排名术最高,在27466个选手中位列第7位,最高排名为第6位。

在Competitions里,他共获得了4枚单人金牌和4枚团队金牌。

为此,他就发表了一篇博文回忆了过去一些印象深刻的项目,并感谢Kaggle给他这样一个平台:

我断断续续在Kaggle上跑了七年,这真是一段旅程。

Kaggle不仅仅是网站或竞赛。对于喜欢数据科学和机器学习的人来说,这是一生的经历。

除此之外,他还是一个数独爱好者,多次获得国家冠军,最高排名第8。

4个Kaggle Grandmaster的经历

首先是Competitions

在过去7年中,他共完成了56场比赛,他的最高成绩是4枚个人金牌和4枚团队金牌。

其中Santander、ASHRAE这几个金牌项目令他印象深刻。

Santander Product Recommendation,桑坦德产品推荐。(桑坦德,西班牙的一个银行)

这一挑战中,主要是根据客户过去的行为以及类似客户的行为,来预测现有客户下个月将使用哪些产品,进而将产品和人来匹配。

最终,共有1779支队伍参加,而他与另一位数据科学家合作@sudalairajkumar,排列第11位,摘得他第五枚金牌。

还有像ASHRAE,预测建筑物将消耗多少能量?Rossmann Store Sales,利用商店促销、竞争对手来分析销售情况等等。

作者认为,这是唯一具有意义的积分排名系统类别。他希望可以成为Kaggle以外的行业标准,使其更具价值。

然后是Datasets

作者表示,为数据集争取投票是最具挑战性任务之一。

因此,他就以对终端用户最有用、最为结构化的格式来准备数据集,并加以尽可能多的细节描述。

一些令人印象深刻的数据有这些:

  • 印度的空气质量:作者花了100小时来汇总、清理和准备这个数据集。
  • Chai Time Data Science Show(对ML专家的采访节目)每集的统计数据;
  • 女特级大师的国际象棋比赛(2009-2020年)。嗯,国际象棋是作者的最爱。

不过,在他发布的18个数据集当中,我还是发现了一些有趣的数据集。

比如,拜登的从2007年-2020年数据推特数。

SpaceX的数据(2006-2020)。

还有Notebooks

在比赛结束之前,作者是不会看公共EDA Notebook。一般是在完成自己深度EDA后再看别人的工作。

按照这样的方式,他就获得了15枚金牌,4枚银牌以及6枚铜牌,达到大师级别。

不过,他也感叹道,用Macbook Air赢得比赛的日子已经一去不复返了,但谁说不会再尝试了呢。

最后还有,Discussions

作为喜欢交流的他,除了获得以上成绩之外,他还对社区一些建议,

社区通过帖子的净投票来优先处理有用的讨论,并过滤掉垃圾信息,这一点做得很好。

我希望Datasets和Notebooks也能允许下拉投票,不被区别对待。

2020年亚洲数独锦标赛银牌得主

来介绍一下作者本作——Vopani,真名叫做Rohan Rao,来自印度,是H2O.ai的数据科学家,毕业于印度孟买理工学院应用统计学专业。

而H2O.ai是一家成立于2012年,总部位于硅谷的开源软件公,该公司拥有一个数据科学和机器学习的开源平台H2O。据介绍称,一半的世界五百强公司都在使用这个平台。

除此之外,他还是一个数独爱好者。

他曾获得7次全国数独冠军,5次全国拼图类冠军,4次时代数独国家冠军,2020年亚洲数独锦标赛银牌得主。

目前数独世界排名在第23名,最佳成绩到过第8名。

果然,优秀的人一定不只一个地方优秀。

好了,所以你身边有没有遇到Kaggle大神的经历,欢迎与我们分享。

参考链接:
https://www.kaggle.com/general/195396

版权所有,未经授权不得以任何形式转载及使用,违者必究。