在杭州,我们逛了一家“数据博物馆”

已开源上百个行业数据集

鱼羊 博雯 发自 凹非寺

量子位 报道 | 公众号 QbitAI

你可能打卡过很多博物馆,但我敢说“数据博物馆”,肯定不在此列。

上百个开源数据集是展品,其中不乏来自电商、文娱等互联网领域的真实场景数据,更有来自工业、医疗等领域的产业稀缺数据

还吸引了中国科学院国家天文台台长常进院士、创新工场首席科学家周明博士、阿里巴巴集团副总裁贾扬清、阿里巴巴青橙奖获得者王权等学者大咖纷纷前往围观。

不仅如此,“博物馆”还组织了一系列数据青年团聚活动,邀请青橙奖获得者、阿里星学长、技术KOL,与青年开发者畅聊《如何选择第一个工作》《AI的未来发展趋势与行业前景》等热门话题。

你或许想不到,这家“博物馆”是由阿里云天池在今年的杭州云栖发起。

在杭州,我们逛了一家“数据博物馆”

没错,就是那个“奖金丰厚”、“直通大厂”、“还能结♂识AI大神”,人称“中国数据类赛事第一品牌”的天池平台。

不过现在,你可不能仅仅把它看作一个刷简历的平台了。

阿里云天池平台开起了“博物馆”,这究竟是怎么一回事?

什么是“数据博物馆”?

答案还得从现场获取。

在杭州,我们逛了一家“数据博物馆”

最吸引眼球的“展品”,当属行业大规模开源数据集

不仅数量多达上百个,还覆盖零售、文娱、工业、医疗、自然科学等数十个行业。既有来自真实业务场景的商品数据,也不乏跟产业界、学术界深入合作获得的宝贵科研数据。

更厉害的是,基于这些数据集产出的学术论文,已经有超过700篇。

在杭州,我们逛了一家“数据博物馆”

具体详情,我们不妨选取其中几个“经典款”,一起看个究竟。

比如新零售领域数据集,就有阿里淘系技术开源的家居行业数据集3D-FRONT,包含超过20,000张高清室内场景专业设计渲染图,可用于场景布局预测与生成等研究课题。

该数据集填补了业内大规模高质量3D场景布局标准数据集的空白,也因此获得了中国计算机图形学大会颁发的首个「图形开源数据集奖」。

在杭州,我们逛了一家“数据博物馆”

再比如文娱数据集方面,服务于产业的视频数据集同样不少。

曾应用于“MEDIA AI阿里巴巴文娱算法挑战赛”的Youku-TED数据集,共包含近3,000小时的55,000段视频,标注了含53类事件类别的近30万段视频事件。

作为一个大规模的视频时序事件检测数据集,正是展开智能生产、视频智能剪辑、生产安全监控、视频内容检索等热门应用研究的基础。

在杭州,我们逛了一家“数据博物馆”

更多方面,还有用于检测钢铁、布匹、酒瓶、瓷砖瑕疵的工业领域数据集,涉及遥感、气候、天文等领域的自然科学类数据集,以及医疗、交通、安全、数字城市等领域的数据集,都在开源列表之中。

值得一提的是,天池平台还广泛和外部机构合作,开放多个行业/学术benchmark。

像是由阿里达摩院、天池平台,以及浙江大学联合推出的MUGE榜单,就是一个用于多模态理解和生成评估的基准,这也是国内首个多模态方向的基准数据集。

在杭州,我们逛了一家“数据博物馆”

如此大批量的开源数据集,确实不负“数据博物馆”之名。

那么这些精品数据集又是从何而来?

阿里云开发者业务总监王一婷介绍,一方面,他们会与业务团队共建自有数据集;另一方面,天池主动与工业、学术界合作,产出大量高质量脱敏数据集;此外,平台还支持用户共享数据集,共同推动科研数据集开源生态的建设。

而这正是阿里云天池今年重磅升级之后,启动的大规模数据开源计划

天池大动作为哪般?

又是来自真实行业大批量数据集的开源,又是建立行业benchmark,阿里云天池到底图什么?

众所周知,对于数据挖掘/机器学习这些学科,高质量数据集可以说是必不可少的生产资料。

但以高校学生为代表的青年AI开发者,很难接触到大量真实有效的数据,因此也就很难快速提升自身技术实践能力。

而与真实业务场景的脱节,带来的问题还不止于此。

比如,学界和业界在研究目标上往往不同。学界可能更加关注一些确定条件下的确定指标,而业界则会从成本和收益的角度去思考问题。

在云栖大会期间举办的天池数据青年团聚上,达摩院算法专家罗浩博士就谈到:

翻译模型准确率指标从70%提升到80%,在学界是足以发表论文的优秀成果,但对于产业界,就算一百句话都只翻错了一两个单词,还是需要人工全部重译,利润提升不大。

在杭州,我们逛了一家“数据博物馆”

针对这些问题,天池开启大规模数据集开源计划,希望通过提供工业界的最真实的业务数据,降低青年开发者接触和使用科研数据的门槛。

再结合行业实际的竞赛,使开发者能真正研究和解决实际的工业场景中所面临的问题。

这样的举措,其实已见实效。阿里云天池大赛负责人王听介绍:

过去7年中,天池已经举办了400多场高规格的数据科学竞赛。其过程中,青年开发者不仅提升了自身的技术实践能力,同时也孵化出了优秀解决方案,甚至已经有直接反哺产业的案例。

也因此,现在,天池平台上逐渐聚集起90万+AI开发者,覆盖98+国家和地区、4300+海内外高校,成为了中国最大的人工智能开发者社区。

基于这样的背景,阿里云天池也就有了进一步扩大生态的空间:聚合起青年开发者,众智众创,为行业解决业务痛点,并为社会培养和输送人才,打造更完整的AI开发者创新生态,弥合从高校到产业的鸿沟。

在杭州,我们逛了一家“数据博物馆”

天池变了,不再仅仅局限于比赛层面,而是从教育资源、计算资源、数据资源等更多的角度出发,面向青年开发者提供分享、互动、成长的社区阵地。

这样的转变,其实也正迎合了AI发展的大势之下,青年人才更低门槛进入到AI行业的需求。

而据天池方面透露,下一步,他们还将积极参与并致力于数据标准制定和行业标准数据集的建设,进一步服务于AI产业的发展。

那么,你又是否看好呢?

天池官网:
https://tianchi.aliyun.com/

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。