腾讯大数据回答2019：鹅厂开源先锋，日均计算量超30万亿

乾明 2019-12-31 12:09:33 来源：量子位

乾明发自腾讯汇
量子位报道 | 公众号 QbitAI

开源，开源，开源。

这就是腾讯2019年技术领域最直观的变化。

最新代表事件，来自于腾讯首个开源的AI项目Angel，完成3.0版本进化后，得到全球技术专家认可，从开源基金会LF AI毕业，成为业内顶级AI开源项目。

这是中国首个得此认可的项目，消息传来自是引发好评热议。不过，这只是腾讯过去这一年开源成绩的注脚之一。

过去一年，腾讯开源势头愈发凶猛。截止12月份，对外开源项目超过92个，覆盖所有BG（事业群），微信、腾讯云、大数据、游戏、AI、安全等业务都在其中，累计获得超27万标星，赢得一片赞誉。

腾讯已然成为全球开源大厂之一。在这其中，腾讯大数据贡献不小。

腾讯业务的技术支撑方，腾讯大数据接连将自身核心组件开源，推动腾讯走向中国大数据领域开源最全面的厂商。

腾讯数据平台部总经理、AMS平台总经理、智慧零售战略合作部总经理蒋杰说，接下来将会持续推进，将整个大数据平台的所有东西全部开源。

为什么要如此“激进”开源？具体到业务中，他们发展如何？又有怎样的开源逻辑？

蒋杰对过去一年的总结回答，能够给出参考答案。

△ 蒋杰

作为腾讯开源先锋，腾讯大数据的回答，也传递着整个腾讯的开源策略与逻辑。所以鹅厂开源如何，不妨看下腾讯大数据。

开源底气：每日数据计算量超 30 万亿

2019年，是腾讯大数据平台成立的第十个年头，已经从零发展成为了整个集团业务的关键支撑：

每天有 1500 万的分析任务、30 万亿次的实时计算量，并且每天数据接入条数达 35 万亿条数据。基于腾讯云的分布式机器学习平台，能支撑 1 万亿维度的数据训练。

为什么能够做到这一点？来自于强大的技术实力。腾讯官方说法，经历10年发展，大数据平台已经建立起了“大数据 +AI”双引擎技术架构，立身于行业第一梯队。

尤其是核心项目之一腾讯第三代计算平台Angel，发展到3.0版本之后，已经能支持万亿维度数据，同样也可以兼容 Spark、PyTorch、TensorFlow 等生态，进一步降低了使用门槛，可扩大了兼容性。

虽然只需几句话，就能描述出系统概况，但想要打造这样一个系统，并不简单。

“整个过程中，你会遇到网卡的瓶颈，存储瓶颈，包括丢数据各种问题，”蒋杰说，“做系统是靠踩的一堆坑，有血的教训，一堆故障，才慢慢磨炼出来的。”

蒋杰解释称，对于腾讯这样体量的公司，也是如此。其开放出去的能力和技术，更是经历了很多考验。

原因也很简单，别人在你这踩坑了，还会对你有信任感吗？“我们想要当领先者，但不是先烈，”蒋杰说。

如何做？他给出了一个关键词：“价值驱动”。

平台的发展不是闭门造车，而是跟着业务发展来发展，基于数据价值的驱动来演进。整个过程，是技术依赖于业务成长，技术回过头去反哺业务发展。

这也是腾讯大数据10年发展的路径。

从引进到自研再开源：腾讯大数据迎来转折点

从2009年开始，腾讯大数据平台经历离线计算、实时计算与机器学习三个阶段。

第一阶段，基于开源的Hadoop体系，离线计算平台，主要发力规模化。主要的业务导向是替代传统的数据仓库，做基于报表的服务。

这一阶段持续了3年，实现了从关系型数据库到自建大数据平台的全面迁移。

但到了2012年左右，移动互联网开始火爆起来，用户特征与用户画像方面的数据进一步丰富。

电商商品推荐，新闻的推荐等算法对数据平台提出了更高要求，第一阶段只有T+1的报表显然不够用，需要小时级、分钟级、秒级的实时监控。

因此，原来的Hadoop转向Spark和Storm体系，在吸收开源技术的基础上，结合腾讯自身的需求进行重写，提供实时报表，实时查询、实时监控等支持。

并开始了探索流式计算、秒级采集系统的建设，构建企业级的实时数据分析体系。

这一阶段同样是持续了3年。蒋杰说，这一阶段完成后，腾讯大数据能力就已经位于国内第一梯队了。

到了2015年，数据量进一步增长，人群特征维度更多，广告推荐体系出现了一定的瓶颈。大数据平台向第三阶段发展，建设机器学习平台，支持腾讯各业务数据挖掘的需求。

并于2016年推出了自研机器学习平台Angel，专攻复杂计算场景，可进行大规模的数据训练，支撑内容推荐、广告推荐等AI应用场景，建立起了“大数据 +AI”双引擎技术架构。

整个过程中腾讯大数据提升了集群可扩展性，相对于原生调度器性能提升150倍，2016 年，腾讯打破 Sort Benchmark 四项世界纪录，标志着算力已经达到世界领先水平。

从业务中来，到业务中去，形成了腾讯大数据平台技术迭代的循环。

得益于开源，回馈于开源，是腾讯大数据甚至腾讯在技术社区中循环，也是其不断推动开源的驱动力之一。

全力打破数据墙，开源中向第四代大数据平台迭代

2019年，也是腾讯大数据平台第四代升级的元年。

蒋杰介绍称，腾讯正在研究以批流融合、ABC融合、以及数据湖和联邦学习为方向的下一代大数据平台的研究。

同样，这一平台的迭代也是来自于业务价值驱动——数据覆盖面更广更大，数据安全和隐私保护成为新的问题。

在物联网、云计算以及人工智能技术的推广应用下，平台需要具备混合部署、跨域数据共享和边缘计算等能力。

这背后也隐藏着大数据行业最大的障碍：数据墙。

“把数据共享出来，其实把自己的后背交给别人，谁也不愿意，这是最大的困难。”蒋杰说。

这也是环境使然，过去一年，数据泄露席卷各行各业，从金融保险、教育、医疗、科技到政府无一幸免，规模甚至达到十几亿。

另一方面，欧洲发布《通用数据保护条例》之后，整个行业对数据保护的重视度越来越高。

“不在共享情况下能够得到共享，联邦学习是一个方向。我们希望通过混合部署，漂移计算，加上整个联邦学习，构建严格的安全管控体系，打破这个数据墙。”

业务价值已经明确，腾讯大数据平台也开始展开了行动。蒋杰表示，明年将会把联邦学习落实到场景中。与此同时，相关的研究成果也会同步开源出来。

鹅厂开源忙，大数据平台为先锋

所以腾讯为何开源？腾讯大数据的2019，能够给出部分答案：

首先，腾讯大数据早期发展得益于开源项目，从第一阶段的Hadoop到第二阶段的Spark等等，开源项目都提供了帮助。

其次，腾讯大数据在发展过程中，技术实力快速发展，技术实力能够拿出来，给更多的人使用，从而让社区不再重复造轮子踩坑。

这是具体业务层面上的考虑，但提高视角，放到整个腾讯甚至整个行业来说，又能得到不同角度的答案。

开源协同是腾讯当下最重要的技术战略之一。

对于腾讯来说，内部的开源协同，实际上是对最底层和共性技术能力的一次梳理和拉通，一方面是减少重复造轮子，另一方面提升公司的研发效能和运营效率。

在内部协同共建的基础上，腾讯在推动更底层、更重磅的技术对外开放，不断完善开源治理，打造开发者共建的生态。

2019年，由腾讯大数据主导的协同小组Oteam，共建了一个名为“天穹”的大数据项目，将腾讯六大事业群的大数据相关的系统做了统一，希望打造成一个具有统一技术栈的公司级大数据平台体系。

蒋杰介绍说：“一项开源的技术能够有良好的发展，常常需要背靠一个强大的公司，具有一定的经济实力和良好的业务发展。腾讯有强大的业务支撑，这使得我们能够去投入研发最好的技术，走在行业的最前沿。

目前，腾讯内部已协同的项目横跨了各个技术领域，经过海量用户验证。腾讯正在源源不断向开源社区输出优质开源项目。

今年8月份，马化腾首次对外谈起腾讯开源，进一步表明了腾讯对待开源的态度：

腾讯希望在科研领域投入更多力量，把“科技向善”纳入公司新的使命与愿景。我们将通过内外部开放源代码等方式，积极参与“全球科技共同体”的共建。

当然，对于腾讯来说，开源也是战略的体现，不仅仅在于“科技向善”愿景的落实，更有布局产业互联网的考虑。

通过有价值的开源项目，会吸引更多的用户加入腾讯生态，推动机器学习和人工智能的广泛应用。

腾讯开源也在与腾讯云紧密结合，为开发者提供更多便利的基础服务、工具和开源项目。

目前，腾讯已经把网络、存储、数据库等IaaS能力，大数据、机器学习等PaaS的能力，以及上层的图像、语音、NLP、BI等SaaS能力，通过腾讯云对外开放。

小争争事，大争争势，起于2010年的腾讯开放战略，在2020年到来之时，也变得愈发成熟，腾讯的格局也变得越来越大。

大数据开源腾讯

乾明

腾讯大数据回答2019：鹅厂开源先锋，日均计算量超30万亿

乾明发自腾讯汇
量子位报道 | 公众号 QbitAI

开源底气：每日数据计算量超 30 万亿

从引进到自研再开源：腾讯大数据迎来转折点

全力打破数据墙，开源中向第四代大数据平台迭代

鹅厂开源忙，大数据平台为先锋

相关阅读

阿里云开源深度学习框架EasyTransfer，大幅降低NLP预训练和知识迁移的门槛

腾讯大数据平台，要“没人管”了

百度万亿级图检索引擎发布！四大预训练模型开源，还“发糖”15亿元

虚拟人，你们着实有点抢镜了（doge）

800块DIY爆火AI硬件，全流程开源，网友：新Linux时代来了

京东通过港交所上市聆讯刘强东持股15.1% 腾讯持股17.8%

热门文章

Sora/可灵/海螺/混元大PK！多场景对比，谁是最强视频生成模型？

AI音乐战火升级！三路国产大军全面对决Suno

OpenAI员工意外泄露下一代ChatGPT！网友：故意的还是不小心的？

谷歌“狙击”OpenAI，发布新一代大模型！主打Agent+多模态

诺奖青睐AI的这一年，这些人工智能公司&人物&产品值得关注

腾讯大数据回答2019：鹅厂开源先锋，日均计算量超30万亿

乾明 发自 腾讯汇 量子位 报道 | 公众号 QbitAI

开源底气：每日数据计算量超 30 万亿

从引进到自研再开源：腾讯大数据迎来转折点

全力打破数据墙，开源中向第四代大数据平台迭代

鹅厂开源忙，大数据平台为先锋

相关阅读

阿里云开源深度学习框架EasyTransfer，大幅降低NLP预训练和知识迁移的门槛

腾讯大数据平台，要“没人管”了

百度万亿级图检索引擎发布！四大预训练模型开源，还“发糖”15亿元

虚拟人，你们着实有点抢镜了（doge）

800块DIY爆火AI硬件，全流程开源，网友：新Linux时代来了

京东通过港交所上市聆讯 刘强东持股15.1% 腾讯持股17.8%

热门文章

Sora/可灵/海螺/混元大PK！多场景对比，谁是最强视频生成模型？

AI音乐战火升级！三路国产大军全面对决Suno

OpenAI员工意外泄露下一代ChatGPT！网友：故意的还是不小心的？

谷歌“狙击”OpenAI，发布新一代大模型！主打Agent+多模态

诺奖青睐AI的这一年，这些人工智能公司&人物&产品值得关注

乾明发自腾讯汇
量子位报道 | 公众号 QbitAI

京东通过港交所上市聆讯刘强东持股15.1% 腾讯持股17.8%