明敏 发自 凹非寺
量子位 | 公众号 QbitAI
前不久,中兴结束5年合规检查期的消息,在科技圈引发不小波澜。
在这样一个特殊的时间节点下,“缺芯少魂”方面的自主自强问题,再次成为全社会关注的焦点。
芯片,代表着底层算力;魂则是指系统。
如今,AI被视为高精尖技术竞赛角逐的战场,其最核心的系统便是深度学习框架。
国际两大主流深度学习框架TensorFlow、PyTorch之外,中国的开源框架,发展怎么样了?
具体都有哪些玩家入场?其背后技术实力如何?是否能够自主自立、不会重蹈“缺芯”覆辙?
今天,我们就来试着找寻这些问题的答案。
国产开源框架情况
在问题的最开始,我们来盘一盘如今市面上有哪些主流国产开源框架。
百度飞桨(PaddlePaddle),深度学习开源框架的先头兵,在2016年就已率先对外发布。
而后在2020年,国内开源框架迎来了第一波集中爆发。
独角兽旷视拿出工业级深度学习框架天元(MegEngine),一流科技OneFlow、华为昇思(MindSpore)也在同年登场。
学界方面,清华大学开源了支持即时编译的深度学习框架计图(Jittor)。
显然,过去几年中,“开源”、“AI底层”成为了国内AI厂商们十分重视的发展战略。
其背后原因可大致归结为两点。
第一,在深度学习迎来高速发展的大背景下,传统产业转向智能化,AI的注入是关键因素之一。
小到一次人脸识别、大到一座城市的智能化管理,深度学习已经渗透到我们的日常生活之中,成为社会高速发展的一条重要纽带。
第二,尽管TensorFlow、PyTorch在技术上发展已经非常成熟,但是外部环境变化,使得我国拥有自主创新的AI底层能力成为眼下之刚需,这也为国内深度学习开源框架带来了发展的土壤。
实际上,从2016年至今,国内深度学习开源框架在经历多年积累、沉淀、探索后,一些成果已经初步涌现。
根据IDC中国公开发布的深度学习开源框架市场研究报告,截至2021年上半年,TensorFLow、PyTorch以及百度飞桨成为国内最高频使用的开源框架;
百度飞桨已凝聚406万开发者,服务15.7万企事业单位,开发模型达47.6万个。
市场份额方面,百度飞桨在国内综合市场份额已超越TensorFlow和PyTorch,位居中国第一。
那么,它是如何一步步发展至如今这一水平的?其背后经验是否值得参考借鉴?
作为国产头雁,以百度飞桨为例,或许能厘清一条中国自研开源框架发展之路。
自主技术系统需要怎样炼成?
当下,我们已经处于以深度学习为核心的第三次AI浪潮,新兴技术迎来集中爆发期。在这样一个百舸争流的环境中,如何开拓出自己的一席之地?
瞄准技术核心底层,大厂们深谙此道。
正如前文所提及的,框架被视为深度学习的核心灵魂,在推动人工智能进入工业大生产上,具有举足轻重的作用。
在此背景下,如何为自家深度学习开源框架开辟出一席之地?
参考飞桨,连点成线总结概括,大概需要4方面的努力:
- 技术积累
- 场景应用
- 产业供需
- 开发者生态
缺一不可。
首先,及时起步、抢占身位。
这里最典型的案例,便是谷歌TensorFlow。
2015年,TensorFlow先声夺人,迅速在工业界内赢得开发者们的青睐,由此奠定了它全球两大主流框架的地位。
百度飞桨几乎是同一时间站在了起跑线上。
2016年,百度飞桨便先以PaddlePaddle的名字在GitHub上对外开源,并且提供中英文双语技术文档。
而如果从筹备、研发期算起,百度飞桨的起点还要更早,可追溯到2010-2013年。
起跑早、发力早,带来的优势也十分明显——可以有更加充足的时间积累底层技术。
目前,百度AI方面专利申请数量超过1.3万件,连续四年位列中国第一,其中深度学习专利数量位居全球第一。
将专利技术握在自己手里,意味着中国深度学习技术可以更加自主自强;同时,更早积累技术也为中国团队参与到行业标准建立,提供了机会。
如今,百度飞桨的核心框架贯穿开发、训练、推理部署三个环节,基础模型库覆盖CV、NLP、推荐、语音、知识增强的文心大模型。
第二,深度学习框架要能够解决行业中的实际问题。
工业界出身的深度学习框架,对理解行业场景有着先天优势。
加之飞桨诞生于中国,还能更加了解中国企业的实际需求,也为开拓海外市场提供丰富经验参考。
过去几年来,百度飞桨官方发布的产业级开源算法模型已经超过了500个,并发布13个精度与性能平衡的产业级PP系列模型,覆盖工业、农业、交通、科学计算等20多个行业领域。
在此我们可以看一些具体实例。
农业增产方面,百度飞桨联合京东方后稷打造了智慧水培植物工厂;
煤矿生产领域,华夏信天机器人公司基于飞桨的目标检测工具套件PaddleDetection,开发出输煤胶带智能巡检机器人。
当然还有更为前沿的应用场景。
前不久,百度生物计算方面研究登上Nature子刊,这一成果的底层技术支持便来自百度飞桨。
基于飞桨,百度开发出了一个可用于生物计算的工具组件螺旋桨(PaddleHelix),涉及领域包括药物研发、疫苗设计和精准医疗等。
还有此前东京奥运会上,中国跳水梦之队背后的隐形AI教练——国内首个云端3D+AI跳水训练系统,底层能力同样来自飞桨。
第三,协同上下游共同推动自主创新。
在实际应用层面,企业由于框架与硬件不适配,总是会带来额外的人力物力成本。
在这方面,百度飞桨实现了国产芯片适配量第一,同时还是英伟达三大支持框架之一——也是其中唯一深度适配的中国框架。
除了自研昆仑芯之外,飞桨已经和英特尔、英伟达等在内的22家国内外硬件厂商,完成了31种芯片的适配和优化。
值得一提的是,深度学习开源框架对底层硬件的适配,反过来也会开拓国产硬件的使用场景,促进国产硬件的发展。
第四,深度学习开源框架能否发展更为长远,良好的开发者生态也是关键之一。
有人用、越用越好,可以看作是评判一个深度学习框架的标准。
飞桨在这方面已经初具规模。
其中,百度飞桨在开源社区的影响力位居国内第一,在GitHub上总star位于全球第三、中国第一。
《2021中国开源年度报告》显示,2021年GitHub中国项目活跃度Top 30中,飞桨占据了5个项目,其中飞桨框架位列第一。
中国自研开源框架如何突围?
综上,便是百度飞桨为中国深度学习框架发展提供的一些思考。
如今,全球深度学习框架“PPT”格局初现,百度飞桨PaddlePaddle与TensorFlow、PyTorch已展开正面交锋。
但不可否认的是,前路仍旧漫长,中国深度学习框架能够提升的空间还非常广阔。
最近,百度方面也提出了自己的见解。
百度AI技术生态总经理马艳军博士表示,当前中国深度学习框架的发展有三大关键点:
- 技术实力
- 功能体验
- 生态规模
技术实力,不难理解。
技术创新的源头,说到底还是人才。目前,我国在AI底层技术人才的储备上,仍有不足。
飞桨也是在边研发边培养这方面的人才。同时还打造了AI Studio学习与实训社区,让更多对AI感兴趣的人有机会入门、进阶和快速提升。
飞桨还与高校“产教融合”:合作人工智能相关教材、提供人工智能教育资源,超过700所高校的3000多名AI专业教师从飞桨举办的深度学习师资培训中受益。
其次,在功能体验上。
中国是全球产业链最完整的国家,但同时产业体系也相当复杂,尤其是中小企业方面,如何快速向智能化转型,已经成为国家、行业都在重点关注的问题。
那么,如何让各行各业的专业人才,即使没有AI专业知识和背景也能顺利使用AI,便是AI产业需要从底层技术上思考的问题。
低门槛,俨然是众望所需。
这也是百度飞桨的特色之一。
无论是TensorFlow还是PyTorch,都未在易用性方面下大功夫,对初学者友好度不高。而百度飞桨正好弥补了这一市场痛点。
最后,还是要说回到开发者生态上。
马艳军博士提到,百度飞桨与开发者们一直保持紧密联系,比如遇到问题可以直接通过QQ交流群反馈给内部工作人员。
同时,百度飞桨还经常开展线上直播福利课程,毕竟自学嘛,也是程序员必备自我修养了。
从这些动作中也不难看出,与谷歌、Meta让开源框架“野蛮生长”的路线不同,百度飞桨不仅仅是为开发者提供一个好用的底层框架,还投入了大量人力、物力来打造一个友好度更高、适用性更强的生态。
最后的最后,我们再来放眼瞭望一下整体人工智能产业的大环境。
去年4月,在首届济南国家级人工智能创新应用先导区高端峰会上,中国工程院院士潘云鹤就指出:
人工智能应用的先导区要鼓励使用中国自己的平台,促进中国人工智能实现自主可控。
另一方面,IDC报告指出,安全性开始成为开发者使用开源框架的考量因素之一。
而值得庆幸的是,潘云鹤院士表示,这方面中国也开始慢慢形成自己的优势,百度飞桨便是最好的证明之一。
正如马艳军博士所说:
尽管深度学习框架属于高投入、长周期、抢生态的竞争,但已经得到国家和企业的战略性支持,是开启下一个AI时代的钥匙。
板凳甘坐十年冷,只为星火可燎原。
十年技术投入,百度飞桨站稳中国市场,未来的挑战依然艰巨,挑战总是与机会并存,相信心怀技术信仰的百度,可以不断推动中国的人工智能走在世界的前列。