自研芯片+自主AI框架,百度CTO王海峰携百度大脑6.0亮相
百度大脑,正在成为AI新型基础设施。
晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI
如果让你和10年前、20年前的自己进行一场对话,你想说些什么?
刚刚,百度用AI技术带我们体验了一把“穿越”的感觉,面对20年前的自己。
今天“百度世界大会”首次与“央视新闻”合作,总台央视主持人康辉和百度创始人、董事长兼CEO李彦宏、百度CTO王海峰,“5个人”进行了一次特殊的对话。
明明只有康辉、李彦宏和王海峰三人,为何会变成“5个人”的对话呢?
原来另外的“两个人”,分别是AI制造的康辉、李彦宏年轻时的自己。
两位虚拟人根据康辉和李彦宏20年前的形象、记忆和所拥有的知识打造,形象、动作、声音高度逼近真人。
在这场特殊的对话里,不仅康辉、李彦宏能和20年前的“小康”、“小李”流畅闲聊,甚至两个虚拟人之间也来了一场亲切互动。
百度说,这是具备认知能力、可机机对话的终端虚拟人。
而这一场对话背后,百度积攒了10年的技术。
驱动“小康”、“小李”两位虚拟人的,是10年来不断进化的“百度大脑”。
百度CTO王海峰表示两位虚拟人整合了视觉、语音、语言与知识等多种模态的AI技术,具备了认知能力。但这还只是百度大脑最新能力的“冰山一角”。
接着,这位百度CTO从听、说、看,思考等多个层面,展示百度大脑升级到6.0之后的最新进展。
而且王海峰强调,百度大脑的AI能力,正在通过云和开放平台输出给社会各界,支持各行各业智能化升级。此外,还有纵贯百度大脑各层的安全体系,为AI技术及应用保驾护航。
概括起来就是:百度大脑,正在成为AI新型基础设施。
百度大脑十年进化
“台上一分钟,台下十年功。”
为了让虚拟人具备语音、视觉、知识等多方技能,作为技术底座的百度大脑“十年磨一剑”,才实现了现场酷炫的虚拟人对话效果。
今年对百度大脑来说意义尤为特殊,因为它真的走过了十年,经历了AI技术从沉寂到兴盛:
- 2010年,百度大脑开始基础能力积累,AI布局初具雏形;
- 2016年,百度大脑1.0正式发布,开源飞桨深度学习框架上线;
- 2017年,百度大脑2.0形成了完整的技术体系,AI能力全面开放;
- 2018年,百度大脑3.0发布,核心技术进入多模态深度语义理解阶段;
- 2019年,百度大脑5.0完整升级为软硬件一体的AI平台。
那么,到了第十个年头,百度大脑成功升级6.0后又带来了哪些新变化?
过去一年,百度大脑又在AI计算架构、算法、能力上做出了创新和重要升级,已经成为智能时代的“AI新型基础设施”。
如果说,百度大脑的第一个十年是完成了能力进化和体系构建,那么下一个十年,百度大脑的目标就是将最先进的AI技术落地化。
过去每一次百度大脑的升级都以技术为关键词,而今年百度着重突出“AI新型基础设施”,契合国家战略中的“新基建”,也符合百度2019年产业智能化的落地思路。
所以百度大脑6.0的全新升级,一言以蔽之就是:在完成技术升级的同时,也要在“新基建”中扮演重要角色,让各行各业快速运用AI技术,加速产业智能化。
百度大脑6.0完整图景
虚拟人互动,让我们直观地看到了百度大脑一个应用,但百度大脑驱动的,不止于此。
本届大会上亮相的百度无人车、小度音箱、度晓晓,背后的技术支持,都来自百度大脑。
包括我们手机里安装的百度输入法、地图、搜索,背后也是靠百度大脑的AI技术。
所以,百度大脑是百度技术多年积累和业务实践的集大成,从硬件到软件,从技术底层到应用场景无所不包,也是百度技术的原动力。
而且百度还要把它作为整个AI基建时代的动力贡献出来,并得到了产业界的广泛响应。
百度大脑6.0—AI新型基础设施,已开放270多项领先的AI能力,凝聚230万开发者,企业发布的模型数量超过31万,是业内最全面、最领先、服务规模最大的 AI 开放平台,将更敏捷、更高效支撑AI工业大生产,助力产业智能化提速。
今年,百度大脑6.0除了下沉到“新基建”,也有全方位的升级和完善。
无论是在软硬件维度的“基础层”,还是在技能维度的“技术层”。
AI芯片百度昆仑
首先,百度大脑6.0交出第一份硬答卷:
启动了2年的百度“昆仑”芯片项目,完成第一代芯片的量产和交付使用,第二代芯片已经提上日程,预计明年量产。
在当前大环境下,这个量产和交付进展,毫无疑问也是一针强心剂,从产业到整个国家,意义和价值不言自明。
实际上,如此速度,虽然意料之外,但也在情理之中。
百度在AI芯片方面,实际十年前就已经开始探索。早在2010年,百度就已经在用FPGA研发AI架构,2011年就部署上线。
如今,百度昆仑芯片的生态环境已初步建立,支持多款国产处理器,适用于语音、图像、NLP等多个场景。
百度方面披露,截止到今天,百度昆仑芯片已经和正在部署接近2万片,向十几个客户完成交付。
比如部署在百度搜索引擎上的百度“昆仑1”芯片,相比英伟达T4 GPU,百度昆仑1的性能在不同模型下有1.5-3倍的提升。
另外,王海峰也在现场表示,百度“昆仑2”芯片已提上日程,这款芯片采用7nm先进的工艺,相对第一代性能提高了3倍,将于明年上半年量产。
AI开源平台飞桨
谈百度大脑,也不得不提最大国产开源深度学习平台——飞桨。
作为中国首个开源的产业级深度学习平台,百度飞桨在此次升级中,依然地位颇隆。
飞桨到今年已升级到2.0版。本次升级可以用“动静统一、软硬结合”8个字来形容,升级内容包括两个方面:
动态方面,图功能升级实现了动静态的结合,让用户更容易开发模型;全面升级的API体系,对开发者更加友好。
而硬件方面,百度称飞桨与硬件结合,达到了国际领先水平,甚至超过了TensorFlow和PyTorch国外两大AI框架,可以适配22种芯片型号,覆盖15家硬件厂商,对国产AI硬件的支持力度业界第一。
开发者拥护方面,也能体现飞桨影响力。
飞桨正在作为AI新基建的重要基础设施,为产业智能化升级转型输出推动力。
当然,这也离不开百度在飞桨生态建设方面的努力。比如百度大脑在多个视频平台上推出了深度学习系列精品课程,并出版了配套的入门教材,帮助开发者快速掌握AI技术。
总之,面向国内AI硬件厂商,百度大脑有业界最广泛的适配方案,面对开发者,也有相关课程培养开发者,这也体现了今年百度大脑作为“AI新型基础设施”的理念。
结合技能和新进展来看,这种基础设施的地位及作用,还会更清晰。
知识图谱
百度大脑6.0的另一大进展,就是建成了世界上规模最大的知识图谱。
百度的知识图谱自2012年启动,经过近10年的发展,已拥有超过50亿实体和5500亿的事实,每日调用次数超过400亿次,覆盖了100多个行业场景。
最近这一年,百度的知识图谱技术实现了全面的升级,针对不同的应用场景和知识形态,构建了事件图谱、多媒体图谱、行业知识图谱等多种图谱。
语义理解框架文心(ERNIE)
还有自然语言理解能力——NLP框架“文心”(ERNIE)——取得进一步提升,尤其在中文语义理解上,文心依旧一马当先。
新版文心,相比去年在8项NLP任务中,语义理解的准确率相比去年提升了2.07%。
今年,百度还提出了基于多流机制的预训练语言生成技术——ERNIE-GEN和知识增强跨模态语义理解技术ERNIE-ViL。
ERNIE-ViL首次将场景图知识融入到跨模态的预训练模型中,在视觉问答、图像检索等5个典型的跨模态任务上取得了SOTA效果,并在跨模态语义理解权威榜单VCR上登顶榜首。
近期发布的文心语义理解平台,将全面的NLP算法集、端到端的开发集和平台化服务于一体,提供数据处理、模型训练、模型评估、模型部署等环节提供一整套工具,一站式帮助企业实现智能化转型。
视觉语音技术
此外,图像和语言、语音和语言的一体化理解能力。
在图像和语音的语言一体化理解方面,百度大脑的OCR识别准确率提升了24%,语音识别准确率和交互成功率大幅提升。
语音识别层面,百度推出端到端信号声学一体化建模;语音合成层面,则是Meitron和单人千面合成个性化。
目前,百度语音交互技术日均调用量超过155亿次,广泛应用在移动端、智能家居、和语音IoT等场景。
视觉计算方面,百度大脑6.0让视觉计算走向极致效率,为算法开发者开源Slim系列模型,为业界提供最小的文字、人脸识别等模型。
其他前沿技术
在巩固基础的前提下,百度大脑6.0也积极探索与融合前沿技术,将数据联邦、量子计算等领域纳入其中。
百度发布了全国首个面向疫情预测与追踪的多方位数据协作平台——百度数据联邦平台。
百度还推出了“量易伏”,这是国内首个云端原生量子计算平台。
针对开发者,量易伏提供基于Python的开源开放工具包QCompute。
百度还对量子机器学习工具集“量桨”进行了重磅升级:帮助开发者高效地搭建量子神经网络,上线支持20多个量子比特的量桨模拟器。
最后,百度首次提出AI安全研究的三大维度:Security、Safety和Privacy,即强对抗环境下的安全威胁、非对抗条件下自然环境所产生的真实威胁和数据安全与隐私保护。
从技术大脑到AI基础设施
毫无疑问,在百度创办20年之际,这次升级后的百度大脑6.0,已不能用技术大脑视之了。
一方面,它依然是前沿技术边界探索、最新AI技术输出的集大成者。
另一方面,它也展现出平台性、低门槛接入性,以及生产力特性——可以帮助非专业人士快速搭建AI系统,也让百度大脑成为智能化转型中的基础设施。
或者就是百度强调的,AI新型基础设施。
比如在最新的应用案例中,用百度大脑设计一个智能水运调度应用,非专业技术人员只需不到一天时间,就能完成AI图像模型的训练和部署,大大节省了寻找专业机器学习团队的开发成本。
而这只是“黑科技”触手可及的案例之一、冰山一角。
为了推动更多人加入进来,百度也放出“狠话”未来5年,还将继续培养500万,为中国智能经济和智能社会的发展提供AI人才保障。
此外,当前形势下,最值得关注的就是这次在软硬件方面的自研自主进展。
一方面是芯片,百度昆仑的新进展。
另一方面是操作系统,百度大脑和飞桨这样的平台,就是数字化转型中的智能操作系统。
而百度现在在央视展示的,核心就是四个字:自主可控。
或许作为选项之一,未来可以避免被“卡脖子”。
而且李彦宏也表态,在这种基础设施的投入上,会坚定不移走下去。
李彦宏表示:
芯片、操作系统这样过去被“卡脖子”的技术,都是需要长期坚持的,它们的商业价值不可能在短短几年之内就体现出来,需要我们的科技人员有雄心、有耐心、耐得住寂寞,而且有信仰。我们也有长期的考虑和耐心,希望把中国的这些被“卡脖子”的技术能够一点一点突破,最后被市场广泛接受。
但对于这样的投入,李彦宏认为值得。
或许,这也是百度大脑可以十年发展、十年迭代之后,从一家公司的技术大脑成为整个产业的AI基础设施的核心原因吧。
— 完 —
- 12/21来成都!携手多点、TuGraph、DB-GPT社区一起玩转 DB+AI2024-12-16
- 第五届长沙·中国1024程序员节,即将震撼来袭!2024-10-14
- 国产全AI游戏来了?!大模型直出开放世界游戏,有声可交互2024-12-13
- 扒一扒大模型应用隐形冠军:服务1600+企业、200+业务场景,分分钟就可构建专属应用2024-12-12