百度宣布AI语音调用登顶中国第一，自研芯片+最新端到端模型颠覆传统语音识别算法

晓查 2019-11-29 12:56:24 来源：量子位

晓查发自凹非寺
量子位报道 | 公众号 QbitAI

2019年，NLP和语音技术取得了多项技术突破，但是科技公司考虑更多的是AI的“场景”，如何在各种场景中都能方便地集成语音功能。

10月，谷歌在Pixel手机发布会上宣布，将语音识别模型压缩到50M集成在手机中，实现离线的语音转写。

而国内的几家语音技术公司想得更远，将语音技术的接口提供给更多的开发者和企业，让AI的应用场景更广阔。百度就是其中一家。

“生物在物竞天择的环境中进化，而AI在应用场景中进化。”在今天的百度大脑语音能力引擎论坛上，百度CTO王海峰如是说。

△ 百度CTO王海峰

王海峰也透露，百度大脑的语音能力日均调用量超100亿次，居国内第一。拥有国内最大的AI开放平台的百度大脑，目前已接入开发者超过150万，开放228项技术能力。

就在同一天，权威调研机构IDC发布的《2019中国AI云服务市场厂商评估》报告显示，百度智能云凭借着在AI技术、市场和商业上的表现，在中国排名第一。这也从侧面反映了百度AI在市场中的影响力。

除了语音技术外，百度在其他AI技术上也全面开花。9月，百度在CCKS 2019“知识图谱问答”大赛中夺冠；11月，Forrester发布报告显示，百度智能云的计算机视觉能力在8大维度获得第一。

这主要是由于百度智能云入局AI最早，也是国内唯一拥有完全自主深度学习框架的云服务商，抢占了AI落地的先机。

因此用上百度语音技术的开发者越来越多，这些数字的背后，有百度大脑语音技术团队的研发实力作为支持。

团队的领头人，就是今年8月在朋友圈宣布回归百度的技术大牛贾磊。他介绍了百度语音软硬件技术独一无二的“秘籍”。

△ 百度语音首席架构师贾磊

新算法降低30%错误率

据Canalys等第三方统计机构的数据，小度音箱在国内市场的占有率在今年登上了第一，贾磊认为这是市场对百度大脑技术的肯定。

百度语音首席架构师贾磊表示，百度大脑的语音技术在今年又取得了一项突破性进展，可以将未来小度音箱的技能进一步提升。

这项新技术全称为“基于复数CNN的语音增强和声学建模一体化端到端建模技术”。贾磊表示，这项技术颠覆了传统的语音识别算法。

目前，市面上主流的智能音箱采用的语音识别算法，是先将音频转化为文字，再对文字进行语义理解。

这就好比两个人相互交流，先把语音写成文字，然后通过阅读文字来理解内容。这种识别方式与人相差甚远，而且也存在着诸多问题。

首先，这种方式只有在唤醒识别后才能确定语音的方向，如果噪声与声音方向相同，则会导致识别率很低。而且无法应对说话者边走边说的情形。

而百度大脑提出的基于复数CNN的端到端模型，可以直接将声音转换成语义，更接近于人的语音交互方式，对噪声的抵抗力更强。

贾磊表示，这项技术让远场语音识别的错误率降低了30%以上，对语音识别性能的提升幅度属业内最大，是一项革命性、颠覆性的技术。

这种模型完全不依赖于数字信号处理等技术学科，用机器学习将最初的音节和最终语义直接打通，实现数字信号处理和语音识别一体化。

有了复数CNN的端到端模型，智能音箱难以解决的几大使用场景问题都会得到解决。

比如，我们很难一边走动一边和智能音箱不间断多轮对话；在大声播放电视或音乐时，智能音箱也无法听清我们。

这些常见场景过去一直是智能音箱难以使用的痛点，未来都有望被复数CNN的端到端模型所化解。

未来的让模型结构能成功落地，百度还研发了一种利用近场数据来模拟生成远场训练数据的方法。利用该方法，百度成功训练出可以达到落地水平的一体化声学模型。

为语音造“芯”

只有语音的软件算法还不够，近年来国内AI公司越来越多地涉猎芯片制造，一方面是出于自主可控的考虑，另一方面也是为了让硬件与软件之间更好地配合。

例如，在语音识别的场景中，如何快速加载模型，与输入信号进行快速运算，成了最大的难点之一。传统通用芯片难以解决。

为此，百度专门开发了一款远场语音AI芯片“鸿鹄”，在今年7月的百度AI开发者大会上发布。百度AI技术生态部总经理喻友平今天发布了基于百度鸿鹄芯片的4款硬件模组、开发板和针对智能家居、智能车载、智能IoT设备的3大场景解决方案。

鸿鹄在功耗方面有着巨大的优势，ARM芯片在处理语音时待机功率超过1W，而鸿鹄的待机功耗仅是其他芯片的不到1/10，这让智能家居集成语音唤醒成为可能。

百度鸿鹄芯片预置语音算法，可与多种不同的主芯片搭配使用。而且，百度大脑研发的复数CNN的网络体系很小，可以内置到百度鸿鹄芯片中。

通过软硬件的结合，百度下一款智能音箱在技术上可能将会有更大的突破。

百度的目光也不仅仅在智能音箱领域。据贾磊介绍，百度鸿鹄芯片还是一款车规级芯片，可承受巨大的温湿度变化，未来也能集成在汽车中，作为车载语音硬件使用。

贾磊表示，百度大脑要用最高规格做硬件、最广规格做软件，以适配不同的应用场景。

他还预测，远场语音识别的诸多问题3年后将得以解决，届时准确率将达到近场识别的水平。这会让远场识别技术更普及，成为智能家居、智能手机等设备的标配。百度鸿鹄芯片也有着更广阔的应用前景。

开放语音技术

从7年前，百度就开始以深度学习技术为依托，研发智能语音技术。

如今这项技术已经遍布百度内部各种产品，从近场语音识别的输入法、百度搜索，到远场语音识别的智能音箱、车载语音，再到语音合成的地图导航、信息流播报。

如今，百度不仅将语音技术用在自家的产品上，也向其他开发者和企业用户开放。

△ 百度AI技术生态部总经理喻友平

喻友平表示，在这一轮科技变革浪潮中，AI是一个普遍的生产力基础，百度大脑要做的，就是把自己的技术以更低的门槛释放出来，给开发者使用。

喻友平将之称为“全栈语音引擎”，这个引擎中的技术已经广泛用于语音播报、语音指令、语音记要、语音质检等领域。

多款第三方打车、支付App上已经用上了百度的语音合成技术。而且百度为了丰富合成语音的应用场景，推出了音质更好、准确率更高的音库给开发者使用。

“百度大脑强大的技术，加上开放的态度，可以释放巨大的能量。”喻友平说。

在本次论坛上，家电企业创维、科技信贷公司瓴岳、农业科技公司华智等公司将百度的语音技术集成到自己的产品中，实现了生产力的提高。

最后喻友平宣布了百度大脑语音公益计划，面向为视障、听障等人士提供服务的科技公司，百度将免费提供语音识别与合成技术，以最低价提供硬件模组。

百度大脑希望将语音技术的“朋友圈”不断扩大，把AI技术与医疗、农业、金融、物联网乃至公益事业联系起来。

正如王海峰在大会开场所说，“AI技术的进化和产业赋能正向循环，相互促进，让AI在应用场景中不断进化。”

百度

晓查

百度宣布AI语音调用登顶中国第一，自研芯片+最新端到端模型颠覆传统语音识别算法

新算法降低30%错误率

为语音造“芯”

开放语音技术

相关阅读

百度的云智一体，让视频变得“硬核性感”

文心一言满月就「上班」：企业服务生产力拉满，演示现场人挤人

Why always百度？OpenAI有的他有，OpenAI没有的他还有

百度云计算中心项目提前封顶李彦宏点赞新基建提速

华为百度同日发布智能驾驶新品，余承东：遥遥领先！

帮村里接通AI就靠它！34个地域超拟人AI智能体上线，背后技术也被我们扒出来了

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

百度宣布AI语音调用登顶中国第一，自研芯片+最新端到端模型颠覆传统语音识别算法

新算法降低30%错误率

为语音造“芯”

开放语音技术

相关阅读

百度的云智一体，让视频变得“硬核性感”

文心一言满月就「上班」：企业服务生产力拉满，演示现场人挤人

Why always百度？OpenAI有的他有，OpenAI没有的他还有

百度云计算中心项目提前封顶 李彦宏点赞新基建提速

华为百度同日发布智能驾驶新品，余承东：遥遥领先！

帮村里接通AI就靠它！34个地域超拟人AI智能体上线，背后技术也被我们扒出来了

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

百度云计算中心项目提前封顶李彦宏点赞新基建提速