搜狗AI进化之路：从应用为王，到颠覆式创新

雷刚 2019-05-29 13:09:19 来源：量子位

雷刚发自凹非寺

量子位报道 | 公众号 QbitAI

5月25日，成都，“高晓松”声音响彻会场，欢迎听众参会：

大家好，欢迎来到极客公园2019年现场和大家一起分享人和机器的共创未来。

但实际站在舞台中央的人，却是王小川。

王小川，搜狗CEO，成都七中知名校友，中国互联网进程里最知名的川娃子，中学时代就打响了IT天才名气，后来又在历史际会创造出一方天地。

现在，因一场活动，王小川带着一项全球领先的技术再次回到成都，没错，就是那一声“高晓松”的欢迎。

因为它在秒秒钟经过手机App前，还是王小川的原声。

搜狗“变声”，颠覆性进展

通过计算机合成某一个人的“声音”，自然在AI江湖里算不上什么。

但如果真正实现“千人千声”也能瞬间“迁移”，并且在小小手机上实现，那确实得竖大拇指。

因为全球AI第一大厂，Google，也还没做到。

就在一年一度亮肌肉的Google I/O上，也有“变声”方面的进展演示，但体现的是一种语料输入到另一种语料输出的“平行迁移”。

更AI的方式来说，one to one，从指定A到指定B.

但像王小川展示，无论说话者是谁，无论说什么，不用考虑说话人的特点（如王小川的“川普”），最后能够将“任意说话人”音色实时高逼真度变换到“指定说话人”音色，则是 Any to one.

该过程中，不光是输入输出两端的映射关系变化，更是技术实现难度上指数级提升。

因为核心问题在于，每一个人的音调、音色和语言节奏都不尽相同，正如同世上没有两片相同的树叶一样，世上也没有两个完全相同的说话人。

如何将“千人千声”通过技术处理，变为同一种指定声音，同时还不丢失原说话人的语言习惯？

离不开展现真正技术的语音表征学习和迁移学习的突破，简要来说三步：

首先，使用表征学习技术学习到源端说话人语音的音色、内容和韵律(讲话节奏、情感语气等信息)三大特征。

其次，将学习到的源端说话人音色特征替换成目标说话人。

最后，基于新的语音变声技术，使用内容(源端)、韵律(源端)、音色(目标端)三类特征，合成最终生成变声音频。

所以大会现场，王小川的“说”到高晓松的“声”，实际经历了这样的过程。

然而，这样一短句，实现背后也有数千层深度学习网络的努力。

如表征学习使用，上图所示，A部分对目标音色语料进行声纹特征编码，提取说话人的音色embedding。

B和C分别从输入音频中学习内容和韵律embedding，通过“说话人归一化”模块对内容embedding进行统一规整，去除音色信息，通过对音频特征的压缩编码及特征抽取，学习表征韵律的风格特征。

而语音变声，基于表征学习得到的特征，通过Attention和Decoder模块进行加权特征编码，并利用WaveRNN神经网络声码器恢复成波形，最终得到带有目标音色的音频。

当然，最具现实意义也最具技术挑战的还是落地。

这也是搜狗突破称得上颠覆性的原因——这是全球首次将如此难度的变声能力落实到消费级产品中。

并且还不是自家用软件专门定义打造的终端硬件，而是融会贯通到小小“搜狗输入法”App中。

通过App，无论安卓还是iOS，无论什么品牌、何种价位的手机，都能实现“变声”，实时迁移成“表情语音包”。

未来应用自然不止于此。

语音届的“换脸”术

之前，Deepfakes带动的“换脸”已经实现了风靡，哔哩哔哩就出现了不少杨幂主演的《射雕英雄传》，惟妙惟肖，真假难辨。

但相比换脸的道德问题和法律危机，“变声”却能立竿见影创造价值。

凡有音频处，皆能让AI变声发挥效用。

比如在线教育、景点导游、电商广告等等场景的音频制作。

一个有口音的老师，一个普通话不标准的地方导游，以及各种流量奶生。

特别是实力待丰的流量偶像们，雇佣一个熟练掌握“换脸”和“变声”技术的AI团队，就完全能靠脸吃饭，人在家中坐，钱源源不断来。

总之，只要有音频的需求，变声就能降低成本、提高效率。

王小川还想借此应用表明，我们正在身处一个怎样的技术时代。

跟技术结合，人类才能更强大。不要狂妄心怀碾压排斥，而是接受技术的变革和改造，成为新人类，真正人与机器协同，变得更强大，创造更迷人的未来。

搜狗CEO毫无疑问想推动这样的未来。

AlphaGo洗礼，搜狗进化

在活动上，王小川也再次从AlphaGo讲起。

他认为这是这个时代的文艺复兴、启蒙运动，让我们开始换另外的世界观看待技术和未来。

对于他自己，这种进化更是显著。

在AlphaGo期间，他就是“机器必胜”的笃定支持者。而AlphaGo获胜后，搜狗CEO更是直接为此开辟了一天“狗胜节”的带薪假。

很多人都说搜狗会借势，但少有人了解王小川的遗憾。

因为在AlphaGo宣布挑战李世石之时，王小川就感叹过，搜狗内部其实也认真讨论过深度学习下围棋的可能性和可行性。

但后来不少工程师认为需要太多资源、小公司更该务实……最终没有真正展开，直到AlphaGo在Nature上的论文发表，才慨叹思路和技术所见略同。

这让搜狗CEO学到一课：光有务实主义不够，工程师也得展现出敢想敢上的“浪漫主义”那一面。

所以“狗胜节”与其说是庆祝，不如说警醒。

这也是搜狗蜕变和进化的开始。

之前搜狗是产品力突出的形象，从浏览器、搜索到输入法，江湖享有名气，特别是输入法，在国内堪称“国民应用”。

但现在，搜狗的旗帜也越来越多出现在全球AI的“华山论剑”中。

全球CoQA机器阅读理解大赛夺冠；
世界MegaFace百万级人脸识别竞赛中夺冠；
WMT2017机器翻译顶级评测大赛中英和英中第一；
国际顶级口语机器翻译大赛IWSLT决赛第一；
《基于模态注意力的端到端音视觉语音识别》中标国际顶级学术会议ICASSP；

……

此外，还有人工智能应用领域的引领性创新。

比如全球首个AI合成主播上岗新华社、CCTV，以及刚刚取得突破的“千人千声”变声落地输入法。

还需要提及的是，这只不过王小川和搜狗将自己的技术底色更鲜明地亮出来而已。

对于技术、AI的投入，更早之前就能从两件公益大于其他的“投资”事件中窥见一斑。

清华学子的年度AI“华山论剑”——智能体大赛，创办21年的搜狗连续赞助15年，至今都是王小川必会参加的活动。

另一件也跟清华有关。2016年，搜狗向清华捐资1.8亿元用于成立“清华大学天工智能计算研究院”，集中研究AI等前沿领域技术。

值得一提的是，最近发表于全球顶会的端到端音视觉语音识别论文，正是搜狗和清华天工研究院的联手之作。

中国AI创新缩影

最后，也是时候借搜狗重新认知中国AI的发展现状和未来了。

谈论中国AI的时候，恐怕你依然会有这样的印象：中国应用有优势，但基础研究方面差距太大。

但从搜狗“变声”突破和应用来看，一种越来越明显的趋势正在展现。

图灵奖唯一华人得主、清华姚班创始人姚期智教授更是有准确概况，在接受《人民日报》采访时，姚院士这样说：

中国的人工智能在应用上绝对是杰出的，相对来讲对于算法基础研究没有那么强，但是对于这个问题从长期的观点来看，我还是相当乐观的。

姚期智教授认为，AI正在变得热门，受到越来越多重视，也有越来越人才投身其中，基础算法和理论研究也都被更集中攻坚。

我觉得我们现在没那么强，但是以后的几年我们能够追上。

所以结合王小川和搜狗的种种努力及其结果，姚期智教授之言，并非单纯乐观而已。

虽要戒骄戒躁，但也没必要妄自菲薄。

如今局势，我们希望更多创新诞生，既要有信心、也要给耐心，同时也要给予更多关注，不吝给每一次突破献上掌声。

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

搜狗王小川语音交互

雷刚

搜狗AI进化之路：从应用为王，到颠覆式创新

相关阅读

一支智能录音笔，会写会翻会整理：搜狗AI，正用技术打破行业天花板

搜狗听写，现在是录音笔硬件的“操作系统”了

这是两会上最高科技的主播！不会累、不会失误，逼真得不像AI

搜狗发布全球首个手语AI合成主播，用技术造福听障人群

AI同传再进化：看懂PPT会思考，专业术语翻译准确率大幅提升40%

王小川大模型25天再升级！13B版本开源免费可商用，3090即可部署

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此