搜狗的2019年:录音笔开辟智能硬件新战场,语言AI要在C端找准点

明年还将推出两款神秘硬件

晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI

回顾即将过去的2019年,这一年AI领域的行业关键词是“落地”,至于到底落在哪里,每家公司都有不同的见解。

在搜狗CEO王小川看来,AI技术应该落在C端。至少to B和to C并不矛盾,即使是to B,最终也要落到消费者身上。

王小川之所以这么说,是搜狗这家公司的基因决定的。

多年以前,王小川就为搜狗构想了一套完整的to C战略,他提出的“三级火箭”理论,其中的每一级都是面向消费者。

时代在变,搜狗也把三级火箭升级为搜索、输入法和硬件,如今AI就是这只火箭的燃料。以搜索起家的搜狗,现在要以语言AI为燃料助推火箭。

那么,过去这一年里,AI火箭把搜狗推到了什么高度,搜狗火箭注入的燃料里究竟有什么成分?

硬件另辟蹊径

今天PC端、移动端不再是唯一的用户入口,丰富多样的硬件成为互联网公司争夺用户的新战场。

在硬件这条道路上,搜狗的思路与众不同。

要说2019年最火的AI硬件是什么,非智能音箱莫属,小米、华为、百度、阿里,都投入了巨大的人力财力在这片红海中。

但王小川认为,智能音箱不是未来硬件的趋势。在接受《财经天下》采访时,王小川说,未来的智能硬件一定是更便携、更具备IO能力的,可以成为人的外设器官,提升能力及能力边界。

搜狗把目光锁定在一个市场规模仅400万的硬件市场——录音笔。这个看似不起眼的小硬件让搜狗在硬件领域获得了初步胜利。

对于人来说,语音虽然是一个快速输入的好方式,但并不适合快速的读取。过去录音笔之所以不被用户接受,一个很重要的原因就是重新整理录音内容耗时耗力。

随着搜狗将AI技术注入到录音笔中,这一看似不起眼的硬件又焕发了新的活力,无论是关注度还是销量都出现了增长。

搜狗不仅自己做硬件,也要为整个产业赋能,今年8月,搜狗联合爱国者、纽曼、索尼等录音笔制造商,成立AI创新联盟,把自身的AI技术和服务开放给友商,实现行业共赢。

成功探索出AI录音笔这一智能硬件后,搜狗还会尝试哪些新的形式?

在这次采访中,王小川还透露,明年年初搜狗将推出两款新的智能硬件,可能会颠覆一些传统行业。

软件添加新玩法

硬件为搜狗开辟了新的战场,搜狗传统的软件阵地也在巩固,甚至还开辟出了新的边界。

光是输入法,搜狗今年就已经玩出了花来,给它加入变声功能、输入法预测。

最早是5月,搜狗为手机端输入法加入了变声功能,让用户可以轻松模仿周星驰、高晓松等明星的声音。

简而言之,只要用户在输入法中录入一段自己的语音,就能瞬间把声音转化成另一个角色,语调的抑扬顿挫、情感都原原本本保留下来,效果堪比柯南的“变声领结”。

上个月,搜狗输入法又迎来重大产品升级,正式迎来10.0版本。用AI技术提升输入体验,推出了“AI逐字校对”、“AI长句预测”等全新功能。

除了直接提供给消费者的产品,搜狗还有toB而后toC的语音技术、分身技术,虽然普通用户可能没有直观感知,但这些技术已经和我们的生活息息相关。

搜狗语音变声已经用在得到这样的知识付费平台中,通过与知识大咖梁宁的合作,这项技术大大提高了语音付费内容的生产效率。

搜狗不仅能合成单独的语音,还能通过合成的虚拟分身以视频形式声情并茂为用户传递信息。目前,包括新华社、央视的多家媒体都使用了搜狗的AI合成主播,为观众播报新闻。

通过先进的语音合成、人脸建模等技术,搜狗AI合成主播能大大缩短新闻制作流程,无论何种场景都能快速上岗。

它还能做到24小时不间断播报,将传统的媒体工作者从繁重的新闻播报工作中解脱出来,大大提升了媒体行业的效率。

最近,搜狗的合成主播还在T-EDGE科技大会、WISE大会中担当了“主持人”,若非是在屏幕上显示,几乎可以以假乱真。

基础研究的积累

火箭的推进离不开燃料,搜狗积累的AI技术就是推进三级火箭的核心动力。

今年搜狗已在多项语言AI技术的上达到全球领先的水平,并在一些顶级会议上发表学术论文,展示了搜狗软硬件之下的支撑力。

年初,搜狗搜索AI研究团队凭借BERT + Answer Verification模型在AI问答大赛CoQA中,超过微软、讯飞、清华、复旦等公司和高校夺得冠军。

搜狗一直坚持探索以语言为核心的人工智能战略,AI问答对搜狗具有重要意义,王小川相信搜索的未来是问答。而机器阅读理解是现今问答技术发展的核心之一。在这次采访中,王小川也提到“搜索明年会有新的形态”,这个“新形态”可能是走向问答的重要一步。

5月,搜狗在信号处理顶级会议ICASSP上,提出了一个新的多模态语音识别模型,即“基于模态注意力的端到端音视觉语音识别”。

人类说一段话,AI根据唇形和语音准确识别内容。该技术对嘈杂环境下的语音识别具有极大的提升作用。在外界噪声与语音信号几乎相同的情况下,搜狗的多模态识别能将准确率提高了30%。

多模态语音识别未来将在搜狗的手机输入法中集成,也有可能与车厂合作,解决车内复杂环境的语音识别,拓展搜狗技术的使用场景。

搜狗认为未来语音识别和交互的方式一定是多模态的,语音识别技术已经发展到了一个瓶颈阶段,纯的声音识别已经很难再有大幅度的提高。

在搜狗看来,未来的人机交互不止是声音,还有视觉动作、神态的加入,这些技术都会提高交互体验。

搜狗这一年

纵观搜狗的2019年,从AI录音笔、输入法升级再到AI合成主播,搜狗的新技术实力不断通过to C方式展现。

短短一年的时间里,搜狗的录音笔设备已经稳稳占据市场,AI合成等技术主要也迅速扩展到知识付费、新闻媒体、互联网法院、金融客服等各个角落。

在技术研发上,搜狗也是步步为营、稳扎稳打,多模态的语音识别技术为搜狗的输入法和新的硬件产品带来的新的想象。

从这些端倪,我们不难看出搜狗希望以语言AI为核心,让AI技术加持的各种产品,无论是硬件还是软件都能成为用户的智能助理。

“落地实用”是扎根在搜狗工程师大脑中的理念,先进的技术一经推出就快速应用到产品中,与竞品形成差异化竞争。

搜狗也不局限在某几个特定场景,而是在各种场景下为用户提升效率。在语音AI技术取得突破后,搜狗还在积极拓展边界,加入图像、视觉、翻译、知识计算,将搜狗已有的语音AI技术带到一个更新的应用场景,和更高的理论高度。

用搜狗自己的话来说,搜狗正致力于成为语言AI技术的创新者和引领者。

明年,搜狗还会有什么动作,王小川口中的两个神秘智能硬件是什么?值得期待。

版权所有,未经授权不得以任何形式转载及使用,违者必究。