搜狗听写,现在是录音笔硬件的“操作系统”了
郭一璞 发自 大望路
量子位 报道 | 公众号 QbitAI
Google把安卓做成了操作系统,让其他手机厂商也能用这样的系统,融入安卓的生态。
微软把Windows做成了操作系统,让各种PC厂商都能接入,融入Windows生态。
搜狗也要这样做了。
在手机和PC之外,搜狗瞄准了录音笔这个硬件行业,并正式将搜狗听写能力开放给业界,万城集团、索尼、爱国者、纽曼是第一批吃螃蟹的合作伙伴。
也就是说,日后如果你购买搜狗和这四家厂商中任意一家接入了搜狗听写能力的录音笔硬件产品,都可以使用同样的交互方式来使用它,并且都可以借助搜狗听写能力,实现语音转文字、同声传译、文本编辑能功能。
并且,对于这几家厂商来说,也不需要专门做适配,而是可以直接实现自动适配了。
这几乎等于一个操作系统了。
打通搜狗输入法,还能在线编辑
这个操作系统的具体功能,主要包括以下几项:
语音转写:语音转成文字,识别准确率95%。背后搜狗的语音识别技术访问量达到了每日6亿次。
搜狗输入法:接入搜狗输入法,以及背后的用户账号,用户在输入法中常用的个性化词库也可以用在语音识别里,常用的专业词汇、人名地名都可以被识别。
多端同步编辑:无论在PC、安卓还是iOS上,用户都可以同步录音和转写的文字,进行编辑。由于配备了声纹识别能力,转写的文字可以自动区分出说话人的角色,而不是直接呈现没有人物区分、不分段的一大片文字。另外,如果有转写不确定的部分,搜狗听写服务会提供多个可能的词汇备选,不用手动一个字一个字的人工删改。
云存储服务:用户的录音和转写都能保存在云端。
接入手机、PC端
除了录音笔之外,在移动端和PC端也可以使用搜狗听写服务。
手机端的搜狗录音助手App,就介入了转写同传能力,面向蓝牙协议开放。
而在PC端,即使是没有接入搜狗听写的的录音笔,如果连到电脑的USB接口上,用户也可以用PC端的搜狗输入法管理录音笔中的录音,提供转写服务。
而且,当连接到PC时,由于打开时使用的是你自己的搜狗输入法账号,像朋友的名字、行业词汇、喜欢的动漫主角这些特殊词汇都存储在自己的账号里,因此转录的时候,转录结果也会贴近你的词库。
举个例子说,如果你是《长安十二时辰》的粉丝,平常使用输入法有写过剧中的相关词汇,语音转文字的时候,AI系统就能够听出“伏火雷”;
如果你是是机器学习研究者,那么你一定经常使用输入法写相关的技术名词,语音转文字的时候,系统就可以分辨出“卷积神经网络”。
因此,即使是同一段录音,由不同人的账户来转写,得到的结果可能也是不同的。
另外,语音转文字的速度也有保证,一个小时的录音,大约要5分钟就能转写完。
开放服务,而非技术
在开放搜狗听写能力的发布会上,搜狗与万城集团、索尼、爱国者、纽曼成立了“AI创新联盟”。在搜狗CTO杨洪涛看来,录音笔这个产品,单纯提供录音功能,20年来都没有改进,而用户拿到录音后去听、去记的过程,更是繁琐的很。
因此,借助语音识别技术,结合搜狗输入法,提供更丰富的服务,可以突破录音笔这个行业的天花板,在企业会议、学习培训、媒体采访、写作记事等领域充分提供服务。
简单来说,原来你觉得整理录音太麻烦,还不如现场记,因此不会购买录音笔;但如果整理录音的过程变简单,能让你更方便的整理老板在会上的讲话、老师在课上讲的知识点,或者直接用语音输入来写作,这样,你就会选择入手一支录音笔。
行业的天花板,被升高了。
不过,让合作伙伴的产品也能用上搜狗的听写能力,为什么不选择直接做一个开发者平台,让全部的开发者都能接入API来实现呢?
“开放的是服务,不是技术”,杨洪涛这样说。
在他看来,市面上的语音识别API已经相当多了,搜狗不希望再去做一个开放平台,而是利用搜狗的优势,提供具备产业价值和商业价值的服务。
而这,也是搜狗将听写服务与搜狗输入法中的用户定制词库连接起来的原因。
最后,除了听写能力之外,搜狗公司AI交互技术中心总经理王砚峰表示,未来搜狗的AI分身、变声、同传等在行业内有竞争力的、能提供完整服务体验的能力都会逐步开放。
- MEET2020 | 百度景鲲:AI交互正在吃掉旧产品边界,触达移动互联网盲区用户2019-12-10
- MEET2020 | 王砚峰揭秘搜狗AI技术体系:自然交互在左,知识计算在右,核心是语言2019-12-16
- MEET2020 | 旷视唐文斌:你到底给谁创造了什么样的价值?这是AI产品的灵魂拷问2019-12-17
- MEET2020 | 快手刘霁:AI基础能力决定每个公司AI的迭代和落地效率2019-12-20