谷歌的AI应用开发之道

李根 发自 Tokyo

量子位 报道 | 公众号 QbitAI

全球AI第一大厂,打造AI产品时有何指导思想?

软件+硬件+AI。

没错,这是谷歌CEO皮猜在Google I/O大会上反复强调的,但这还不是全部。

因为从2019年Google I/O展现的新进展来看,谷歌几乎没有新推出什么软硬一体的AI新产品,反倒是各种基于手机的AI应用解决现实挑战。

而在最近的谷歌AI东京座谈会现场,两位谷歌AI产品经理也集中表达了这样一种产品开发之道:

  • 尽可能手机就能用,而且最便宜的智能手机都能使用。
  • 尽可能本地化训练,不需要云边协同,若能完全实现AI模型本地化训练,对用户隐私更有利。
  • 尽可能减少网络要求,甚至在无网络状态也能使用AI应用。

总之,让AI福祉尽可能低门槛地惠及最多的人。

AI芯片让更多智能App成为可能

Sagar Savla是谷歌AI研究组的产品经理,他之前参与了Pixel的相机、YouTube和Google Home等AI产品和应用打造。

谷歌的AI应用开发之道

最新成果则是一个名为Parrotron的语音转换模型,完全在手机上应用,语音能够实时完成速记转写,现场对于网络也没有特殊配置,但转写的速度和识别率令人惊讶。

甚至还会有结合语境上下文的“修改”,比如同样一个名词,可以区分是否需要大写。

谷歌AI博客也已经介绍了该应用全过程,产品立项起点,是希望能帮更多语言障碍患者实现更好交流。

传送门:https://ai.googleblog.com/2019/07/parrotron-new-research-into-improving.html

但完全做到手机实时转写,在模型训练和落地应用方面,着实下了一番功夫。

我们也问Sagar,这样的应用是否考虑非英语版本,比如中文。

他说其实他们也在推动普通话方面的打磨,目前挑战还在数据方面。

但一经在台湾建立了专门技术团队推进,希望能让更多普通话用户也能使用。

Sagar表示,在谷歌内部,他们打造AI应用有两条思路,一是让更多人受惠,二是尽可能减少限制和要求。

采访当天,我们展示了一款搜狗专门为速记转写打造的AI硬件产品,这引起Sagar极大兴趣。

谷歌的AI应用开发之道

他马上就拿起来研究,两眼放光,然后问我们这个产品谁出的、在什么地方可以买到,售价多少。

但当我们问,谷歌是否会有类似的产品规划,比如专门为AI速记打造新硬件产品?

回答是否定的。

Sagar称类似解决方案上,谷歌推出了一款App,只要带麦克风的安卓设备都可以用,装载后就能当做AI录音笔了。

这位年轻的AI工程师还介绍,如果说今年有什么新技术进展让他激动,那可能会是手机芯片方面的进步:

一方面是AI处理器正在普及,越来越多机器学习应用可以落户手机。

另一方面是5G,可以预见的是,云和端之间的时延会大幅度降低,更多AI模型的响应和速度,都会得到提升,体验也会更好。

挑战纯本地、无网络

另一位谷歌AI产品经理则对5G有进一步补充。

Julie Cattiau,Google I/O 2019上的“聋哑人打电话”项目——Live Transcribe就由她参与打造。

谷歌的AI应用开发之道

当时主要是为耳聋或听力患者提供实时语音转文字、文字转语音,一个App支持70种语言。

Julie说5G的进展是很好,但对于谷歌AI的应用打造来说,“帮助有限”。

因为她们希望每一款AI应用,基本标准都是完全无网络、纯本地的,这样任何情况下,都不影响正常使用。

之前Julie还参与了谷歌翻译App的打造,也是从一开始就朝着这个方向努力的。

当然,如此思路,也是谷歌AI目前前进的大方向之一。

因为Jeff Dean已经明确,随着AI技术不断开拓和落地,也随着用户隐私问题更加迫切,谷歌正在寻求联邦学习方面的突破。

所谓联邦学习,简而言之就是本地化训练和学习AI模型,对于小数据学习的要求非常高,但这样也能最大化保证用户的隐私安全——毕竟数据不用离开终端。

Julie也多次谈到AI应用开发中的数据挑战。

她之前参与了一项濒危生物识别和保护的产品打造。通过收集濒危物种座头鲸的叫声,运用TensorFlow打造出这样一款特殊的语音识别应用,帮助动物保护组织更好发现和保护濒危的座头鲸。

谷歌的AI应用开发之道

最近则在难度上再升级,专门为语言障碍患者打造语音识别模型,取名Euphonia

与常见的语音识别不同,Euphonia的要求是解决“口齿不清”、“发音不准”,或者“语速极慢”等场景问题,并且最后准确识别和转录。

Euphonia还加入了视觉识别模块,能够识别手势、眨眼等沟通方式,让诸多残障、患病或老年用户实现更顺畅交流。

Julie说,类似AI应用开发过程中,数据样本非常重要,一方面数据本身很特别,另一方面还要考虑到这类人群的隐私需求。

所以目前针对特殊群体的应用,他们更倾向于与公共组织合作,比如现在于加拿大、美国的公共卫生部门,都有展开合作。

这也是她们AI落地的立项标准之一,首先是能让更多人享受AI福祉,其次是该领域的数据情况,以及是否有靠谱的合作方。

而一旦项目启动,她们就会进一步沿着本地化、无网络化和个性化方向展开。

Julie还说,目前AI产品训练还非常依赖云端,这也是她们需要解决的挑战之一,但完全本地化的AI模型训练,还给不出时间表。

最后,Julie还分享了谷歌AI推进的另一大“法宝”:产学研紧密合作。

她们的核心目标是把AI技术转换为产品,但一人一个团队和一家公司都能力有限,所以她们也乐于把最新研究进展向研究机构开放,等进一步成熟,则通过TensorFlow向工业界开源。

开放和开源也会带来意想不到的收获,因为现实中AI可以优化、解决的问题,难以提前预料和枚举。

所以谷歌AI团队也很谦虚,认为自己的工作,只是用某项技术\方法抛装引玉,他们相信高手在民间,提供工具给高手,能让世界更美好。

这大概也是谷歌理想主义旗帜始终飘扬的原因吧。

在谷歌AI的全部交流中,谈论最多的是“如何让技术工具更好用”、“如何对社会有益”,“如何让世界\地球更好”……

没有一次,谷歌AIer谈论的话题里包含商业化、股价、市值和营收,一次也没有。

于是所见所闻如斯,让人感慨,有时也让人隐隐担忧。

但20岁的谷歌,创立以来依然在用最开始的方式证明自己,也激励更多创新者。

就算是商业公司的战略抉择,或许也没有Right way和Easy way之分。正确的路,就是最简单的路。

版权所有,未经授权不得以任何形式转载及使用,违者必究。