谷歌的AI应用开发之道

雷刚 2019-07-27 13:58:23 来源：量子位

李根发自 Tokyo

量子位报道 | 公众号 QbitAI

全球AI第一大厂，打造AI产品时有何指导思想？

软件+硬件+AI。

没错，这是谷歌CEO皮猜在Google I/O大会上反复强调的，但这还不是全部。

因为从2019年Google I/O展现的新进展来看，谷歌几乎没有新推出什么软硬一体的AI新产品，反倒是各种基于手机的AI应用解决现实挑战。

而在最近的谷歌AI东京座谈会现场，两位谷歌AI产品经理也集中表达了这样一种产品开发之道：

尽可能手机就能用，而且最便宜的智能手机都能使用。
尽可能本地化训练，不需要云边协同，若能完全实现AI模型本地化训练，对用户隐私更有利。
尽可能减少网络要求，甚至在无网络状态也能使用AI应用。

总之，让AI福祉尽可能低门槛地惠及最多的人。

AI芯片让更多智能App成为可能

Sagar Savla是谷歌AI研究组的产品经理，他之前参与了Pixel的相机、YouTube和Google Home等AI产品和应用打造。

最新成果则是一个名为Parrotron的语音转换模型，完全在手机上应用，语音能够实时完成速记转写，现场对于网络也没有特殊配置，但转写的速度和识别率令人惊讶。

甚至还会有结合语境上下文的“修改”，比如同样一个名词，可以区分是否需要大写。

谷歌AI博客也已经介绍了该应用全过程，产品立项起点，是希望能帮更多语言障碍患者实现更好交流。

传送门：https://ai.googleblog.com/2019/07/parrotron-new-research-into-improving.html

但完全做到手机实时转写，在模型训练和落地应用方面，着实下了一番功夫。

我们也问Sagar，这样的应用是否考虑非英语版本，比如中文。

他说其实他们也在推动普通话方面的打磨，目前挑战还在数据方面。

但一经在台湾建立了专门技术团队推进，希望能让更多普通话用户也能使用。

Sagar表示，在谷歌内部，他们打造AI应用有两条思路，一是让更多人受惠，二是尽可能减少限制和要求。

采访当天，我们展示了一款搜狗专门为速记转写打造的AI硬件产品，这引起Sagar极大兴趣。

他马上就拿起来研究，两眼放光，然后问我们这个产品谁出的、在什么地方可以买到，售价多少。

但当我们问，谷歌是否会有类似的产品规划，比如专门为AI速记打造新硬件产品？

回答是否定的。

Sagar称类似解决方案上，谷歌推出了一款App，只要带麦克风的安卓设备都可以用，装载后就能当做AI录音笔了。

这位年轻的AI工程师还介绍，如果说今年有什么新技术进展让他激动，那可能会是手机芯片方面的进步：

一方面是AI处理器正在普及，越来越多机器学习应用可以落户手机。

另一方面是5G，可以预见的是，云和端之间的时延会大幅度降低，更多AI模型的响应和速度，都会得到提升，体验也会更好。

挑战纯本地、无网络

另一位谷歌AI产品经理则对5G有进一步补充。

Julie Cattiau，Google I/O 2019上的“聋哑人打电话”项目——Live Transcribe就由她参与打造。

当时主要是为耳聋或听力患者提供实时语音转文字、文字转语音，一个App支持70种语言。

Julie说5G的进展是很好，但对于谷歌AI的应用打造来说，“帮助有限”。

因为她们希望每一款AI应用，基本标准都是完全无网络、纯本地的，这样任何情况下，都不影响正常使用。

之前Julie还参与了谷歌翻译App的打造，也是从一开始就朝着这个方向努力的。

当然，如此思路，也是谷歌AI目前前进的大方向之一。

因为Jeff Dean已经明确，随着AI技术不断开拓和落地，也随着用户隐私问题更加迫切，谷歌正在寻求联邦学习方面的突破。

所谓联邦学习，简而言之就是本地化训练和学习AI模型，对于小数据学习的要求非常高，但这样也能最大化保证用户的隐私安全——毕竟数据不用离开终端。

Julie也多次谈到AI应用开发中的数据挑战。

她之前参与了一项濒危生物识别和保护的产品打造。通过收集濒危物种座头鲸的叫声，运用TensorFlow打造出这样一款特殊的语音识别应用，帮助动物保护组织更好发现和保护濒危的座头鲸。

最近则在难度上再升级，专门为语言障碍患者打造语音识别模型，取名Euphonia。

与常见的语音识别不同，Euphonia的要求是解决“口齿不清”、“发音不准”，或者“语速极慢”等场景问题，并且最后准确识别和转录。

Euphonia还加入了视觉识别模块，能够识别手势、眨眼等沟通方式，让诸多残障、患病或老年用户实现更顺畅交流。

Julie说，类似AI应用开发过程中，数据样本非常重要，一方面数据本身很特别，另一方面还要考虑到这类人群的隐私需求。

所以目前针对特殊群体的应用，他们更倾向于与公共组织合作，比如现在于加拿大、美国的公共卫生部门，都有展开合作。

这也是她们AI落地的立项标准之一，首先是能让更多人享受AI福祉，其次是该领域的数据情况，以及是否有靠谱的合作方。

而一旦项目启动，她们就会进一步沿着本地化、无网络化和个性化方向展开。

Julie还说，目前AI产品训练还非常依赖云端，这也是她们需要解决的挑战之一，但完全本地化的AI模型训练，还给不出时间表。

最后，Julie还分享了谷歌AI推进的另一大“法宝”：产学研紧密合作。

她们的核心目标是把AI技术转换为产品，但一人一个团队和一家公司都能力有限，所以她们也乐于把最新研究进展向研究机构开放，等进一步成熟，则通过TensorFlow向工业界开源。

开放和开源也会带来意想不到的收获，因为现实中AI可以优化、解决的问题，难以提前预料和枚举。

所以谷歌AI团队也很谦虚，认为自己的工作，只是用某项技术\方法抛装引玉，他们相信高手在民间，提供工具给高手，能让世界更美好。

这大概也是谷歌理想主义旗帜始终飘扬的原因吧。

在谷歌AI的全部交流中，谈论最多的是“如何让技术工具更好用”、“如何对社会有益”，“如何让世界\地球更好”……

没有一次，谷歌AIer谈论的话题里包含商业化、股价、市值和营收，一次也没有。

于是所见所闻如斯，让人感慨，有时也让人隐隐担忧。

但20岁的谷歌，创立以来依然在用最开始的方式证明自己，也激励更多创新者。

就算是商业公司的战略抉择，或许也没有Right way和Easy way之分。正确的路，就是最简单的路。

谷歌

雷刚

谷歌的AI应用开发之道

AI芯片让更多智能App成为可能

挑战纯本地、无网络

相关阅读

几十年数学难题被谷歌研究员意外突破！曾因不想搞数学自学编程，当年差点被导师赶出门

谷歌开源系模型第二代免费开放！27B媲美Llama3 70B，单H100或TPU主机可跑

12秒内AI在手机上完成作画！谷歌提出扩散模型推理加速新方法

谷歌新操作系统Fuchsia网站上线，同时支持手机和PC，鼓励开发者参与进来

大数据已死！从业10年老哥爆文抨击：这套唬不住客户了

谷爱凌的父亲不是谷歌5号员工，但母亲一家都是高学历的运动健将

热门文章

数学家们仍在追赶天才拉马努金

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

蔚来李斌：一年减少了数十亿英伟达芯片采购

不到2年，AI PPT赛道第一！像素绽放CEO赵充：今年是AI应用创业最佳时期 | 中国AIGC产业峰会