郭一璞 发自 悠唐
量子位 报道 | 公众号 QbitAI
2014年,曾经是YY CTO的赵斌在硅谷创立了声网。
这家公司的主要业务,就是借助API的方式,让全世界的开发者都能方便的在自家应用里接入实时音视频服务,也就是语音通话、视频聊天、互动直播等相关功能。
成立五年来,声网已经融到了C轮,累计融资额超过1.2亿美金,IDG、顺为资本、纪源资本等知名投资机构都曾参与投资。如今他们在硅谷、上海、北京、广州、深圳、班加罗尔、伦敦、东京、纽约等地都有办公室。
在声网的官网上,赵斌有一个标签:“API信徒”。
网景创始人马克·安德森曾经说:“软件正在吃掉世界。”
赵斌深以为然,“说‘吃掉’有点夸张,如果用更平和或者客观的话来说,就是软件会渗透到所有行业、生活里面。”
但他对“软件吃掉世界”有了更多一层自己的理解:“完全靠独立的软件吃掉这个世界已经差不多了,现在我们的生活都是在软件上运行。但是如果要进一步吃掉这个世界,需要在很多业务上API化,API之间又可以集成,将来实现生活体验、工作体验无缝连接,然后整个把体验包起来。”
世界是运行在API上的,这也是赵斌选择API这个创业方向的原因。
基于AI的传输技术
在移动端实现超分辨率,是声网不久前发布的一项技术。
可以将实时传输中的视频在原有分辨率的基础上实现两个方向的2倍同步放大,并进行细节的增强。
声网CEO赵斌介绍,在移动端计算,固然可以减少云端算力与传输压力和运营成本问题,但这项技术的实现并不容易:
第一,要在移动端实现本地运算,会受到手机发热和耗电量的影响,尤其是直播、上课这类应用,很多时候要超过1小时,要使手机在这么长的时间里不发热、不降低性能,是非常有挑战性的一项工作;
第二,由于超分辨率的转换过程是实时的,无法预知下一帧的视频,而画面必须是连续不卡顿的;
第三,移动端落地平台多种多样,要在苹果安卓不同系统、高端低端不同手机上实现落地,需要考虑的维度更多,对适配的要求更强。
除了移动端超分辨率之外,声网原创的SD-RTN(Software Defined Real-time Network)也是这家公司引以为豪的一项产品。
SD-RTN部署在了全球超过200个国家和地区,赵斌介绍,声网在每个地区都会有专门的当地供应商,根据用户分布情况,选择可靠、短延时的线路,另外通过算法优化全球互联网的覆盖和传输能力,因此,和公有云类产品提供的服务并不相同,更侧重于解决延时和卡顿的问题。
“比如一家公司的数据中心机器在西雅图,而你有很多客户在埃及,难道数据要先到西雅图、再从西雅图到埃及吗?在中东布一个就直接过去了。”声网首席科学家钟声举了这样一个例子来说明。
中国人的国际化公司
虽然是创立者是中国人,但“国际化公司”一直刻印在声网的骨子里。
声网不仅有大量外籍员工,且平台上国外的用户流量也已经超过了国内。其中不少流量也得益于中国互联网公司出海的举动,比如当互动直播走向国外,就带来了成体量的用户规模。
目前,声网平台上有约15万左右的应用在运行,其中也包括不少像陌陌这种用户规模巨大的应用。而声网整个公司大约有400名员工,其中研发、技术服务和支持等各类技术人员占比达到70%,研发团队主要集中在国内,上海为多,北京广州也有,另外也有以业务团队为主的硅谷办公室。
作为专业的技术服务商,大厂们的潜在竞争让赵斌并不觉得有压力。“可能有一些比较大的企业或者巨头在做类似的东西,这个我觉得还好吧,主要是产品业务本来都是比较新的,到底做成什么样、怎么服务得比较好,这里面的做法和产品体验的差异是最重要的。”
在赵斌看来,大公司固然有向某个领域进军的能力,但单单就音视频服务来说,这对大厂们只是很小的一个方向,而对声网则是核心的专业方向,投入全部的资源。“把实时音视频做成简单的API,去帮所有App接入,在相当长的时间里,我们是唯一的一家。”
传输的使命
在2019年底这个时间点上,5G是整个科技行业都在聚焦的议题。
而尤其是对于和视频传输内容相关的公司来说,这更是令人激动、令人期待、令人惊喜的时刻。
虎牙CEO董荣杰就预测,当5G到来时,普通用户的流量不再是限制看直播的因素,就像短视频今日的火热一样,整个直播市场会有5~10倍的巨大增长空间。
而对于声网这类面向开发者的视频API服务公司来说,5G也是重大机遇。
赵斌说,“5G提供了更好的带宽或者更廉价的带宽,覆盖更全的带宽,赋能手机应用,更好的利用这个带宽。利用带宽干什么?视频是最主要的。”
而在钟声这位首席科学家看来,站在RTC+AI+5G三个技术的交叉点上,这对声网更是特别的机会。
除了音视频,赵斌则将声网的方向锁定在了“实时场景构建”上,不仅包括视频声音,也有信息和消息。而在未来,钟声希望能借助技术将声网的能力延伸到虚拟老师、活体认证、远程诊断、治疗等多个方面。