Rokid祝铭明:未来5年,希望把所有人的眼镜换成智能眼镜

AI和AR是一件事

编辑部 整理自 MEET2024

量子位 | 公众号 QbitAI

彭博社马克·古尔曼(Mark Gurman)消息,苹果2024年的重点是Vision Pro等,而非iPhone

爆料称,苹果坚信Vision Pro将会成为2024年用户的关注焦点,并相信它有望会在数年内“成为其财务故事的重要组成”。

这便是大模型浪潮之下,空间计算趋势正在逐渐升温的一个缩影。

无独有偶,就在这则消息释出前几天,在MEET 2024大会上,相同的趋势判断也被Rokid创始人&CEO祝铭明(Misa)提了出来:

明年是XR的一个大年,如果不出意外,明年XR的热度将会强过AI。

甚至表示希望在未来5年,将所有人的眼镜换成智能眼镜。

Rokid祝铭明:未来5年,希望把所有人的眼镜换成智能眼镜

为何如此肯定?做出判断的依据是什么?

有Rokid作为一家人机交互平台公司将近10年的探索积累,当然也有来自创始人Misa对AI/操作系统/AR的技术理解。

为了完整体现Misa有关空间计算技术趋势的思考,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。希望也能给你带来新的启发。

关于MEET 智能未来大会:MEET大会是由量子位主办的智能科技领域顶级商业峰会,致力于探讨前沿科技技术的落地与行业应用。今年共有数十家主流媒体及直播平台报道直播了MEET2024大会,吸引了超过300万行业用户线上参会,全网总曝光量累积超过2000万。

演讲要点

  • AI和AR其实是一件事。
  • AR涉及感知/理解/交互/协同/内容创作五方面能力。
  • 空间计算方面,VST和OST两条技术路线并进。
  • 明年XR的热度将会强过AI。
  • 未来5年,希望把所有人的眼镜换成智能眼镜。

AI和AR是一件事

谢谢大家,谢谢量子位,这是我今年唯一的一次公开的演讲。我刚才发了个朋友圈,前后左右全是讲AI的,所以我应不应该来这个讲台呢?

实际上我觉得应该来,不仅仅是说我应该作为另外一个技术方向来跟大家进行分享,实际上我要跟大家讲的就是:AI和AR其实是一件事情

我给大家分享一个故事,2014年,我离开阿里巴巴,那个时候大老板从美国飞回来,跟我有一个4个小时的沟通,为什么要离开阿里?沟通了很多很多东西,但本质上的一点我就跟他说,未来的20年有两件事情会改变人和这个世界,一个是AI,一个就是AR,而我自己离开阿里巴巴,一个使命就是把这两件事情变成一件事情

Rokid祝铭明:未来5年,希望把所有人的眼镜换成智能眼镜

所以为什么我说我今天来这里,如果大家了解Rokid的背景,了解我自己的背景,大家应该知道我是一个坚定的AI信仰者

我们在2014年成立,今天Rokid被大家所理解到的或者感受到的是 AR,因为我们的眼镜作为一个硬件产品比较耀眼,大家可能会认为Rokid是一家眼镜公司,但Rokid从来没有把自己定位成一家眼镜公司

Rokid 从2014年成立,15年的时候我们就在北京和硅谷分别成立了两个实验室,A Lab 和 R Lab。A Lab 就是AI,R Lab 就是Reality,加在一起就是AR

所以大家看到Rokid从第一天起,就没有隐瞒我们是一家什么样的公司。但只是因为Rokid本身有不断的产品迭代,从AI产品到AR产品的整个演进路线,所以大家经常容易被硬件的东西所抓住眼球,但实际上我希望大家知道 Rokid是做AI和AR的人机交互、新一代人机交互平台的一家公司

这是我第一次跟大家正式阐述Rokid是一家什么样的公司。我记得2016年的时候跟董事会去讲这个,大家其实还是不大理解AI和AR为什么未来会是一个人机交互的平台?

但现在已经没有人去怀疑这件事情。另外大家也可以看到一个发展路径,就是我们从一些B端产品到C端产品的演进,本质上来讲,也正是因为这个行业在很早期,我们必须在很多领域里面进行细致、耐心地打磨,再将它推向消费者市场。

其实到今天为止,我们很多很新的技术,包括接下来我要讲到的spatial computing(空间计算), hardware chipset(硬件芯片), algorithm(算法),包括一些 operating system(操作系统),其实都是不断的在进行打磨中,所有现在驱动这些变革的,大头仍旧在B端,而不是在C端,我们也不应该让 C 端来承担这么高的代价。

Rokid祝铭明:未来5年,希望把所有人的眼镜换成智能眼镜

一家藏在硬件产品中的软件系统公司

刚才我跟大家讲到Rokid是一家人机交互的平台公司,但实际上还有一个更简单的描述,就是——

Rokid本质上是一家藏在精美硬件产品中的系统软件公司

因为我自己上一个创业在被阿里巴巴收购之前,是做操作系统的。所以我们是有非常强的操作系统基因。但Rokid现在给大家所感知到更多的是硬件,是我们AR产品,是我们的AR的一个 ecosystem生态系统,为什么会这样?

因为这个行业特别早期,你需要有一个操作系统,也要有非常坚实的硬件,才能展示它的能力。所以 Rokid 必须从最底层,去构建一套完整的全栈能力。

Rokid祝铭明:未来5年,希望把所有人的眼镜换成智能眼镜

Rokid也是今天在AR领域里面,在国内、哪怕是在全球,为数不多的拥有全栈能力的一家公司。

首先关于芯片的平台,其实我们跟很多的芯片公司,包括刚才咱们演讲的高通,包括国内像海思,几乎所有的芯片公司都在跟Rokid讨论未来的芯片应该怎么做。甚至有的芯片公司的工程师就是在Rokid办工的,这也是我们的第一个能力。

我们首席科学家周军博士本来就是三星半导体研究所的所长,当时三星半导体研究所几乎有一半的精英加入Rokid。我们自己不做芯片的设计,也不做它的生产,我们更愿意的是将我们的系统和平台的诉求,能够告诉行业里走在前沿的这些芯片公司。

作为一个真正的AR 产品公司,我们需要一个什么样的芯片?包括AI和AR。另外我们要把我们的很多想法、能力变成解决方案、变成产品,给到每一个人,给到我们的客户/用户。当然还有现在最热门的,我们把它叫多模态的AGI。

我们有语音、NLP,有这种生成式的内容。对于 AR 来讲还有空间计算,比如说SLAM空间定位等。那么这个跟AI有什么关系呢?Rokid在AI方面的比重特别大,相比其他传统的AR公司,Rokid几乎很多能力都是用AI去重新定义和重新去发明过的,包括显示和硬件设计,这个是大家看得见摸得着的。

Rokid祝铭明:未来5年,希望把所有人的眼镜换成智能眼镜

AR的五种能力

我们来看AR它涉及的能力。

第一个能力,是感知这个世界的能力。通过传感器,比如说camera(相机),通过microphone(麦克风)这些传感器来感知这个世界,这是第一个能力,这个跟半导体就有关系。

第二个能力就是去理解这个世界。当你感知到这个事情,你怎么去理解它?这个理解包括理解客观的物理世界,也包括理解人、理解人的意图、人跟人的关系以及他过去的行为习惯诸多的这些东西。

第三个东西是交互。就是当我理解这个世界之后,我怎样给人用更好的方式,更自然的方式去展现对这个世界理解的结果,以及怎么样提供有效的、有价值的信息给到用户,同时用更方便、更自然的方式去做这件事。这就是我说为什么AI和AR会改变未来的世界。

我们都知道现在AI在生产内容,尤其是最近我们看到很多文字、图片、影像,包括3D的一些模型,这些东西都已经开始通过AI生成,还有很多文字。但这些丰富的内容,最后以一种什么样的方式给大家进行交互和展现,这个就是 AR 要去解决的这个问题。

Rokid祝铭明:未来5年,希望把所有人的眼镜换成智能眼镜

第四个是协同。大家都知道在虚拟世界跟真实世界怎么进行融合协同,那人跟人之间在虚拟和真实世界里面如何去协同?原来说社交网络,通常讲的是人和人在虚拟世界里的协同,那现在多了一个维度,就是人要跟虚拟世界的人,同时还有现实中的人(协同),它的复杂度是提升了。虽然只是加了一个场景,但实际上是提升了一个数量级。

最后一个是数字内容创作。这是现在大家比较关注的Web3、 AGI 相关的这些东西,都在第五个能力里面。所以作为Rokid这样的新一代人机交互公司,它实际要涉及这五个方面的能力。这就是为什么过去 10 年 ,Rokid一直在打造这种全栈的能力。

Rokid:3到5年内把大家的眼镜换成智能眼镜

空间计算后面会有很多感性的展示,但我跟大家讲,空间计算要回答一些问题,它才会真正进入到每一个人的生活。

第一个当然就是它的实时性。其实现在AGI、AI这些东西比较流行,我非常相信在未来, edge computing 边缘计算将会变得非常重要,尤其是AI和edge computing。这样的话就保证它的实时性,因为在空间计算领域里面是没有太多的空间去留给cloud computing(云计算) 去做延迟的,所以实时性就会变得非常非常重要。

第二个,精度会变得非常重要。我们知道,如果你要做虚实融合,尤其是我们的技术路线是OST(Optical see-through),如何保证这个精度?一旦信息以空间的方式进行展示,对人的理解和处理能力是增加了负担。我们要知道人类花了可能 10 万年甚至更久的时间,去将真实的信息压缩成简单的信息,比如压缩成绘画,压缩成平面,压缩成符号,但是AR时代,我们又重新将这些信息进行放大,在虚拟的世界里面进行放大,把数字化搬到我们眼前。

实际上对人来讲,如何更好地处理这些能力,其实是一个新的话题。人是不大擅长处理那么多复杂的东西。如何保证新的交互能更舒服、更自然地获取到这些信息,理解这些信息?对我们来说也是挑战。

第三个是安全性。因为AR 这个时代,或者我们叫空间计算时代,人几乎能够接触到所有东西,比如说你的物理世界,甚至包括你的意图,很多东西都是会被科技所掌握。那这个时候你如何保证个人的安全性?我们也要去回答。

第四个是个性化。每个人看到的东西不一样,每个人用的功能会不一样,他对知识的理解和意图也会有所不同,相同的话题他关注的点也有所不同。怎么样能够进行个性化的呈现和展示?

在未来的3到5年,Rokid将会有一个使命,就是把大家的眼镜换成智能眼镜,所有的眼镜默认就是智能的,就像现在所有的手机默认是智能的一样

你们所在的空间,每个人看到的东西是不一样的,你关注的东西也是不一样的,你参照的信息也是不同的。个性化如何做?这也是我们要去充分考虑的问题。

Rokid祝铭明:未来5年,希望把所有人的眼镜换成智能眼镜

空间计算的本质就是物理世界和数字世界的融合,以及在这种融合的前提下,如何用更自然、更易用的方式进行信息的展示和交流

这是我们要说的东西。一方面是对物理世界和数字世界的理解、感知、融合,一方面是怎么样让人跟这个融合后的世界进行互动。要解决是要解决这两个问题。

Rokid是OST的坚定信仰者

空间计算是什么?

包括空间的视觉,就是怎么把信息在物理世界里进行布置展示,跟真实物理世界进行互动和融合。也包括空间的听觉,就是声音,虚拟的声音应该跟真实物体的声音来自一个方向,同样的力度,模拟它在真实空间里的感受。包括传统的信息,比如说二维信息、书、浏览器。像Vision Pro在年中的时候展示的,旧的生态系统里面的内容,怎么在新的空间里展示,如何进行更有效的交互?

大家都知道二维世界里面的交互是比较简单的,触控即所得,所见即所得。但如果你要去操作空间中的物体和空间中的信息,其实是非常复杂的。那Vision Pro眼手联动,Rokid也有大量的这个东西——微手势、头手联动,眼手联动也会成为一个大的未来。

这个会长成什么样?就开始有一个大的分歧,前面都没分歧。

那今天在行业里面有两个技术路线,一个是以 Apple 为代表的VST叫 Video see-through,它的本质上来讲还是把你包在一个纯粹的数字世界,物理世界是通过传感器可以数字化,把物理世界在虚拟世界里面进行重建。

这是VST 的路线, Rokid是不碰 VST 的路线,我们本质上就不大认可这个路线。虽然这个路线有很多优势,而且长期的两者会共存。但是我们坚信的路线还是轻量化,让大家能够用肉眼去感知真实的世界,将数字的世界在真实世界进行叠加。有没有对错?短期不会有,谁是更好,谁不好,这个还是交给时间去解决。但 Rokid是OST的坚定信仰者,让人用肉眼去看到真实的世界,是我们的一个底线

我们在今年8月26号提出的空间计算套装,这里面用的是高通的骁龙XR 2+芯片,所以它的算力也是非常强的。Rokid从来不讲故事,一旦我们讲出来的,一定是我们全部完成的东西。

讲了这么多,回到咱们今天的主题,Rokid为什么会来这个AI的大会。

首先大家知道 Rokid有一个很核心的技术,我们大概花了四年的时间做的研究成果——就是用one single camera(单目摄像头)做整个空间识别和 3D手势。其实你用一个眼睛是没有办法感知空间和深度的。原来我们也一直认为这是不可能的任务,实际上到今天为止,仍然有很多人在质疑这个东西,直到Rokid产品扔在他眼前,他才接受了,原来这个是可以做到的。

但这里面没有黑魔法,只有一个东西,它所有的深度信息靠AI 生成。手的信息,整个空间信息全部靠AI生成。所以虽然它是一个空间计算的技术,但里面有 70%-80% 是用来做AI计算。

one single camera for everything,我们叫 soft define everything,这是 Rokid的一个理念,软件定义一切

大家都知道,如果你要做成普通的眼镜形态,你是没有办法往上面堆传感器的,所以你只能通过软件定义所有的东西。这个不是 Rokid的技术偏好,是一旦我们选择了这个路线和我们的理念之后,不得不做的权衡。正是因为这个,我们要付出太多的努力。其实要想得到很好的体验,最简单的方式就是堆硬件,堆传感器,堆成本。

Rokid祝铭明:未来5年,希望把所有人的眼镜换成智能眼镜

Rokid要做的事一方面是为了做得更轻量化,更重要的还是希望这个技术能够普惠所有人。我们不想卖几万块钱,我们希望几乎每一个人能够用他能够承受得起的代价得到这个产品。所以这也是 Rokid为什么要选择这样的技术路线。但这个技术路线非常难,每减一颗传感器就要带来巨大的软件计算和AI训练。

得益于最近这两年边缘计算在AI ,在端上的推理能力,我相信在未来的一年到两年,甚至可以做到超过百亿规模的大模型,我100%相信。所以 Rokid也是AI在边缘计算的充分信仰者。

再强调一遍,XR一定是越来越强调边缘设备上的计算能力。因为大家都知道手机可以有延迟,我划的慢一点,没有太大的问题。但如果你在眼镜上面慢一点的话,所有人在 5 分钟之内就要晕趴下了。这个是物理上决定的,给我们设定了一个巨大的门槛——它是没有办法做 70 分以下的体验的,甚至没有办法做 80 分以下的体验,这个会非常强调 AI 的能力,在边缘去处理这些信息的能力。

大家可以看到基于one single camera,我们有厘米级的定位精度——如果带着这个眼镜,我在这个空间里面放一个物体,你从外面走一圈回来,这个物体漂移要在厘米范围内。这个延迟在20毫秒以内,20毫秒就意味着人和信息的互动,它的延迟不能够高于20毫秒,因为人的延迟感知晕线就在20毫秒,一旦超过,它就会有非常强烈的变化。

手势方面也是一样,通过one single camera我们可以做到厘米级的贴合。如果大家来用我们的产品,就会发现你的手和数字的手之间的差别就在一个关节不到,几乎是贴合的,远远超过以前大家所知道的Hololens的手势精度。

我们只是用了一颗普通的摄像头,没有加任何的深度摄像头去做,全靠 AI 的方式去做

底层操作系统支撑体验

回到Rokid 本身的能力,Rokid OS是从AOSP开始,我2007年回国开始做operating system,底层不需要重新造轮子了。AOSP还是安卓的基座,往上几乎所有能力都做了重建。Rokid可能是现在支持XR的engine(引擎)最完整的一家公司。

我们支持了Cocos、Unity、WebXR以及Hololens的MRTK,还全栈支持OpenXR。因为我们全栈支持 OpenXR,所以很多国内的Graphics engine(图像引擎)公司比如粒界也和我们有合作。我们也是唯一一个把国内这个闭环最后一个环节走完的公司,我非常自豪地弥补了在OS和Graphics engine之间的空白。

这个是蛮值得大家关注的一件事情,意味着在这个领域里开始有自己选择的权利。当然上层还有很多的tool(工具),包括最近我们还帮 Unity 做了JS的engine,很多外部开发者可以不需要懂JAVA、C++,就可以用最熟悉的前端语言来进行开发,我们很多开发者大概在一个月之内,就可以完成产品的设计、开发和部署。

这也是为什么我们要做操作系统。大家知道新的体验最终一定需要新的操作系统去支撑,是没有办法在一个旧的操作系统上去补出一个全新的体验。

Rokid祝铭明:未来5年,希望把所有人的眼镜换成智能眼镜

“明年XR会大热”

空间即屏幕。大家如果去我们公司看,这是我正常的工作方式。我已经不用电脑的屏幕,(用Rokid的眼镜)通常我的空间里面会摆5个屏。基本上就是一个屏幕是浏览器,一个屏幕是钉钉,一个屏幕是微信,一个屏幕是我的 source code(源代码),我自己每天还写代码。还有一个屏幕是B站。

在To B的应用里,它可以把指挥中心挪到家里去。不管是工业、政府安保、消防还是医疗,都可以变成这样,像钢铁侠一样。

这是Rokid 的空间搜索,基本上就是把钢铁侠想象的故事搬过来了,这里面也用到了 AI 的能力

如果大家戴上眼镜进入空间搜索,说“搜索XR”,或者“搜索Rokid、搜索量子位、搜索AI”,那大家就可以看到在空间里面就会铺满这些信息。

这些信息原来的做法在手机上,因为屏幕受限,所以它是一个瀑布流的方式。那现在所有的信息一次性展现在你面前。最相关的离你最近,相关性比较差的较远一点。当你去选中任何一个当前的信息的时候,它背后的所有信息都会因为你这个动作,根据大模型上下文重新做选择。也谢谢Microsoft把Bing的这个接口对 Rokid进行了开放,背后也是直接接入了大模型,也是跟这个大会主题又重新结合上了。

接下来我们还会有淘宝的搜索、B站的搜索,都会有这种空间的方式全部加入进来。包括未来它会改变直播,改变短视频的展示方式个非常非常有趣,这个值得大家关注

Rokid祝铭明:未来5年,希望把所有人的眼镜换成智能眼镜

我们还可以帮助大家通过普通的手机,看到AR效果。今天你拿着手机拍一段视频,就是正常的视频,没有 3D 信息,没有深度信息的视频,到我们灵境ARMaz平台上会自动生成3D模型,在这里可以布置成一个数字的乐园。

上传半个小时之后,就可以看到你家里的3D模型,可以在你家里布置一个虚拟的花瓶虚拟的宠物放一只恐龙放一个虚拟的男女朋友,可以戴上眼镜,或者用手机可以看到整个空间里的虚实融合的东西。

我们最快部署基本上在半个小时完成,这个技术将会很快在钉钉里面,大概在明年1月份向所有人开发,在座各位如果安装了钉钉,升级到最新版本,扫码的上面加了一个icon叫做AR,如果看到,恭喜你们,你们就是最新的版本,就可以玩这个东西了。

另外Rokid也有大量的生态,包括Uinty,包括刚才讲到很多开发者都可以参与进来。Rokid在8月26日开放空间计算平台,开发者社区到现在有2000多个开发者加入,其中有1000多个企业,应该是国内最大的AR开发者的社区了。我们会提供很多能力,多模态交互的能力、原子算法的能力、各种编辑和方便开发的工具,以及多生态的支持。

更重要的是把所有的原子能力对大家进行开放,所有算子的能力,所有算法输出的单一结果,大家都可以单一拿出来使用,比如只抽取手势,只抽取一些基础原子能力和结果来组装成自己开发的东西,所以我们也有非常多有趣的应用在开发,基本上每天都有新应用上线,这是我非常开心的一件事情。有很多很有趣的东西,有教育的,有医疗的,甚至有很多完全没想到的,尤其是最近还有人在上面开发出做模拟手术的,真的非常惊人。

Rokid还在做什么,我们有公共服务,我非常自豪,人类历史上第一个上太空正式服役的AR产品就是来自我们Rokid,产品在工业、企业、文旅等领域都有应用。

国家200多个二级以上博物馆,我们有150家合作。教育行业已经有40几所学校现在开始使用空间计算的方式,对小孩子进行科普教育,一些K12的教育已经使用这样的方式来做。

Rokid前一阵子比较热门的东西,就是小孩子戴上AR的眼镜,在商场里面去玩奥特曼,玩空间竞赛的游戏。我们刚刚推出,就破了当时在杭州西溪印象城中庭的使用纪录,那一天付费的家庭就超过500人。在我今天上台之前,我们刚刚在常州,一个不大的城市也破了一个纪录,就同样是空间计算的体验展,有超过1万人使用这个产品,所以它已经开始慢慢进入老百姓的生活。

Rokid祝铭明:未来5年,希望把所有人的眼镜换成智能眼镜

医疗跟大家讲一下,我们现在在医疗手术远程协助上,已经治疗和挽救了几百人的生命。院前急救,病人在救护车上,医院的专家直接远程参与治疗方案。

也欢迎生态里面合作伙伴参与到Rokid整个大的玩家生态里面来,期待更多人的参与Rokid。

最后再讲一个Rokid的理念,是希望科技用来造福人类,我们希望用新的AI和AR技术来弥补人和高科技之间的隔阂,让小孩子,让没有科技背景的老人都能够很自然和流畅的使用最新的技术,不管是AGI还是AR,还是科技的能力。

我再做一个判断,今年是AI的热年,大家觉得XR是下行的,AI是上行的,我一直跟大家强调XR和AI是一件事情,我可以向大家保证,明年是XR的一个大年,如果不出意外,明年XR的热度将会强过AI的热度

版权所有,未经授权不得以任何形式转载及使用,违者必究。