对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

他说年底前填坑B站视频(咕咕.gif)

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

马斯克是我偶像,很荣幸能有机会在这个赛道和他同台竞技

说出这话的稚晖君,十分清楚他离开华为创业要做什么:

对标马斯克,做通用机器人,竞品擎天柱,既面向星辰大海也奔着商用落地,产品目标最终定价不超过20万人民币

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

换成最流行的说法,他在做大模型和机器人结合的具身智能

想法始于他学生时期的探索。

早在他还没成B站up主的2015年,学生身份的稚晖君就参与组织了一群打比赛认识的小伙伴,准备“做个人吧”:

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

当时,普通人对AI的切身感受还是人脸识别或美颜这类应用,大模型概念还没诞生,“要让机器人具备像人一样的思考和行动能力”这个命题,似乎离实现还有点过于遥不可及。

因此,毕业后的稚晖君没继续只在机器人身上折腾,而是选择进入AI赛道,成为大厂的AI算法工程师,在软件算法领域干了好几年。

直到ChatGPT石破天惊,大模型智能涌现OpenAI证明大力堆叠真的可以产生质变。

回看自己的机器人梦想,稚晖君又看到了这条路的可行性。

所以,离开菊厂,投身创业。

于是半年时间,他带着团队拿出了一套有模有样的原型机

8月发布会上,被稚晖君自豪请上台的自家机器人步伐稳健,行走效果可以比肩去年马斯克擎天柱Optimus的初亮相。

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

就是凭借这样一款作品,他的初创公司智元机器人,在投资者冷静但赛道又火爆的当下,成为了少数几个拿到VC和大厂战投重金押注的标的。

发布会结束后和量子位的会面,他表露出对发布会、团队和整体进展的还算满意,也表露出沿着这条路往未来走的信心。

还在他的工位前告诉我们,他的桌面壁纸已经换了很久了:

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

全身心投入人形机器人创业,他会怎么看待自己公司的高估值?智元的下一步规划是什么?商业化落地场景将在何方?创业过后这个百大up主的B站账号咋办?

量子位问,稚晖君答,一切都在这次对话中。

再晚点,也许就不用出来创业了

稚晖君算是最早感知到这一波大环境变化,并且付诸实践的那拨人。

外界看来,他去年年底宣布创业时,机器人和大模型都是科技领域的大热议题,尤其是ChatGPT刚出道,带给大家暴力美学的震撼。

那个时间节点,赛道远没有今天拥挤。技术从业者闻风而动,不算意外。

但稚晖君第一次透露了他当时的心态:

要是选择再晚一点,也许就没必要出来创业做这事了。

为了解释这句话,他给竞品特斯拉擎天柱拉出一条时间线:

去年9月展示原型机,今年5月展示识别周围环境存储记忆和准确控制物品拿放的能力,7月表示已经生产10台,预计11月进行行走测试,明年在特斯拉自己的工厂进行实用性测试。

动作很快,实际效果也哇噻。

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

马斯克,一个从不按套路出牌的男人,自从宣布入局机器人赛道,就用火箭般的速度推进量产节奏,在他的口中,未来机器人的数量会超过人类

稚晖君看到这一切,心潮澎湃。

与此同时,他也观察到机器人和大模型结合的潜力。

微软的ChatGPT for Robotics谷歌Palm-E、RT-1、RT-2,还有VoxPoser、RoboCat等众多工作,都在尝试把图像语言大模型的能力和知识迁移到机器人领域。

其中轰动最大的谷歌RT(Robot Transformer)系列,在论文阐述和demo视频中,都展示出抓取领域非常优秀的泛化能力。

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

要做到这一点并不容易,核心门槛,在于数据

光是训练它,谷歌就花了17个月,收集13台机器人的13万条机器人真实数据——这大概也是RT模型开源而数据暂时闭源的一个小小心机。

稚晖君坦言,虽然也从一开始就在准备自家的动作任务数据集,但目前能用来训练自家产品的数据,“只有上千”。

一对比,差距之大,显而易见。

数字上的直观差距,足以解释稚晖君对量子位说的,“当前节点,远征A1最需要提升的地方,是数据带来的AI泛化能力”,足以解释这为什么“会是一个相对长期的布局”。

也能部分解释发布机器人时,直播间网友对展示时间较短、展示能力不如想象炫酷的疑问。

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

“我觉得要想达到真正理想的实用效果,还是需要大量的真实场景数据。我们时间太短了,这方面还没有做够积累。”稚晖君如是说。

竞争对手不会给你多留喘息的机会。正因如此,稚晖君表示团队接下来的工作重心之一,是建立自己的数据中心

计划未来几个月内落地临港,主要目的是搭建场景和仿真平台,填补运动数据,提高泛化能力。

数据是如何生成的?稚晖君的总结有三:

  • 监督学习数据。靠人做示范,控制机器人做分拣等各种操作,在过程中采集真实数据。
  • 仿真数据。需要自己搭建仿真平台,有一个比较好的渲染引擎物理引擎,以及比较好的人机交互流程装置。
  • AIGC生成数据。主要是真实数据的补充扩充,是低成本数据增强的一个重要手段。

建数据中心是工作重点之一,另一个重点则是对硬件结构进行迭代重构,加强机器人本体运动性能。

稚晖君的说法,团队会用做软件敏捷开发速度和效率去迭代硬件。

这是非常颠覆并且有挑战性的一件事情。

此处送上小八卦一则。

今年4月,智慧军在投稿B站的自制双足机器人哪吒,并在视频结尾表示,“如果不出意外的话,哪吒会成为发布会的彩蛋”。

当然了,按照经典剧情,不出意外的话果然就出意外了:D,哪吒并没有上发布会。

就是它 ↓

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

量子位帮大家打听到,原因是哪吒上面用到的几个电机被供应商鸽了,3月下的订单7月才收到货,导致开发时间不够。

稚晖君说道:“后面有空还是会继续完成这个项目的,鸽王有坑必填。”

半年成独角兽,背后还有另一条商业化隐线

读到这里大概能察觉,智元人形机器人项目的机器人本体,还需要迭代几版;而AI能力受限于当前训练数据不足,也还需要积累一段时间。

总体来说,产品离落地似乎还有一段距离的样子。

然而就是这样一个创业项目,半年估值直奔10亿美元开外。

这合理吗???

听到这个问题,稚晖君并没有直接回答到底“值或不值”,只是回答道,其实融资思路也不是一开始就定型的,期间参考了很多行业大佬和前辈的建议。

团队最初的设想很单纯,就是先做出Demo,然后顺其自然地提高估值。

“但创业显然不是那么单纯的事情,大经济环境不算景气的背景下,要整合资源、吸引人才,无一不需资本的背书。”稚晖君表示,“这并不是一件坏事。”

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

高效实干,快速调整思路和策略,以结果导向推进事情,这是稚晖君的行事风格。

他的风格最终也决定了智元,至少是智元研发团队的工作风格。

技术团队每个早期成员都是他亲自面进公司的,30多号人基本都是自来卷,卷得一天睡五、六个小时的稚晖君都心生感慨:

之前大家都觉得我是时间管理大师,现在我可以很惭愧地讲,我们公司像我这么肝的,还有一堆……

整个交流过程中,量子位关注到他强调了两个关键词“压成本”和“应用场景”

这俩是目前整个赛道的普遍痛点。团队如何解决痛点,必然是他们获得高瓴、鼎晖、经纬、高榕、蓝驰、BV百度风投等头部资方重金押注的关键。

来听听稚晖君的看法——

先说压低成本

现在智元对外喊出的口号是,人形机器人落地控价20万元内。

这约与马斯克放话的7万美元售价持平,而国内类似人形机器人的售价水平在50万RMB上下,大家喜闻乐见的波士顿动力Atlas,成本则在200万美元。

稚晖君直言不讳:“不是我们希望做到20万元,而是如果做不到20万元的价格,就根本没办法实现商业落地。”

至于为什么是20万,他表示,以新能源汽车制造业为例,20万的机器人替代部分人工岗位的话,可以做到1~2年的投资回报期。

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

稚晖君也大致描述了一下智元为量产控制成本的方法

一是尽最大可能采取自研路线,降本增效。

如关节电机和灵巧手等部件占硬件成本一半以上,而且市场现有供应还存在特性不匹配的情况,自主研发核心部件能让成本降低一半以上。

二是采用类似特斯拉造车的部分思路,用软件和算法补硬件方面的精度要求,降低硬件成本。

如放弃谐波减速器而选择行星减速器,灵巧手上面使用的视觉闭环方案等等。

再说落地应用场景

稚晖君表示,预计明年下半年商业化落地,先应用在工业制造领域,家庭等服务型应用场景都往后排,现阶段突出一个“场景相对简单,任务相对复杂”。

“这条路线是边走边摸索出来的,还是最初就定下的目标?”
“团队还不到10个人时候的最早期,我们就基本敲定了这条落地方案。”

同时表示,

很多人会拿我们或者特斯拉的机器人去跟波士顿动力对比,其实是不合适的。
奔着商业化落地去做,正确的逻辑应该是:在满足应用场景功能和性能需求的前提下,以尽量最低的成本去实现方案。
所以能走着去搬东西的场景下,就没有必要非得让它有能力后空翻。

现在,这条半年前定下的路线,最终落地迹象愈发明晰。

最新工商动态显示,比亚迪入股了智元下属公司,加上此前量子位从智元方面获悉,公司已与国产头部智能汽车厂商和3C厂商等密切洽谈。

由此在官宣前推测一波,远征A1在工业制造领域的首发打工地点,不出意外,就是比亚迪汽车工厂。

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

除成本和落地场景这两点外,随着团队对具身智能的愈发深入,智元手里还握了些其它差异化的牌。

比如,量子位就从稚晖君口中挖到公司商业化的一条隐线——

如果说通用人形机器人是商业落地的中长期计划和最终愿景,那么在迈向这个终点的过程中,团队也会有一些“沿途下蛋”的产品形态。

具体是什么形态呢?稚晖君一如既往地口风很严,卖了个关子,但还是有所透露。

他听到过很多次疑问,问为什么要把机器人做成人类形态,相比于其他专用形态(机械臂、轮式),是不是费力不讨好?

针对这个问题,稚晖君有两方面思考。

一方面,这会是一个长期投入的过程,大家不要高估短期的价值,也不要低估长期的价值

人形是智元以终为始、面向终极形态迈出的第一步,这也是为什么给这款机器人取名叫“远征”。

另一方面,选择做这件事情(人形)并不是因为它容易,反而是因为它很困难。

通用人形机器人牵涉到最全面的机器人技术栈,它的实现过程中各种前沿技术(视觉伺服、MPC、SLAM、LLM/VLM、中间件等各种技术的自研和优化)的沿途下蛋,可以催生很多创新性专用形态的机器人产品,“大家未来会陆续看到这些成果的”。

“网友们放心,B站账号不会变成公司专用营销号”

过人的技术,漂亮的简历,大厂的光环,百万计的粉丝,又恰逢新技术爆发周期:大模型、具身智能、AIGC……攒局创业后,出任团队CTO,带领公司迅速壮大,半年时间,公司人数近百,市场估值超10亿美元。

一系列附带光环的故事砸过来,围观者不由得在这个时候,重新审视稚晖君。

他又会怎样定义现在的自己?量子位把这个问题抛给了稚晖君本人。

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

稚晖君倒没表现出什么迟疑,只是说,他给自己的定位并没有太大变化。

首先是个工程师,其次才是创业者。

我可能属于一个非典型创业者,做这些事情的动力都是基于个人兴趣,也很幸运取得了一些小成就:早期在大厂里发光发热,顶了一些光环,又在网上获得了不小的知名度,然后又突然跑出来创业。一开始身边的人都觉得挺震惊的。
我一直认为自己是一个乐观主义者。

还有句话,他说得毫不犹豫——

“既然人生没有后悔的机会,那么就坚持相信自己到现在的每一步,都是我做的最正确的选择。”

“每一步都是正确的选择”,可能也包括不少人为之唏嘘的离开华为,脱离“天才”tag。

在量子位面前,他没有掩饰曾经在华为工作取得荣誉的感激,也提到,

老东家在做一些很伟大的事情,但是像机器人这样面向更未来领域的探索,可能更适合在小的创新团队中去做。

希望自己能继承‘散是满天星’的优良传统吧“。

然后,又像他常常做的那样,再次强调自己既不是天才,也不再是少年。

能感受到,稚晖君更希望外界把对他的关注从一个具体的tag,转移到他想做的事情本身。

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

有趣的是,他又劝大伙儿不要太早创业。“对于学生来说,建议还是要先工作几年,接受一下社会的毒打,才对社会、公司运作的方式有一个清晰的了解哈哈。”

当时在发布会上,他也表达了自己的观点:检验一家科技公司价值最有效的方式之一,就看它能否实现商用落地。

不然技术做得再好也容易陷入自嗨。

聊到这儿,稚晖君表露心迹,既然正儿八经创业了,项目也不能单纯按照个人的奇思妙想随意自嗨了。

组了人、拿了钱,就需要在公司战略发展方向上多做考虑,“要为公司这么多兄弟姐妹们负责”。

但显然,他自有自嗨处:B站。

“个人号啊?这阵子太忙了(所以没更新)。”稚晖君解释到,称自己绝对没有挖坑就跑的意思,“后面稍微闲下来一点,还是会更新的。”

至于之后的B站投稿,还会是原来的风格,原来的味道,可能偶尔夹杂一些创业日常。

但他保证,不会变成纯粹公司的营销窗口。

(他暗示,毕竟智元有单独的官方账号,欢迎大家关注~)

“也是向马斯克学习嘛,他在公司管理运营和个人账号运作之间,就做得很好。”

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克

One More Thing

话赶话聊到这儿,怎么能不追问鸽王,下次B站视频更新,在啥时候?

“今年一定,年底之前一定。”

内容与什么相关?

还是机器人吧,之前挖过的某个坑,下个视频就是这个。”

好的,经本人授权,我们替他把话放在这儿了。

咕咕咕。

对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克
版权所有,未经授权不得以任何形式转载及使用,违者必究。