对话稚晖君:具身智能创业窗口转瞬即逝,打擂瞄准偶像马斯克
他说年底前填坑B站视频(咕咕.gif)
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
马斯克是我偶像,很荣幸能有机会在这个赛道和他同台竞技。
说出这话的稚晖君,十分清楚他离开华为创业要做什么:
对标马斯克,做通用机器人,竞品擎天柱,既面向星辰大海也奔着商用落地,产品目标最终定价不超过20万人民币。
换成最流行的说法,他在做大模型和机器人结合的具身智能。
想法始于他学生时期的探索。
早在他还没成B站up主的2015年,学生身份的稚晖君就参与组织了一群打比赛认识的小伙伴,准备“做个人吧”:
当时,普通人对AI的切身感受还是人脸识别或美颜这类应用,大模型概念还没诞生,“要让机器人具备像人一样的思考和行动能力”这个命题,似乎离实现还有点过于遥不可及。
因此,毕业后的稚晖君没继续只在机器人身上折腾,而是选择进入AI赛道,成为大厂的AI算法工程师,在软件算法领域干了好几年。
直到ChatGPT石破天惊,大模型智能涌现,OpenAI证明大力堆叠真的可以产生质变。
回看自己的机器人梦想,稚晖君又看到了这条路的可行性。
所以,离开菊厂,投身创业。
于是半年时间,他带着团队拿出了一套有模有样的原型机。
8月发布会上,被稚晖君自豪请上台的自家机器人步伐稳健,行走效果可以比肩去年马斯克擎天柱Optimus的初亮相。
就是凭借这样一款作品,他的初创公司智元机器人,在投资者冷静但赛道又火爆的当下,成为了少数几个拿到VC和大厂战投重金押注的标的。
发布会结束后和量子位的会面,他表露出对发布会、团队和整体进展的还算满意,也表露出沿着这条路往未来走的信心。
还在他的工位前告诉我们,他的桌面壁纸已经换了很久了:
全身心投入人形机器人创业,他会怎么看待自己公司的高估值?智元的下一步规划是什么?商业化落地场景将在何方?创业过后这个百大up主的B站账号咋办?
量子位问,稚晖君答,一切都在这次对话中。
再晚点,也许就不用出来创业了
稚晖君算是最早感知到这一波大环境变化,并且付诸实践的那拨人。
外界看来,他去年年底宣布创业时,机器人和大模型都是科技领域的大热议题,尤其是ChatGPT刚出道,带给大家暴力美学的震撼。
那个时间节点,赛道远没有今天拥挤。技术从业者闻风而动,不算意外。
但稚晖君第一次透露了他当时的心态:
要是选择再晚一点,也许就没必要出来创业做这事了。
为了解释这句话,他给竞品特斯拉擎天柱拉出一条时间线:
去年9月展示原型机,今年5月展示识别周围环境存储记忆和准确控制物品拿放的能力,7月表示已经生产10台,预计11月进行行走测试,明年在特斯拉自己的工厂进行实用性测试。
动作很快,实际效果也哇噻。
马斯克,一个从不按套路出牌的男人,自从宣布入局机器人赛道,就用火箭般的速度推进量产节奏,在他的口中,未来机器人的数量会超过人类。
稚晖君看到这一切,心潮澎湃。
与此同时,他也观察到机器人和大模型结合的潜力。
微软的ChatGPT for Robotics,谷歌的Palm-E、RT-1、RT-2,还有VoxPoser、RoboCat等众多工作,都在尝试把图像语言大模型的能力和知识迁移到机器人领域。
其中轰动最大的谷歌RT(Robot Transformer)系列,在论文阐述和demo视频中,都展示出抓取领域非常优秀的泛化能力。
要做到这一点并不容易,核心门槛,在于数据。
光是训练它,谷歌就花了17个月,收集13台机器人的13万条机器人真实数据——这大概也是RT模型开源而数据暂时闭源的一个小小心机。
稚晖君坦言,虽然也从一开始就在准备自家的动作任务数据集,但目前能用来训练自家产品的数据,“只有上千”。
一对比,差距之大,显而易见。
数字上的直观差距,足以解释稚晖君对量子位说的,“当前节点,远征A1最需要提升的地方,是数据带来的AI泛化能力”,足以解释这为什么“会是一个相对长期的布局”。
也能部分解释发布机器人时,直播间网友对展示时间较短、展示能力不如想象炫酷的疑问。
“我觉得要想达到真正理想的实用效果,还是需要大量的真实场景数据。我们时间太短了,这方面还没有做够积累。”稚晖君如是说。
竞争对手不会给你多留喘息的机会。正因如此,稚晖君表示团队接下来的工作重心之一,是建立自己的数据中心。
计划未来几个月内落地临港,主要目的是搭建场景和仿真平台,填补运动数据,提高泛化能力。
数据是如何生成的?稚晖君的总结有三:
- 监督学习数据。靠人做示范,控制机器人做分拣等各种操作,在过程中采集真实数据。
- 仿真数据。需要自己搭建仿真平台,有一个比较好的渲染引擎、物理引擎,以及比较好的人机交互流程装置。
- AIGC生成数据。主要是真实数据的补充扩充,是低成本数据增强的一个重要手段。
建数据中心是工作重点之一,另一个重点则是对硬件结构进行迭代重构,加强机器人本体运动性能。
按稚晖君的说法,团队会用做软件敏捷开发的速度和效率去迭代硬件。
这是非常颠覆并且有挑战性的一件事情。
此处送上小八卦一则。
今年4月,智慧军在投稿B站的自制双足机器人哪吒,并在视频结尾表示,“如果不出意外的话,哪吒会成为发布会的彩蛋”。
当然了,按照经典剧情,不出意外的话果然就出意外了:D,哪吒并没有上发布会。
就是它 ↓
量子位帮大家打听到,原因是哪吒上面用到的几个电机被供应商鸽了,3月下的订单7月才收到货,导致开发时间不够。
稚晖君说道:“后面有空还是会继续完成这个项目的,鸽王有坑必填。”
半年成独角兽,背后还有另一条商业化隐线
读到这里大概能察觉,智元人形机器人项目的机器人本体,还需要迭代几版;而AI能力受限于当前训练数据不足,也还需要积累一段时间。
总体来说,产品离落地似乎还有一段距离的样子。
然而就是这样一个创业项目,半年估值直奔10亿美元开外。
这合理吗???
听到这个问题,稚晖君并没有直接回答到底“值或不值”,只是回答道,其实融资思路也不是一开始就定型的,期间参考了很多行业大佬和前辈的建议。
团队最初的设想很单纯,就是先做出Demo,然后顺其自然地提高估值。
“但创业显然不是那么单纯的事情,大经济环境不算景气的背景下,要整合资源、吸引人才,无一不需资本的背书。”稚晖君表示,“这并不是一件坏事。”
高效实干,快速调整思路和策略,以结果导向推进事情,这是稚晖君的行事风格。
他的风格最终也决定了智元,至少是智元研发团队的工作风格。
技术团队每个早期成员都是他亲自面进公司的,30多号人基本都是自来卷,卷得一天睡五、六个小时的稚晖君都心生感慨:
之前大家都觉得我是时间管理大师,现在我可以很惭愧地讲,我们公司像我这么肝的,还有一堆……
整个交流过程中,量子位关注到他强调了两个关键词,“压成本”和“应用场景”。
这俩是目前整个赛道的普遍痛点。团队如何解决痛点,必然是他们获得高瓴、鼎晖、经纬、高榕、蓝驰、BV百度风投等头部资方重金押注的关键。
来听听稚晖君的看法——
先说压低成本。
现在智元对外喊出的口号是,人形机器人落地控价20万元内。
这约与马斯克放话的7万美元售价持平,而国内类似人形机器人的售价水平在50万RMB上下,大家喜闻乐见的波士顿动力Atlas,成本则在200万美元。
稚晖君直言不讳:“不是我们希望做到20万元,而是如果做不到20万元的价格,就根本没办法实现商业落地。”
至于为什么是20万,他表示,以新能源汽车制造业为例,20万的机器人替代部分人工岗位的话,可以做到1~2年的投资回报期。
稚晖君也大致描述了一下智元为量产控制成本的方法。
一是尽最大可能采取自研路线,降本增效。
如关节电机和灵巧手等部件占硬件成本一半以上,而且市场现有供应还存在特性不匹配的情况,自主研发核心部件能让成本降低一半以上。
二是采用类似特斯拉造车的部分思路,用软件和算法补硬件方面的精度要求,降低硬件成本。
如放弃谐波减速器而选择行星减速器,灵巧手上面使用的视觉闭环方案等等。
再说落地应用场景。
稚晖君表示,预计明年下半年商业化落地,先应用在工业制造领域,家庭等服务型应用场景都往后排,现阶段突出一个“场景相对简单,任务相对复杂”。
“这条路线是边走边摸索出来的,还是最初就定下的目标?”
“团队还不到10个人时候的最早期,我们就基本敲定了这条落地方案。”
同时表示,
很多人会拿我们或者特斯拉的机器人去跟波士顿动力对比,其实是不合适的。
奔着商业化落地去做,正确的逻辑应该是:在满足应用场景功能和性能需求的前提下,以尽量最低的成本去实现方案。
所以能走着去搬东西的场景下,就没有必要非得让它有能力后空翻。
现在,这条半年前定下的路线,最终落地迹象愈发明晰。
最新工商动态显示,比亚迪入股了智元下属公司,加上此前量子位从智元方面获悉,公司已与国产头部智能汽车厂商和3C厂商等密切洽谈。
由此在官宣前推测一波,远征A1在工业制造领域的首发打工地点,不出意外,就是比亚迪汽车工厂。
除成本和落地场景这两点外,随着团队对具身智能的愈发深入,智元手里还握了些其它差异化的牌。
比如,量子位就从稚晖君口中挖到公司商业化的一条隐线——
如果说通用人形机器人是商业落地的中长期计划和最终愿景,那么在迈向这个终点的过程中,团队也会有一些“沿途下蛋”的产品形态。
具体是什么形态呢?稚晖君一如既往地口风很严,卖了个关子,但还是有所透露。
他听到过很多次疑问,问为什么要把机器人做成人类形态,相比于其他专用形态(机械臂、轮式),是不是费力不讨好?
针对这个问题,稚晖君有两方面思考。
一方面,这会是一个长期投入的过程,大家不要高估短期的价值,也不要低估长期的价值。
人形是智元以终为始、面向终极形态迈出的第一步,这也是为什么给这款机器人取名叫“远征”。
另一方面,选择做这件事情(人形)并不是因为它容易,反而是因为它很困难。
通用人形机器人牵涉到最全面的机器人技术栈,它的实现过程中各种前沿技术(视觉伺服、MPC、SLAM、LLM/VLM、中间件等各种技术的自研和优化)的沿途下蛋,可以催生很多创新性专用形态的机器人产品,“大家未来会陆续看到这些成果的”。
“网友们放心,B站账号不会变成公司专用营销号”
过人的技术,漂亮的简历,大厂的光环,百万计的粉丝,又恰逢新技术爆发周期:大模型、具身智能、AIGC……攒局创业后,出任团队CTO,带领公司迅速壮大,半年时间,公司人数近百,市场估值超10亿美元。
一系列附带光环的故事砸过来,围观者不由得在这个时候,重新审视稚晖君。
他又会怎样定义现在的自己?量子位把这个问题抛给了稚晖君本人。
稚晖君倒没表现出什么迟疑,只是说,他给自己的定位并没有太大变化。
首先是个工程师,其次才是创业者。
我可能属于一个非典型创业者,做这些事情的动力都是基于个人兴趣,也很幸运取得了一些小成就:早期在大厂里发光发热,顶了一些光环,又在网上获得了不小的知名度,然后又突然跑出来创业。一开始身边的人都觉得挺震惊的。
我一直认为自己是一个乐观主义者。
还有句话,他说得毫不犹豫——
“既然人生没有后悔的机会,那么就坚持相信自己到现在的每一步,都是我做的最正确的选择。”
“每一步都是正确的选择”,可能也包括不少人为之唏嘘的离开华为,脱离“天才”tag。
在量子位面前,他没有掩饰曾经在华为工作取得荣誉的感激,也提到,
老东家在做一些很伟大的事情,但是像机器人这样面向更未来领域的探索,可能更适合在小的创新团队中去做。
希望自己能继承‘散是满天星’的优良传统吧“。
然后,又像他常常做的那样,再次强调自己既不是天才,也不再是少年。
能感受到,稚晖君更希望外界把对他的关注从一个具体的tag,转移到他想做的事情本身。
有趣的是,他又劝大伙儿不要太早创业。“对于学生来说,建议还是要先工作几年,接受一下社会的毒打,才对社会、公司运作的方式有一个清晰的了解哈哈。”
当时在发布会上,他也表达了自己的观点:检验一家科技公司价值最有效的方式之一,就看它能否实现商用落地。
不然技术做得再好也容易陷入自嗨。
聊到这儿,稚晖君表露心迹,既然正儿八经创业了,项目也不能单纯按照个人的奇思妙想随意自嗨了。
组了人、拿了钱,就需要在公司战略发展方向上多做考虑,“要为公司这么多兄弟姐妹们负责”。
但显然,他自有自嗨处:B站。
“个人号啊?这阵子太忙了(所以没更新)。”稚晖君解释到,称自己绝对没有挖坑就跑的意思,“后面稍微闲下来一点,还是会更新的。”
至于之后的B站投稿,还会是原来的风格,原来的味道,可能偶尔夹杂一些创业日常。
但他保证,不会变成纯粹公司的营销窗口。
(他暗示,毕竟智元有单独的官方账号,欢迎大家关注~)
“也是向马斯克学习嘛,他在公司管理运营和个人账号运作之间,就做得很好。”
One More Thing
话赶话聊到这儿,怎么能不追问鸽王,下次B站视频更新,在啥时候?
“今年一定,年底之前一定。”
内容与什么相关?
“还是机器人吧,之前挖过的某个坑,下个视频就是这个。”
好的,经本人授权,我们替他把话放在这儿了。
咕咕咕。
- 百度打通两大国民产品!六边形AI创作新物种「自由画布」来了2024-11-14
- AI毒液刷屏抖音小红书!闲鱼10元代生成一次,但官网其实免费2024-11-10
- 钉钉上线工单等六大场景AI助理,AI继续深入到业务中2024-11-13
- 空间智能版ImageNet来了!李飞飞吴佳俊团队出品2024-11-10