波士顿动力机器狗能开口聊天了!ChatGPT加持,对话机智妙语连珠
“发电机在沉闷的房间里发出低沉的嗡嗡声。很像我的灵魂。”
鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
好家伙,波士顿动力机器狗,现在能直接开口说话了。
并且不同于Siri的“人工智障”,ChatGPT加持的狗,聊起天来那叫一个妙语连珠。
比如随口说一句:“我口渴了。”
它会直接给你领到咖啡柜台前,并回答:
我们这里有小吃店和咖啡机。这是我们的人类同事寻找能量灵丹的地方。请随意补充水分、给自己充能,就像我们机器人在基站里所做的那样。

声音听起来非常有磁性。
音频播放器如果你让它带你见见它的“父母”,它还能在波士顿动力的展厅里,指出Spot V1给你看。

这些功能的实现,都不需要编写特定代码,主要是靠ChatGPT的“悟性”和视觉问答(VQA)模型、Whisper等其他一些AI模型辅助完成。

这一下子真把网友们给惊艳到了:

如何打造一只聊天机器狗
具体来说,波士顿动力的研究人员提供给机器狗的,只是一个简单脚本。
给出的信息主要是公司里都有哪些房间、设施。每个房间、设施都有对应的一句话描述,比如:充电站,这是机器人充电的地方。

接着,他们让Spot机器狗四处走动,通过摄像头自己去观察公司环境,并利用VQA和ChatGPT的能力为观察到的事物打上“标记”,再把这些信息添加到脚本中。
就像这样:

这样一番调教之下,机器狗“导游”就可以正式上岗了。
既能跟游客插科打诨:

△“希望你不会因为速度太慢而跟不上机器狗的脚步”
正经科普起知识来也像模像样。
研究人员还提到,机器狗可以自如地改变“狗设”。需要做的只是在脚本里添加一句话,比如:你是一个1920年代的考古学家。
像这个“诗人”Spot,就能自己作出这样的诗句:
发电机在沉闷的房间里发出低沉的嗡嗡声。很像我的灵魂。
Generator hums low in a room devoid of joy. Much like my soul.

另外,基于Spot 3.3版本自动检测移动物体的能力,机器狗“导游”能够感知到最近的人在哪个方向,从而把机械臂转过去,实现“对视”交流。
研究人员还用低通滤波器对生成的语音进行了处理,将其转化为机械臂的运动轨迹,这样一来,机器狗的行动就更灵动了。

不过,研究人员也提到,ChatGPT加持下的机器狗难免有胡说八道的时候,只是作为一名“导游”,倒也还无伤大雅。
他们认为:
我们很高兴继续探索人工智能和机器人技术的交叉点。这两种技术是绝妙的搭配。
机器人提供了一种在现实世界中“落地”大模型的绝佳方法。而大模型对于许多机器人任务来说都是有用的——比如,仅仅通过对话就能将任务分配给机器人,降低机器人使用的门槛。
参考链接:
[1]https://www.youtube.com/watch?v=djzOBZUFzTw
[2]https://bostondynamics.com/blog/robots-that-can-chat/
— 完 —
- 粉笔CTO:大模型打破教育「不可能三角」,因材施教真正成为可能|中国AIGC产业峰会2025-04-18
- GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比2025-04-15
- SOTA自动绑骨开源框架来了!3D版DeepSeek开源月大礼包持续开箱ing2025-04-11
- 语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%2025-04-02