编者按:美国加州时间9 月 30 日晚六时,特斯拉 AI Day 准时开始。仅仅过了一年的时间,马斯克没有食言,真的把人形机器人「擎天柱」带到了人们面前。这个」擎天柱「被工作人员推上台,表演过程中有点」踉踉跄跄「,马斯克笑言,「担心它摔倒」。马斯克竟然强调了「不摔倒」这件事的意义。
在我们往常的认知中,机器人站起来是一件常规的事情,对机器狗来说,因为它有四足,所以没有被重点提及过。但对马斯克来说,这似乎是一个关键技术节点的突破。腾讯科技联合安信元宇宙研究院院长焦娟,通过十问十答,读懂新登场的特斯拉人形机器人Optimus的真正科技含量,我们也将重点聊聊,「站立」这件事对人形机器人的技术意义。
划重点
●特斯拉人形机器人要做成「人」形,是基于人类情感、机器与人的交互的实现方式、及未来商业全景图的全维度考虑。
(相关资料图)
●让人形机器人不摔倒,不是一件容易的事,马斯克所说的,在「没有系绳」的情况下,也没有摔倒,更有可能是人形机器人的重大突破。
●记住2026年这个时间点,马斯克说3-5年,你就能拥有一个属于自己的」擎天柱「机器人了,特斯拉降价到19-20W,如果机器人到达现在的车的销量,成本确实能控制在2W美金。
正文:
Q1:特斯拉机器人「擎天柱」为何要做成「人形」?
我们可以从两个层面来解读:
浅层次的原因:「人形」的机器人更便于实现机器与「人」的交互。马斯克曾表达过,特斯拉做机器人是为了替代人们做危险、重复、无聊的工作,随着时间的推移,它们可能也会拥有独特的性格,成为人类的同伴,可以做饭、修剪草坪、照顾老人等,不论是在情感上还是形态上,当机器与人「交互」时,「人形」的物理装置和人类的「衔接」成本是最低的,即模拟「真实的人」的物理装置,可以最丝滑、流畅地模拟、替代在社会活动中发挥作用的「人」。
深层次的原因:在虚拟现实的未来「全景图」中,「人形」机器人有利于满足未来虚拟现实「全景图」对软硬件配置的升级要求。在未来的虚拟现实世界,整个运作环境对人类所具备的软硬件配置要求会变得更高,人类的部分角色与作用在未来需要人形机器人来填补。
Q2:「人形机器人」与其它机器人相比,有什么难点?
从技术实现路径上来看,人形机器人和其它形态机器人的物理装置及外显没有差别,因为机器人的本质就是AI,即「基于收集的信息对自身进行迭代式改进的系统和机器」,只不过机器人多了一个物理装置显现在现实的物理世界中,从这个角度来看,机器人是方形的、圆形的、人形的、动物形状的(机器狗、机器马、机器牛),其实没有本质差异,顶多是工程方案上的细微差异。
人形机器人与其他机器人的差别或难点,可能在于「人形机器人」被赋予了更高的智力需求。而其他机器人,比如陪伴型机器人「机器狗」只需要1-2岁或3-4岁小孩子的智力水平(用于交互需求),但人形机器人则需要接近于成年人的智力水平,它需要满足人类对一些应用场景的需求,比如进入家庭场景、能识别非常模糊的指令,以真正发挥出模拟或替代人的部分角色与作用。
Q3:马斯克担心」机器人会摔倒「,实现人形机器人的平衡很难吗?
马斯克在发布会上说:「这实际上是机器人第一次在‘没有系绳’的情况下走上舞台。机器人实际上可以做的比我们展示的要多得多。我们只是不希望它摔倒。」
「不系绳」的这种提法,虽然口语化,但意义最为重大:过往的机器人,需要首先输入指令,然后它通过消解指令的方法去执行;「不系绳」则是让机器人独立去面对周围环境,而不提前给他输入指令。
Optimus看似只是在舞台上简单走几步,在」不系绳「的前提下,已经类似于婴儿的「蹒跚学步」,只要不再摔倒,未来必然会加速成长。对于人类来说,直立行走」不摔倒「可能很简单,但是对于机器人来说,这个是很难实现的目标,需要考虑各种生物学、运动学因素,并与机器人本体做完美结合。当然,幽默一点,另外的角度,Optimus高1.73米,重113.3斤,一旦摔倒,有可能摔到最贵的脑袋与身体的硬件(也很贵)。
Q4:现场看到的特斯拉人形机器人的技术亮点有哪些?
2021年AI日:是介绍了人形机器人的概念,2022年是人形机器人的第一版
最新一代的optimus机器人,考虑到运动学与量产的关键指标:
1)尽可能减少元件的数量与功耗,如四肢的电池组——驱干中心是有电池组的(维持一整天的工作),所有电池的电子设备集中到电池组内的单个PCB里面——从传感、融合、充电管理汇集到一个系统中,借鉴了电子产品与汽车产品的设计,这款电池是非常关键的;
2)流线型的设计与高效简单的冷却;
3)大脑——特斯拉车上的FSD电脑,将自动驾驶的硬件与人性平台的软件结合在一起,但需求和形式与汽车还是有不一样的地方
Q5:特斯拉汽车的自动驾驶如何应用在人形机器人上?自动驾驶汽车和人形机器人有何本质的不同?
自动驾驶的模型是「输入-计算平台-输出」,这一模拟过程同样适用于人形机器人,即一辆能实现自动驾驶的车辆,其本质运作逻辑与人形机器人是一样的。
它们都能够用视觉系统识别出周围的物理环境(不管这个物理环境是在高速驾驶的道路上,还是在家庭聚餐的环境中),然后将所识别出的数据传输到计算平台上,这种计算平台能通过算法、算力给出实时反馈,并将这些反馈传输给「输出」环节——即传感器与执行器,这样,车或人形机器人就可以根据周围的物理环境的变化,给出恰当的反馈。
自动驾驶车辆与人形机器人唯一的不同,是自动驾驶对这一模型的运作精细度等要求更高,因为在正常情况下,车的驾驶速度远高于人形机器人的行走或奔跑速度。
Q6:自研超算Dojo对于特斯拉人形机器人的作用体现在哪些方面?
自动驾驶对算力的要求更高。但人形机器人可能对算法的要求更高,因为从认知、决策的角度来讲,人形机器人所面临的环境/场景会更缜密/复杂。
所谓 Dojo,指的是特斯拉自研的超级计算机,它能够利用海量的视频数据,为特斯拉自动驾驶做「无人监管」的标注和训练。这属于上述模型中,介于「输入」与「计算平台」的一部分,这部分的核心意义是真正帮助实现车的「视觉系统」的技术路径与工程方案:
1)帮助建立高质量统一的向量空间;
2)8个摄像头绑一起拍摄环绕图,加入时间维度,生成环绕立体视频;
3)环绕的视频必须被自动标记,特斯拉编写了自己的标签工具,创造了自动标签系统,人类标签只是辅助,其只对已经生成的视频标签做一些细微的修改,然后将这些修改反馈给未来的订单标签机,最终得到了一个「飞轮」,在这里汽车标签能够接收大量的视频,高精度地自动标签视频汽车、车道线、驾驶空间,这里面需要对时间和空间进行存储,存储不能是无限的,会消耗大量内存——而这背后的工程方案,即 Dojo。
Q7:特斯拉人形机器人是传统机器人的完全颠覆?还是传统机器人的迭代?
完全颠覆。对比特斯拉的人形机器人,过往的机器人大概是擎天柱的「输出环节」,即传感器与执行器部分,没有前面的「输入」与「计算平台」。
Q8:特斯拉人形机器人的应用领域主要有哪些方面?会对哪些传统机器人造成冲击?
传统机器人只是「工具」,而特斯拉人形机器人从设计之初,就被赋予能成为独立「生产力」的期待——即模仿或替代人的作用。
更直观地说,「工具」需要为人所用,它们类似于斧头、锤头的功能;而独立的「生产力」,就像人的伙伴或助手,人类只需要对其下达模糊的指令,人形机器人就可以理解(认知)并拆解为一系列行动(决策)。故,人形机器人的应用领域,先从to B场景开始,一定会进入家庭等场景的to C领域。
Q9:现场有人提问,「擎天柱会不会成为电影里终结者的样子?「人形」机器人会不会带来更严重的人工智能治理问题?
马斯克在问答环节提到,擎天柱Optimus机器人有各种陪伴人类的功能,用户可以让机器人做不同的事情,特斯拉未来也会据此形成不同版本的Optimus等。不希望Optimus成为电影里终结者的样子。为此设计了很多安全屏障,在本地有停止按钮,远程也有控制。
人形机器人最难的,不是去实现它,而是去治理好它。人形机器人毕竟是要进入家庭端、to C场景应用的,一定是双刃剑——用得好,是人的助手/帮手,用得不好,全是风险敞口。从人形机器人的风险控制角度,目前看:1)本地化部署,不能将更新放置在云端;2)成立社会层面的治理委员会;3)最终极的风险控制,可能还是要以人为载体,即脑机接口。
Q10:马斯克说,3-5年间,你就能拥有一个属于自己的」擎天柱「机器人了,从现场发布来看,是否靠谱?成本2w美金,是否能实现?
3-5年,即2026年开始,拥有一个属于自己的擎天柱机器人,我认为是靠谱的——但这种靠谱大概率也需要特定人群,如养老/陪伴需求的老人,这种特定人群或场景的需求,符合发布会现场所说的「有能力去物理世界中移动,一定程度的智能」。
如果不仔细看发布会,或者理解不深入,会认为发布会上的Optimus似乎很一般,但「不系绳」「没有准备任何备份的支持」,背后是Optimus的核心竞争力,是基于现实世界的智能,这是最重要、也最艰难的一步。
机器人速度比车要慢很多,所以逻辑上,比车简单(即大脑不用那么高速运转);硬件的成本上,也比一辆车要少,考虑到特斯拉最近要降价,降到19-20W人民币一台车,如果机器人到达现在的车的百万量级销量,确实似乎成本可以控制到2w美金。
编辑/lydia