autorenew
Figure AI 的 Helix 机器人革命:从日常视频中掌握类人导航

Figure AI 的 Helix 机器人革命:从日常视频中掌握类人导航

有没有一种感觉,科幻电影正在以惊人的速度追上现实?这正是 AI 爱好者 Chubby 在最近这条推文串里传达的感受,他重点关注了 Figure AI 在类人机器人 Helix 上取得的惊人进展。如果你一直在关注机器人领域,你会知道我们正处在一个临界点:机器人不再只是笨重地在工厂里运转,而是开始融入我们杂乱的日常生活——比如从厨房拿杯咖啡而不把家里的植物撞倒。

在这条推文串中,Chubby 解析了 Figure 如何构建被称为世界上最大的类人预训练数据集。想象一下:他们不是通过成千上万次昂贵且耗时的试错运行来给机器人编程,而是给 Helix 提供大量“egocentric”视频。这个术语指的是人们在日常生活中拍摄的第一视角素材——穿行于住宅、办公室和仓库。没有预设剧本,没有机器人示范。只有真实的人,真实的混乱场景。

结果是什么?Helix 现在可以在极其杂乱的空间中执行诸如“去浇花”或“走到餐桌那儿”这样的自然语言指令。而且关键是——这是零示范迁移(zero-shot transfer)。简单说来,这意味着机器人直接从这些视频中学到人类的导航技巧并即时应用,而无需先看另一个机器人示范。Chubby 在推文中捕捉到了这种进展的诡异速度,并指出 AI 可能先冲击白领工作,但物流和制造业的蓝领岗位也不会落后太远。

深入查看 Figure 的官方公告,Project Go-Big 不只是个酷名称——这是与 Brookfield Asset Management 合作推动的一次大规模工程。Brookfield 拥有全球超过 10 万套住宅、5 亿平方英尺的办公空间和 1.6 亿平方英尺的物流空间。这为大规模捕捉多样化的人类行为提供了金矿。目标是训练 Helix 从单一、统一的 AI 大脑中同时输出精确的操作指令(比如拾取精细物体)和流畅的导航动作。走路与抓取不再分属孤立系统——一切都在同一个无缝模型里。

更惊人的是底层技术:Helix 处理像素输入(即机器人“看到”的内容)和语言提示,输出用于在二维空间移动的低级速度指令(如果你喜欢数学的话,就是 SE(2))。完全以人类视频训练,就像是给机器人看了无数小时的 YouTube 教程来学习“如何做人”——而且没有广告。

但我们要谈影响力,因为这不仅仅是机器人极客的玩物。正如 Chubby 在推文中指出的,步伐“几乎令人恐惧”。我们在讨论可能很快就能处理家务、仓库补货,甚至办公室差事的机器人,这将以我们自装配线以来未见的方式使人类劳动力变得可选。对于区块链圈和 meme token 爱好者(嘿,这正是我们 Meme Insider 的专长),想象一下连锁反应:去中心化 AI 网络在共享数据集上训练,或是与机器人相关的 meme coins 通过 robotics DAOs 为下一次类人突破提供资金。这并非炒作——而是 Web3 的狂想与可触技術之间的桥梁。

当然,回复里的怀疑者也直言不讳。有人指出其行走姿态“笨拙”,另有人笑称在等不再像打盹似的 Gen3 机器人出现。这些都是公平的观点——Helix 还没跑马拉松——但零示范学习曲线确实是一个改变游戏规则的点。Figure 设想将数百万台这样的机器人带入家庭,并通过他们的 careers page 邀请合作者,革命才刚刚开始。

如果你深扎 AI 领域或只是好奇机器人会不会闯进你的下一次 Zoom 会议,这条推文串值得一看。查看嵌入的视频就能一窥 Helix 的实际表现——既令人印象深刻,又有点不寒而栗。你怎么看:是帮手,还是预兆?在下面留下你的看法,并关注我们关于 AI 如何重塑我们 meme 驱动未来的后续报道。

你可能感兴趣