ICCV2025 WAYVN公司主题演讲(下半部分) 上条传送门:
当然还有推理,以及“快思慢想”。
当你遇到路上非常复杂的挑战时,你该如何进行推理?
我想谈的下一个话题是空间智能(spatial intelligence)。
正如我提到的,这是汽车[超话] 基础模型在具身AI领域需要学习的一个关键方面。
我很高兴能在这里预告一下我们即将在今年晚些时候在纽伦堡(Nuremberg)的会议上发表的一些工作,名为Riga。
这是一种感知相机配置的3D空间智能(Rig-aware 3D spatial intelligence)。它通过一个前馈神经网络(feed-forward neural network)和一组相机图像进行训练,输出相机随时间变化的3D姿态以及对环境的重建。
你可以把它看作是ViViT等类似工作线的延伸,但扩展到了相机阵列(camera rigs)。
这是一个非常高阶的架构图,你可以查看预印本论文(arXiv paper)了解更多细节。
但本质上,关键的新颖之处在于我们可以将额外的相机阵列元数据(rig metadata)编码进去。
这使得我们……然后我们分别对单个的RGB视频流进行编码。接着通过一个大型解码器,它能够输出一个点云图(point map)头和多个射线图(ray map)头,从而得到我们想要的结果。
与一些当前最先进的技术相比,增加相机阵列信息真的、真的、真的非常有帮助。
你可以使用明确的相机阵列信息,如右边的这个例子。
或者即使没有这些信息,只要知道存在一个相机阵列,并且这些视角在时间上存在某种一致性,也能让你推断出更好的结果。
当然,我们训练这个模型使其对不同的环境条件具有鲁棒性,当然也包括不同的车辆实体。
它还有其他的应用。
例如,即使没有相机阵列,也可以将同样的方法应用于大规模的互联网行车记录仪(dash cam)类型的视频。
这让你有可能获得一些有趣的新训练数据来源。
我想谈的最后一个话题是数据,以及我们如何扩展数据的价值。
我很喜欢Jose今天早上的演讲,他谈了很多关于数据重要性的内容,以及各种不同类型的数据。
你很容易发现,驾驶数据中普遍存在的情况是,数据非常无聊。
比如沿着一条直路行驶,什么也没发生。你在路上能采集到的数据中,只有一小部分是有趣的。而其中更小的一部分,可以被认为是安全关键(safety-critical)的。
那么我们如何扩展,如何找到那些数据,以及如何扩展获取这些数据的能力呢?
我们如何找到像这样汽车超车或切入的例子,这些路上发生的危险情况?
嗯,这些实际上是基于我们的Gaia 2世界模型(world model)合成生成的。它能够生成照片般逼真、时空一致的多视角图像,并且具有高度的可控性和地理多样性。
架构大概是这样的。
它是一个潜在扩散模型(latent diffusion model),你可以阅读论文了解全部细节。
但本质上,我们训练它生成视频,并以各种事物为条件。所以我们可以基于关键词、嵌入向量、元数据等来控制场景。
它是一个世界模型,所以我们也可以以自车(ego vehicle)的动作为条件。
我们训练它从零开始生成,或者从某个初始上下文生成,甚至可以做像图像修复(in-painting)这样的事情。
那么它能做什么呢?
如果你让它纯粹地从无到有生成,你可以得到一些非常有趣和多样化的生成结果。这些美丽的场景,涵盖了一天中的不同时间,世界上的不同国家。
你可以要求特定的场景。
比如这里,我们要求它:给我生成各种各样的超越公交车的场景。
瞧,你得到了各种不同的例子。
不同时间、不同交通状况、不同路况等等。
这是另一个关于U型转弯的例子,同样如此。
正如我所说,它是一个世界模型,它以动作为条件。
所以我们实际上可以操控自车驶入对向车道,并试图造成碰撞。
嗯,实际上,这里的另一辆车做出了反应并避开了。
但这仍然是一份非常有趣的新数据。这也是在我们的默认训练语料库中当然不会存在的数据。
我们可以通过减慢前方车辆的速度来生成紧急车辆的场景。
或者更极端一点,把左边一个非常平淡的公交车行驶场景,变成一个真实的碰撞场景。
这是另一个场景编辑的变体,我们把一个相当正常的超越公交车场景,替换成一个自车快速加速冲入对向车道的版本。
也许我认为最有趣的规则是,你看这个在东京相当正常的场景,我们告诉它,我们把车开过中央隔离带,进入对向车道。
这种技术为生成合成训练数据,以及生成合成评估场景,开辟了巨大的可能性。
是的,基于此,我们可以做一些有趣的事情。
比如,如果你有大量的行车记录仪数据,你现在可以开始把它转换成多摄像头数据。
同样是完全时空一致的。
如果你有场景的激光雷达(LiDAR)扫描数据,你可以把激光雷达数据转换成环视RGB图像数据。
我想,我最喜欢的可能是这个,我们故意把车开离道路。
开始时很正常,然后穿过车流,离开道路,进入森林,穿过树林。
你知道,这个对我来说有点神奇,因为这不是我们训练数据里有的东西。
我不太清楚它是怎么能做到这个的,但这正是机器学习和大规模生成模型的魔力所在。
我提到了很多使用这种技术的方式。
我认为也许最令人兴奋,也是我们正在持续研究的一个方向是,在模拟中学习。
你知道,从2018年开始,Ha & Schmidhuber的《世界模型》论文就在游戏领域展示了这一点。
WAYVE实际上在这个领域做了一些非常早期的工作,《Dreaming to Drive》。
这是一个完全在模拟中学习的策略。它没有在公共道路上进行过测试,但在当时,它能够在该领域学习基于模型的强化学习(model-based RL),这是非常有趣的。
当然,我们今天也看到了更多现代的例子出现。
我认为这将是具身AI领域一个非常引人入胜的发展方向。
我来总结一下。
WAYVE正在为安全、可扩展、车规级的AI铺平道路,这种AI可以将自动驾驶技术普及到世界各地。但退一步,从更宏观的角度来看,具身AI有望改变人类与技术的交互方式。
我认为未来五到十年将是一个令人难以置信的时代,因为具身AI开始走出实验室,真正进入我们世界上大多数人的日常生活。
但要让这一切真正实现,我们必须把它做好。
这里有几个我认为非常重要的要点。
它必须能融入我们这个混乱的世界。
我们不会为了我们的机器人而去改变世界。
机器人必须与我们共存,不仅是与汽车和人类司机,还包括自行车、行人等等。
我们需要一个经济上可行的方法。
如果一个东西虽然安全得多,但价格昂贵到无法实现广泛部署,那就没有意义了。
它必须是经济上可行的,并且能够提高安全性。
它必须被公众和监管机构所接受,满足我们对安全、可靠性和可解释性的期望。
当然,它必须为我们的生活增添价值和效用。
好了,我的演讲就到这里。