ICCV2025WAYVN公司主题演讲（下半部分）上条传送门：当然还有推理

ICCV2025 WAYVN公司主题演讲（下半部分）上条传送门：

当然还有推理，以及“快思慢想”。

当你遇到路上非常复杂的挑战时，你该如何进行推理？

我想谈的下一个话题是空间智能（spatial intelligence）。

正如我提到的，这是汽车[超话] 基础模型在具身AI领域需要学习的一个关键方面。

我很高兴能在这里预告一下我们即将在今年晚些时候在纽伦堡（Nuremberg）的会议上发表的一些工作，名为Riga。

这是一种感知相机配置的3D空间智能（Rig-aware 3D spatial intelligence）。它通过一个前馈神经网络（feed-forward neural network）和一组相机图像进行训练，输出相机随时间变化的3D姿态以及对环境的重建。

你可以把它看作是ViViT等类似工作线的延伸，但扩展到了相机阵列（camera rigs）。

这是一个非常高阶的架构图，你可以查看预印本论文（arXiv paper）了解更多细节。

但本质上，关键的新颖之处在于我们可以将额外的相机阵列元数据（rig metadata）编码进去。

这使得我们……然后我们分别对单个的RGB视频流进行编码。接着通过一个大型解码器，它能够输出一个点云图（point map）头和多个射线图（ray map）头，从而得到我们想要的结果。

与一些当前最先进的技术相比，增加相机阵列信息真的、真的、真的非常有帮助。

你可以使用明确的相机阵列信息，如右边的这个例子。

或者即使没有这些信息，只要知道存在一个相机阵列，并且这些视角在时间上存在某种一致性，也能让你推断出更好的结果。

当然，我们训练这个模型使其对不同的环境条件具有鲁棒性，当然也包括不同的车辆实体。

它还有其他的应用。

例如，即使没有相机阵列，也可以将同样的方法应用于大规模的互联网行车记录仪（dash cam）类型的视频。

这让你有可能获得一些有趣的新训练数据来源。

我想谈的最后一个话题是数据，以及我们如何扩展数据的价值。

我很喜欢Jose今天早上的演讲，他谈了很多关于数据重要性的内容，以及各种不同类型的数据。

你很容易发现，驾驶数据中普遍存在的情况是，数据非常无聊。

比如沿着一条直路行驶，什么也没发生。你在路上能采集到的数据中，只有一小部分是有趣的。而其中更小的一部分，可以被认为是安全关键（safety-critical）的。

那么我们如何扩展，如何找到那些数据，以及如何扩展获取这些数据的能力呢？

我们如何找到像这样汽车超车或切入的例子，这些路上发生的危险情况？

嗯，这些实际上是基于我们的Gaia 2世界模型（world model）合成生成的。它能够生成照片般逼真、时空一致的多视角图像，并且具有高度的可控性和地理多样性。

架构大概是这样的。

它是一个潜在扩散模型（latent diffusion model），你可以阅读论文了解全部细节。

但本质上，我们训练它生成视频，并以各种事物为条件。所以我们可以基于关键词、嵌入向量、元数据等来控制场景。

它是一个世界模型，所以我们也可以以自车（ego vehicle）的动作为条件。

我们训练它从零开始生成，或者从某个初始上下文生成，甚至可以做像图像修复（in-painting）这样的事情。

那么它能做什么呢？

如果你让它纯粹地从无到有生成，你可以得到一些非常有趣和多样化的生成结果。这些美丽的场景，涵盖了一天中的不同时间，世界上的不同国家。

你可以要求特定的场景。

比如这里，我们要求它：给我生成各种各样的超越公交车的场景。

瞧，你得到了各种不同的例子。

不同时间、不同交通状况、不同路况等等。

这是另一个关于U型转弯的例子，同样如此。

正如我所说，它是一个世界模型，它以动作为条件。

所以我们实际上可以操控自车驶入对向车道，并试图造成碰撞。

嗯，实际上，这里的另一辆车做出了反应并避开了。

但这仍然是一份非常有趣的新数据。这也是在我们的默认训练语料库中当然不会存在的数据。

我们可以通过减慢前方车辆的速度来生成紧急车辆的场景。

或者更极端一点，把左边一个非常平淡的公交车行驶场景，变成一个真实的碰撞场景。

这是另一个场景编辑的变体，我们把一个相当正常的超越公交车场景，替换成一个自车快速加速冲入对向车道的版本。

也许我认为最有趣的规则是，你看这个在东京相当正常的场景，我们告诉它，我们把车开过中央隔离带，进入对向车道。

这种技术为生成合成训练数据，以及生成合成评估场景，开辟了巨大的可能性。

是的，基于此，我们可以做一些有趣的事情。

比如，如果你有大量的行车记录仪数据，你现在可以开始把它转换成多摄像头数据。

同样是完全时空一致的。

如果你有场景的激光雷达（LiDAR）扫描数据，你可以把激光雷达数据转换成环视RGB图像数据。

我想，我最喜欢的可能是这个，我们故意把车开离道路。

开始时很正常，然后穿过车流，离开道路，进入森林，穿过树林。

你知道，这个对我来说有点神奇，因为这不是我们训练数据里有的东西。

我不太清楚它是怎么能做到这个的，但这正是机器学习和大规模生成模型的魔力所在。

我提到了很多使用这种技术的方式。

我认为也许最令人兴奋，也是我们正在持续研究的一个方向是，在模拟中学习。

你知道，从2018年开始，Ha & Schmidhuber的《世界模型》论文就在游戏领域展示了这一点。

WAYVE实际上在这个领域做了一些非常早期的工作，《Dreaming to Drive》。

这是一个完全在模拟中学习的策略。它没有在公共道路上进行过测试，但在当时，它能够在该领域学习基于模型的强化学习（model-based RL），这是非常有趣的。

当然，我们今天也看到了更多现代的例子出现。

我认为这将是具身AI领域一个非常引人入胜的发展方向。

我来总结一下。

WAYVE正在为安全、可扩展、车规级的AI铺平道路，这种AI可以将自动驾驶技术普及到世界各地。但退一步，从更宏观的角度来看，具身AI有望改变人类与技术的交互方式。

我认为未来五到十年将是一个令人难以置信的时代，因为具身AI开始走出实验室，真正进入我们世界上大多数人的日常生活。

但要让这一切真正实现，我们必须把它做好。

这里有几个我认为非常重要的要点。

它必须能融入我们这个混乱的世界。

我们不会为了我们的机器人而去改变世界。

机器人必须与我们共存，不仅是与汽车和人类司机，还包括自行车、行人等等。

我们需要一个经济上可行的方法。

如果一个东西虽然安全得多，但价格昂贵到无法实现广泛部署，那就没有意义了。

它必须是经济上可行的，并且能够提高安全性。

它必须被公众和监管机构所接受，满足我们对安全、可靠性和可解释性的期望。

当然，它必须为我们的生活增添价值和效用。

好了，我的演讲就到这里。