ICCV2025WAYVN公司主题演讲(下半部分)上条传送门:当然还有推理

梦香评汽车啊 2025-10-26 18:50:59

ICCV2025 WAYVN公司主题演讲(下半部分) 上条传送门:

当然还有推理,以及“快思慢想”。

当你遇到路上非常复杂的挑战时,你该如何进行推理?

我想谈的下一个话题是空间智能(spatial intelligence)。

正如我提到的,这是汽车[超话] 基础模型在具身AI领域需要学习的一个关键方面。

我很高兴能在这里预告一下我们即将在今年晚些时候在纽伦堡(Nuremberg)的会议上发表的一些工作,名为Riga。

这是一种感知相机配置的3D空间智能(Rig-aware 3D spatial intelligence)。它通过一个前馈神经网络(feed-forward neural network)和一组相机图像进行训练,输出相机随时间变化的3D姿态以及对环境的重建。

你可以把它看作是ViViT等类似工作线的延伸,但扩展到了相机阵列(camera rigs)。

这是一个非常高阶的架构图,你可以查看预印本论文(arXiv paper)了解更多细节。

但本质上,关键的新颖之处在于我们可以将额外的相机阵列元数据(rig metadata)编码进去。

这使得我们……然后我们分别对单个的RGB视频流进行编码。接着通过一个大型解码器,它能够输出一个点云图(point map)头和多个射线图(ray map)头,从而得到我们想要的结果。

与一些当前最先进的技术相比,增加相机阵列信息真的、真的、真的非常有帮助。

你可以使用明确的相机阵列信息,如右边的这个例子。

或者即使没有这些信息,只要知道存在一个相机阵列,并且这些视角在时间上存在某种一致性,也能让你推断出更好的结果。

当然,我们训练这个模型使其对不同的环境条件具有鲁棒性,当然也包括不同的车辆实体。

它还有其他的应用。

例如,即使没有相机阵列,也可以将同样的方法应用于大规模的互联网行车记录仪(dash cam)类型的视频。

这让你有可能获得一些有趣的新训练数据来源。

我想谈的最后一个话题是数据,以及我们如何扩展数据的价值。

我很喜欢Jose今天早上的演讲,他谈了很多关于数据重要性的内容,以及各种不同类型的数据。

你很容易发现,驾驶数据中普遍存在的情况是,数据非常无聊。

比如沿着一条直路行驶,什么也没发生。你在路上能采集到的数据中,只有一小部分是有趣的。而其中更小的一部分,可以被认为是安全关键(safety-critical)的。

那么我们如何扩展,如何找到那些数据,以及如何扩展获取这些数据的能力呢?

我们如何找到像这样汽车超车或切入的例子,这些路上发生的危险情况?

嗯,这些实际上是基于我们的Gaia 2世界模型(world model)合成生成的。它能够生成照片般逼真、时空一致的多视角图像,并且具有高度的可控性和地理多样性。

架构大概是这样的。

它是一个潜在扩散模型(latent diffusion model),你可以阅读论文了解全部细节。

但本质上,我们训练它生成视频,并以各种事物为条件。所以我们可以基于关键词、嵌入向量、元数据等来控制场景。

它是一个世界模型,所以我们也可以以自车(ego vehicle)的动作为条件。

我们训练它从零开始生成,或者从某个初始上下文生成,甚至可以做像图像修复(in-painting)这样的事情。

那么它能做什么呢?

如果你让它纯粹地从无到有生成,你可以得到一些非常有趣和多样化的生成结果。这些美丽的场景,涵盖了一天中的不同时间,世界上的不同国家。

你可以要求特定的场景。

比如这里,我们要求它:给我生成各种各样的超越公交车的场景。

瞧,你得到了各种不同的例子。

不同时间、不同交通状况、不同路况等等。

这是另一个关于U型转弯的例子,同样如此。

正如我所说,它是一个世界模型,它以动作为条件。

所以我们实际上可以操控自车驶入对向车道,并试图造成碰撞。

嗯,实际上,这里的另一辆车做出了反应并避开了。

但这仍然是一份非常有趣的新数据。这也是在我们的默认训练语料库中当然不会存在的数据。

我们可以通过减慢前方车辆的速度来生成紧急车辆的场景。

或者更极端一点,把左边一个非常平淡的公交车行驶场景,变成一个真实的碰撞场景。

这是另一个场景编辑的变体,我们把一个相当正常的超越公交车场景,替换成一个自车快速加速冲入对向车道的版本。

也许我认为最有趣的规则是,你看这个在东京相当正常的场景,我们告诉它,我们把车开过中央隔离带,进入对向车道。

这种技术为生成合成训练数据,以及生成合成评估场景,开辟了巨大的可能性。

是的,基于此,我们可以做一些有趣的事情。

比如,如果你有大量的行车记录仪数据,你现在可以开始把它转换成多摄像头数据。

同样是完全时空一致的。

如果你有场景的激光雷达(LiDAR)扫描数据,你可以把激光雷达数据转换成环视RGB图像数据。

我想,我最喜欢的可能是这个,我们故意把车开离道路。

开始时很正常,然后穿过车流,离开道路,进入森林,穿过树林。

你知道,这个对我来说有点神奇,因为这不是我们训练数据里有的东西。

我不太清楚它是怎么能做到这个的,但这正是机器学习和大规模生成模型的魔力所在。

我提到了很多使用这种技术的方式。

我认为也许最令人兴奋,也是我们正在持续研究的一个方向是,在模拟中学习。

你知道,从2018年开始,Ha & Schmidhuber的《世界模型》论文就在游戏领域展示了这一点。

WAYVE实际上在这个领域做了一些非常早期的工作,《Dreaming to Drive》。

这是一个完全在模拟中学习的策略。它没有在公共道路上进行过测试,但在当时,它能够在该领域学习基于模型的强化学习(model-based RL),这是非常有趣的。

当然,我们今天也看到了更多现代的例子出现。

我认为这将是具身AI领域一个非常引人入胜的发展方向。

我来总结一下。

WAYVE正在为安全、可扩展、车规级的AI铺平道路,这种AI可以将自动驾驶技术普及到世界各地。但退一步,从更宏观的角度来看,具身AI有望改变人类与技术的交互方式。

我认为未来五到十年将是一个令人难以置信的时代,因为具身AI开始走出实验室,真正进入我们世界上大多数人的日常生活。

但要让这一切真正实现,我们必须把它做好。

这里有几个我认为非常重要的要点。

它必须能融入我们这个混乱的世界。

我们不会为了我们的机器人而去改变世界。

机器人必须与我们共存,不仅是与汽车和人类司机,还包括自行车、行人等等。

我们需要一个经济上可行的方法。

如果一个东西虽然安全得多,但价格昂贵到无法实现广泛部署,那就没有意义了。

它必须是经济上可行的,并且能够提高安全性。

它必须被公众和监管机构所接受,满足我们对安全、可靠性和可解释性的期望。

当然,它必须为我们的生活增添价值和效用。

好了,我的演讲就到这里。

0 阅读:0
梦香评汽车啊

梦香评汽车啊

感谢大家的关注