苏箐在谈到自动驾驶的端到端架构颠覆了过去十几年(从 2009 GoogleX 自动驾驶实验室成立 - 2023 特斯拉 FSD v12 出来前)的模块化架构,预测未来 3 年的行业技术趋势,是这么说的:「我个人判断,很大的概率是未来三年是在现有的系统上做极致的优化,而不是一种理论内核的重构,所以大家别太嗨,又进入苦日子的阶段了。」我在下面听的时候就在想,未来 3 年,一个可在全球任意国家任意场景运行的 L5 自动驾驶系统还缺什么?还缺「持续(在线)学习」、「全局记忆」。对于自动驾驶来说,如果一个模型可以持续学习,拥有全局记忆,意味着这个模型不依赖 OTA 就可以迭代,可以自主处理从未见过的场景并从中学习,进一步自我提升。这个模型可以记得在探头交规执行严格的一线城市比如上海,开车要更加注重合规,在探头少、弱路权强博弈的三线城市,开车要更加注重效率。从今天最顶尖的端到端系统特斯拉 FSD v14.2,到一个可以在线学习、全局记忆的系统,是苏箐说的「在现有的系统上做极致的优化」吗?我觉得不是,我觉得这还需要一些模型架构的根本创新,不完全是工程上优化的活儿。第二个问题是,「持续学习」、「全局记忆」有哪个顶尖的 AI Lab 搞出来了吗?答案是还没有。不过——Ilya 前些天播客里面对主持人的问题:我们怎么才能在模型中复制人类的学习效率?lIya 明显变得兴奋,说:「这是一个极好的问题,我对此也有很多想法。但遗憾的是,我们生活在一个并非所有机器学习思想都能被自由讨论的世界里,而这个问题恰恰属于其中之一。不过我认为,这种(学习)机制是可以实现的,毕竟人类的存在本身就是一种证明。」在同一个播客里,Ilya 对自己的 AI 公司 SSI 的评价是:「我们在取得进展,实际上我们在过去一年里取得了相当好的进展。」所以这个问题有点像是,押注 SSI 或其他的顶尖 AI 实验室会在未来 3 年取得重大突破,那么在随后的时间里,自动驾驶模型也会受益于此,继续有架构上的重大突破。当然,最后也要说一句,未来那个可以在线学习,拥有全局记忆的自动驾驶模型,很可能也是端到端的。从字面意义上来说,苏箐说的也没问题,很难想象还能出现什么架构能颠覆「端到端」这个最底层的范式了。
