小米的叶航军博士有个观点,智能驾驶可以分为三代:第一代是规则驱动、第二代是数据驱动,第三代就是认知驱动。目前端到端处于是数据驱动的时代,而VLA就是进入了认知驱动时代。端到端只能模仿人类的驾驶行为,而VLA才具备主动理解的能力,遇到一些极为特殊的场景时,有具备人的认知能力才能有应对能力。在陈龙博士的采访中,他提到了VLA和世界模型的关系,这也是最近行业吵得不可开交的议题。陈龙博士认为,VLA与世界模型并非是二选一的关系,端到端是模拟人类驾驶,行为与教动物开车并无两样,而VLA负责抽象推理+价值观对齐,两者可以联合训练、协同缩放。另外,小米没有选择开源的基座模型,在陈龙看来,开源模型往往使用了网络上的数据进行预训练,模型对3D空间感知和推理能力是不强的。小米选择自研具身基座模型,小米自研的MiMo基座模型先吃透通用语言/多模态数据,再诸如驾驶空间感知和行为表现,最终蒸馏成车规级VLA模型。目前最新发布的OTA 1.11.0 正是陈光博士带队研发的,如果用比较流行的“量产一代、预研一代”来说的话,陈光博士的团队主要负责目前端到端版本的量产和优化,陈龙博士负责下一代VLA的研发,而来自图森的王乃岩,负责单独的L3业务。这一代产品的进步,主要得益于世界模型和强化学习的上车。在小米智驾的体系里,世界模型更像是小米搭建的考场,里面会生成各类考题,而强化学习就是考官,系统要在这里无限刷题。并且,系统要在云端完成10万公里的测试,通过后再用30台测试车在城市、高速里跑5000公里抽检,全部合格后才能OTA给用户。
刚刷到,竟然是小米车主本人发的,网上没赢过,现实没输过
【11评论】【1点赞】