楼主
发表于2024-01-14 08:14:45查看 354回复0浏览 354

今天极越发布了 v1.3 和 1.3.1 版本更新,其中辅助驾驶部分最重要的更新是发布了特斯拉之外,中国首个 Occupancy Network 占用网络。 

 

在这之前,我也听了一场百度智能驾驶首席研发架构师、IDG 技术委员会主席王亮的演讲,标题叫 Vision take all,翻译过来应该是「视觉通吃」,这里略微展开一下。 

 

王亮前面铺陈了一些做纯视觉的原因,包括 LiDAR 不是一个完美的传感器,会有伪影,而算法层面消除伪影的影响是非常难做、非常痛苦的,这个做研发的大家可能已经都知道,但我认为这是一些次要原因。 

 

主要原因是什么,精华是下面这两张 PPT,1. 任何企业的资源都是有限的,要投资演进速度更快、算法上限更高的技术方向;2. 像素纹理中蕴含的环境信息量远大于激光点云。 

 

把传感器套进公式,LiDAR 是典型的初速度很快的传感器,2017 年前后,甚至更早,大家都听说过当年 Cruise 整个公司 40 个人 2 台奥迪 LiDAR 改装车,卖了通用 10 亿美金的传奇。 

 

根本原因在于,只要你找来懂的人,LiDAR 相比视觉是很容易上手的,给 3 个月,就能在城市里把一个无人车 Demo 跑起来。 

 

但限于 LiDAR 本身所蕴含的信息量,没什么加速度可言。 

 

摄像头的初速度很慢,Mobileye 1999 年开始做,特斯拉 2016 年开始做,百度 2019 年开始做,极越春节前后能推 OCC 占用网络,已经是中国最快的速度。 

 

摄像头的潜力怎么体现,Ta 迭代演进的加速度远远超过其他任何传感器。 

 

这里王亮引用了 OpenAI 的论文,一个模型的演进只和 3 个因素有关,模型的参数量、数据的规模、训练算力。 

 

王亮的逻辑是,要投资纯视觉,把视觉打透,这是对已有资源,包括人才、算力这些最高效率的研发策略。 

 

但其实有一个问题,就是主流方案不是纯 LiDAR 对不对?大家都是多传感器融合,意思是视觉、LiDAR、radar 一起研发,没有非此即彼。 

 

这里王亮把 2019 年在百度做 Apollo Lite 第一代纯视觉方案的时候的逻辑又解释了一遍:视觉和 LiDAR 一起做,为什么视觉发展不起来? 

 

因为面对巨大的研发 KPI,工程师会用身体投票,如果用 LiDAR 是一个比较轻松的路径解决问题,没人会花精力死磕视觉。什么人死磕视觉?Mobileye、特斯拉、极越,这些车上没有 LiDAR 的公司,没有退路,只能死磕。 

 

也可以反过来理解,今天所有做多传感器融合的辅助驾驶公司里,哪一家的视觉能力做到了和纯视觉一样强,这是一个好问题。