纯视觉4D占用预测新基线 | Cam4DOcc:面向端到端一体化的纯视觉新方案...
发布网友
发布时间:2024-10-20 12:09
我来回答
共1个回答
热心网友
时间:2024-10-31 01:42
Cam4DOcc: 自动驾驶应用中的仅限摄像头的4D占用预测基准
Cam4DOcc是国防科大与毫末联合研发的论文,主要讨论了自动驾驶中理解周围环境的重要性,以及目前依赖视觉图像的占用估计技术的局限性。为了评估未来周围场景的变化,Cam4DOcc提出了一种用于纯视觉4D占用预测的新基准。该基准全面比较了不同基于相机的感知和预测实现的四种基线类型,包括静态世界占用模型、点云预测的体素化、基于2D-3D实例的预测,以及端到端4D占用预测网络(OCFNet)。
Cam4DOcc基准的比较新颖之处在于提供了一个单一的定量指标来评估整个时间范围内的预测性能。该指标考虑了更接近当前时刻的时间戳对最终IoUf的贡献,符合近时间戳的占用预测对后续运动规划和决策更重要的原则。基准中包括四种不同类型的基线,分别为静态世界占⽤模型、点云预测的体素化、基于 2D-3D 实例的预测以及端到端占⽤预测⽹络OCFNet。OCFNet 是一种接收连续的过去环视摄像机图像来预测当前和未来的占⽤状态的网络。它利用多帧特征聚合模块提取扭曲的 3D 体素特征,并利用未来状态预测模块预测未来的占⽤情况以及 3D 向后向心流。
OCFNet的核心组成部分包括多帧特征聚合模块、未来状态预测模块以及损失函数。多帧特征聚合模块通过图像编码器骨干提取二维特征,并将其提升并集成到3D体素特征中,然后通过应用6自由度自我意识汽车姿势转换到当前坐标系。未来状态预测模块以运动感知特征作为输入,使用两个头来同时预测网格的未来占用和运动。损失函数包括交叉熵损失、平滑l1距离和显式深度损失,用于监督当前占用并提高训练效率。
OCFNet对膨胀GMO进行预测,并在时间戳1到Nf的预测结果和地面实况被赋予从暗到亮的颜色。预测的运动趋势用红色箭头表示。实验结果显示,仅使用有限数据训练的OCFNet仍然可以合理地捕捉GMO占用网格的运动。此外,Cam4DOcc基准提供了详细的评估协议、数据集设置、OCFNet模型细节、未来时间视界研究、3D流量预测和3D实例预测等内容,为自动驾驶应用中的4D占用预测提供了一个全面的基准。