NeurIPS'24开源 | 完美融合相机-激光雷达,全部感知任务SOTA!
connygpt 2024-12-20 11:48 3 浏览
0. 论文信息
标题:AlterMOMA: Fusion Redundancy Pruning for Camera-LiDAR Fusion Models with Alternative Modality Masking
作者:Shiqi Sun, Yantao Lu, Ning Liu, Bo Jiang, JinChao Chen, Ying Zhang
机构:Northwestern Polytechnical University、Midea Group、Didi Chuxing
原文链接:https://arxiv.org/abs/2409.17728
1. 摘要
相机-激光雷达融合模型显著增强了自动驾驶中的感知性能。融合机制利用了每种模式的优势,同时最大限度地减少了它们的缺点。此外,在实践中,相机-激光雷达融合模型利用预先训练的主干进行有效训练。然而,我们认为,由于融合机制的性质,直接将单模态预训练相机和激光雷达主干加载到相机-激光雷达融合模型中会引入跨模态的相似特征冗余。不幸的是,现有的剪枝方法是针对单模态模型开发的,因此,它们难以有效地识别相机-激光雷达融合模型中的这些特定的冗余参数。在本文中,为了解决相机-激光雷达融合模型的上述问题,我们提出了一种新颖的修剪框架替代模态掩蔽修剪(AlterMOMA),它在每个模态上采用替代掩蔽并识别冗余参数。具体来说,当一个模态参数被屏蔽(去激活)时,屏蔽主干的特征缺失迫使模型重新激活另一个模态主干的先前冗余特征。因此,这些冗余特征和相关的冗余参数可以通过重新激活过程来识别。冗余参数可以通过我们提出的重要性分数评估函数,备选评估(AlterEva)来修剪,该评估函数基于当某些模态参数被激活和去激活时对损失变化的观察。在nuScene和KITTI数据集上进行的大量实验(包括不同的任务、基线模型和剪枝算法)表明,AlterMOMA优于现有的剪枝方法,达到了最先进的性能。
2. 引言
在自动驾驶领域,相机与激光雷达融合模型十分普遍,它们有效利用了传感器的特性,包括激光雷达点云提供的精确几何数据和相机图像提供的丰富语义上下文,从而提供了对环境更全面的理解。然而,由于融合架构导致参数数量呈指数级增长,这引入了显著的计算成本,尤其是在资源受限的边缘设备上部署这些系统时,这对自动驾驶来说是一个至关重要的挑战。网络剪枝是解决上述模型冗余识别与消除挑战的最具吸引力的方法之一。现有的剪枝算法针对的是单模态模型或多模态模型,这些多模态模型融合了不同类型的数据,如视觉和语言输入。然而,值得注意的是,直接将这些算法应用于相机与激光雷达融合模型可能会导致显著的性能下降。性能下降的原因主要在于现有剪枝方法忽略了两个主要因素:1)模型内针对视觉传感器输入的特定融合机制;2)训练方案,其中模型通常将单模态预训练参数加载到每个主干网络上。具体来说,由于单模态模型缺乏跨模态融合机制,现有的剪枝算法传统上不考虑模态间的相互作用。此外,由于预训练的主干网络(图像或激光雷达)是分别训练的,它们没有得到联合优化,从而加剧了从每个主干网络提取的特征中的冗余。尽管利用预训练的主干网络相比从头开始训练的模型提高了训练效率,但我们认为,直接将单模态预训练的相机和激光雷达主干网络加载到相机与激光雷达融合模型中,由于融合机制的特性,会在模态间引入类似的特征冗余。
具体来说,由于主干网络是在单模态数据集上独立预训练的,它们会全面提取特征,这导致模态间提取的特征相似。同时,融合机制会选择性地利用可靠的特征,同时最小化较弱的模态间特征,以增强模型性能。这种在模态间相似特征提取基础上的选择性利用引入了额外的冗余:每个主干网络独立提取相似的特征,而后续的融合模块可能不会利用这些特征。例如,在预训练期间,相机和激光雷达主干网络都会提取几何特征以预测深度。然而,在融合过程中,从激光雷达主干网络提取的几何特征被认为更可靠,因为激光雷达输入数据包含比相机更准确的几何信息,如物体距离,这是由于传感器的物理特性。因此,这导致了相机主干网络中几何特征的冗余。综上所述,模态间的相似特征提取,加上后续融合模块中的选择性利用,导致模态间存在两类相似的特征:一类是由融合模块在某一模态中利用的特征(即融合贡献特征),另一类是在另一模态中冗余的特征(即融合冗余特征)。我们还在图1中说明了融合冗余特征。
为了解决上述挑战,我们提出了一种新的剪枝框架AlterMOMA,该框架专为相机与激光雷达融合模型设计,用于识别和剪除融合冗余参数。AlterMOMA在每个模态上采用交替掩码,然后观察当某些模态参数被激活和停用时损失的变化。这些观察结果作为识别融合冗余参数的重要指示,是我们重要性评分评估函数AlterEva的重要组成部分。具体来说,相机和激光雷达主干网络会交替被掩码。在此过程中,被掩码(停用)的主干网络中缺失的融合贡献特征和相关参数会迫使融合模块从另一个主干网络中重新激活其融合冗余对应项。在整个重新激活过程中,观察到的损失变化作为跨模态贡献和融合冗余参数的指标。然后,这些指标在AlterEva中被组合,以最大化贡献参数的重要性评分,同时最小化融合冗余参数的重要性评分。接着,将重要性评分较低的参数剪除,以降低计算成本。推荐课程:彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战。
为了验证我们提出框架的有效性,我们在多个流行的包含相机和激光雷达传感器数据的3D感知数据集上进行了大量实验,包括nuScenes和KITTI。这些数据集涵盖了多种3D自动驾驶任务,包括3D目标检测、跟踪和分割。
3. 效果展示
3D目标探测任务中融合冗余特征的激励示例。我们在具有预训练主干的相机-激光雷达融合模型上采用反向传播,以观察仅具有相机主干和具有相机和激光雷达主干两者之间的梯度差异(特征利用)。值得注意的是,由于LiDAR信息的修改,相机中枢中的某些预训练参数是多余的。它揭示了相似的特征提取存在于各模态之间,这在相机-激光雷达融合模型直接加载单模态预训练主干时引入了额外的冗余。
4. 主要贡献
本文的贡献如下:1)我们提出了一种剪枝框架AlterMOMA,以有效压缩相机与激光雷达融合模型;2)我们提出了一种重要性评分评估函数AlterEva,用于跨模态识别融合冗余特征及其相关参数;3)我们在nuScenes和KITTI数据集上验证了所提AlterMOMA在3D检测和分割任务中的有效性。
5. 方法
模态间的相似特征提取,加上后续融合模块对特征的选择性利用,在相机与激光雷达融合模型中引入了冗余。因此,相似的特征及其相关参数可以在模态间分为两类:一类是对融合和后续任务头有贡献的特征(即融合贡献特征),另一类是冗余的特征(即融合冗余特征)。在本节中,我们提出了剪枝框架AlterMOMA,该框架交替地对相机和激光雷达主干网络采用掩码,以识别和移除融合冗余参数。AlterMOMA是基于一个新的见解开发的:“融合贡献特征的缺失将迫使融合模块‘重新激活’其融合冗余对应项作为补充,尽管这些对应项的效果较差,但对于维持功能却是必要的。”例如,如果激光雷达主干网络被掩码,则它之前提供的融合贡献几何特征将缺失。为了满足对准确位置预测的需求,模型仍然需要处理几何特征。因此,融合模块被迫利用未掩码的相机主干网络中的几何特征,这些特征之前被认为是融合冗余的。我们将这一过程称为冗余重新激活。通过观察这一过程中的变化,可以识别出融合冗余参数。AlterMOMA的概述如图2所示。
6. 实验结果
7. 总结 & 未来工作
尽管我们的方法识别出了相机-激光雷达融合模型中的相似特征冗余,但其应用仅限于感知领域。若要将其扩展到其他多模态模型(如视觉-语言模型),则还需进一步研究。跨不同模态的融合模块展现出不同的功能。在多传感器融合模型(相机、激光雷达和雷达)中,重点是利用传感器的物理特性来补充和空间对齐数据,融合低级特征。然而,在视觉和语言等数据类型不同的模型中,融合模块则侧重于匹配高级语义上下文。因此,AlterMOMA主要解决多传感器融合感知架构中由补充功能引起的冗余问题。
在本文中,我们探讨了相机-激光雷达融合模型的计算量减少问题。提出了一种名为AlterMOMA的剪枝框架,以解决这些模型中的冗余问题。AlterMOMA在每个模态上采用交替掩码,并观察在激活和停用某些模态参数时的损失变化。这些观察结果对于我们的重要性评分评估函数AlterEva至关重要。通过广泛的评估,我们提出的AlterMOMA框架实现了更好的性能,超越了单模态剪枝方法建立的基线。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊可提供顶会论文的课题如下:
相关推荐
- 自学Python,写一个挨打的游戏代码来初识While循环
-
自学Python的第11天。旋转~跳跃~,我~闭着眼!学完循环,沐浴着while的光芒,闲来无事和同事一起扯皮,我说:“编程语言好神奇,一个小小的循环,竟然在生活中也可以找到原理和例子”,同事也...
- 常用的 Python 工具与资源,你知道几个?
-
最近几年你会发现,越来越多的人开始学习Python,工欲善其事必先利其器,今天纬软小编就跟大家分享一些常用的Python工具与资源,记得收藏哦!不然下次就找不到我了。1、PycharmPychar...
- 一张思维导图概括Python的基本语法, 一周的学习成果都在里面了
-
一周总结不知不觉已经自学Python一周的时间了,这一周,从认识Python到安装Python,再到基本语法和基本数据类型,对于小白的我来说无比艰辛的,充满坎坷。最主要的是每天学习时间有限。只...
- 三日速成python?打工人,小心钱包,别当韭菜
-
随着人工智能的热度越来越高,许多非计算机专业的同学们也都纷纷投入到学习编程的道路上来。而Python,作为一种相对比较容易上手的语言,也越来越受欢迎。网络上各类网课层出不穷,各式广告令人眼花缭乱。某些...
- Python自动化软件测试怎么学?路线和方法都在这里了
-
Python自动化测试是指使用Python编程语言和相关工具,对软件系统进行自动化测试的过程。学习Python自动化测试需要掌握以下技术:Python编程语言:学习Python自动化测试需要先掌握Py...
- Python从放弃到入门:公众号历史文章爬取为例谈快速学习技能
-
这篇文章不谈江流所专研的营销与运营,而聊一聊技能学习之路,聊一聊Python这门最简单的编程语言该如何学习,我完成的第一个Python项目,将任意公众号的所有历史文章导出成PDF电子书。或许我这个Py...
- 【黑客必会】python学习计划
-
阅读Python文档从Python官方网站上下载并阅读Python最新版本的文档(中文版),这是学习Python的最好方式。对于每个新概念和想法,请尝试运行一些代码片段,并检查生成的输出。这将帮助您更...
- 公布了!2025CDA考试安排
-
CDA数据分析师报考流程数据分析师是指在不同行业中专门从事行业数据搜集、整理、分析依据数据作出行业研究评估的专业人员CDA证书分为1-3级,中英文双证就业面广,含金量高!!?报考条件:满18...
- 一文搞懂全排列、组合、子集问题(经典回溯递归)
-
原创公众号:【bigsai】头条号:程序员bigsai前言Hello,大家好,我是bigsai,longtimenosee!在刷题和面试过程中,我们经常遇到一些排列组合类的问题,而全排列、组合...
- 「西法带你学算法」一次搞定前缀和
-
我花了几天时间,从力扣中精选了五道相同思想的题目,来帮助大家解套,如果觉得文章对你有用,记得点赞分享,让我看到你的认可,有动力继续做下去。467.环绕字符串中唯一的子字符串[1](中等)795.区...
- 平均数的5种方法,你用过几种方法?
-
平均数,看似很简单的东西,其实里面包含着很多学问。今天,分享5种经常会用到的平均数方法。1.算术平均法用到最多的莫过于算术平均法,考试平均分、平均工资等等,都是用到这个。=AVERAGE(B2:B11...
- 【干货收藏】如何最简单、通俗地理解决策树分类算法?
-
决策树(Decisiontree)是基于已知各种情况(特征取值)的基础上,通过构建树型决策结构来进行分析的一种方式,是常用的有监督的分类算法。决策树算法是机器学习中的一种经典算法,它通过一系列的规则...
- 面试必备:回溯算法详解
-
我们刷leetcode的时候,经常会遇到回溯算法类型题目。回溯算法是五大基本算法之一,一般大厂也喜欢问。今天跟大家一起来学习回溯算法的套路,文章如果有不正确的地方,欢迎大家指出哈,感谢感谢~什么是回溯...
- 「机器学习」决策树——ID3、C4.5、CART(非常详细)
-
决策树是一个非常常见并且优秀的机器学习算法,它易于理解、可解释性强,其可作为分类算法,也可用于回归模型。本文将分三篇介绍决策树,第一篇介绍基本树(包括ID3、C4.5、CART),第二篇介绍Ran...
- 大话AI算法: 决策树
-
所谓的决策树算法,通俗的说就是建立一个树形的结构,通过这个结构去一层一层的筛选判断问题是否好坏的算法。比如判断一个西瓜是否好瓜,有20条西瓜的样本提供给你,让你根据这20条(通过机器学习)建立起...
- 一周热门
- 最近发表
- 标签列表
-
- kubectlsetimage (56)
- mysqlinsertoverwrite (53)
- addcolumn (54)
- helmpackage (54)
- varchar最长多少 (61)
- 类型断言 (53)
- protoc安装 (56)
- jdk20安装教程 (60)
- rpm2cpio (52)
- 控制台打印 (63)
- 401unauthorized (51)
- vuexstore (68)
- druiddatasource (60)
- 企业微信开发文档 (51)
- rendertexture (51)
- speedphp (52)
- gitcommit-am (68)
- bashecho (64)
- str_to_date函数 (58)
- yum下载包及依赖到本地 (72)
- jstree中文api文档 (59)
- mvnw文件 (58)
- rancher安装 (63)
- nginx开机自启 (53)
- .netcore教程 (53)