论文解读:DETR with Improved DeNoising Anchor Boxes For End-to-End Object Detection
一、摘要
本文提出了DINO(DETR with Improved DeNoising Anchor Boxes),一种端到端目标检测器。DINO通过对去噪训练使用对比方法、混合查询选择方法进行锚点初始化、以及两次前向预测机制来改进性能和效率。DINO在12个周期内实现了49.4 AP,在24个周期内实现了51.3 AP(使用ResNet-50骨干网络和多尺度特征)。与之前最好的DETR模型DN-DETR相比,分别有+6.0 AP和+2.7 AP的显著提升。DINO在模型大小和数据规模上表现出良好的可扩展性。在Objects365数据集上使用SwinL骨干网络预训练后,DINO在COCO val2017和test-dev上均取得了最佳结果。与其他排行榜上的模型相比,DINO显著减少了模型大小和预训练数据量,同时取得了更好的结果。
二、论文要解决的问题
该论文的主要想解决的问题是现有DETR(DEtection TRansformer)模型在目标检测中的收敛速度慢且性能不理想。虽然DETR消除了诸如锚点生成和非极大值抑制等手工设计的组件,但其训练速度较慢且查询的意义不够明确,导致其性能落后于传统检测器。此外,现有的DETR类模型在应用于更大的骨干网络和数据集时,其可扩展性尚未得到充分研究。
图1 DINO系统结构图
三、解决方案
为了解决这些问题,论文提出了一种新模型,引入了几个关键创新:
1. 对比去噪训练(Contrastive Denoising Training):传统的DETR模型在训练过程中容易产生不稳定的双向匹配问题。DINO通过引入对比去噪训练来解决这个问题,即同时加入正样本和负样本,增强模型的学习能力。具体而言,DINO在每个真实框中添加两种不同噪声的版本,其中噪声较小的版本被标记为正样本,较大的噪声版本被标记为负样本。这种方法有助于模型区分不同的目标,避免重复检测相同的对象,提高检测的准确性和鲁棒性。
2. 混合查询选择方法(Mixed Query Selection Method):DETR模型中的查询是静态的,这导致了在不同图像的推理中缺乏灵活性。DINO采用混合查询选择方法,通过利用来自编码器输出的位置信息初始化锚框,同时保持内容查询的可学习性,从而改进了解码器中的查询初始化过程。这种方法使得模型能够更有效地结合空间和内容信息,提高检测精度。
3. 两次前向预测机制(Look Forward Twice Scheme):DINO提出了一种新的预测机制,通过使用后层的精细信息来修正早期层的参数优化。在传统方法中,每一层的参数仅基于当前层的损失进行更新,而DINO通过引入“向前看两次”的方法,将后续层的信息反馈到前一层,从而实现更好的参数优化。这种方法能够更好地利用深层信息来改进早期预测,提高模型的整体性能。
四、实验分析
论文进行了大量的实验来验证DINO的有效性。关键结果包括:
1. DINO在12个周期内达到49.4 AP,在24个周期内达到51.3 AP,使用ResNet-50骨干网络,分别显著超过之前的DETR类模型+6.0 AP和+2.7 AP。
2. 当在Objects365数据集上使用SwinL骨干网络进行预训练后,DINO在COCO val2017上达到63.2 AP,在test-dev上达到63.3 AP,创下新的最先进记录(SOTA)。
3. DINO显示出显著的可扩展性,在保持优异性能的同时,减少了模型大小和预训练数据量。
五、论文总结
通过引入创新的对比去噪训练、混合查询选择和两次前向预测机制,DINO成功解决了现有DETR模型在目标检测任务中的核心局限性。实验结果表明,DINO不仅在收敛速度和检测性能上显著优于之前的模型,还展示了在更大规模数据集和更复杂模型架构上的良好扩展性。这一成果将DETR类模型确立为一种主流的检测框架,不仅仅因为其新颖的端到端检测优化方式,更因为其在性能上的卓越表现。
还没有评论,来说两句吧...