一、摘要
本文介绍了一种名为Mask DINO的创新框架,旨在统一目标检测与图像分割任务。通过在DINO(DETR with Improved Denoising Anchor Boxes)模型的基础上引入一个掩码预测分支,Mask DINO能够支持包括实例分割、全景分割和语义分割在内的所有图像分割任务。该框架利用DINO的查询嵌入,通过与高分辨率像素嵌入图的点积操作来预测一组二值掩码。Mask DINO的关键组件被扩展以适应分割任务,并通过共享架构和训练过程实现。该设计简洁高效,具有良好的扩展性,并能从大规模联合检测和分割数据集中获益。实验结果表明,Mask DINO在各种条件下均显著优于现有的专门化分割方法,无论是在基于ResNet-50的主干网络上,还是在使用SwinL主干网络的预训练模型中。特别是,在COCO数据集上的实例分割(54.5 AP)、全景分割(59.4 PQ)和ADE20K数据集上的语义分割(60.8 mIoU)方面,Mask DINO取得了当前最佳的结果。代码已开源:https://github.com/IDEA-Research/MaskDINO
图1 Mask DINO系统结构图
二、论文核心创新点
1. 提出统一的目标检测和分割框架:Mask DINO通过在DINO模型上增加一个掩码预测分支,实现了对检测和多种分割任务的统一处理,简化了算法开发,同时在多个任务上提升了性能。
2. 利用共享架构和训练过程进行分割任务:Mask DINO重用了DINO中的内容查询嵌入,通过点积操作进行掩码分类,并提出了三项关键改进(统一增强的查询选择、掩码的统一去噪训练、混合双边匹配)来提高分割性能。
3. 证明检测和分割任务可以通过共享架构互相帮助:实验表明,特别是在复杂背景的分割中,检测任务可以显著提升分割任务的效果。
4. 引入掩码增强的锚框初始化方法:提出了一种新的查询选择方法,利用编码器中的密集特征更好地初始化锚框,提高了检测的精度和分割任务的协同效应。
5. 提出掩码的统一去噪训练:扩展了去噪训练方法到分割任务,加快了训练收敛速度并提升了分割性能。
6. 引入混合双边匹配方法:增加了掩码预测损失,优化了匹配结果的准确性和一致性,进一步提升了模型的表现。
三、Mask DINO实验结果
3.1 实例分割和目标检测:在COCO数据集上,Mask DINO相较于现有的实例分割和目标检测模型(如Mask2Former和DINO)取得了显著更高的性能。在ResNet-50主干网络上,Mask DINO在实例分割任务中实现了+2.7 AP的提升,并在50轮训练中达到了最佳的检测性能。使用SwinL主干网络时,Mask DINO也在所有检测和分割任务上达到了最佳结果。
图2 Mask DNIO 在COCO数据集上实例分割和目标检测任务表现
3.2 全景分割:在COCO数据集的全景分割任务中,Mask DINO超越了所有现有模型,并在12和50轮训练中分别提高了1.0 PQ和1.1 PQ。
图3 Mask DNIO 在COCO数据集上全景分割任务表现
3.3 语义分割:在ADE20K和Cityscapes数据集上,Mask DINO在语义分割任务中表现出色,比现有的Mask2Former模型分别高出1.6和0.6 mIoU。
图4 Mask DNIO 在COCO数据集上语义分割任务表现
3.4 与SOTA模型的比较:Mask DINO在不使用额外数据的情况下,超过了所有现有模型的性能,并在使用大规模检测数据集(如Objects365)进行预训练后,进一步提升了所有分割任务的表现。
图5 Mask DNIO 与当前SOTA模型比较结果
四、总结
Mask DINO框架成功地统一了目标检测和图像分割任务,通过引入掩码预测分支和共享架构,显著提升了各种分割任务的性能。Mask DINO不仅在多个数据集上取得了当前最优的结果,还展示了检测和分割任务在共享架构中的互助潜力。Mask DINO的成功为更多视觉任务的统一框架设计和任务协作提供了新的研究方向,如集成跟踪、姿态估计等任务,从而推动多任务联合学习的发展。
发表评论