• 正文
  • 相关推荐
申请入驻 产业图谱

2025年最先进的6个目标检测模型介绍

10/28 16:44
2819
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

目标检测技术赋能着无数现实世界的应用,从城市街道上的自动驾驶汽车到监控生产线的智能工厂。随着 Transformer 架构和注意力机制的快速发展,最先进的目标检测技术在 2025 年迎来了翻天覆地的变化。RF -DETR和YOLOv12等新模型正在不断突破极限,在保持实时性能的同时实现了前所未有的精度。

最佳目标检测模型标准

以下是我们用来选择这些对象检测模型的标准。

1. 实时性能

该模型应达到适合实时应用的推理速度,通常在 NVIDIA T4 等标准 GPU 硬件或边缘设备上以 30 FPS 以上的速度处理图像。这确保了模型能够处理视频流和时间敏感的检测任务,而不会出现明显的延迟。

2. 标准基准的准确性

模型应在行业标准基准测试中展现出强劲的性能,尤其是在Microsoft COCO 数据集上。我们优先考虑在 IoU 为 0.50:0.95 时,mAP(平均精度)至少达到 45% 的模型,这表明其在各种目标尺度和类别中都能实现可靠的检测。

3. 模型效率和可扩展性

该架构应提供多种模型尺寸(纳米、小型、中型、大型),以适应不同的计算预算。高效的模型能够平衡参数数量、FLOP 和准确率,使其能够跨设备部署,从边缘硬件到云端基础设施。

4. 领域适应性

拥有能够良好迁移到自定义数据集和特定领域的强大预训练模型至关重要。我们青睐那些在领域自适应基准测试(例如RF100-VL)上展现出稳健性能的架构,这些架构能够展现出超越训练数据的泛化能力。

5. 积极的开发和部署支持

优先考虑拥有强大社区支持、定期更新且具备生产就绪部署工具的模型。与Roboflow Inference、Ultralytics或原生 PyTorch 等框架集成,可确保从业者顺利从实验过渡到生产。

最佳目标检测模型

这是我们整理的 2025 年最佳物体检测模型。

1. RF-DETR

RF-DETR是一种基于 Transformer 的实时目标检测模型架构,由 Roboflow 开发,并于 2025 年 3 月根据 Apache 2.0 许可证发布。RF -DETR是一个重要的里程碑,它是第一个在RF100-VL 领域自适应基准上超过 60 mAP 的实时模型,同时在各种现实世界数据集上实现了最先进的性能。

RF-DETR 尤其令人印象深刻的是它采用了DINOv2 视觉主干框架,该框架提供了卓越的迁移学习能力。该模型经过全新设计,能够很好地适应不同的领域和数据集大小,使其成为通用检测和专业应用的理想选择。

上图展示了RF-DETR 组件的详细架构:DINOv2 主干网络、带有可变形注意力机制的 Transformer 编码器以及带有基于查询的检测头的解码器。该图展示了 RF-DETR 如何通过其端到端 Transformer 架构消除非最大抑制 (NMS) 和锚框。图中展示了从输入图像 → 主干网络特征提取 → 编码器处理 → 解码器预测 → 最终检测的流程。

RF-DETR 提供多种版本,以适应不同的部署场景。纳米级、小型级和中型级模型均具有出色的准确率与速度比,而预览分割版本则将功能扩展到实例分割任务。RF-DETR-M 在 T4 GPU 上实现了 54.7% 的 mAP,延迟仅为 4.52 毫秒,在保持实时速度的同时,其性能超越了同类 YOLO 模型。

RF-DETR基准性能:

上图是 RF-DETR 与 YOLOv11、YOLOv8 以及其他实时检测器在 COCO 数据集上的性能对比图,mAP 与延迟时间均有所差异。RF-DETR 的三个变体(N/S/M)构成了帕累托边界,展现了其在准确率和速度之间取得的卓越平衡。尤其值得一提的是,RF-DETR-M 在延迟时间仅略有增加的情况下实现了更高的 mAP,凸显了其在平衡准确率和实时性方面的卓越表现。此外,RF100-VL 的 mAP 达到了 60.6%,进一步提升了这一性能,表明其在不同视觉环境下均具有卓越的领域适应性和鲁棒性,在准确率和泛化能力方面均超越了许多传统的基于 CNN 和 Transformer 的检测器。

该模型的 Transformer 架构消除了锚框和非最大抑制 (NMS) 等传统检测组件,从而实现了真正的端到端目标检测。这种架构选择不仅简化了检测流程,还提高了一致性并降低了后处理开销。

RF-DETR 足够小,可以使用Roboflow Inference在边缘设备上运行,这使其成为需要高精度和实时性能且不依赖云的部署的理想选择。

2. YOLOv12

YOLOv12于 2025 年 2 月发布,它引入了以注意力为中心的架构,标志着YOLO 系列的重大转变。YOLOv12 不再仅仅依赖卷积运算,而是集成了高效的注意力机制来捕捉全局上下文,同时保持了 YOLO 一贯的实时速度。

该模型引入了多个突破性组件,包括区域注意力模块 (A?),它通过将特征图划分为特定区域来优化注意力机制,从而提高计算效率;以及残差高效层聚合网络 (R-ELAN),它通过块级残差连接增强训练稳定性。FlashAttention集成进一步减少了内存瓶颈,全面提升了推理效率。

YOLOv12 基准性能:

YOLOv12-N:40.6% mAP,延迟为 1.64ms(比 YOLOv10-N 提高 2.1%,比 YOLO11-N 提高 1.2%)

YOLOv12-M:52.5% mAP,延迟 4.86ms(比 YOLO11-M 提高 1.0%)

YOLOv12-X:55.2% mAP,延迟 11.79ms,是 YOLO 系列中准确率最高的

YOLO11(2024 年 10 月发布)改进了架构设计,参数比 YOLOv8m 减少了 22%,同时通过增强的特征提取和优化的训练流程实现了更高的 mAP。

YOLOv10(2024 年 5 月)率先使用一致的双重分配进行无 NMS 训练,显著减少了推理延迟。

YOLOv9(2024 年 2 月)引入了可编程梯度信息 (PGI) 和 GELAN 架构来解决深度网络中的信息丢失问题,从而提高准确性和效率。

YOLOv8(2023 年 1 月)建立了具有增强型 CSPNet 主干的无锚方法,成为最广泛采用且具有全面任务支持的框架之一。

YOLOv12 模型的运行速度略慢于其前代产品;YOLOv12-N 比 YOLOv10-N 慢 9%,YOLOv12-M 比 YOLO11-M 慢 3%。然而,对于检测质量至关重要的应用来说,准确率的提升是值得的。

YOLOv12 由Ultralytics Python 包支持,初学者和专业人士只需几行代码即可进行训练、推理和部署。

3. YOLO-NAS

YOLO-NAS由 Deci AI 开发,于 2023 年 5 月发布,它通过应用神经架构搜索 (NAS) 技术,在目标检测领域取得了突破性进展。YOLO-NAS 并非手动设计架构,而是通过 Deci 的 AutoNAC(自动神经架构构建)引擎发现的,该引擎耗时超过 3,800 个 GPU 小时,探索了包含 10^14 个潜在架构的庞大搜索空间。

YOLO-NAS 的关键创新在于其易于量化的架构。虽然大多数模型在量化为 INT8 以加快推理速度时精度会显著下降,但 YOLO-NAS 的设计从一开始就充分考虑了量化因素。其量化感知模块最大限度地减少了 INT8 转换过程中的精度损失,从而使模型在保持性能的同时提升了效率。

YOLO-NAS 通过先进的训练方案解决了先前 YOLO 模型的关键局限性,包括基于Objects365 数据集(365 个类别,200 万张图像)进行预训练、利用伪标记的 COCO 图像,以及将知识蒸馏与分布焦点损失 (DFL) 相结合。这种全面的训练方法有助于模型处理类别不平衡问题,并提高代表性不足类别的检测准确率。

YOLO-NAS性能指标:

与前代产品相比,YOLO-NAS 的性能提升显著:相比 YOLOv7 提升了 20.5%,相比 YOLOv5 提升了 11%,相比 YOLOv8 提升了 1.75%。这些性能提升使得 YOLO-NAS 对于兼顾速度和准确率的生产部署尤为具有吸引力。

该模型已在 COCO、Objects365 和Roboflow 100数据集上进行预训练,非常适合下游目标检测任务以及迁移学习到自定义域。YOLO-NAS 可通过 Deci 的SuperGradients 库获取,该库包含分布式数据并行、指数移动平均、自动混合精度和量化感知训练等高级训练技术。

重要提示:Deci 已被 NVIDIA 收购,原团队已不再积极维护这些模型,但 Ultralytics 仍将继续支持其使用。该模型使用 Apache 2.0 许可证,但预训练权重有特殊的许可注意事项。

4. RTMDet

RTMDet由 OpenMMLab 开发,是一款高效的实时物体检测器,在 NVIDIA 3090 GPU 上以 300+ FPS 的速度在 COCO 数据集上实现了惊人的 52.8% AP。这使得 RTMDet 成为目前速度最快、精度最高的物体检测器之一,为高通量检测场景树立了新的标准。

该模型的速度源自多项架构创新:

针对并行处理进行优化的轻量级主干

动态标签分配提高训练效率

共享卷积层减少计算开销

利用 GPU 并行性优化推理管道

RTMDet 提供了涵盖准确度和速度范围的变体:

RTMDet-Tiny:1020+ FPS 时 AP 为 40.5%;满足极速要求的最快版本

RTMDet-Small:819 FPS 时 44.6% AP;适合大多数应用程序的平衡选项

RTMDet-Medium:48.8% AP;更高的准确率,同时保持出色的速度

RTMDet-Large:51.2% AP;300+ FPS 时最大准确率

RTMDet-Extra-Large:52.8% AP;在苛刻的场景下达到最佳性能

即使较大的变体也能保持超过 200 FPS 的帧速率,这使得 RTMDet 适用于其他模型会出现瓶颈的高吞吐量视频处理。

RTMDet 在需要最大吞吐量的应用中表现出色:

高速视频处理每秒分析数百帧

在体育或监控中实时跟踪快速移动的物体

制造质量控制,以生产线速度检查产品

需要亚毫秒级检测延迟的自主机器人

GPU 利用率直接影响成本的批量推理场景

最佳零样本目标检测模型

5. YOLO-World

YOLO-World通过在 YOLO 架构中引入零样本和开放词汇功能,代表了物体检测领域的根本性变革。YOLO-World 由腾讯人工智能实验室于 2024 年 1 月发布,解决了一个关键限制:需要针对新的物体类别重新训练模型。

与传统的检测器受限于训练数据集(例如 COCO 的 80 个类别)中预定义的类别不同,YOLO-World 只需输入文本描述即可检测物体。这是通过视觉语言预训练实现的,该预训练将视觉和文本表征对齐,使模型能够理解和检测训练期间从未见过的物体。

上图是 YOLO-World 视觉-语言集成的架构图。图中展示了 YOLOv8 主干网络、RepVL-PAN(可重新参数化的视觉-语言路径聚合网络)以及区域-文本对比学习组件。图中还展示了如何通过跨模态注意力机制将文本嵌入和图像特征融合在一起。

YOLO-World 尤其令人印象深刻的是,它保留了基于 CNN 的 YOLO 架构的速度优势,同时实现了此前仅在 Grounding DINO 等基于 Transformer 的较慢模型中才出现的零样本检测能力。在极具挑战性的LVIS 数据集上,YOLO-World 在 V100 上以 52.0 FPS 的速度实现了 35.4 AP,这使其速度比同类零样本检测器快约 20 倍,而体积却缩小了 5 倍。

YOLO-World性能:

零镜头 LVIS:52.0 FPS 时 AP 为 35.4%

微调后:下游检测和分割任务表现出色

实时能力:适用于视频处理和边缘部署

该模型以 YOLOv8 主干网络为基础,并结合可重新参数化的视觉-语言路径聚合网络 (RepVL-PAN) 和区域-文本对比损失,以实现高效的视觉-语言建模。该架构使 YOLO-World 能够高效地处理图像特征和文本提示。

6.?GroundingDINO

GroundingDINO是由 IDEA Research 开发的最先进的零样本物体检测模型,它将基于 Transformer 的检测能力与扎实的语言理解能力相结合。GroundingDINO 于 2023 年 3 月发布,并于 2024 年发布了 1.5 版本,该模型擅长通过自然语言描述检测物体,无需任何针对特定任务的训练。

该模型实现了卓越的零样本性能:在无需任何 COCO 训练数据的情况下,模型在 COCO 数据集上的准确率达到 52.5%,经过微调后,准确率达到 63.0%。在极具挑战性的 ODinW 零样本基准测试中,该模型创下了 26.1% 的准确率,展现了其跨领域泛化能力。

GroundingDINO 的独特之处在于其双重功能。除了传统的物体检测之外,它还支持指涉表达理解 (REC),能够根据复杂的文本描述识别和定位特定物体。例如,您无需分别检测所有椅子和人,然后编写逻辑来查找有人坐的椅子,只需输入“有人坐的椅子”即可,模型将直接检测这些实例。

GroundingDINO 1.5 推出了两种针对不同场景优化的变体:

GroundingDINO 1.5 Pro:COCO zero-shot 上 AP 达到 54.3%,LVIS-minival 上 AP 达到 55.7%,树立了新的准确率标杆

GroundingDINO 1.5 Edge:使用 TensorRT 在 LVIS-minival 上以 75.2 FPS 的速度实现 36.2% 的 AP,针对边缘设备进行了优化

该架构消除了非最大抑制 (NMS) 等手工设计的组件,从而简化了检测流程并提高了效率。GroundingDINO 基于 Transformer 的设计结合了视觉变换器 (ViT),使其能够有效地融合视觉和语言信息,使其能够灵活地应用于各种实际任务。

—THE END—

相关推荐