Toybrick
标题:
YOLOE:实时观察一切
[打印本页]
作者:
leok
时间:
2025-3-14 11:07
标题:
YOLOE:实时观察一切
物体检测和分割在计算机视觉应用中被广泛使用,然而像 YOLO 系列这样的传统模型虽然高效准确,但却受到预定义类别的限制,阻碍了在开放场景中的适应性。最近的开放集方法利用文本提示、视觉提示或无提示范式来克服这个问题,但由于计算需求高或部署复杂性,通常在性能和效率之间做出妥协。在这项工作中,介绍了 YOLOE,它将跨各种开放提示机制的检测和分割集成在一个高效的模型中,实现实时查看任何内容。对于文本提示,提出了可重新参数化的区域文本对齐 (RepRTA) 策略。它通过可重新参数化的轻量级辅助网络改进预训练的文本嵌入,并以零推理和传输开销增强视觉文本对齐。对于视觉提示,提出了语义激活视觉提示编码器 (SAVPE)。它采用解耦的语义和激活分支,以最小的复杂性带来改进的视觉嵌入和准确性。对于无提示场景,引入了惰性区域提示对比 (LRPC) 策略。它利用内置的大型词汇表和专门的嵌入来识别所有对象,避免昂贵的语言模型依赖性。大量实验表明,YOLOE 具有出色的零样本性能和可迁移性,具有高推理效率和低训练成本。值得注意的是,在 LVIS 上,3
×
减少培训成本和 1.4
×
推理加速方面,YOLOE-v8-S 超越 YOLO-Worldv2-S 3.5 AP,迁移至 COCO 时,YOLOE-v8-L 实现 0.6 AP
b
和 0.4 AP
米
比闭集 YOLOv8-L 提高了近 4
×
训练时间更少。
作者:
leok
时间:
2025-3-14 11:07
paper:
https://arxiv.org/pdf/2503.07465v1
github:
https://github.com/THU-MIG/yoloe
欢迎光临 Toybrick (https://t.rock-chips.com/)
Powered by Discuz! X3.3