Toybrick

YOLOE:实时观察一切

leok

高级会员

积分
997
楼主
发表于 2025-3-14 11:07:26    查看: 291|回复: 1 | [复制链接]    打印 | 只看该作者
物体检测和分割在计算机视觉应用中被广泛使用,然而像 YOLO 系列这样的传统模型虽然高效准确,但却受到预定义类别的限制,阻碍了在开放场景中的适应性。最近的开放集方法利用文本提示、视觉提示或无提示范式来克服这个问题,但由于计算需求高或部署复杂性,通常在性能和效率之间做出妥协。在这项工作中,介绍了 YOLOE,它将跨各种开放提示机制的检测和分割集成在一个高效的模型中,实现实时查看任何内容。对于文本提示,提出了可重新参数化的区域文本对齐 (RepRTA) 策略。它通过可重新参数化的轻量级辅助网络改进预训练的文本嵌入,并以零推理和传输开销增强视觉文本对齐。对于视觉提示,提出了语义激活视觉提示编码器 (SAVPE)。它采用解耦的语义和激活分支,以最小的复杂性带来改进的视觉嵌入和准确性。对于无提示场景,引入了惰性区域提示对比 (LRPC) 策略。它利用内置的大型词汇表和专门的嵌入来识别所有对象,避免昂贵的语言模型依赖性。大量实验表明,YOLOE 具有出色的零样本性能和可迁移性,具有高推理效率和低训练成本。值得注意的是,在 LVIS 上,3×减少培训成本和 1.4×推理加速方面,YOLOE-v8-S 超越 YOLO-Worldv2-S 3.5 AP,迁移至 COCO 时,YOLOE-v8-L 实现 0.6 APb和 0.4 AP比闭集 YOLOv8-L 提高了近 4×训练时间更少。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

leok

高级会员

积分
997
沙发
 楼主| 发表于 2025-3-14 11:07:54 | 只看该作者
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

产品中心 购买渠道 开源社区 Wiki教程 资料下载 关于Toybrick


快速回复 返回顶部 返回列表