Toybrick

Magma:多模式 AI 代理的基础模型

leok

高级会员

积分
997
楼主
发表于 2025-3-3 15:12:11    查看: 396|回复: 1 | [复制链接]    打印 | 只看该作者
Magma,这是一个基础模型,可在数字和物理世界中执行多模态 AI 代理任务。Magma 是视觉语言 (VL) 模型的重要扩展,因为它不仅保留了后者的 VL 理解能力(语言智能),还具备在视觉空间世界中规划和行动的能力(时空智能),并完成从 UI 导航到机器人操作的代理任务。为了赋予代理能力,Magma 在大量异构数据集上进行了预训练,这些数据集涵盖图像、视频和机器人数据,其中图像中可操作的视觉对象(例如 GUI 中的可点击按钮)由 Set-of-Mark (SoM) 标记以进行动作基础,视频中的对象运动(例如人手或机械臂的轨迹)由 Trace-of-Mark (ToM) 标记以进行动作规划。大量实验表明,SoM 和 ToM 具有很好的协同作用,有助于 Magma 模型获取时空智能,这对于图 1 所示的各种任务至关重要。特别是,Magma 在 UI 导航和机器人操作任务上创造了新的最先进结果,优于以前专门针对这些任务的模型。在与图像和视频相关的多模态任务上,Magma 也比在更大的数据集上训练的流行大型多模态模型更具优势。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

leok

高级会员

积分
997
沙发
 楼主| 发表于 2025-3-3 15:12:54 | 只看该作者
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

产品中心 购买渠道 开源社区 Wiki教程 资料下载 关于Toybrick


快速回复 返回顶部 返回列表