Magma：多模式 AI 代理的基础模型

[复制链接] · 发表于 2025-3-3 15:12:11

Magma，这是一个基础模型，可在数字和物理世界中执行多模态 AI 代理任务。Magma 是视觉语言 (VL) 模型的重要扩展，因为它不仅保留了后者的 VL 理解能力（语言智能），还具备在视觉空间世界中规划和行动的能力（时空智能），并完成从 UI 导航到机器人操作的代理任务。为了赋予代理能力，Magma 在大量异构数据集上进行了预训练，这些数据集涵盖图像、视频和机器人数据，其中图像中可操作的视觉对象（例如 GUI 中的可点击按钮）由 Set-of-Mark (SoM) 标记以进行动作基础，视频中的对象运动（例如人手或机械臂的轨迹）由 Trace-of-Mark (ToM) 标记以进行动作规划。大量实验表明，SoM 和 ToM 具有很好的协同作用，有助于 Magma 模型获取时空智能，这对于图 1 所示的各种任务至关重要。特别是，Magma 在 UI 导航和机器人操作任务上创造了新的最先进结果，优于以前专门针对这些任务的模型。在与图像和视频相关的多模态任务上，Magma 也比在更大的数据集上训练的流行大型多模态模型更具优势。

只看该作者 · 发表于 2025-3-3 15:12:54

paper:https://arxiv.org/pdf/2502.13130v1
github:https://github.com/microsoft/Magma

Magma：多模式 AI 代理的基础模型

本帖子中包含更多资源