|
Magma,这是一个基础模型,可在数字和物理世界中执行多模态 AI 代理任务。Magma 是视觉语言 (VL) 模型的重要扩展,因为它不仅保留了后者的 VL 理解能力(语言智能),还具备在视觉空间世界中规划和行动的能力(时空智能),并完成从 UI 导航到机器人操作的代理任务。为了赋予代理能力,Magma 在大量异构数据集上进行了预训练,这些数据集涵盖图像、视频和机器人数据,其中图像中可操作的视觉对象(例如 GUI 中的可点击按钮)由 Set-of-Mark (SoM) 标记以进行动作基础,视频中的对象运动(例如人手或机械臂的轨迹)由 Trace-of-Mark (ToM) 标记以进行动作规划。大量实验表明,SoM 和 ToM 具有很好的协同作用,有助于 Magma 模型获取时空智能,这对于图 1 所示的各种任务至关重要。特别是,Magma 在 UI 导航和机器人操作任务上创造了新的最先进结果,优于以前专门针对这些任务的模型。在与图像和视频相关的多模态任务上,Magma 也比在更大的数据集上训练的流行大型多模态模型更具优势。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|