Toybrick

DeepSeek-VL2:用于高级多模态理解的专家混合视觉语言模型

leok

高级会员

积分
977
楼主
发表于 2025-2-10 14:35:08    查看: 512|回复: 1 | [复制链接]    打印 | 只看该作者
本帖最后由 leok 于 2025-2-10 15:50 编辑

DeepSeek-VL2,这是一系列先进的大型混合专家 (MoE) 视觉语言模型,通过两项重大升级,该模型在其前身 DeepSeek-VL 的基础上有了显著改进。对于视觉组件,采用了动态平铺视觉编码策略,旨在处理具有不同长宽比的高分辨率图像。对于语言组件,利用具有多头潜在注意力机制的 DeepSeekMoE 模型,该机制将键值缓存压缩为潜在向量,以实现高效推理和高吞吐量。DeepSeek-VL2 在改进的视觉语言数据集上进行训练,在各种任务中表现出卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。我们的模型系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分别具有 1.0B、2.8B 和 4.5B 激活参数。与现有的开源密集模型和基于 MoE 的模型相比,DeepSeek-VL2 以相似或更少的激活参数实现了具有竞争力或最先进的性能。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

leok

高级会员

积分
977
沙发
 楼主| 发表于 2025-2-10 14:35:34 | 只看该作者
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

产品中心 购买渠道 开源社区 Wiki教程 资料下载 关于Toybrick


快速回复 返回顶部 返回列表