DeepSeek-VL2：用于高级多模态理解的专家混合视觉语言模型

[复制链接] · 发表于 2025-2-10 14:35:08

本帖最后由 leok 于 2025-2-10 15:50 编辑

DeepSeek-VL2，这是一系列先进的大型混合专家 (MoE) 视觉语言模型，通过两项重大升级，该模型在其前身 DeepSeek-VL 的基础上有了显著改进。对于视觉组件，采用了动态平铺视觉编码策略，旨在处理具有不同长宽比的高分辨率图像。对于语言组件，利用具有多头潜在注意力机制的 DeepSeekMoE 模型，该机制将键值缓存压缩为潜在向量，以实现高效推理和高吞吐量。DeepSeek-VL2 在改进的视觉语言数据集上进行训练，在各种任务中表现出卓越的能力，包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。我们的模型系列由三个变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2，分别具有 1.0B、2.8B 和 4.5B 激活参数。与现有的开源密集模型和基于 MoE 的模型相比，DeepSeek-VL2 以相似或更少的激活参数实现了具有竞争力或最先进的性能。

只看该作者 · 发表于 2025-2-10 14:35:34

paper:https://arxiv.org/pdf/2412.10302v1
github:https://github.com/deepseek-ai/DeepSeek-VL2

DeepSeek-VL2：用于高级多模态理解的专家混合视觉语言模型

本帖子中包含更多资源