Toybrick

标题: DeepSeek-VL2:用于高级多模态理解的专家混合视觉语言模型 [打印本页]

作者: leok    时间: 2025-2-10 14:35
标题: DeepSeek-VL2:用于高级多模态理解的专家混合视觉语言模型
本帖最后由 leok 于 2025-2-10 15:50 编辑

DeepSeek-VL2,这是一系列先进的大型混合专家 (MoE) 视觉语言模型,通过两项重大升级,该模型在其前身 DeepSeek-VL 的基础上有了显著改进。对于视觉组件,采用了动态平铺视觉编码策略,旨在处理具有不同长宽比的高分辨率图像。对于语言组件,利用具有多头潜在注意力机制的 DeepSeekMoE 模型,该机制将键值缓存压缩为潜在向量,以实现高效推理和高吞吐量。DeepSeek-VL2 在改进的视觉语言数据集上进行训练,在各种任务中表现出卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解和视觉基础。我们的模型系列由三个变体组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分别具有 1.0B、2.8B 和 4.5B 激活参数。与现有的开源密集模型和基于 MoE 的模型相比,DeepSeek-VL2 以相似或更少的激活参数实现了具有竞争力或最先进的性能。




作者: leok    时间: 2025-2-10 14:35

paper:https://arxiv.org/pdf/2412.10302v1
github:https://github.com/deepseek-ai/DeepSeek-VL2




欢迎光临 Toybrick (https://t.rock-chips.com/) Powered by Discuz! X3.3