≡ AI工具

DeepSeek-VL2 – DeepSeek最新开源的MoE视觉语言模型系列

分类:AI工具
DeepSeek-VL2 – DeepSeek最新开源的MoE视觉语言模型系列

DeepSeek-VL2是什么

DeepSeek-VL2是DeepSeek最新开源的一系列大型混合专家(Mixture-of-Experts,简称MoE)视觉语言模型,在前代 DeepSeek-VL 的基础上进行了显著改进。DeepSeek-VL2 在多种任务上展现出卓越的能力,包括但不限于视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位。模型系列包括三个版本:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分别拥有 1.0B、2.8B 和 4.5B 的激活参数。DeepSeek-VL2 在保持相似或更少激活参数的情况下,与现有的开源密集型和基于 MoE 的模型相比,实现了竞争性或最先进的性能。模型于 2024 年 12 月 13 日正式发布。支持高达 1152×1152 的分辨率和 1:9 或 9:1 的极端长宽比,适配更多应用场景。DeepSeek-VL2 通过学习更多科研文档数据,理解各种科研图表的能力。能通过 Plot2Code 功能,根据图像生成 Python 代码。