≡ AI工具

DeepSeek-VL2 – DeepSeek最新开源的MoE视觉语言模型系列

分类：AI工具

DeepSeek-VL2是什么

DeepSeek-VL2是DeepSeek最新开源的一系列大型混合专家（Mixture-of-Experts，简称MoE）视觉语言模型，在前代 DeepSeek-VL 的基础上进行了显著改进。DeepSeek-VL2 在多种任务上展现出卓越的能力，包括但不限于视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位。模型系列包括三个版本：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2，分别拥有 1.0B、2.8B 和 4.5B 的激活参数。DeepSeek-VL2 在保持相似或更少激活参数的情况下，与现有的开源密集型和基于 MoE 的模型相比，实现了竞争性或最先进的性能。模型于 2024 年 12 月 13 日正式发布。支持高达 1152×1152 的分辨率和 1:9 或 9:1 的极端长宽比，适配更多应用场景。DeepSeek-VL2 通过学习更多科研文档数据，理解各种科研图表的能力。能通过 Plot2Code 功能，根据图像生成 Python 代码。