≡ AI工具

CogVLM2 – 智谱AI推出的新一代多模态大模型

分类:AI工具
CogVLM2 – 智谱AI推出的新一代多模态大模型

CogVLM2是什么

CogVLM2是由智谱AI推出的新一代多模态大模型,在视觉和语言理解方面实现了显著的性能提升,支持高达8K的文本长度和1344*1344分辨率的图像输入,具备强大的文档图像理解能力。该模型采用50亿参数的视觉编码器与70亿参数的视觉专家模块,通过深度融合策略,优化了视觉与语言模态的交互,确保了在增强视觉理解的同时,语言处理能力也得到保持。CogVLM2的开源版本支持中英文双语,模型大小为19亿参数,但实际推理时激活的参数量约为120亿,展现了在多模态任务中的高效性能。

CogVLM2