≡ AI百科

什么是视觉语言模型（Vision-Language Models, VLMs） – AI百科知识

分类：AI百科

视觉语言模型（Vision-Language Models, VLMs）是一类多模态模型，它们能够同时从图像和文本中学习，以处理多种任务，例如视觉问答（Visual Question Answering）、图像字幕生成（Image Captioning）和文本到图像搜索（Text-to-Image Search）等。这些模型通过结合大型语言模型（Large Language Models, LLMs）和视觉编码器，使语言模型具备“看”的能力，可以理解文本输入、提供高级推理并生成文本响应，同时处理图像输入。与传统的计算机视觉模型不同，VLMs不受固定类别集或特定任务的约束，它们在大量文本和图像标题对的语料上进行预训练，使其能够以自然语言为指示，并泛化至几乎任何类型的视觉任务。