≡ AI百科

什么是对比语言-图像预训练（Contrastive Language-Image Pretraining, CLIP） – AI百科知识

分类：AI百科

对比语言-图像预训练（Contrastive Language-Image Pretraining, CLIP）是OpenAI开发的一种多模态预训练神经网络模型，通过对比学习的方法，实现了图像与文本之间的有效映射和关联。CLIP模型包含两个独立的编码器：一个用于处理图像，另一个用于处理文本，这两个编码器分别将图像和文本转换为高维特征向量，通过计算这些特征向量之间的相似度来评估图像和文本之间的关联程度。CLIP的核心优势在于其零样本学习能力，能在没有直接优化特定任务的情况下，通过自然语言指令预测最相关的文本片段或图像。这种能力使得CLIP在图像分类、图像检索、文本到图像的检索等多种应用场景中展现出广泛的应用潜力。