≡ AI工具
X-Fusion – 加州大学联合Adobe等机构推出的多模态融合框架
X-Fusion是什么
X-Fusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中,保留其语言能力。框架采用双塔架构,冻结语言模型的参数,同时为视觉模态引入独立的权重,处理视觉信息。在输入和输出层面,在中间处理层面对齐文本和视觉特征,实现高效的多模态融合。