≡ AI工具
TokenFD – 上海交大联合美团推出的细粒度图文对齐基础模型
TokenFD是什么
TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型,主要用于文档理解任务。通过Token级对齐,实现了图像Token与语言Token在同一特征空间中的共享,支持Token级图文交互,在处理包含密集文字的图像时表现突出。为了训练该模型,团队构建了业内首个Token级图文数据集TokenIT,包含2000万张图像和18亿高质量的Token-Mask对,数据量远超现有模型。