≡ AI工具

LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法

分类:AI工具
LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法

LongAlign是什么

LongAlign是香港大学研究团队推出的文本到图像(T2I)扩散模型的改进方法,能提升长文本输入的对齐精度。LongAlign用段级编码技术,将长文本分割处理,适应编码模型的输入限制。同时引入分解偏好优化,基于区分偏好模型中的文本相关和无关部分,应用不同权重减少过拟合,增强对齐度。经过20小时微调,LongAlign显著提高Stable Diffusion v1.5模型在长文本对齐任务上的性能,超越PixArt-α和Kandinsky v2.2等先进模型。

LongAlign