≡ AI工具

OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架

分类:AI工具
OThink-MR1 – OPPO联合港科大推出的多模态语言模型优化框架

OThink-MR1是什么

OThink-MR1是OPPO研究院和香港科技大学(广州)联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler(KL)散度策略(GRPO-D)和奖励模型,提升多模态模型在复杂任务中的泛化推理能力。OThink-MR1在视觉计数和几何推理等多模态任务中表现出色,在同任务验证中超越传统的监督微调(SFT)方法,在跨任务泛化实验中展现强大的适应性。OThink-MR1为多模态模型的通用推理能力发展开辟新路径,有望在更多领域发挥重要作用。

OThink-MR1