≡ AI工具

Qwen3-VL – 阿里通义推出的最强视觉语言模型

分类:AI工具
Qwen3-VL – 阿里通义推出的最强视觉语言模型

Qwen3-VL是什么

Qwen3-VL 是阿里通义推出的 Qwen 系列中最强大的视觉语言模型,具备卓越的多模态能力。模型能理解纯文本、图像和视频,支持长上下文、空间感知、代码生成等功能。Qwen3-VL-235B-A22B是该系列的旗舰模型,包含 Instruct 与 Thinking 两个版本, Instruct 版本在视觉感知任务中表现优异, Thinking 版本在多模态推理中达到领先水平。Qwen3-VL 能像人类一样操作界面、进行复杂推理、生成创意文案,将设计图转化为代码。模型支持多语言 OCR 和长视频理解,广泛应用在教育、开发、自动化等领域,是当前多模态模型中的佼佼者。

Qwen3-VL-30B-A3B 是最新开源的多模态 AI 模型,仅需 30 亿激活参数,能在 STEM、视觉问答、OCR、视频理解、智能体任务等多领域媲美甚至超越 GPT-5-MiniClaude4-Sonnet。模型推出了 FP8 版本,且同步上线 Qwen Chat,支持免费体验。

最新阿里通义千问团队推出了Qwen3-VL系列的4B与8B版本,这两个版本分别提供Instruct(指令)和Thinking(思维)版本。模型尺寸的缩减显著降低了显存(VRAM)的占用,使得开发者可以在更广泛的硬件设备上部署和运行模型,降低了使用门槛。完整保留了Qwen3-VL的全部核心功能,没有因尺寸减小而削弱功能。

  • Qwen3-VL-8B Instruct:在MIABench、OCRBench、SUNRGBD、ERQA、VideoMMMU、ScreenSpot等30项权威基准测试中取得了SOTA(行业最佳)成绩,超越了Gemini 2.5 Flash Lite、GPT-5 Nano以及Qwen2.5-VL-72B等顶尖模型。
  • Qwen3-VL-4B Instruct:以更少的参数量,在STEM、VQA、OCR、视频理解及Agent任务等测试中,能与Gemini 2.5 Flash Lite、GPT-5 Nano对打,展现出优秀的多模态性能。
  • Qwen3-VL-8B Thinking:在MathVision、MMStar、HallusionBench、MM-MT-Bench、CountBench等23项权威基准测试中取得了SOTA成绩,超越了Gemini 2.5 Flash Lite、GPT-5 Nano高版本以及其他同等级顶尖开源模型。
  • Qwen3-VL-4B Thinking:同样表现出“以小敌大”的成绩,在多模态性能方面表现优异。
Qwen3-VL