≡ AI工具

Qwen3-VL – 阿里通义推出的最强视觉语言模型

分类：AI工具

Qwen3-VL是什么

Qwen3-VL 是阿里通义推出的 Qwen 系列中最强大的视觉语言模型，具备卓越的多模态能力。模型能理解纯文本、图像和视频，支持长上下文、空间感知、代码生成等功能。Qwen3-VL-235B-A22B是该系列的旗舰模型，包含 Instruct 与 Thinking 两个版本， Instruct 版本在视觉感知任务中表现优异， Thinking 版本在多模态推理中达到领先水平。Qwen3-VL 能像人类一样操作界面、进行复杂推理、生成创意文案，将设计图转化为代码。模型支持多语言 OCR 和长视频理解，广泛应用在教育、开发、自动化等领域，是当前多模态模型中的佼佼者。

Qwen3-VL-30B-A3B 是最新开源的多模态 AI 模型，仅需 30 亿激活参数，能在 STEM、视觉问答、OCR、视频理解、智能体任务等多领域媲美甚至超越 GPT-5-Mini 和 Claude4-Sonnet。模型推出了 FP8 版本，且同步上线 Qwen Chat，支持免费体验。

最新阿里通义千问团队推出了Qwen3-VL系列的4B与8B版本，这两个版本分别提供Instruct（指令）和Thinking（思维）版本。模型尺寸的缩减显著降低了显存（VRAM）的占用，使得开发者可以在更广泛的硬件设备上部署和运行模型，降低了使用门槛。完整保留了Qwen3-VL的全部核心功能，没有因尺寸减小而削弱功能。

Qwen3-VL-8B Instruct：在MIABench、OCRBench、SUNRGBD、ERQA、VideoMMMU、ScreenSpot等30项权威基准测试中取得了SOTA（行业最佳）成绩，超越了Gemini 2.5 Flash Lite、GPT-5 Nano以及Qwen2.5-VL-72B等顶尖模型。
Qwen3-VL-4B Instruct：以更少的参数量，在STEM、VQA、OCR、视频理解及Agent任务等测试中，能与Gemini 2.5 Flash Lite、GPT-5 Nano对打，展现出优秀的多模态性能。
Qwen3-VL-8B Thinking：在MathVision、MMStar、HallusionBench、MM-MT-Bench、CountBench等23项权威基准测试中取得了SOTA成绩，超越了Gemini 2.5 Flash Lite、GPT-5 Nano高版本以及其他同等级顶尖开源模型。
Qwen3-VL-4B Thinking：同样表现出“以小敌大”的成绩，在多模态性能方面表现优异。