≡ AI工具

PaddleOCR-VL – 百度飞桨开源的多模态文档解析模型

分类:AI工具
PaddleOCR-VL – 百度飞桨开源的多模态文档解析模型

PaddleOCR-VL是什么

PaddleOCR-VL是百度飞桨团队开源的多模态文档解析模型,参数量仅0.9B,专为低算力设备优化。在国际权威评测OmnidocBench V1.5中以92.6分登顶全球第一,超越GPT-4o等主流模型。模型采用双阶段架构:PP-DocLayoutV2负责版面分析,PaddleOCR-VL-0.9B完成内容识别,支持109种语言,能精准处理表格、公式、图表等复杂元素,输出结构化Markdown/JSON数据。轻量化设计使其适合本地部署,尤其适合医疗报告、古籍识别等对隐私要求高的场景。

PaddleOCR-VL