百度最强视觉识别模型来了!仅0.9B,文档解析能力超越Gemini、GPT

智东西
Jun 02

作者 | 王涵

编辑 | 心缘

智东西6月2日报道,近日,百度正式发布文心衍生视觉识别模型PaddleOCR-VL-1.6。

在权威文档解析能力评测集OmniDocBench v1.6上,PaddleOCR-VL-1.6总指标达到96.33%,超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等,综合性能第一。

在面向真实复杂场景构建的Real5-OmniDocBench评测中,PaddleOCR-VL-1.6总指标达到93.19%,较 Gemini-3-Pro提升近4%,在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档等五大真实场景下均表现较优。

实测数据表明,相较于市面主流开源、闭源识别模型,PaddleOCR-VL-1.6在常规文字、数学公式、表格三大基础识别维度综合表现更优。

针对表格解析、繁体古籍、冷僻用字等高难度识别场景,该模型效果较上一代明显优化,印章甄别、文字定位、图表信息提取等细分任务性能也同步改善,可以适配各类文档数字化落地场景的实际使用要求。

目前,PaddleOCR-VL-1.6已上线PaddleOCR官网,支持网页端和API调用。同时,模型代码及权重已同步开源至GitHub和Hugging Face。

PaddleOCR官网:paddleocr.com

Github:github.com/PaddlePaddle/PaddleOCR

HuggingFace:huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6

据文心团队介绍,PaddleOCR基于文心大模型训练而来,是文心大模型多模态能力的重要部分,支持超100种语言识别,用户覆盖170多个国家和地区。

此次发布的PaddleOCR-VL-1.6,基于PaddleOCR-VL-1.5改进通过模型驱动的数据构建机制和渐进式训练优化,在保持0.9B轻量化架构的情况下,模型准确率和复杂场景适应能力进一步提升。

由于两代模型模型结构一致,开发者和企业用户无需进行额外适配,即可平滑迁移。

近年来,百度先后推出PaddleOCR-VL、PaddleOCR-VL-1.5等多款模型。PaddleOCR的GitHub星数已突破79.2K,超过谷歌开源OCR项目Tesseract OCR。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10