百度最强视觉识别模型来了!仅0.9B,文档解析能力超越Gemini、GPT

智东西
06/02

作者 | 王涵

编辑 | 心缘

智东西6月2日报道,近日,百度正式发布文心衍生视觉识别模型PaddleOCR-VL-1.6。

在权威文档解析能力评测集OmniDocBench v1.6上,PaddleOCR-VL-1.6总指标达到96.33%,超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等,综合性能第一。

在面向真实复杂场景构建的Real5-OmniDocBench评测中,PaddleOCR-VL-1.6总指标达到93.19%,较 Gemini-3-Pro提升近4%,在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档等五大真实场景下均表现较优。

实测数据表明,相较于市面主流开源、闭源识别模型,PaddleOCR-VL-1.6在常规文字、数学公式、表格三大基础识别维度综合表现更优。

针对表格解析、繁体古籍、冷僻用字等高难度识别场景,该模型效果较上一代明显优化,印章甄别、文字定位、图表信息提取等细分任务性能也同步改善,可以适配各类文档数字化落地场景的实际使用要求。

目前,PaddleOCR-VL-1.6已上线PaddleOCR官网,支持网页端和API调用。同时,模型代码及权重已同步开源至GitHub和Hugging Face。

PaddleOCR官网:paddleocr.com

Github:github.com/PaddlePaddle/PaddleOCR

HuggingFace:huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6

据文心团队介绍,PaddleOCR基于文心大模型训练而来,是文心大模型多模态能力的重要部分,支持超100种语言识别,用户覆盖170多个国家和地区。

此次发布的PaddleOCR-VL-1.6,基于PaddleOCR-VL-1.5改进通过模型驱动的数据构建机制和渐进式训练优化,在保持0.9B轻量化架构的情况下,模型准确率和复杂场景适应能力进一步提升。

由于两代模型模型结构一致,开发者和企业用户无需进行额外适配,即可平滑迁移。

近年来,百度先后推出PaddleOCR-VL、PaddleOCR-VL-1.5等多款模型。PaddleOCR的GitHub星数已突破79.2K,超过谷歌开源OCR项目Tesseract OCR。

免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。

热议股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10