百度最強視覺識別模型來了!僅0.9B,文檔解析能力超越Gemini、GPT

智東西
06/02

作者 | 王涵

編輯 | 心緣

智東西6月2日報道,近日,百度正式發布文心衍生視覺識別模型PaddleOCR-VL-1.6。

在權威文檔解析能力評測集OmniDocBench v1.6上,PaddleOCR-VL-1.6總指標達到96.33%,超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等,綜合性能第一。

在面向真實複雜場景構建的Real5-OmniDocBench評測中,PaddleOCR-VL-1.6總指標達到93.19%,較 Gemini-3-Pro提升近4%,在掃描件、彎折文檔、螢幕拍照、光照變化及傾斜文檔等五大真實場景下均表現較優。

實測數據表明,相較於市面主流開源、閉源識別模型,PaddleOCR-VL-1.6在常規文字、數學公式、表格三大基礎識別維度綜合表現更優。

針對表格解析、繁體古籍、冷僻用字等高難度識別場景,該模型效果較上一代明顯優化,印章甄別、文字定位、圖表信息提取等細分任務性能也同步改善,可以適配各類文檔數字化落地場景的實際使用要求。

目前,PaddleOCR-VL-1.6已上線PaddleOCR官網,支持網頁端和API調用。同時,模型代碼及權重已同步開源至GitHub和Hugging Face。

PaddleOCR官網:paddleocr.com

Github:github.com/PaddlePaddle/PaddleOCR

HuggingFace:huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6

據文心團隊介紹,PaddleOCR基於文心大模型訓練而來,是文心大模型多模態能力的重要部分,支持超100種語言識別,用戶覆蓋170多個國家和地區。

此次發布的PaddleOCR-VL-1.6,基於PaddleOCR-VL-1.5改進通過模型驅動的數據構建機制和漸進式訓練優化,在保持0.9B輕量化架構的情況下,模型準確率和複雜場景適應能力進一步提升。

由於兩代模型模型結構一致,開發者和企業用戶無需進行額外適配,即可平滑遷移。

近年來,百度先後推出PaddleOCR-VL、PaddleOCR-VL-1.5等多款模型。PaddleOCR的GitHub星數已突破79.2K,超過谷歌開源OCR項目Tesseract OCR。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10