雲知聲大漲15%!推出文檔智能基礎大模型「Unisound U1-OCR」

老虎資訊綜合
02/27

2月27日,雲知聲大漲15%!推出文檔智能基礎大模型「Unisound U1-OCR」,正式開啓OCR 3.0時代。

2月26日,雲知聲(09678)宣佈正式推出文檔智能基礎大模型「Unisound U1-OCR」。作為首個工業級文檔智能基座,該模型正式開啓OCR 3.0時代,在理解版面的基礎上,進一步洞察文檔深層語義,實現自動分類與業務級信息抽取,完成了從「字符感知」到「文檔認知」的質的飛躍,標誌着AI從單純「識字」躍遷至「理解業務邏輯」。

Unisound U1-OCR是一款達到國際頂尖水平(SOTA)的文檔智能理解模型,在多項權威測試中均獲業界SOTA表現,其核心優勢在於突破了傳統模型「只讀文字、不懂排版」的瓶頸,能夠像人類專家一樣「看懂」複雜文檔。

為適應 OCR 3.0 時代對於文檔業務級結構化抽取的新要求,Unisound U1-OCR採用ViT + LLM架構,其中視覺編碼器部分採用NaViT架構,實現文檔分辨率動態處理,模型參數規模3B量級,兼顧模型計算效率與文檔深層語義信息理解的能力要求。

模型提出了多項創新舉措:首創「語義驅動+動態聚焦」策略,自動構建文檔的「語義地圖」,精準識別標題、圖表與正文的從屬關係,擁有「先懂結構,再讀內容」的智慧;具備敏銳的「空間感知力」,能主動理解元素間的空間佈局,結合動態分辨率技術精準還原文檔結構;此外,採用Multi-Token Prediction(MTP)技術,在預測當前Token時,同步考慮未來多個Token的概率分佈,大幅提升長文檔邏輯連貫性。配合全任務強化學習策略,增強模型對版式結構的全局預見性並在推理階段將模型生成效率提升了80%以上。

業務層面,模型立足於工業級場景需求,打造了精準溯源、業務融合、安全高效部署、超強適配四大核心能力,真正適配企業真實業務的全場景需求,實現從‘讀懂’到‘執行’的業務落地。

Unisound U1-OCR開啓OCR 3.0時代,不僅是文檔智能的革新,更是雲知聲邁向AGI的關鍵一步。公司將以多模態文檔為知識入口,賦予機器自主推理與證據溯源能力,推動AI從感知走向認知。未來,雲知聲期待構建能像人類一樣閱讀、思考並解決複雜問題的通用智能體,讓每一份文檔都成為通往AGI的智慧階梯。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10