不止上新,OceanBase在AI時代的數據“尋寶”

滾動播報
05-18

轉自:北京商報

一個月前,OceanBase CEO楊冰通過全員信宣佈,公司將全面進入AI時代,打造“Data(數據)×AI(人工智能)”核心能力。5月17日,OceanBase詳解了AI戰略,併發布了與數據處理相關的能力和產品,比如AI驅動的開箱即用的RAG(檢索增強生成)服務、進一步降低TP負載下存儲成本的共享存儲等。

按照OceanBase的計劃,公司要從一體化數據庫轉向一體化數據底座。在現場爲OceanBase站臺的螞蟻集團CTO何徵宇表示,螞蟻集團將支持OceanBase在金融、醫療、生活等螞蟻AI的核心場景的突破。OceanBase始於2010年,早期服務天貓“雙11”,公司獨立於2020年,五年後這家以數據處理起家的公司面對的是一個AI規模化的階段,有AI帶來的天然數據增量、非結構化數據的增長等新紅利,也有價格戰等老問題。

圖片來源:OceanBase

一些新品

“傳統RAG應用常用開發模式包括組件森林開發模式、RAG平臺模式等,但存在開發週期長、維護成本高、灰箱調試困難、性能難以優化等問題”,OceanBaseAI戰略一號位的公司CTO楊傳輝介紹,OceanBase PowerRAG提供開箱即用的RAG應用開發能力,打通應用開發數據層、平臺層、接口層與應用層的全流程,提供Document(文檔)和 Chat(對話)兩個核心API接口,幫助用戶實現文檔知識庫、智能對話、圖像比對、數據分析等多種AI應用場景的快速開發。

OceanBase對這款產品的定義是,“OceanBase致力於成爲AI時代的一體化數據底座,PowerRAG是OceanBase在應用層面探索的第一步”,楊傳輝說。

當天,OceanBase還推出了一款“共享存儲”產品,可實現對象存儲與事務型數據庫(TP)的深度集成,構建存算一體與分離的多雲原生架構,可以使TP負載的存儲成本最高降低500%。

將存儲產品置於不同的背景下,能更好地理解這款產品。

在雲計算時代,對象存儲是一種新的數據存儲方法,它將數據存儲爲“對象”,因高可靠、低成本、可無限擴展等特性,被廣泛應用於分析型數據庫(AP)、企業存儲備份、歸檔和數據湖等場景。

但在事務型數據庫(TP)的生產環境中,因數據計算對低延遲、高性能有極致追求,普遍採用緊耦合的存算一體架構,因此依賴本地磁盤或雲盤,無法支持對象存儲的應用。“共享存儲”產品解決的就是無共享架構在彈性和成本方面的瓶頸問題。

該產品在雲上可被應用於典型TP、歷史庫及備份庫,時序類業務、HBase兼容類業務、流水型業務系統、OLAP業務等。

先做好數據底座

不論是PowerRAG還是共享存儲,其實都是因時而生的產品,小到產品,大到公司戰略同樣如此。

楊冰分享了自己看到的企業訴求,他把OceanBase的目標企業分成兩類,“一類是想通過通用的AI給自己助力的企業,比如通過通用大模型。企業把大模型拿過來要結合內部的數據做後訓練,不然沒法用,數據這時會成爲企業內部的知識庫,成爲企業所有上層AI應用的基礎,這可能涉及到存儲層,所以我們研發了向量化、融合檢索,OceanBase的產品就是這麼來的,因爲這些需求是剛需”。

“另一類是一些SaaS(軟件即服務)企業,或像阿里、螞蟻都提出要用AI全面重構,這些企業的動作更大”,楊冰說,“它們可能要的就不只是一個知識庫,是要把AI的各種能力拆分之後融入。”

在OceanBase分享的一張圖中,提到了公司的未來,後期會從數據產生到訓練、未來應用的全鏈條。“OceanBase還處在早期佈局階段,我們現在要把數據底座先做好”,楊傳輝分享了OceanBase大致的發展節奏。

這也是OceanBase在一個月前公開的戰略。根據IDC報告,受生成式AI等技術驅動,2028年全球新生成數據量規模預計將達到393.9ZB,其中企業數據規模和增速明顯。對於企業而言,數據倉庫的容量已實現質的飛躍,結構化數據存儲規模“突破PB級邁向EB級”成爲新常態,這給數據存儲、管理與分析帶來嚴峻挑戰。

何徵宇也在分享中指出,海量的互聯網數據成就了今天的大模型,但大模型幻覺問題的源頭也是數據問題。數據決定着大模型的能力上限,且依舊有四個挑戰:數據的獲取成本顯著增加;嚴謹的行業數據稀缺且流動困難;多模態數據需要更強的處理能力;數據的質量評估難。

“較長的路”

關於大模型幻覺問題,楊傳輝這麼解釋:“本質上,出現幻覺要麼是缺數據,要麼是缺高質量的數據,幻覺是永遠不可能消失的,但可以無窮地逼近於0”,他站在企業的角度說,“一方面等着大模型拿公有數據改進它的算法、數據質量,這樣能慢慢把準確率變高;另一方面可以把自己企業的數據,或者掌握的部分行業公共數據,結合到大模型裏從而獲得更好的服務,現在的難點在於結合,Data×AI的融合是極其難的。”

PowerRAG解決的就是第二個問題。楊傳輝也坦言,“RAG這個方向其他也有很多挑戰,還有一段比較長的路要走,整個行業都有比較長的路要走”。

事實上,“數據庫行業的價格競爭很激烈”,比達分析師李錦清告訴北京商報記者,“國產數據庫市場中,很多企業都是基於開源技術的二次開發,產品功能高度重疊,中小廠商通過低價策略爭奪市場份額,導致毛利率不高。國際廠商市場份額逐步下降。國內雲廠商通過雲服務訂閱模式降低成本,也是在以價格優勢搶佔市場。”

楊冰沒有避諱價格,“性價比是數據庫領域永恆的話題,但在IT軟件這個領域,性價比往往意味着更高的質量,是設定一個價格但擁有更好的能力。OceanBase是在迭代中提升能力,技術的創新也確實讓企業在成本上實現了下降”。

北京商報記者 魏蔚

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10