2025 年 8 月 29 日,由清華大學計算機系崔鵬教授團隊聯合穩準智能共同研發的結構化數據通用大模型 “極數” (LimiX)正式宣佈開源。此次發佈標誌着我國在結構化數據智能處理領域的技術突破與生態開放邁出關鍵一步,將顯著降低千行百業應用結構化數據 AI 技術的門檻。特別是在結構化數據佔主導的泛工業領域,“極數”大模型將助力AI深度融入工業生產全流程,破解工業數據價值挖掘難題,爲實現智能製造與新型工業化提供關鍵支撐,推動產業技術變革和優化升級。
在泛工業領域,結構化數據是核心資產——工業生產參數、設備運行數據、質量檢測數據、科研實驗數據等均以結構化數據形式呈現,其智能處理能力直接影響產業效率與科研突破,也是 AI 賦能工業製造的關鍵突破口。雖然通用大語言模型(LLM)憑藉強大的文本理解與生成能力,已在內容創作、對話交互等領域實現廣泛應用,但 LLM 在面對表格、時序等結構化數據時短板明顯:數值比較、計算等基礎任務易出偏差,更無法勝任數據分類、預測、歸因等複雜任務,準確率難以滿足真實行業需求。因此,目前工業結構化數據處理依然依賴私有數據+專用模型的傳統範式。由於專用模型難泛化、不通用,面對不同場景需要訓練多個專用模型,成本高、效果差,且難以發揮數據要素聚集的乘數效應,嚴重製約了AI在工業場景的落地路徑。
結構化數據通用大模型(Large Data Model, LDM)則針對性解決這一痛點:不同於 LLM 聚焦文本,LDM 融合結構因果推斷與預訓練大模型技術,既能捕捉結構化數據的內在關聯,又具備強泛化能力,可跨行業適配多類任務。“極數”大模型可以支持分類、迴歸、高維表徵抽取、因果推斷等多達10類任務,在工業時序預測、異常數據監測、材料性能預測等場景中,性能達到甚至超越最優專用模型,實現單一模型適配多場景、多任務的通用性突破,爲人工智能賦能工業提供了One-For-All解決方案。
從技術性能到產業落地,“極數”大模型的核心優勢已得到充分驗證。在超過600個數據集上的十餘項測試結果表明,“極數”大模型無需進行二次訓練,已經在準確率、泛化性等關鍵指標上均能達到或超過專有SOTA模型。而在產業應用層面,“極數”大模型已成功落地多個真實工業場景,無需訓練、部署成本低、準確率高、通用性強的特點獲得合作企業的高度認可,成爲推動工業數據價值轉化的實用型技術方案,正加速形成面向泛工業垂直行業核心業務場景的真正智能底座。
1、研發團隊
“極數”模型的研發核心力量,由清華大學計算機系崔鵬教授牽頭組建,團隊匯聚了學術研究與產業落地的雙重優勢,其技術突破背後是深厚的科研積澱與前瞻性的方向佈局。
作爲團隊核心,崔鵬教授是我國數據智能領域的頂尖學者:他不僅是國家傑出青年科學基金獲得者,更以突出成果兩度斬獲國家自然科學二等獎,同時獲評 國際計算機協會(ACM)傑出科學家,其學術影響力獲國際學界廣泛認可。在基礎研究領域,崔鵬教授開創性提出 “因果啓發的穩定學習” 新範式,突破傳統機器學習在數據分佈偏移場景下的性能侷限,爲 AI 模型的可靠性與泛化性研究奠定重要理論基礎。
2022 年 OpenAI 推出 ChatGPT 引發大模型技術浪潮後,崔鵬教授敏銳洞察到結構化數據方向大模型技術的發展潛力,迅速將研究方向從因果穩定學習拓展至結構化數據通用大模型(LDM)領域。依託既有理論積累,團隊攻克結構因果數據合成、模型結構設計、跨場景泛化等核心難題,最終實現 “極數” 模型在多領域任務中的性能突破,爲此次開源奠定關鍵技術基礎。
2、極數大模型簡介
“極數”大模型將多種能力集成到同一基礎模型中,包括:分類、迴歸、缺失值插補、數據密度估計、高維表徵抽取、數據生成、因果推斷、因果發現和分佈外泛化預測等;在擁有優秀結構化數據建模性能的同時,極大提高了模型的通用性。
在預訓練階段,“極數”大模型基於海量因果合成數據學習數據中的因果關係,不同於專用模型在訓練階段記憶住數據特徵的模式,“極數”大模型可以直接在不同的上下文信息中捕捉因果變量,並通過條件掩碼建模的方式學習數據的聯合分佈,以適應包括分類、迴歸、缺失值預測、數據生成、因果推斷等各種下游任務。在推理階段,極數可直接基於提供的上下文信息進行推理,無需訓練即可直接適用於各種應用場景。
模型技術架構
“極數”大模型沿用了transformer架構,並針對結構化數據建模和任務泛化進行了相關的優化。“極數”大模型先對先驗知識庫中的特徵 和目標 分別進行embedding;之後在主要模塊中,在樣本和特徵維度上分別使用注意力機制,來聚焦關鍵樣本的關鍵特徵。最終,提取到的高維特徵被分別傳入regression head和classification head,實現對不同功能的支持。
訓練數據構建
不同於傳統的樹模型和基於transformer架構的LLM,“極數”大模型在訓練過程中完全使用生成數據,不依賴於任何真實世界的數據來源。爲了使數據生成的過程高效且可控,團隊使用了基於結構因果圖的數據生成方式:採樣到的初始數據在有向無環圖上進行傳播,通過複雜的邊映射和節點交互來模擬現實世界中不同的因果依賴關係;通過對因果圖上的生成數據進行採樣,最終獲得訓練數據中的特徵 和目標 。使用這種方法生成的數據,既實現了因果結構上的多樣性,又保證了數據的可控性。
模型優化目標
通用結構化數據大模型(LDM)需要在各種應用場景的各種任務中通用,且具備無需進行訓練的數據建模能力。因此需要對數據的聯合分佈進行建模,以提高模型的通用性、增強對特徵交互模式的建模能力。爲此,“極數”大模型在模型優化目標設計中加入了掩碼重構機制:在訓練過程中,通過對隨機特徵值進行掩碼操作,模型將根據特徵間的因果依賴關係,使用觀測到的特徵來重構缺失特徵。通過引入掩碼預測,模型可以學習到數據特徵的聯合分佈,學習到更清晰且魯棒的決策邊界,提高對特徵依賴關係的表示學習能力。爲了更貼近真實場景中的缺失模式,“極數”大模型在三個維度上進行了掩碼操作,分別是:
樣本維度掩碼:對於每一個樣本,隨機掩碼掉其中的某些特徵。
特徵維度掩碼:對於所有樣本,隨機掩碼掉其中的一個特徵。
語義維度掩碼:關注高維上的相關性,將語義相關度高的特徵中的某些特徵隨機掩碼掉。
此外,“極數”大模型將特徵缺失比例納入考量,通過設計針對每行或每個子集缺失的訓練目標,穩定了模型在不同缺失程度下的推理性能,提高了對各類缺失模式的魯棒程度。
模型推理
在推理應用環節,“極數”大模型具備極強的場景適配性與任務靈活性。該模型無需針對特定場景或任務進行額外訓練,即可直接接收表格、時序、圖等多形態結構化數據輸入;用戶僅需明確分類預測、迴歸預測、缺失值補全、數據生成、因果推斷、因果發現等具體任務類型,模型即可自動完成數據解析、邏輯建模與結果輸出,真正實現即插即用模式,高效覆蓋各類結構化數據處理需求。
此外,“極數”大模型還支持針對數據集進行模型高效微調,可使模型學習更全面的數據中的因果聯繫,在預測層面的性能會進一步提升。
3、模型效果
“極數”大模型在無需針對數據集進行專項訓練的情況下,在分類、迴歸等多項結構化數據核心任務上取得了優異的性能表現。
模型評測方面,選取了各個領域的權威數據集作爲Benchmark。如開源數據集 Talent,它包含上百個真實數據集,是當前領域內體量最大、最具代表性的基準之一。在分類任務中,對比“極數”與21個領域內的常用baseline方法,“極數”大模型的模型性能顯著超越其他模型,在AUC、ACC、F1 Score和ECE上均取得了最優。
在迴歸任務上,“極數”大模型在R2和RMSE指標上都達到了平均最優,對比其他baseline方法展現出了明顯的優勢。並且在數據集中有干擾特徵或無效特徵時,性能優勢更加明顯。
4、模型落地應用
目前,“極數”大模型憑藉其優越的通用建模能力,有效破解了傳統專用模型在工業場景“數據稀缺、質量參差、環境異質”情況下的能力瓶頸,已在多個關鍵工業場景中成功落地。
在工業運維領域,“極數”大模型已成功應用於鋼鐵、能源、電力等行業,扮演着“設備健康管家”的角色,爲設備運行監測、故障預警與健康度評估等任務提供核心支撐。以某鋼鐵企業爲例,其複雜產線長期面臨難以從海量傳感數據中精準捕捉非典型異常信號而導致的預警失效問題,給安全生產帶來巨大隱患。“極數”大模型部署後,將設備故障預測準確率在原專用模型基礎上提升了15%,達到應用級要求,推動其維護模式從“事後維修”向“預測性維護”轉型,顯著提升了生產的安全性與運行效率。
在工藝優化領域,“極數”大模型在化工、製造、生物等行業中則化身爲“生產智囊”。在某材料研發企業,如何從海量物化特徵中精準識別關鍵因子,是提升材料設計效率的核心瓶頸。“極數”大模型成功篩選出少數核心優化因子,在確保信息無損(R^2超過0.95)的前提下,將調控效率提升了5倍,爲企業的降本增效與綠色生產提供了科學決策依據。
業內專家表示,“極數”大模型的成功落地不僅驗證了通用建模技術在工業場景的適用性,更爲解決工業數據應用痛點提供了標準化解決方案,有望推動更多工業領域實現智能化升級。
5、開源地址
項目主頁:
https://limix-ldm.github.io
技術報告:
https://github.com/limix-ldm/LimiX/blob/main/LimiX_Technical_Report.pdf
Github:
https://github.com/limix-ldm/LimiX
Huggingface:
https://huggingface.co/stableai-org
Modelscope:
https://modelscope.cn/organization/stable-ai
6、結語
在當前人工智能的發展浪潮中,大語言模型(LLM)通過大規模預訓練實現了“語義空間的通用世界模型”,而如何面向工業數據的獨特屬性,構建“數據空間的通用世界模型”,已成爲AI邁向產業縱深的關鍵命題。在這一目標的驅動下,發展能夠跨場景、跨任務、跨環境的結構化數據通用大模型(LDM)勢在必行。我國憑藉豐富的工業數據資源與多元的應用場景,有望在LDM領域打造出獨特的“非對稱競爭力”。清華大學團隊此次開源發佈的“極數”大模型,正是這一方向上的重要突破。期待以此爲起點,共同迎接LDM的“GPT-3時刻”早日到來。