日前,國務院國資委集中發佈了首批10餘個行業30項央企人工智能行業高質量數據集優秀建設成果。中國聯通信息通信領域高質量數據集、醫療領域高質量數據集成功入選。
中國聯通信息通信領域高質量數據集:促進數據資源的優化配置與高效利用
中國聯通立足信息通信行業,緊盯大模型訓練和數智應用場景需求,充分發揮中國聯通數據一點集中和數據治理能力領先優勢,整合企業內部600PB的文本、音頻、圖像、視頻等多模態數據資源,構建了覆蓋網絡運營、客戶服務、智能終端、反電信網絡詐騙、經營決策、管理辦公、科研創新、政企服務8個高質量數據集,總規模超40TB。支撐聯通元景大模型訓練與微調,賦能網絡運營、客戶服務等AI場景應用30多個。
與此同時,中國聯通率先完成了數據中臺面向AI多模態數據處理的智能化躍遷。新增AI數據集處理、管理、標註及知識管理4項能力,形成星瀚數壤平臺。覆蓋AI數據集“採集、清洗、標註、質檢、使用、評測”全過程,面向數據清洗、標註、質檢3個關鍵環節,上線35項智能處理算子、16項智能標註能力,用於提升AI數據集質量。目前,平臺已具備行業領先的一站式數據集生產流水線與億級多模態數據處理能力,服務軟研院、數智、數科等9個子公司,24個省分公司,累計超1300人次。
展望未來,中國聯通將以央企使命爲引領,充分發揮人工智能產業鏈“鏈主”作用,緊抓數據要素在人工智能發展過程中作用日益凸顯的關鍵時期,促進數據資源的優化配置與高效利用,助力數字經濟與實體經濟深度融合,爲行業高質量發展注入強勁動能。
中國聯通醫療領域高質量數據集:爲智慧醫療發展注入強勁動力
聯通數據智能有限公司作爲中國聯通數智能力核心承載平臺,打造數據智能標註、數據增強等技術能力,建設可信數據空間,構建醫療高質量數據集。同時以數據之力,增模型之智,依託聯通元景大模型爲智慧醫療發展注入強勁動力。
中國聯通聯合國內多家頂尖醫療機構,構建了覆蓋影像、診療、藥品等全維度規模大、維度全、安全可信的高質量數據集,其中,數據集總規模達100TB,胸部CT影像數據集標註2萬餘例,肺結核輔助診斷模型準確率超95%;耳部CT影像數據集標註5000餘例,聽覺障礙識別準確率達95%;腎臟病慢病管理數據集整合1萬例患者全週期數據,風險預警模型準確率突破95%;藥品說明書數據集涵蓋58000份藥品信息,實現用藥風險智能解析與動態評估。
在數據治理與管理方面,中國聯通依託北京市全民健康信息平臺,構建醫療健康行業可信空間,制定數據脫敏規範,運用數據沙箱和隱私計算雙引擎處理數據,確保“原始數據不出域、數據可用不可見”。建立11項數據治理全流程運營標準,通過多維度舉措保障數據質量與安全。例如,在胸部CT影像數據標註中,採用雙盲標註和專家抽樣審覈,確保標註一致性評估結果超95%,準確性達98%以上。
基於該高質量數據集,中國聯通研發了一系列高效、準確的醫療專科智能體。基於胸部CT影像的肺結核疾病篩查與診斷模型智能體,準確率超95%,可實現分鐘級快速檢測;腎臟病慢病管理干預模型智能體、耳部疾病輔助診斷模型智能體,助力醫務人員提高診斷效率及診療方案準確性;藥品全生命週期智能評估模型智能體,爲藥品研發、監管等提供全鏈條數據支撐。
這些成果已在實際應用中展現顯著成效,填補了多項技術空白,提升了醫療診斷效率與準確性。後續將通過醫療健康行業可信數據空間,建設數據能力開放體系;通過基層醫療機構推廣優質大模型應用,持續推動醫療健康數據要素流通。
高質量醫療數據集是智慧醫療的基石,關乎國計民生。未來,中國聯通將攜手醫療機構、科研院所、央國企及醫療企業,持續構建高質量語料庫,加速行業應用場景落地;打造可信數據服務商,推動數據資源“供得出、流得動、用得好、保安全”。(連欣)