國產醫療大模型登頂權威排行榜!核心祕籍:PB級訓練數據、模擬醫生真實會診過程

智東西
02/13

作者 | 程茜

編輯 | 心緣

智東西2月13日報道,2月7日,中文醫療大模型評測平台MedBench公布最新多模態大模型評測排行榜,數坤科技的數坤坤多模態醫學大模型V3以63.6分拿下第一。

在排行榜中,V3的表現超過微醫、雲知聲旗下醫療行業大模型,以及OpenAI、谷歌阿里千問旗下通用大模型。

數坤科技成立於2017年,根據官方信息,數坤科技已陸續推出超100款數字醫生產品組合,其產品已在超過5000家公立醫院和超1000家體檢機構日常高粘性使用,其中包括90%的Top 100醫院和目標公立三甲醫院。

數坤科技創始人兼董事長毛新生透露,該模型的性能提升得益於其訓練數據與訓練策略。數坤科技深耕醫療領域8年,已經積累了PB級醫療專業數據。在訓練策略上,研究人員採用醫學MDT(多學科會診)式訓練策略,讓模型像人類專家會診一樣,對同一病種的影像特徵、病理報告、臨床指標進行深度關聯學習。

一、兩大細分指標拿下第一,更貼近臨床醫生水平

數坤科技2025年6月正式發布數坤坤多模態醫學大模型V3,其參數規模為72B。根據數坤科技公衆號,V3具備更接近人類臨床專家的系統化、邏輯化診療思維鏈,能勝任如鑑別診斷、個體化治療等複雜真實任務。

此次V3登頂的MedBench來頭也不小。

MedBench由上海AI實驗室發起,基於醫學權威標準,評估大語言模型、多模態大模型及智能體在醫療領域的能力。2026年1月,上海AI實驗室發布了MedBench 4.0,並稱這是全國首個且唯一面向垂直模型、專業模型和應用場景的醫療大模型評測與驗證體系。

該排行榜考驗的是模型能夠在影像信息、文字描述之間完成穩定的跨模態關聯,並順利完成多項需要綜合理解的醫療任務。

排行榜中列出了醫療視覺感知與文本提取、跨模態語義理解與推理、臨床決策支持與推理三大細分指標。

V3在醫療視覺感知中排名第一,該指標主要考驗模型對醫學影像、醫療文檔的識別、定位與病竈檢測能力,模型需要從X光、CT等醫學影像中識別病竈,以及從病歷、檢查報告中提取關鍵醫療信息。

跨模態語義理解與推理考察的是模型對影像、文本等多模態信息的統一表徵與關聯推理能力,V3同樣拿下了第一。

在臨床決策支持與推理中,V3的表現僅次於微醫醫療大模型。這一模塊檢驗的是模型在掌握醫學知識基礎上,模擬臨床醫生進行診療決策的能力。

V3在MedBench拿下綜合能力第一,從基礎的感知理解,到深度的跨模態推理,再到最終的臨床決策,三大能力在多模態大模型應用於醫療領域中環環相扣。

對於此次模型登頂,數坤科技CTO鄭超稱,大模型在評測排行榜上的得分越高,越能說明其在醫療領域的應用能力更接近臨床醫生水平,但不能唯分數論。

二、PB級醫療數據、MDT式訓練,要讓模型學會醫生真實看病過程

數坤科技在訓練大模型時,其核心在於從設計、訓練到評測,始終圍繞真實醫療問題的形成邏輯展開,使不同模態的信息能夠按臨床路徑被理解和使用。

真實醫療場景中,醫學信息往往是連續的、多序列的,且存在不完整、不確定的情況,基於這一痛點,數坤科技在訓練數據的積累、訓練策略的選擇上進行了優化。

首先在模型訓練的數據上,數坤科技創始人兼董事長毛新生透露,數坤科技已經和全球上千家醫院合作,積累了大量的醫療專業數據,其訓練數據規模已經達到了PB級別。

其次在訓練方式上,該公司採用的策略是「醫學MDT(多學科會診)式訓練策略」。鄭超稱,簡單來說就是讓大模型模擬醫生的看病過程。

醫生在臨床診療中,會綜合分析多模態檢查數據,例如查看CT時會結合不同層面的影像,分析核磁時則會參考DCE、DWI、T1WI等不同序列的圖像,再結合患者的病史、主訴等臨床信息,形成對病情的綜合判斷。大模型的訓練過程,正是對這一真實診療邏輯的模擬,通過學習如何整合、解讀各類醫學影像序列與臨床文本信息,逐步掌握類似醫生的病情分析與決策思路。

鄭超補充說,數坤科技的模型不是簡單地把圖像和文本拼在一起,而是讓模型像人類專家會診一樣,對同一病種的影像特徵、病理報告、臨床指標進行深度關聯學習。

他們直接以病種、檢查路徑和臨床決策流程為主線,讓不同模態的信息在模型中形成可協同使用的結構。這也對應着數坤科技要做「最懂醫療的AI」的目標,讓模型能夠按照醫學問題本身的結構來組織和理解信息。

三、8年深耕醫療賽道,數坤已積累海量真實醫療數據

當下,AI醫療賽道的熱度飆升,螞蟻集團旗下AI健康助手螞蟻阿福,去年12月成為中國首個躋身AI App前五的健康類AI,大模型獨角獸百川智能連發多款醫療大模型,刷新行業SOTA。

V3此次登頂,得益於其在AI醫療領域的積累。

根據官方資料,數坤科技曾全球首創「數字人體技術平台,並且是國內唯一覆蓋影像全模態的AI企業,其已經滲透到放射、超聲、手術等領域。

不同於通用模型,醫療大模型想要長期穩定的應用在醫療領域難度頗高。

毛新生提到了兩大技術難點,首先在訓練中需要讓大模型多方位了解某一疾病的相關醫學數據;其次是儘量減少模型輸出的幻覺。

這是因為,每一個疾病從預防、篩查、干預、診斷、治療、康復的全生命周期會涉及到大量的醫學專業知識,對大模型輸出錯誤的容忍度極低,因此這對大模型企業提出了非常高的要求,需要醫學和AI領域知識的雙重積累。

因此,數坤科技的團隊中有大量具備醫學背景的研發人員,他們對肺結節的CT影像特徵與病理報告的細胞形態描述對應有深入理解,並且能快速了解冠脈CTA的狹窄程度如何與患者的心電圖變化關聯。

深耕醫療領域8年的數坤科技,從計算機視覺到當下大模型的應用,已經在AI醫療領域積累了大量客戶與實際落地案例。

計算機視覺在醫療領域的早期應用,主要圍繞CT、核磁、超聲等醫學影像數據展開,而多項關鍵技術的首次落地,均由數坤科技率先推動。毛新生稱,數坤科技不僅是業內首個將三維神經網絡用於醫學圖像處理的企業,也是最早從心臟領域切入並實現技術突破的醫療AI公司。

進入大模型時代後,多模態醫學大模型已具備接近專科醫生的深度臨床專家思維,能夠為診療工作提供專業能力補充。目前,相關AI應用已覆蓋院內門診、住院全流程,並延伸至院外預問診等多個關鍵場景。

結語:AI落地醫療賽道,真實診療場景纔是試金石

對於醫療領域模型而言,排行榜評測並不是終點,模型是否真正「懂醫療」,最終仍要接受真實診療流程的檢驗。

不過,此次V3模型以相對而言較小的參數超越了國內外通用大模型與垂直醫療模型,印證了醫療大模型的核心競爭力不再是單純的參數規模與訓練算力。數坤科技積累的海量真實醫院落地經驗,或能加速醫療大模型的應用。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10