国产医疗大模型登顶权威榜单!核心秘籍:PB级训练数据、模拟医生真实会诊过程

智东西
Feb 13

作者 | 程茜

编辑 | 心缘

智东西2月13日报道,2月7日,中文医疗大模型评测平台MedBench公布最新多模态大模型评测榜单,数坤科技的数坤坤多模态医学大模型V3以63.6分拿下第一。

在榜单中,V3的表现超过微医、云知声旗下医疗行业大模型,以及OpenAI、谷歌阿里千问旗下通用大模型。

数坤科技成立于2017年,根据官方信息,数坤科技已陆续推出超100款数字医生产品组合,其产品已在超过5000家公立医院和超1000家体检机构日常高粘性使用,其中包括90%的Top 100医院和目标公立三甲医院。

数坤科技创始人兼董事长毛新生透露,该模型的性能提升得益于其训练数据与训练策略。数坤科技深耕医疗领域8年,已经积累了PB级医疗专业数据。在训练策略上,研究人员采用医学MDT(多学科会诊)式训练策略,让模型像人类专家会诊一样,对同一病种的影像特征、病理报告、临床指标进行深度关联学习。

一、两大细分指标拿下第一,更贴近临床医生水平

数坤科技2025年6月正式发布数坤坤多模态医学大模型V3,其参数规模为72B。根据数坤科技公众号,V3具备更接近人类临床专家的系统化、逻辑化诊疗思维链,能胜任如鉴别诊断、个体化治疗等复杂真实任务。

此次V3登顶的MedBench来头也不小。

MedBench由上海AI实验室发起,基于医学权威标准,评估大语言模型、多模态大模型及智能体在医疗领域的能力。2026年1月,上海AI实验室发布了MedBench 4.0,并称这是全国首个且唯一面向垂直模型、专业模型和应用场景的医疗大模型评测与验证体系。

该榜单考验的是模型能够在影像信息、文字描述之间完成稳定的跨模态关联,并顺利完成多项需要综合理解的医疗任务。

榜单中列出了医疗视觉感知与文本提取、跨模态语义理解与推理、临床决策支持与推理三大细分指标。

V3在医疗视觉感知中排名第一,该指标主要考验模型对医学影像、医疗文档的识别、定位与病灶检测能力,模型需要从X光、CT等医学影像中识别病灶,以及从病历、检查报告中提取关键医疗信息。

跨模态语义理解与推理考察的是模型对影像、文本等多模态信息的统一表征与关联推理能力,V3同样拿下了第一。

在临床决策支持与推理中,V3的表现仅次于微医医疗大模型。这一模块检验的是模型在掌握医学知识基础上,模拟临床医生进行诊疗决策的能力。

V3在MedBench拿下综合能力第一,从基础的感知理解,到深度的跨模态推理,再到最终的临床决策,三大能力在多模态大模型应用于医疗领域中环环相扣。

对于此次模型登顶,数坤科技CTO郑超称,大模型在评测榜单上的得分越高,越能说明其在医疗领域的应用能力更接近临床医生水平,但不能唯分数论。

二、PB级医疗数据、MDT式训练,要让模型学会医生真实看病过程

数坤科技在训练大模型时,其核心在于从设计、训练到评测,始终围绕真实医疗问题的形成逻辑展开,使不同模态的信息能够按临床路径被理解和使用。

真实医疗场景中,医学信息往往是连续的、多序列的,且存在不完整、不确定的情况,基于这一痛点,数坤科技在训练数据的积累、训练策略的选择上进行了优化。

首先在模型训练的数据上,数坤科技创始人兼董事长毛新生透露,数坤科技已经和全球上千家医院合作,积累了大量的医疗专业数据,其训练数据规模已经达到了PB级别。

其次在训练方式上,该公司采用的策略是“医学MDT(多学科会诊)式训练策略”。郑超称,简单来说就是让大模型模拟医生的看病过程。

医生在临床诊疗中,会综合分析多模态检查数据,例如查看CT时会结合不同层面的影像,分析核磁时则会参考DCE、DWI、T1WI等不同序列的图像,再结合患者的病史、主诉等临床信息,形成对病情的综合判断。大模型的训练过程,正是对这一真实诊疗逻辑的模拟,通过学习如何整合、解读各类医学影像序列与临床文本信息,逐步掌握类似医生的病情分析与决策思路。

郑超补充说,数坤科技的模型不是简单地把图像和文本拼在一起,而是让模型像人类专家会诊一样,对同一病种的影像特征、病理报告、临床指标进行深度关联学习。

他们直接以病种、检查路径和临床决策流程为主线,让不同模态的信息在模型中形成可协同使用的结构。这也对应着数坤科技要做“最懂医疗的AI”的目标,让模型能够按照医学问题本身的结构来组织和理解信息。

三、8年深耕医疗赛道,数坤已积累海量真实医疗数据

当下,AI医疗赛道的热度飙升,蚂蚁集团旗下AI健康助手蚂蚁阿福,去年12月成为中国首个跻身AI App前五的健康类AI,大模型独角兽百川智能连发多款医疗大模型,刷新行业SOTA。

V3此次登顶,得益于其在AI医疗领域的积累。

根据官方资料,数坤科技曾全球首创“数字人体技术平台,并且是国内唯一覆盖影像全模态的AI企业,其已经渗透到放射、超声、手术等领域。

不同于通用模型,医疗大模型想要长期稳定的应用在医疗领域难度颇高。

毛新生提到了两大技术难点,首先在训练中需要让大模型多方位了解某一疾病的相关医学数据;其次是尽量减少模型输出的幻觉。

这是因为,每一个疾病从预防、筛查、干预、诊断、治疗、康复的全生命周期会涉及到大量的医学专业知识,对大模型输出错误的容忍度极低,因此这对大模型企业提出了非常高的要求,需要医学和AI领域知识的双重积累。

因此,数坤科技的团队中有大量具备医学背景的研发人员,他们对肺结节的CT影像特征与病理报告的细胞形态描述对应有深入理解,并且能快速了解冠脉CTA的狭窄程度如何与患者的心电图变化关联。

深耕医疗领域8年的数坤科技,从计算机视觉到当下大模型的应用,已经在AI医疗领域积累了大量客户与实际落地案例。

计算机视觉在医疗领域的早期应用,主要围绕CT、核磁、超声等医学影像数据展开,而多项关键技术的首次落地,均由数坤科技率先推动。毛新生称,数坤科技不仅是业内首个将三维神经网络用于医学图像处理的企业,也是最早从心脏领域切入并实现技术突破的医疗AI公司。

进入大模型时代后,多模态医学大模型已具备接近专科医生的深度临床专家思维,能够为诊疗工作提供专业能力补充。目前,相关AI应用已覆盖院内门诊、住院全流程,并延伸至院外预问诊等多个关键场景。

结语:AI落地医疗赛道,真实诊疗场景才是试金石

对于医疗领域模型而言,榜单评测并不是终点,模型是否真正“懂医疗”,最终仍要接受真实诊疗流程的检验。

不过,此次V3模型以相对而言较小的参数超越了国内外通用大模型与垂直医疗模型,印证了医疗大模型的核心竞争力不再是单纯的参数规模与训练算力。数坤科技积累的海量真实医院落地经验,或能加速医疗大模型的应用。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10