豆蔻妇科大模型再突破:钉钉行业训练平台+精标数据SFT ,准确率从 77.1%上升至 90.2%

市场资讯
10 Jul

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

在医疗 AI 领域,通用大语言模型虽凭借海量互联网数据训练具备广泛知识覆盖面,但在需高度专业判断的临床场景中表现欠佳。当医生询问疾病鉴别诊断时,通用模型可能给出不准确甚至错误建议,这在严肃的医疗决策中不可接受。

大家都知道监督微调(SFT)技术是解决上述难题性价比较比较高的方案之一,但SFT也需要具体一定的条件:如高质的数据集,同时由于医疗数据的特殊性和复杂性,模型调优的过程可能非常耗时且难以预测。同时SFT是一个迭代优化的过程,需要不断地对模型进行训练、评测和优化。

豆蔻妇科大模型的模型调优经历了两个关键优化阶段:

以下是豆蔻妇科大模型从第一个版本的准确率77.1%,通过进一步的SFT后,准确率达到90.2%我们团队的一些方法和心得,供大家参考,欢迎留言讨论。

一、训练数据集的科学筛选(数据集构建与质量控制)

在对优质训练数据集的筛选过程中,我们实施了三个关键步骤:

第一是系统化数据清理,通过建立严格的质量控制标准,重点关注推理与结果的一致性检查,筛选出answer与ground truth不一致的样本,特别是那些思考过程和输出结果不一致的情况,这类数据被视为低质量数据。同时进行逻辑链条完整性验证,确保每个诊断结论都有充分的症状支撑和推理依据,并对医学常识合理性进行筛查,剔除违背基本医学原理的数据,如"男性患者诊断为妊娠"这类明显错误,以及症状关联性不合理的数据,比如"无性生活但指定避孕方式是避孕套"的情况。

同时,对训练数据集覆盖度的平衡也做了一些策略:

第二是蒸馏数据的校准环节,这是确保思维链COT(Chain-of-Thought)数据质量的关键步骤。

所有COT数据必须保持推理一致性,COT必须能够完整支撑最终的诊断结果,特别是在诊断优先级排序上要有明确依据。每个诊断的优先级都需要有清晰的医学依据支撑,比如"妊娠排在第一位是因为患者月经推迟大于7天,且近期有性生活史"。

为保障鉴别诊断的完备性,需系统性覆盖全部潜在鉴别诊断方案,并针对各诊断结论提供充分的医学依据与论证支撑,蒸馏校准流程具体实施细则如下:

人工标注环节:由内部的专业医学专家团队,依据现行医学行业标准,对症状数据实施规范化标注作业,构建标准化诊断结果集,为后续流程奠定基准参照体系。

模型推理环节:以标注后的症状数据及人工诊断结果为基准,借助教师模型开展推理运算,生成包含初步思维链(COT)的推理过程及诊断结论。

完整性质控环节:采用双重验证机制,重点核查以下核心要素:

格式规范性验证:严格对照 “1 个最可能诊断 + 2-5 个其他潜在诊断 + 检查项目建议 + 处置方案建议 + 注意事项说明” 的标准化输出格式,确保诊断结果格式完整、规范;

诊断结论一致性验证:通过将模型输出的诊断结果与人工标注的标准答案进行逐点比对,保障二者完全契合,杜绝任何结论偏差。

智能自动化校验:引入智能规则引擎,基于预设的医学逻辑规则,对症状描述与诊断结论之间的匹配合理性进行自动化校验。例如,针对 “患者出现阴道出血症状,诊断为宫颈病变” 等诊断结论,依据医学知识库中的关联规则,自动评估其逻辑合理性与临床可行性。

优化提升环节:由医学专家团队对质控后的结果进行人工校准与增强,通过迭代式蒸馏优化策略,持续完善数据质量,确保每个训练样本均具备完整且严谨的推理逻辑链条,以及精准可靠的诊断结论。

第三是持续迭代优化阶段:使用优化后的模型对新数据进行推理生成,通过自动化评测系统筛选出评分8分以上的高质量样本加入训练集,进行新一轮SFT训练,形成"训练-评测-筛选-再训练"的良性循环。在整个过程中,我们持续监控多项关键指标,包括模型在测试集上的准确率变化、六大核心症状的分项得分以及罕见病例的识别准确率,确保模型性能得到全方位提升。

二、双重评估体系:确保医学准确性

为了评测答案的准确性,我们构建了一套完整的模型质量评估体系,包含自动化评测和人工审核两个关键环节(上图)。在自动化评测方面,我们开发了基于大模型的裁判系统,该系统采用DeepSeek R1级别的高性能语言模型作为核心评测引擎,按照医生制定的10分制标准对模型输出进行客观评分。这个自动化系统具有三大核心特点:首先,它采用模型驱动评测机制,确保评分过程的准确性和一致性;其次,通过将医生的评估标准转化为结构化的prompt,建立标准化的评分框架;最后,系统支持批量自动化处理,能够快速完成大量样本的评测,提升评估效率。

为补充自动化评测的不足,我们建立了严格的医生修正反馈机制。由内部妇科专家团队对模型输出进行人工审核,特别关注那些处于评分边界或存在争议的边缘案例。专家们会详细检查模型输出的诊断建议,将修正意见反馈到训练数据中,形成"评估-修正-优化"的闭环迭代机制。这个人机协同的评估体系既保证了评测效率,又确保了专业质量,为模型的持续优化提供了可靠保障。

经验教训与挑战

在垂直领域模型训练中,尽管有许多论文和教材提供指导,但实际操作中仍面临诸多挑战。初期,我们过度依赖了人工标注,导致训练集数据积累缓慢、效率低下且成本高昂。后面经过策略的调整,设置了“机器蒸馏→专家审核→训练后评估”的体系后,数据生产效率显著提升。同时,针对思维链推理过程与最终诊断结果脱节的问题,建立严格的逻辑一致性检查机制,确保每个推理步骤都能有效支撑最终结论,避免模型学习出现混乱。

训练数据集过度集中在常见病,导致模型对罕见病识别能力不足。为此,我们采用平衡采样策略,对罕见病例进行针对性采样,确保各类疾病都能获得足够的训练样本。在评测标准方面,人工评测存在主观性强、标准不统一的问题,我们引入另一个大模型作为标准化评测工具,有效保证了评分的客观性和一致性。这些措施共同构成了一个完整的质量保障体系,为专业领域模型的开发提供了可靠支撑。

在医疗大模型的实际应用中,用户的问题往往零散且不完整,需要模型具备多维思考模式。医疗领域的容错率极低,大模型不仅要“说出知道的”,更要对依据不足或不确定的情况给出尽可能专业的诊断。豆蔻妇科大模型以真实临床路径为蓝本,在病例分析过程中不仅精准定位“滴虫性阴道炎”为首要诊断,还同步考虑性传播疾病、宫颈病变等多种鉴别诊断,并基于患者17岁青春期特征纳入“排卵障碍性出血”评估,形成多层级诊断网络。这种“全链路思维”在复杂症状场景中尤为凸显:当患者出现“灰黄色血性白带 + 尿频”复合症状时,模型通过逻辑链条解析,最终生成包含6项检查建议(白带常规、性传播疾病核酸检测等)及分层治疗方案(甲硝唑用药 + 性伴侣同治),从“疾病诊断”到“治疗方案”的临床全链路思考。这一过程对人力和医学专业能力要求极高。

有人说训练大模型,更多的是对数据的清洗、标注,对并模型给出的答案不断进行反馈、纠正。我们不是在教机器“选对答案”,而是在让 AI 学会像医生一样思考,这也是医疗大模型最大的挑战

关于训练平台

这一次,我们选择了钉钉企业专属AI平台,作为我们的训练调优核心工具。钉钉企业专属AI平台是一款一站式企业专属大模型生产平台,专为有调优、后训练需求的企业和开发者量身打造,提供从数据治理、高效训练到灵活部署的完整端到端工具链,全方位助力企业实现大模型的高效落地与优化。

在这一阶段的调优过程中,钉钉企业专属AI平台发挥了至关重要的作用。它覆盖SFT/RFT(GRPO)两种训练方法,提供分布式训练、多Lora部署等加速优化手段,通过页面后台和SDK两种模式,为我们的训练调优提供了强大的技术支持。在钉钉专业技术人员的紧密协同下,我们实现了训练效率的大幅提升,将单次训练时长从26小时缩短至7小时,降幅高达73%。这一显著的优化成果,充分体现了钉钉炼丹炉大模型服务平台在提升训练效率、降低训练成本方面的卓越价值,也彰显了钉钉在大模型训练领域的强大技术实力和专业服务能力。

SFT作为医学大模型构建基础能力的核心环节,其重要性不言而喻。它不仅是模型能否输出符合医学规范安全建议的关键,更是通过高质量思维链数据的训练,使模型得以掌握标准诊断逻辑、实现推理透明化,并广泛覆盖常见临床场景的基础。

展望未来,我们团队将积极探索SFT+RL的协同训练范式,以应对临床推理中的双重挑战。SFT将确保模型对基础医学知识的结构化掌握,培养起“循证思维”;而RL则将在实际应用中锤炼模型的判断力,助其形成“临床直觉”。我们坚信,这种双重训练模式将使AI不仅具备给出符合医学指南建议的能力,更能针对复杂病例进行上下文感知的个性化推理,最终实现从“医学词典”到“会诊专家”的华丽蜕变。让我们共同期待这一天的到来!

(转自:网易科技)

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10