王小川押注严肃医疗,AI能比普通医生强吗?

凤凰网科技
Jan 14

凤凰网科技 出品

作者|董雨晴

王小川迫不及待开了一场小范围的媒体沟通会。

1月13日下午,在清华科技园的赛迪大厦,已鲜少公开露面的王小川坐在长桌一角,对面是百川智能模型技术负责人鞠强。没有华丽开场,他们对着PPT简单地描述到:百川的医疗大模型有了新进展,解决了最棘手的幻觉问题,是时候聊聊了。

“2024年你跟医生谈AI,大家都不信。但2025年来了之后,大家发现它确实比百度靠谱太多。”王小川说,“以前带百度去看病,医生说‘你要信百度就别来找我’。现在医生至少会尊重这件事了——这是2025年的一个转变。”

百川智能曾被拿来视作AGI的种子选手,和其他“AI小龙”并列,一起参与了百模大战的竞逐。如今,两只小龙已相继上市,连续多日飙升的股价,把他们送入了千亿市值的神话里。沉寂的竞争者往往更加落寞,在王小川身上,我们没有看到这种感觉。

但相比于一年半前,刚刚完成融资,估值逼近200亿元,首次发布C端产品百小应时的意得志满,今天的王小川的确变了——不再把超级App挂在嘴上,他说也许迈过10万用户的门槛就可以,但又不是那么笃定。谈及阿福铺天盖地的营销,他既有点小吐槽“已经快看吐了”,但话锋一转也要感谢阿福通过大手笔的营销教育了市场和用户,让AI医生这件事也许能成。

更早的转变实际上是在去年4月,百川智能成立两周年之际,王小川发了一封内部信,他在信中复盘得失,坦言“两年的长途奔袭,战线拉得过长,不够聚焦。从通用基础模型,到医学增强的推理模型,到百小应和AI医生应用,再到过早进入商业化,极大增加了组织的复杂度”。

王小川和百川已经走了太多弯路,当不再需要奔着AGI的目标奔赴,王小川卸下了一个包袱,也正在潜入一个极度务实的状态里。

01

生命这么复杂,为什么背后会有规律?

在清华大学读研时,王小川的研究生方向是高性能计算,这群人今天普遍都在做AI infra。他当时原本的课题题目是搞天气预报,但王小川对导师说,天气预报不靠谱,一个蝴蝶效应这种微弱的变化就能给天气带来巨大的影响,这件事太难搞了。

王小川转念一想,决定做个基因拼接的算法,结果一脑门子扎进去之后,却发现这玩意比天气预报还难研究,但最终的结论却又很清楚,细胞膜和细胞核,通过10个月的生长后变成一个婴儿,还会越长越像爸妈。

“我当时的好奇心就在于说生命比天气预报还复杂,凭什么背后有规律。”王小川告诉我们,这是他对生命科学最初的冲动。

2021年,在卸任搜狗CEO时,王小川发了一个内部信称:“往后二十年,希望为生命科学和医学的发展尽一份力。”

这曾是21世纪最性感的赛道,拼多多的创始人黄峥和张一鸣都对这个赛道展现出过兴趣,曾有行业人士表示,“对于这些互联网大佬来说,他们转型去投资这个新行业,一方面看重的是生物科技对整个人类的重要性,另一方面则是看中生物科技发展后能够拥有的巨大红利。再就是,企业家做生物科技也是他们将赚钱与理想相结合的一种方式”。所以,早在2021年时,王小川和字节就都出手了做DNA合成技术的迪赢科技。

通用人工智能的到来,抢夺了生命科学的关注度,但也用另一种方式拓宽了生命科学研究的路径。

在成立百川智能的第一天,王小川曾说,他已开启新的远征。“为生命建模型、为人类造医生”后来也成为了百川的使命。

但遗憾的是,在巨大的AGI诱惑面前,在百模大战的焦灼战况里,王小川无法做到聚焦。他也向我们坦诚,当时不少同事表露出不爽,他们认为这不是他们想干的人生理想,也有人离开。“去年中途转过来时被骂惨了”,王小川跟我们解释,今天开沟通会是重整旗鼓,重新和大家做好连接。

相比于一上来就扎进科学探索、生命模型这种深奥的领域,百川初期的定位依旧是普通大众,他们想让普通人先在家靠AI解决一部分看病问题。

这个需求更强势,现阶段中国医疗资源分配不均匀,下沉城市里医疗资源匮乏,千军万马奔赴一线城市的三甲医院导致人满为患,诊疗过程无法实现充分的信息对称。

这便给了百川智能做严肃诊疗的机会。王小川告诉凤凰网科技,百川短期内不会触碰医生诊疗的主线,特别是在法律法规层面,但是辅助医生,缩短医生和患者之间的信息差是百川可以做的,“我觉得今天诊疗的决定和最后的决策,它不是一件事,到底选哪个诊疗方案,是患者决定的,我们就是要帮助患者把这个决定做好”。

过去常说,患者是自己健康的第一责任人,“他是自己健康第一责任人,我们得帮到他,不是我们做决策,是我们给建议患者做决策”。

王小川也反复表示,AI医生从来不是为了取代医生。“未来巨大的增量或者服务对象在院外,不在院内,”王小川告诉我们,“院内是做手术、执行、挂水的地方,而(诊疗)决策过程本身,并不必然发生在院内。”

02

像医生一样提问的AI

帮患者做好决策,第一步就是要降低幻觉率。

这一次准备好的新一代医疗大模型 Baichuan-M3,在全球最权威的医疗 AI 评测 HealthBench 中以 65.1 分的综合成绩位列全球第一;在专门考验复杂决策能力的 HealthBench Hard 上,也以44.4分的成绩夺冠。据百川官方表述,这个成绩不仅刷新了 HealthBench 的最高分,更首次在医疗领域实现了对 GPT-5.2 的全面超越。

和阿福的轻健康定位不同,百川要做的是严肃的医疗问诊,它能像医生一样主动追问、逐层逼近,把关键病史和风险信号问出来,进而在完整的信息上进行深度医学推理。评测显示,其问诊能力显著高于真人医生的平均水平。

凤凰网科技也首先体验了下这款产品。

让我们感到惊喜的是,产品会让你选择不同的身份标签,可以是患者和家属,也可以是专业的医护人员,模型将呈现出全然不同的结果,支持上传病历、报告单、药品和患处皮肤等文件信息。

在具体使用中,其亮点是多轮对话,像医生一样向患者提问,通过不断的排除法,精准锁定病情,并给出一定的解释。做到有信息量,但并不啰嗦。

在技术实现上,百川特别做了幻觉的打压和推理能力的平衡。在Baichuan-M3里,引入了新的强化学习手段,既做到能够打压幻觉,同时还能让推理能力走强。最终在不依赖工具或检索增强的纯模型设置下,医疗幻觉率3.5,超越GPT-5.2,达到全球最低水平。

除了强推理和低幻觉,端到端的问诊能力是本次M3最重要的一项突破。

据百川智能描述,应用实践中,通过prompt“你是一位经验丰富的医生”,激活模型的“角色扮演”是更常见的做法。这种方式得到的是模型的表演行为,而非内生能力,激活的是模型应该提问的行为,而不是必须获取关键信息的思考。例如,临床医生面对患者的第一反应,永远是先排除危急重症,再考虑常规诊疗,常见的角色扮演无法达到这一要求。

针对这个问题,百川提出了“严肃问诊范式”与“SCAN原则”,通过Safety Stratification(安全分层)、Clarity Matters(信息澄清)、Association & Inquiry(关联追问)与Normative Protocol(规范化输出),将临床问诊中高度依赖经验的思维过程,第一次系统性地“白盒化”。

最终,将诊疗过程拆解为病史采集、辅助检查、精准诊断三大阶段,通过动态、多轮的方式进行考核,完整模拟医生从接诊到确诊的全过程,把风险给兜住。

另一方面,严肃医疗始终不能是纸上谈兵,王小川告诉我们,百川也真正以医药厂商的身份进入了医院临床实验注册阶段,目的是验证产品的安全性和依存性,“我没看见哪个互联网AI公司在干这个”。

03

手握30亿,王小川第三次All in生命科学

据沟通会现场所表述,现阶段的百川账上金额约在30亿,或许、也许会在2027年有上市的机会,但并不意味着到时候就必须开启IPO计划。

和AGI砸钱买算力和人才不一样,再次all in生命科学,百川或许要换一种花钱方式。

现阶段,百川也将绝大部分算力和研发精力押注在核心的语言模型的强化学习上,对多模态感知模型并没有放诸更多精力。在王小川看来,医疗的核心是“决策”,是“符号逻辑”,是“智力”,而非单纯的图像识别。“图像模型是树上挂着的小叶子,不是构成主战场的中轴。”

在数据获取这一医疗AI的传统高成本环节,百川探索了一条差异化路径。王小川直言“数据很重要”但也早已是行业陈词滥调,“没有人用数据成功过”。百川的策略是,不盲目追求难以获取和合规使用的核心院内诊疗数据,而是优先利用高质量的公开医学文献、指南和论文,通过创新的“强化学习”和“动态反馈”系统,让模型学会医生的思维过程和决策逻辑。他们通过与顶级医院专家合作,构建“评价AI的AI”,从而以相对较低的标注成本,高效驱动模型能力的迭代。

手握30亿储备,定下商业化的清晰目标,王小川又为自己和百川描绘了一条聚焦、高效且野心不小的路径。这不再是一个关于通用AGI的宏大叙事,而是一个聚焦于解决中国医疗核心痛点、试图在严肃领域创造真实价值的务实工程。

让人感慨的是,这和姚顺雨、杨植麟几个人几天前在清华的一个闭门分享会里大谈技术范式创新呈现出截然不同的感觉。今天有人在继续奔向AGI,也有人选择弯腰捡钢镚,但如果后者可以极大的造福人类,很难讲其中谁更伟大。

现阶段,王小川也还有一场硬仗要打。能否成功,取决于百川能否在技术领先窗口期内,将其在“认知模型”上的优势,通过极致的产品设计和商业化策略,转化为不可替代的用户价值和稳固的商业模式。在海外市场,OpenAI 发布的医疗产品 ChatGPT Health、 Anthropic 推出 的Claude for Healthcare,都在说明这是一个值得押注的高价值赛道,百川也表示其未来会走向出海。但在这些宏大叙事之前,百川最该让普通用户知道,这样一个低幻觉率、高推理性能的产品出现了,在这一点上,百川要面临的困难可能更多。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10